Eagle 7B – Ein Modell, das Transformer übertrifft

Ein Modell mit 7,52B Parametern auf Basis der RWKV-v5-Architektur
Das umweltfreundlichste 7B-Modell der Welt mit niedrigen Kosten pro Token
Trainiert auf 1,1 Billionen Tokens in mehr als 100 Sprachen
Übertrifft in mehrsprachigen Benchmarks alle Modelle der 7B-Klasse
In englischen Evaluierungen liegt die Leistung nahe an Falcon (1.5T), LLaMA2 (2T) und Mistral (>2T?)
Ein Foundation-Modell mit nur sehr geringem Instruction-Tuning; für verschiedene Use Cases ist Fine-Tuning erforderlich
Ein Transformer ohne Attention
Unter der Apache-2.0-Lizenz verfügbar und ohne Einschränkungen privat oder kommerziell nutzbar

Details zur mehrsprachigen Leistung

Die mehrsprachige Leistung wurde in insgesamt 23 Sprachen anhand von xLAMBDA, xStoryCloze, xWinograd, xCopa und weiteren Benchmarks evaluiert.
Diese Benchmarks behandeln alltagsbezogenes Schlussfolgern in den jeweiligen Sprachen.
Der Wechsel von der RWKV-v4- zur v5-Architektur hat die mehrsprachige Leistung deutlich verbessert.
Da es an mehrsprachigen Benchmarks mangelt, ist es schwierig, die Sprachleistung des Modells in den übrigen mehr als 75 der insgesamt über 100 trainierten Sprachen direkt zu bewerten.

Die englische Leistung wurde über 12 separate Benchmarks gemessen, die alltagsbezogenes Schlussfolgern und Weltwissen abdecken.
Der Wechsel von der RWKV-v4- zur v5-Architektur hat die englische Leistung deutlich verbessert.
Das v5-Modell erreicht für die gegebene Menge an Trainings-Tokens das zu erwartende Leistungsniveau eines Transformers.
Mit zusätzlichen 1 Billion Trainings-Tokens wird erwartet, dass es das Niveau von LLaMA2 erreicht und sich dem von Mistral annähert.

Der Checkpoint bei 300 Milliarden Tokens zeigt eine ähnliche Leistung wie pythia-6.9b.
Im Einklang mit früheren Experimenten auf der RWKV-v4-Architektur skalieren lineare Transformer wie RWKV bei gleicher Anzahl trainierter Tokens auf ein ähnliches Leistungsniveau wie Transformer.
Wiederholt stellt sich die Frage, ob für die Leistung bei der Modellevaluierung Daten wichtiger sind als die genaue Architektur.
Beim Vergleich der CUDA-Rechenkosten zwischen RWKV-basierten Architekturen und Transformer-Modellen ist die lineare statt quadratische Skalierung entscheidend.

Häufiges Feedback zum mehrsprachigen RWKV-Ansatz lautet, dass er die englischen Evaluierungsergebnisse beeinträchtigt und das Wachstum linearer Transformer verlangsamt.
Das RWKV-Team plant jedoch nicht, diesen Ansatz zu ändern, und möchte KI für die ganze Welt bauen, nicht für eine Welt, die nur Englisch spricht.
Stand 2023 sprechen nur 17 % der Weltbevölkerung Englisch.
Durch die Unterstützung der 25 wichtigsten Sprachen und darüber hinaus lassen sich etwa 4 Milliarden Menschen, also 50 % der Weltbevölkerung, abdecken.
Das RWKV-Team möchte den mehrsprachigen Datensatz erweitern und die Zahl der unterstützten Sprachen erhöhen, um 100 % der Weltbevölkerung abzudecken.

Diese Veröffentlichung markiert den bisher leistungsstärksten linearen Transformer.
Zwar übertrifft er LLaMA2 und Mistral noch nicht, zeigt aber, dass die RWKV-v5-Modellarchitektur bei einer ähnlichen Zahl von Tokens auf ein mit Transformern vergleichbares Leistungsniveau skaliert.
Im Februar 2024 soll ein aktualisiertes Paper zu RWKV v5 erscheinen, und im März sind ein auf dem v5-Eagle-2T-Modell basierendes MoE-Modell sowie die RWKV-v6-"Finch"-World-Modelle in 1.5B und 3B geplant.

Dank an StabilityAI, das den Großteil der Rechenressourcen für das Training dieses Basismodells bereitgestellt hat.
Dank an EleutherAI für die umfangreiche Unterstützung beim Verfassen des Papers.
Dank an die Linux Foundation AI & Data Group, die das RWKV-Projekt unterstützt und hostet.

Eagle 7B ist ein linearer Transformer, der viele Sprachen unterstützt und bei effizienten Kosten eine hohe Leistung bietet.
Dieses Modell kann dazu beitragen, die Zugänglichkeit von KI zu erhöhen und die Umweltbelastung zu verringern.
Das RWKV-Team hat eine klare Vision, KI so weiterzuentwickeln, dass sie Menschen auf der ganzen Welt unterstützt und alle Sprachen einschließt.