- Ein Modell mit 7,52B Parametern auf Basis der RWKV-v5-Architektur
- Das umweltfreundlichste 7B-Modell der Welt mit niedrigen Kosten pro Token
- Trainiert auf 1,1 Billionen Tokens in mehr als 100 Sprachen
- Übertrifft in mehrsprachigen Benchmarks alle Modelle der 7B-Klasse
- In englischen Evaluierungen liegt die Leistung nahe an Falcon (1.5T), LLaMA2 (2T) und Mistral (>2T?)
- Ein Foundation-Modell mit nur sehr geringem Instruction-Tuning; für verschiedene Use Cases ist Fine-Tuning erforderlich
- Ein Transformer ohne Attention
- Unter der Apache-2.0-Lizenz verfügbar und ohne Einschränkungen privat oder kommerziell nutzbar
Details zur mehrsprachigen Leistung
- Die mehrsprachige Leistung wurde in insgesamt 23 Sprachen anhand von xLAMBDA, xStoryCloze, xWinograd, xCopa und weiteren Benchmarks evaluiert.
- Diese Benchmarks behandeln alltagsbezogenes Schlussfolgern in den jeweiligen Sprachen.
- Der Wechsel von der RWKV-v4- zur v5-Architektur hat die mehrsprachige Leistung deutlich verbessert.
- Da es an mehrsprachigen Benchmarks mangelt, ist es schwierig, die Sprachleistung des Modells in den übrigen mehr als 75 der insgesamt über 100 trainierten Sprachen direkt zu bewerten.
Details zur englischen Leistung
- Die englische Leistung wurde über 12 separate Benchmarks gemessen, die alltagsbezogenes Schlussfolgern und Weltwissen abdecken.
- Der Wechsel von der RWKV-v4- zur v5-Architektur hat die englische Leistung deutlich verbessert.
- Das v5-Modell erreicht für die gegebene Menge an Trainings-Tokens das zu erwartende Leistungsniveau eines Transformers.
- Mit zusätzlichen 1 Billion Trainings-Tokens wird erwartet, dass es das Niveau von LLaMA2 erreicht und sich dem von Mistral annähert.
Gute Datensätze + skalierbare Architektur: Braucht man wirklich beides?
- Der Checkpoint bei 300 Milliarden Tokens zeigt eine ähnliche Leistung wie pythia-6.9b.
- Im Einklang mit früheren Experimenten auf der RWKV-v4-Architektur skalieren lineare Transformer wie RWKV bei gleicher Anzahl trainierter Tokens auf ein ähnliches Leistungsniveau wie Transformer.
- Wiederholt stellt sich die Frage, ob für die Leistung bei der Modellevaluierung Daten wichtiger sind als die genaue Architektur.
- Beim Vergleich der CUDA-Rechenkosten zwischen RWKV-basierten Architekturen und Transformer-Modellen ist die lineare statt quadratische Skalierung entscheidend.
Aufbau einer inklusiven KI für alle – nicht nur für Englisch
- Häufiges Feedback zum mehrsprachigen RWKV-Ansatz lautet, dass er die englischen Evaluierungsergebnisse beeinträchtigt und das Wachstum linearer Transformer verlangsamt.
- Das RWKV-Team plant jedoch nicht, diesen Ansatz zu ändern, und möchte KI für die ganze Welt bauen, nicht für eine Welt, die nur Englisch spricht.
- Stand 2023 sprechen nur 17 % der Weltbevölkerung Englisch.
- Durch die Unterstützung der 25 wichtigsten Sprachen und darüber hinaus lassen sich etwa 4 Milliarden Menschen, also 50 % der Weltbevölkerung, abdecken.
- Das RWKV-Team möchte den mehrsprachigen Datensatz erweitern und die Zahl der unterstützten Sprachen erhöhen, um 100 % der Weltbevölkerung abzudecken.
Zukunftspläne
- Diese Veröffentlichung markiert den bisher leistungsstärksten linearen Transformer.
- Zwar übertrifft er LLaMA2 und Mistral noch nicht, zeigt aber, dass die RWKV-v5-Modellarchitektur bei einer ähnlichen Zahl von Tokens auf ein mit Transformern vergleichbares Leistungsniveau skaliert.
- Im Februar 2024 soll ein aktualisiertes Paper zu RWKV v5 erscheinen, und im März sind ein auf dem v5-Eagle-2T-Modell basierendes MoE-Modell sowie die RWKV-v6-"Finch"-World-Modelle in 1.5B und 3B geplant.
Danksagung
- Dank an StabilityAI, das den Großteil der Rechenressourcen für das Training dieses Basismodells bereitgestellt hat.
- Dank an EleutherAI für die umfangreiche Unterstützung beim Verfassen des Papers.
- Dank an die Linux Foundation AI & Data Group, die das RWKV-Projekt unterstützt und hostet.
Meinung von GN⁺:
- Eagle 7B ist ein linearer Transformer, der viele Sprachen unterstützt und bei effizienten Kosten eine hohe Leistung bietet.
- Dieses Modell kann dazu beitragen, die Zugänglichkeit von KI zu erhöhen und die Umweltbelastung zu verringern.
- Das RWKV-Team hat eine klare Vision, KI so weiterzuentwickeln, dass sie Menschen auf der ganzen Welt unterstützt und alle Sprachen einschließt.
2 Kommentare
Ich habe die Demo gestern Nacht kurz ausprobiert; sie war ziemlich schnell und lieferte auch gute Ergebnisse. Koreanisch und Japanisch wurden ebenfalls natürlich erkannt und beantwortet.
Hacker-News-Kommentare
Es ist interessant, dass es Fortschritte bei alternativen LLM-Architekturen gibt, aber schade, dass der Artikel nur die Qualität des Modells behandelt.
Die Modellarchitektur – ob Transformer, Mamba, SSM, RWKV usw. – ist nicht das Entscheidende; der Einfluss des Trainingsdatensatzes ist wichtiger.
RWKV-v5 Eagle 7B wurde unter der Apache-2.0-Lizenz veröffentlicht und kann ohne Einschränkungen privat oder kommerziell genutzt werden.
Der Fokus liegt derzeit vor allem auf Decoder-only-Modellen zur Vorhersage des nächsten Tokens.
Es wird um eine Erklärung gebeten, wie sich das RWKV-Modell im Vergleich zu typischen Transformer-Modellen schlägt und wie die Benchmarks zu interpretieren sind.
Die Informationen zur benötigten RAM-Menge und zur Token-Verarbeitungsgeschwindigkeit bei ausschließlicher CPU-Nutzung sind unklar.
Es wird vorgeschlagen, auf Reddit nachzusehen, da ein Projektmitglied dort Fragen beantwortet.
Wenn man das RWKV-Modell ausprobieren möchte, aber nicht warten will, wird rwkv-demo-api.recursal.ai empfohlen.
Es wird Vorfreude auf das auf März 2024 basierende MoE-Modell v5 Eagle 2T geäußert.
In Experimenten mit RWKV-4 wurde erlebt, dass die Inferenzgeschwindigkeit schnell ist, die Tokenisierungsgeschwindigkeit jedoch sehr langsam.