6 Punkte von GN⁺ 2024-01-30 | 2 Kommentare | Auf WhatsApp teilen
  • Ein Modell mit 7,52B Parametern auf Basis der RWKV-v5-Architektur
  • Das umweltfreundlichste 7B-Modell der Welt mit niedrigen Kosten pro Token
  • Trainiert auf 1,1 Billionen Tokens in mehr als 100 Sprachen
  • Übertrifft in mehrsprachigen Benchmarks alle Modelle der 7B-Klasse
  • In englischen Evaluierungen liegt die Leistung nahe an Falcon (1.5T), LLaMA2 (2T) und Mistral (>2T?)
  • Ein Foundation-Modell mit nur sehr geringem Instruction-Tuning; für verschiedene Use Cases ist Fine-Tuning erforderlich
  • Ein Transformer ohne Attention
  • Unter der Apache-2.0-Lizenz verfügbar und ohne Einschränkungen privat oder kommerziell nutzbar

Details zur mehrsprachigen Leistung

  • Die mehrsprachige Leistung wurde in insgesamt 23 Sprachen anhand von xLAMBDA, xStoryCloze, xWinograd, xCopa und weiteren Benchmarks evaluiert.
  • Diese Benchmarks behandeln alltagsbezogenes Schlussfolgern in den jeweiligen Sprachen.
  • Der Wechsel von der RWKV-v4- zur v5-Architektur hat die mehrsprachige Leistung deutlich verbessert.
  • Da es an mehrsprachigen Benchmarks mangelt, ist es schwierig, die Sprachleistung des Modells in den übrigen mehr als 75 der insgesamt über 100 trainierten Sprachen direkt zu bewerten.

Details zur englischen Leistung

  • Die englische Leistung wurde über 12 separate Benchmarks gemessen, die alltagsbezogenes Schlussfolgern und Weltwissen abdecken.
  • Der Wechsel von der RWKV-v4- zur v5-Architektur hat die englische Leistung deutlich verbessert.
  • Das v5-Modell erreicht für die gegebene Menge an Trainings-Tokens das zu erwartende Leistungsniveau eines Transformers.
  • Mit zusätzlichen 1 Billion Trainings-Tokens wird erwartet, dass es das Niveau von LLaMA2 erreicht und sich dem von Mistral annähert.

Gute Datensätze + skalierbare Architektur: Braucht man wirklich beides?

  • Der Checkpoint bei 300 Milliarden Tokens zeigt eine ähnliche Leistung wie pythia-6.9b.
  • Im Einklang mit früheren Experimenten auf der RWKV-v4-Architektur skalieren lineare Transformer wie RWKV bei gleicher Anzahl trainierter Tokens auf ein ähnliches Leistungsniveau wie Transformer.
  • Wiederholt stellt sich die Frage, ob für die Leistung bei der Modellevaluierung Daten wichtiger sind als die genaue Architektur.
  • Beim Vergleich der CUDA-Rechenkosten zwischen RWKV-basierten Architekturen und Transformer-Modellen ist die lineare statt quadratische Skalierung entscheidend.

Aufbau einer inklusiven KI für alle – nicht nur für Englisch

  • Häufiges Feedback zum mehrsprachigen RWKV-Ansatz lautet, dass er die englischen Evaluierungsergebnisse beeinträchtigt und das Wachstum linearer Transformer verlangsamt.
  • Das RWKV-Team plant jedoch nicht, diesen Ansatz zu ändern, und möchte KI für die ganze Welt bauen, nicht für eine Welt, die nur Englisch spricht.
  • Stand 2023 sprechen nur 17 % der Weltbevölkerung Englisch.
  • Durch die Unterstützung der 25 wichtigsten Sprachen und darüber hinaus lassen sich etwa 4 Milliarden Menschen, also 50 % der Weltbevölkerung, abdecken.
  • Das RWKV-Team möchte den mehrsprachigen Datensatz erweitern und die Zahl der unterstützten Sprachen erhöhen, um 100 % der Weltbevölkerung abzudecken.

Zukunftspläne

  • Diese Veröffentlichung markiert den bisher leistungsstärksten linearen Transformer.
  • Zwar übertrifft er LLaMA2 und Mistral noch nicht, zeigt aber, dass die RWKV-v5-Modellarchitektur bei einer ähnlichen Zahl von Tokens auf ein mit Transformern vergleichbares Leistungsniveau skaliert.
  • Im Februar 2024 soll ein aktualisiertes Paper zu RWKV v5 erscheinen, und im März sind ein auf dem v5-Eagle-2T-Modell basierendes MoE-Modell sowie die RWKV-v6-"Finch"-World-Modelle in 1.5B und 3B geplant.

Danksagung

  • Dank an StabilityAI, das den Großteil der Rechenressourcen für das Training dieses Basismodells bereitgestellt hat.
  • Dank an EleutherAI für die umfangreiche Unterstützung beim Verfassen des Papers.
  • Dank an die Linux Foundation AI & Data Group, die das RWKV-Projekt unterstützt und hostet.

Meinung von GN⁺:

  • Eagle 7B ist ein linearer Transformer, der viele Sprachen unterstützt und bei effizienten Kosten eine hohe Leistung bietet.
  • Dieses Modell kann dazu beitragen, die Zugänglichkeit von KI zu erhöhen und die Umweltbelastung zu verringern.
  • Das RWKV-Team hat eine klare Vision, KI so weiterzuentwickeln, dass sie Menschen auf der ganzen Welt unterstützt und alle Sprachen einschließt.

2 Kommentare

 
cosine20 2024-01-31

Ich habe die Demo gestern Nacht kurz ausprobiert; sie war ziemlich schnell und lieferte auch gute Ergebnisse. Koreanisch und Japanisch wurden ebenfalls natürlich erkannt und beantwortet.

 
GN⁺ 2024-01-30
Hacker-News-Kommentare
  • Es ist interessant, dass es Fortschritte bei alternativen LLM-Architekturen gibt, aber schade, dass der Artikel nur die Qualität des Modells behandelt.

    • Der Artikel endet plötzlich, daher fehlt die Motivation, eine neue Architektur zu übernehmen.
    • Eine Diskussion über Leistung und Kontextgröße ist nötig.
    • Es ist enttäuschend, dass der Artikel den Kontext nicht erwähnt.
    • Das Diagramm aus RWKV-4 wurde wiederverwendet, aber es ist nicht klar, was das Diagramm zeigt.
  • Die Modellarchitektur – ob Transformer, Mamba, SSM, RWKV usw. – ist nicht das Entscheidende; der Einfluss des Trainingsdatensatzes ist wichtiger.

    • Sprachdaten sind ein Speicher menschlicher Erfahrung, und dass KI dadurch verschiedene Fähigkeiten erwirbt, deutet darauf hin, dass Intelligenz nicht nur auf das Gehirn beschränkt ist.
  • RWKV-v5 Eagle 7B wurde unter der Apache-2.0-Lizenz veröffentlicht und kann ohne Einschränkungen privat oder kommerziell genutzt werden.

    • Positiv ist, dass das Team die richtigen Anreize für Tests und Einführung gesetzt hat.
  • Der Fokus liegt derzeit vor allem auf Decoder-only-Modellen zur Vorhersage des nächsten Tokens.

    • Die Encoder von BERT und T5 sind weiterhin nützlich, um Embeddings für Retrieval- oder Klassifikationsaufgaben zu erzeugen.
    • Es braucht mehr Forschung zu besseren Pretraining-Architekturen für Embedding-Anwendungsfälle.
  • Es wird um eine Erklärung gebeten, wie sich das RWKV-Modell im Vergleich zu typischen Transformer-Modellen schlägt und wie die Benchmarks zu interpretieren sind.

    • Es scheint eine ähnliche Leistung wie Mistral 7B/mistral-tiny zu zeigen.
  • Die Informationen zur benötigten RAM-Menge und zur Token-Verarbeitungsgeschwindigkeit bei ausschließlicher CPU-Nutzung sind unklar.

  • Es wird vorgeschlagen, auf Reddit nachzusehen, da ein Projektmitglied dort Fragen beantwortet.

    • Link zum entsprechenden Reddit-Nutzer wird bereitgestellt.
  • Wenn man das RWKV-Modell ausprobieren möchte, aber nicht warten will, wird rwkv-demo-api.recursal.ai empfohlen.

  • Es wird Vorfreude auf das auf März 2024 basierende MoE-Modell v5 Eagle 2T geäußert.

    • Es wird auf ein Gleichgewicht zwischen Leistung und Umwelt-/Token-Kosten gehofft.
    • Es wird auch auf Verbesserungen bei skandinavischen Sprachen gehofft, aber man muss die Ergebnisse abwarten.
    • Das Verständnis für den Wert von Trainingsdaten sowie für Struktur und Balance der Inhalte für optimales Training wird die eigentliche Revolution bringen.
  • In Experimenten mit RWKV-4 wurde erlebt, dass die Inferenzgeschwindigkeit schnell ist, die Tokenisierungsgeschwindigkeit jedoch sehr langsam.

    • Es werden konkrete Richtlinien für RWKV-5 benötigt.