6 Punkte von GN⁺ 2024-03-18 | 1 Kommentare | Auf WhatsApp teilen
  • Veröffentlichung der Weights und der Architektur eines Mixture-of-Experts-Modells mit 314B (314 Milliarden) Parametern
  • Rohes Basismodell aus der Vortrainingsphase von Grok-1, die im Oktober 2023 abgeschlossen wurde
    • Das bedeutet, dass das Modell nicht für bestimmte Aufgaben wie Konversation feinabgestimmt wurde
  • Modelldetails
    • Ein Basismodell, das auf großen Textmengen trainiert wurde und nicht für eine bestimmte Aufgabe feinabgestimmt ist
    • Ein Mixture-of-Experts-Modell mit 314B Parametern, bei dem für ein gegebenes Token 25 % der Gewichte aktiviert werden
    • Von xAI von Grund auf trainiert, unter Verwendung eines benutzerdefinierten Trainings-Stacks auf Basis von JAX und Rust, Stand Oktober 2023

Verwendung des Grok-1-Repositorys

  • Das Grok-1-Repository mit JAX-Beispielcode dient dazu, das Open-Weight-Modell Grok-1 zu laden und auszuführen.
  • Den Checkpoint herunterladen, das Verzeichnis ckpt-0 im Verzeichnis checkpoint platzieren und dann pip install -r requirements.txt sowie python run.py ausführen, um den Code zu testen.
  • Das Skript lädt den Checkpoint und erzeugt Samples aus dem Modell für Testeingaben.
  • Aufgrund der sehr großen Modellgröße (314B Parameter) wird ein Rechner mit ausreichend GPU-Speicher benötigt.
  • Die Implementierung der MoE-(Mixture of Experts)-Layer in diesem Repository ist nicht effizient und wurde gewählt, um benutzerdefinierte Kernel zu vermeiden und die Genauigkeit des Modells zu verifizieren.

Download der Gewichte

  • Die Gewichte können mit einem Torrent-Client und folgendem Link heruntergeladen werden: magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

Lizenz

  • Der in dieser Veröffentlichung enthaltene Code und die Grok-1-Gewichte sind unter der Apache-2.0-Lizenz lizenziert.
  • Die Lizenz gilt nur für die Quelldateien in diesem Repository und die Gewichte des Grok-1-Modells.

Meinung von GN⁺

  • Grok-1 ist ein Modell mit einer sehr großen Parameterzahl und bietet Machine-Learning-Forschern und -Ingenieuren eine gute Gelegenheit, mit leistungsfähigen Rechenressourcen zu experimentieren.
  • Durch die Nutzung der Open-Source-Lizenz Apache 2.0 kann die Community das Modell frei verwenden, verändern und verbreiten, was Zusammenarbeit und Innovation fördern kann.
  • Aufgrund der enormen Modellgröße sind in der Praxis beträchtliche Rechenressourcen nötig, um mit dem Modell zu experimentieren, was die Zugänglichkeit einschränken kann.
  • Die ineffiziente Implementierung der MoE-Layer kann für Forschungszwecke nützlich sein, für den Einsatz in realen Produkten oder Services wird jedoch eine optimierte Implementierung nötig sein.
  • Andere Open-Source-Projekte mit ähnlichen Möglichkeiten sind etwa Googles TensorFlow oder Facebooks PyTorch, die ebenfalls zum Experimentieren mit großen Modellen genutzt werden können.

1 Kommentare

 
GN⁺ 2024-03-18
Hacker-News-Kommentare
  • Das 8x86B-Modell scheint bisher das größte offene Modell zu sein. Es wäre interessant zu erfahren, mit wie vielen Tokens dieses Modell trainiert wurde.

    • Es ist ein Basismodell, das mit großen Textdatenmengen trainiert wurde und nicht für bestimmte Aufgaben feinabgestimmt ist.
    • Die auf Twitter vorab gezeigte Version war vermutlich ein instruction-tuned Modell, das sich anders verhält als die rohen Gewichte.
  • Warum sollte man dieses Modell statt Open-Source-Alternativen wie Mistral verwenden?

  • Ist dies das erste größere Modell mit nativer FP8-Unterstützung? Das scheint ein großer Vorteil zu sein, wenn die Hardware es unterstützt, und ich frage mich, warum das bisher noch niemand gemacht hat.

  • Welche Sprachen unterstützt dieses Modell?

  • Blogpost: Grok-OS

    • Von 314B Parametern sind 86B aktiv.
    • 2 von 8 Mixture-of-Experts-Experten sind aktiv.
    • Gewichte und Architektur stehen unter der Apache-2.0-Lizenz.
  • Blogpost vom letzten Jahr: Grok

    • Enthält Benchmarks im Vergleich zu Claude 2, GPT-3.5 und GPT-4.
    • Hat ähnliche Fähigkeiten wie GPT-3.5, Mixtral und Qwen-1.5-72B, ist aber deutlich größer als Open-Weight-Modelle.
  • Wann erreichen wir in Bezug auf Parameteranzahl und Mixture of Experts die Obergrenze oder den Punkt abnehmender Erträge?

  • Gibt es irgendwo eine Model Card? Ich würde gern wissen, womit dieses Modell trainiert wurde.

  • Eine Feinheit: Musk sagte „Open Source“, aber stattdessen bekommen wir „Open Weights“ (trotzdem sehr dankbar, denn das ist besser als gar nichts).

  • Das einzige andere Repository ist ein Fork von Qdrant.