- Veröffentlichung der Weights und der Architektur eines Mixture-of-Experts-Modells mit 314B (314 Milliarden) Parametern
- Rohes Basismodell aus der Vortrainingsphase von Grok-1, die im Oktober 2023 abgeschlossen wurde
- Das bedeutet, dass das Modell nicht für bestimmte Aufgaben wie Konversation feinabgestimmt wurde
- Modelldetails
- Ein Basismodell, das auf großen Textmengen trainiert wurde und nicht für eine bestimmte Aufgabe feinabgestimmt ist
- Ein Mixture-of-Experts-Modell mit 314B Parametern, bei dem für ein gegebenes Token 25 % der Gewichte aktiviert werden
- Von xAI von Grund auf trainiert, unter Verwendung eines benutzerdefinierten Trainings-Stacks auf Basis von JAX und Rust, Stand Oktober 2023
Verwendung des Grok-1-Repositorys
- Das Grok-1-Repository mit JAX-Beispielcode dient dazu, das Open-Weight-Modell Grok-1 zu laden und auszuführen.
- Den Checkpoint herunterladen, das Verzeichnis
ckpt-0 im Verzeichnis checkpoint platzieren und dann pip install -r requirements.txt sowie python run.py ausführen, um den Code zu testen.
- Das Skript lädt den Checkpoint und erzeugt Samples aus dem Modell für Testeingaben.
- Aufgrund der sehr großen Modellgröße (314B Parameter) wird ein Rechner mit ausreichend GPU-Speicher benötigt.
- Die Implementierung der MoE-(Mixture of Experts)-Layer in diesem Repository ist nicht effizient und wurde gewählt, um benutzerdefinierte Kernel zu vermeiden und die Genauigkeit des Modells zu verifizieren.
Download der Gewichte
- Die Gewichte können mit einem Torrent-Client und folgendem Link heruntergeladen werden:
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
Lizenz
- Der in dieser Veröffentlichung enthaltene Code und die Grok-1-Gewichte sind unter der Apache-2.0-Lizenz lizenziert.
- Die Lizenz gilt nur für die Quelldateien in diesem Repository und die Gewichte des Grok-1-Modells.
Meinung von GN⁺
- Grok-1 ist ein Modell mit einer sehr großen Parameterzahl und bietet Machine-Learning-Forschern und -Ingenieuren eine gute Gelegenheit, mit leistungsfähigen Rechenressourcen zu experimentieren.
- Durch die Nutzung der Open-Source-Lizenz Apache 2.0 kann die Community das Modell frei verwenden, verändern und verbreiten, was Zusammenarbeit und Innovation fördern kann.
- Aufgrund der enormen Modellgröße sind in der Praxis beträchtliche Rechenressourcen nötig, um mit dem Modell zu experimentieren, was die Zugänglichkeit einschränken kann.
- Die ineffiziente Implementierung der MoE-Layer kann für Forschungszwecke nützlich sein, für den Einsatz in realen Produkten oder Services wird jedoch eine optimierte Implementierung nötig sein.
- Andere Open-Source-Projekte mit ähnlichen Möglichkeiten sind etwa Googles TensorFlow oder Facebooks PyTorch, die ebenfalls zum Experimentieren mit großen Modellen genutzt werden können.
1 Kommentare
Hacker-News-Kommentare
Das 8x86B-Modell scheint bisher das größte offene Modell zu sein. Es wäre interessant zu erfahren, mit wie vielen Tokens dieses Modell trainiert wurde.
Warum sollte man dieses Modell statt Open-Source-Alternativen wie Mistral verwenden?
Ist dies das erste größere Modell mit nativer FP8-Unterstützung? Das scheint ein großer Vorteil zu sein, wenn die Hardware es unterstützt, und ich frage mich, warum das bisher noch niemand gemacht hat.
Welche Sprachen unterstützt dieses Modell?
Blogpost: Grok-OS
Blogpost vom letzten Jahr: Grok
Wann erreichen wir in Bezug auf Parameteranzahl und Mixture of Experts die Obergrenze oder den Punkt abnehmender Erträge?
Gibt es irgendwo eine Model Card? Ich würde gern wissen, womit dieses Modell trainiert wurde.
Eine Feinheit: Musk sagte „Open Source“, aber stattdessen bekommen wir „Open Weights“ (trotzdem sehr dankbar, denn das ist besser als gar nichts).
Das einzige andere Repository ist ein Fork von Qdrant.