xAI veröffentlicht Basis-Modellgewichte und Netzwerkarchitektur des Grok-1-LLM

(github.com/xai-org)

6 Punkte von GN⁺ 2024-03-18 | 1 Kommentare | Auf WhatsApp teilen

Veröffentlichung der Weights und der Architektur eines Mixture-of-Experts-Modells mit 314B (314 Milliarden) Parametern
Rohes Basismodell aus der Vortrainingsphase von Grok-1, die im Oktober 2023 abgeschlossen wurde
- Das bedeutet, dass das Modell nicht für bestimmte Aufgaben wie Konversation feinabgestimmt wurde
Modelldetails
- Ein Basismodell, das auf großen Textmengen trainiert wurde und nicht für eine bestimmte Aufgabe feinabgestimmt ist
- Ein Mixture-of-Experts-Modell mit 314B Parametern, bei dem für ein gegebenes Token 25 % der Gewichte aktiviert werden
- Von xAI von Grund auf trainiert, unter Verwendung eines benutzerdefinierten Trainings-Stacks auf Basis von JAX und Rust, Stand Oktober 2023

Verwendung des Grok-1-Repositorys

Das Grok-1-Repository mit JAX-Beispielcode dient dazu, das Open-Weight-Modell Grok-1 zu laden und auszuführen.
Den Checkpoint herunterladen, das Verzeichnis ckpt-0 im Verzeichnis checkpoint platzieren und dann pip install -r requirements.txt sowie python run.py ausführen, um den Code zu testen.
Das Skript lädt den Checkpoint und erzeugt Samples aus dem Modell für Testeingaben.
Aufgrund der sehr großen Modellgröße (314B Parameter) wird ein Rechner mit ausreichend GPU-Speicher benötigt.
Die Implementierung der MoE-(Mixture of Experts)-Layer in diesem Repository ist nicht effizient und wurde gewählt, um benutzerdefinierte Kernel zu vermeiden und die Genauigkeit des Modells zu verifizieren.

Download der Gewichte

Die Gewichte können mit einem Torrent-Client und folgendem Link heruntergeladen werden: magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

Lizenz

Der in dieser Veröffentlichung enthaltene Code und die Grok-1-Gewichte sind unter der Apache-2.0-Lizenz lizenziert.
Die Lizenz gilt nur für die Quelldateien in diesem Repository und die Gewichte des Grok-1-Modells.

Meinung von GN⁺

Grok-1 ist ein Modell mit einer sehr großen Parameterzahl und bietet Machine-Learning-Forschern und -Ingenieuren eine gute Gelegenheit, mit leistungsfähigen Rechenressourcen zu experimentieren.
Durch die Nutzung der Open-Source-Lizenz Apache 2.0 kann die Community das Modell frei verwenden, verändern und verbreiten, was Zusammenarbeit und Innovation fördern kann.
Aufgrund der enormen Modellgröße sind in der Praxis beträchtliche Rechenressourcen nötig, um mit dem Modell zu experimentieren, was die Zugänglichkeit einschränken kann.
Die ineffiziente Implementierung der MoE-Layer kann für Forschungszwecke nützlich sein, für den Einsatz in realen Produkten oder Services wird jedoch eine optimierte Implementierung nötig sein.
Andere Open-Source-Projekte mit ähnlichen Möglichkeiten sind etwa Googles TensorFlow oder Facebooks PyTorch, die ebenfalls zum Experimentieren mit großen Modellen genutzt werden können.

1 Kommentare

GN⁺ 2024-03-18

Hacker-News-Kommentare

Das 8x86B-Modell scheint bisher das größte offene Modell zu sein. Es wäre interessant zu erfahren, mit wie vielen Tokens dieses Modell trainiert wurde.
- Es ist ein Basismodell, das mit großen Textdatenmengen trainiert wurde und nicht für bestimmte Aufgaben feinabgestimmt ist.
- Die auf Twitter vorab gezeigte Version war vermutlich ein instruction-tuned Modell, das sich anders verhält als die rohen Gewichte.
Warum sollte man dieses Modell statt Open-Source-Alternativen wie Mistral verwenden?
Ist dies das erste größere Modell mit nativer FP8-Unterstützung? Das scheint ein großer Vorteil zu sein, wenn die Hardware es unterstützt, und ich frage mich, warum das bisher noch niemand gemacht hat.
Welche Sprachen unterstützt dieses Modell?
Blogpost: Grok-OS
- Von 314B Parametern sind 86B aktiv.
- 2 von 8 Mixture-of-Experts-Experten sind aktiv.
- Gewichte und Architektur stehen unter der Apache-2.0-Lizenz.
Blogpost vom letzten Jahr: Grok
- Enthält Benchmarks im Vergleich zu Claude 2, GPT-3.5 und GPT-4.
- Hat ähnliche Fähigkeiten wie GPT-3.5, Mixtral und Qwen-1.5-72B, ist aber deutlich größer als Open-Weight-Modelle.
Wann erreichen wir in Bezug auf Parameteranzahl und Mixture of Experts die Obergrenze oder den Punkt abnehmender Erträge?
Gibt es irgendwo eine Model Card? Ich würde gern wissen, womit dieses Modell trainiert wurde.
Eine Feinheit: Musk sagte „Open Source“, aber stattdessen bekommen wir „Open Weights“ (trotzdem sehr dankbar, denn das ist besser als gar nichts).
Das einzige andere Repository ist ein Fork von Qdrant.

xAI veröffentlicht Basis-Modellgewichte und Netzwerkarchitektur des Grok-1-LLM

Verwendung des Grok-1-Repositorys

Download der Gewichte

Lizenz

Meinung von GN⁺

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare