GPT-Neo: Ein Projekt, das Modelle im Umfang von GPT-3 als Open Source/kostenlos verfügbar machen will
(github.com)- Entwicklung von zwei Implementierungen, die auf die Größe von GPT-3+ skaliert werden können
→ GPT-Neo: Tensorflow-mesh(TPU)-basierter Code
→ GPT-Neox: DeepSpeed(GPU)-basierter Code
-
Das Training im Umfang von GPT-2 ist derzeit abgeschlossen, die Modellevaluierung wird überprüft
-
In einem einstufigen Training bis zu 200 Milliarden Parameter getestet
Noch keine Kommentare.