GPT-Neo: Ein Projekt, das Modelle im Umfang von GPT-3 als Open Source/kostenlos verfügbar machen will

xguru · 2021-01-19T09:54:11+09:00

Entwicklung von zwei Implementierungen, die auf die Größe von GPT-3+ skaliert werden können → GPT-Neo: Tensorflow-mesh(TPU)-basierter Code → GPT-Neox: DeepSpeed(GPU)-basierter Code Das Training im Umfang von GPT-2 ist derzeit abgeschlossen, die Modellevaluierung wird überprüft In einem einstufigen Training bis zu 200 Milliarden Parameter getestet

(github.com)

7 Punkte von xguru 2021-01-19 | Noch keine Kommentare. | Auf WhatsApp teilen

Entwicklung von zwei Implementierungen, die auf die Größe von GPT-3+ skaliert werden können

→ GPT-Neo: Tensorflow-mesh(TPU)-basierter Code

→ GPT-Neox: DeepSpeed(GPU)-basierter Code

Das Training im Umfang von GPT-2 ist derzeit abgeschlossen, die Modellevaluierung wird überprüft
In einem einstufigen Training bis zu 200 Milliarden Parameter getestet

GPT-Neo: Ein Projekt, das Modelle im Umfang von GPT-3 als Open Source/kostenlos verfügbar machen will

Verwandte Beiträge

Noch keine Kommentare.