7 Punkte von xguru 2021-01-19 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Entwicklung von zwei Implementierungen, die auf die Größe von GPT-3+ skaliert werden können

→ GPT-Neo: Tensorflow-mesh(TPU)-basierter Code

→ GPT-Neox: DeepSpeed(GPU)-basierter Code

  • Das Training im Umfang von GPT-2 ist derzeit abgeschlossen, die Modellevaluierung wird überprüft

  • In einem einstufigen Training bis zu 200 Milliarden Parameter getestet

Noch keine Kommentare.

Noch keine Kommentare.