gigaGPT – ein GPT-3-Modell in 565 Zeilen Code

xguru · 2023-12-16T10:31:01+09:00

Verbessert Andrei Karpathys nanoGPT, das nur bis 100M (100 Millionen) Parameter unterstützt, und ermöglicht Training bis zu 100B (100 Milliarden) Keine Abhängigkeiten von anderem Code oder Frameworks von Drittanbietern; nutzt den großen Speicher und die Rechenleistung von „Cerebras-Hardware“, um großskaliges Training mit Vanilla-torch.nn-Code zu ermöglichen Unterstützt auch ohne separate Anpassungen lange Kontextlängen und arbeitet mit verschiedenen Optimierungstools zusammen Cerebras ist ein Chip-Hersteller; die Geschwindigkeit bei Matrixmultiplikationen ist ähnlich wie bei GPUs, aber die Chips sind viel größer, sodass mehr Transistoren und Speicher auf einem einzigen Chip untergebracht werden können Dank dieser Größe sind keine Arbeiten wie Sharding über mehrere Geräte hinweg und anschließendes Zusammenführen nötig, wodurch sich die LOC gering halten lassen

(cerebras.net)

12 Punkte von xguru 2023-12-16 | Noch keine Kommentare. | Auf WhatsApp teilen

Verbessert Andrei Karpathys nanoGPT, das nur bis 100M (100 Millionen) Parameter unterstützt, und ermöglicht Training bis zu 100B (100 Milliarden)
Keine Abhängigkeiten von anderem Code oder Frameworks von Drittanbietern; nutzt den großen Speicher und die Rechenleistung von „Cerebras-Hardware“, um großskaliges Training mit Vanilla-torch.nn-Code zu ermöglichen
Unterstützt auch ohne separate Anpassungen lange Kontextlängen und arbeitet mit verschiedenen Optimierungstools zusammen
Cerebras ist ein Chip-Hersteller; die Geschwindigkeit bei Matrixmultiplikationen ist ähnlich wie bei GPUs, aber die Chips sind viel größer, sodass mehr Transistoren und Speicher auf einem einzigen Chip untergebracht werden können
- Dank dieser Größe sind keine Arbeiten wie Sharding über mehrere Geräte hinweg und anschließendes Zusammenführen nötig, wodurch sich die LOC gering halten lassen

gigaGPT – ein GPT-3-Modell in 565 Zeilen Code

Verwandte Beiträge

Noch keine Kommentare.