12 Punkte von xguru 2023-12-16 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Verbessert Andrei Karpathys nanoGPT, das nur bis 100M (100 Millionen) Parameter unterstützt, und ermöglicht Training bis zu 100B (100 Milliarden)
  • Keine Abhängigkeiten von anderem Code oder Frameworks von Drittanbietern; nutzt den großen Speicher und die Rechenleistung von „Cerebras-Hardware“, um großskaliges Training mit Vanilla-torch.nn-Code zu ermöglichen
  • Unterstützt auch ohne separate Anpassungen lange Kontextlängen und arbeitet mit verschiedenen Optimierungstools zusammen
  • Cerebras ist ein Chip-Hersteller; die Geschwindigkeit bei Matrixmultiplikationen ist ähnlich wie bei GPUs, aber die Chips sind viel größer, sodass mehr Transistoren und Speicher auf einem einzigen Chip untergebracht werden können
    • Dank dieser Größe sind keine Arbeiten wie Sharding über mehrere Geräte hinweg und anschließendes Zusammenführen nötig, wodurch sich die LOC gering halten lassen

Noch keine Kommentare.

Noch keine Kommentare.