- „Wie man etwa 10 Mio. US-Dollar (13 Milliarden Won) für ein arXiv-Preprint verbrennt“
- Kürzlich hat DeepMind (GDM) die hervorragende Arbeit „Scaling Exponents Across Parameterizations and Optimizers“ veröffentlicht.
- In dieser Arbeit wurden mehr als 10.000 LLM-Trainingsläufe durchgeführt, um die optimalen Hyperparameter unter verschiedenen Bedingungen abzuleiten.
- Nach der Lektüre der Arbeit wurde versucht, alle experimentellen Ergebnisse zusammenzutragen und die Kosten der gesamten benötigten Rechenleistung zu berechnen, um die Publikation zu reproduzieren.
- Das Ergebnis: Insgesamt werden 5.42e24 FLOPS benötigt, und die Kosten belaufen sich auf 12,9 Mio. US-Dollar (17,8 Milliarden Won) (bei Annahme von 3 US-Dollar pro H100 pro Stunde).
- Im großen Bild betrachtet ist 5.42e24 kein „besonders großer“ Umfang.
- Das entspricht nicht einmal 15 % der für Llama 3 eingesetzten Rechenleistung, und mit einem Cluster aus 100.000 H100 ließen sich all diese Experimente in nur zwei Tagen durchführen.
Ergänzende Erläuterung zum Wert des H100
- Da die Arbeit von ehemaligen Google-DeepMind-Mitgliedern stammt, wurden die Experimente mit ziemlicher Sicherheit auf TPUs durchgeführt.
- Da in der Arbeit keine Verwendung von int8 erwähnt wird, ist anzunehmen, dass wahrscheinlich bfloat16-Präzision verwendet wurde.
- Der H100-SXM bietet 989.40 TFLOP/s an 16-Bit-Tensor-Rechenleistung.
- Im jüngsten PyTorch-Blog und bei torchtitan wird die MFU des H100 mit etwa 40 % angegeben.
- Die Kosten für einen H100-Knoten werden auf etwa 3 US-Dollar pro Stunde geschätzt (je nach Einsatzort leicht unterschiedlich, daher ein Durchschnittswert).
1 Kommentare
Mich interessiert eher die insgesamt verbrauchte Energiemenge als der Preis.