Die Kostenberechnung der Google-DeepMind-Publikation

(152334H.github.io)

4 Punkte von GN⁺ 2024-07-31 | 1 Kommentare | Auf WhatsApp teilen

„Wie man etwa 10 Mio. US-Dollar (13 Milliarden Won) für ein arXiv-Preprint verbrennt“
Kürzlich hat DeepMind (GDM) die hervorragende Arbeit „Scaling Exponents Across Parameterizations and Optimizers“ veröffentlicht.
- In dieser Arbeit wurden mehr als 10.000 LLM-Trainingsläufe durchgeführt, um die optimalen Hyperparameter unter verschiedenen Bedingungen abzuleiten.
Nach der Lektüre der Arbeit wurde versucht, alle experimentellen Ergebnisse zusammenzutragen und die Kosten der gesamten benötigten Rechenleistung zu berechnen, um die Publikation zu reproduzieren.
Das Ergebnis: Insgesamt werden 5.42e24 FLOPS benötigt, und die Kosten belaufen sich auf 12,9 Mio. US-Dollar (17,8 Milliarden Won) (bei Annahme von 3 US-Dollar pro H100 pro Stunde).
- Im großen Bild betrachtet ist 5.42e24 kein „besonders großer“ Umfang.
- Das entspricht nicht einmal 15 % der für Llama 3 eingesetzten Rechenleistung, und mit einem Cluster aus 100.000 H100 ließen sich all diese Experimente in nur zwei Tagen durchführen.

Ergänzende Erläuterung zum Wert des H100

Da die Arbeit von ehemaligen Google-DeepMind-Mitgliedern stammt, wurden die Experimente mit ziemlicher Sicherheit auf TPUs durchgeführt.
Da in der Arbeit keine Verwendung von int8 erwähnt wird, ist anzunehmen, dass wahrscheinlich bfloat16-Präzision verwendet wurde.
Der H100-SXM bietet 989.40 TFLOP/s an 16-Bit-Tensor-Rechenleistung.
Im jüngsten PyTorch-Blog und bei torchtitan wird die MFU des H100 mit etwa 40 % angegeben.
Die Kosten für einen H100-Knoten werden auf etwa 3 US-Dollar pro Stunde geschätzt (je nach Einsatzort leicht unterschiedlich, daher ein Durchschnittswert).

parkindani 2024-08-01

Mich interessiert eher die insgesamt verbrauchte Energiemenge als der Preis.