4 Punkte von GN⁺ 2024-07-31 | 1 Kommentare | Auf WhatsApp teilen
  • „Wie man etwa 10 Mio. US-Dollar (13 Milliarden Won) für ein arXiv-Preprint verbrennt“
  • Kürzlich hat DeepMind (GDM) die hervorragende Arbeit „Scaling Exponents Across Parameterizations and Optimizers“ veröffentlicht.
    • In dieser Arbeit wurden mehr als 10.000 LLM-Trainingsläufe durchgeführt, um die optimalen Hyperparameter unter verschiedenen Bedingungen abzuleiten.
  • Nach der Lektüre der Arbeit wurde versucht, alle experimentellen Ergebnisse zusammenzutragen und die Kosten der gesamten benötigten Rechenleistung zu berechnen, um die Publikation zu reproduzieren.
  • Das Ergebnis: Insgesamt werden 5.42e24 FLOPS benötigt, und die Kosten belaufen sich auf 12,9 Mio. US-Dollar (17,8 Milliarden Won) (bei Annahme von 3 US-Dollar pro H100 pro Stunde).
    • Im großen Bild betrachtet ist 5.42e24 kein „besonders großer“ Umfang.
    • Das entspricht nicht einmal 15 % der für Llama 3 eingesetzten Rechenleistung, und mit einem Cluster aus 100.000 H100 ließen sich all diese Experimente in nur zwei Tagen durchführen.

Ergänzende Erläuterung zum Wert des H100

  • Da die Arbeit von ehemaligen Google-DeepMind-Mitgliedern stammt, wurden die Experimente mit ziemlicher Sicherheit auf TPUs durchgeführt.
  • Da in der Arbeit keine Verwendung von int8 erwähnt wird, ist anzunehmen, dass wahrscheinlich bfloat16-Präzision verwendet wurde.
  • Der H100-SXM bietet 989.40 TFLOP/s an 16-Bit-Tensor-Rechenleistung.
  • Im jüngsten PyTorch-Blog und bei torchtitan wird die MFU des H100 mit etwa 40 % angegeben.
  • Die Kosten für einen H100-Knoten werden auf etwa 3 US-Dollar pro Stunde geschätzt (je nach Einsatzort leicht unterschiedlich, daher ein Durchschnittswert).

1 Kommentare

 
parkindani 2024-08-01

Mich interessiert eher die insgesamt verbrauchte Energiemenge als der Preis.