- Die Serie „Behind the Compute“ ist eine Blogpost-Reihe über die unternehmerische Entwicklung von Stability AI und bietet Einblicke, damit andere die Leistungsfähigkeit generativer KI nutzen können
- In dieser Ausgabe wird die Leistung verschiedener Computing-Lösungen und ihre Vorteile genauer untersucht
Leistungsanalyse
- Es wurde eine Leistungsanalyse mit dem Training von zwei Modellen durchgeführt, darunter das mit großer Spannung erwartete Stable Diffusion 3
- Die Trainingsgeschwindigkeit wurde durch den Vergleich von Intel-Gaudi-2-Beschleunigern mit Nvidias A100 und H100 gemessen
- Diese Optionen werden von Startups und Entwicklern am häufigsten gewählt, wenn sie große Sprachmodelle trainieren
Modell 1: Stable Diffusion 3
- Stable Diffusion 3 ist das bislang leistungsfähigste Text-zu-Bild-Modell und soll bald in eine erste Vorschauphase eintreten
- Die öffentliche Version von Stable Diffusion 3 soll in Größen von 800M bis 8B Parametern verfügbar sein
- Die Analyse mit der 2B-Parameter-Version zeigte Ergebnisse, die die Erwartungen übertrafen
- Gemessen wurde der Trainingsdurchsatz des 2B Multimodal Diffusion Transformer (MMDiT)-Architekturmodells, das
d=24, BFloat16 Mixed Precision und optimierte Attention (xFormers für A100 und FusedSDPA für Intel Gaudi) verwendet
- Diese Modellversion wird als MMDiT-ps2-d24 bezeichnet
- Betrachtet man die Trainings-Benchmark-Ergebnisse mit 2 Knoten und insgesamt 16 Beschleunigern (Gaudi/GPU), verarbeitet das Gaudi-2-System 927 Trainingsbilder pro Sekunde bei einer Batch-Größe von 16 pro Beschleuniger – 1,5-mal schneller als H100-80GB
- Durch Nutzung des 96GB High Bandwidth Memory (HBM2E) von Gaudi 2 wurde die Batch-Größe pro Beschleuniger auf 32 erhöht, wodurch sich die Trainingsgeschwindigkeit weiter auf 1.254 Bilder pro Sekunde steigerte
- Auch bei der Skalierung des verteilten Trainings auf 32 Gaudi-2-Knoten (insgesamt 256 Beschleuniger) wurde weiterhin eine sehr konkurrenzfähige Leistung gemessen
- In dieser Konfiguration verarbeitet der Gaudi-2-Cluster mehr als dreimal so viele Bilder pro Sekunde wie die A100-80GB-GPU. Das ist beeindruckend, obwohl die A100 über einen stark optimierten Software-Stack verfügt
- In Inferenztests für das Stable-Diffusion-3-Modell mit 8B Parametern lieferte der Gaudi-2-Chip mit nativem PyTorch eine ähnliche Inferenzgeschwindigkeit wie der Nvidia-A100-Chip
- Mit TensorRT-Optimierung erzeugte der A100-Chip jedoch 40 % schneller Bilder als Gaudi 2
- Mit zusätzlicher Optimierung wird erwartet, dass Gaudi 2 dieses Modell bald gegenüber dem A100 übertrifft
- In früheren Tests mit nativem PyTorch erzeugte Gaudi 2 ein 1024x1024-Bild in 30 Schritten in nur 3,2 Sekunden, während der A100 mit PyTorch 3,6 Sekunden und mit TensorRT 2,7 Sekunden benötigte
- Dank des größeren Speichers, der schnelleren Interconnects und weiterer Designentscheidungen von Gaudi 2 ist der Einsatz der Diffusion-Transformer-Architektur, die die nächste Generation von Medienmodellen antreibt, konkurrenzfähig
Modell 2: Stable Beluga 2.5 70B
- Stable Beluga 2.5 70B ist eine feinabgestimmte Version von LLaMA 2 70B und basiert auf Stable Beluga 2, dem ersten offenen Modell, das ChatGPT 3.5 in bestimmten Benchmarks übertroffen hat
- Dieser Trainings-Benchmark wurde auf 256 Gaudi-2-Beschleunigern durchgeführt; dabei wurde der PyTorch-Code ohne zusätzliche Optimierung unverändert ausgeführt und ein durchschnittlicher Gesamtdurchsatz von 116.777 Token/Sekunde gemessen
- Verwendet wurden der Datentyp FP16, eine globale Batch-Größe von 1024, 2 Gradient-Akkumulationsschritte und eine Micro-Batch-Größe von 2
- Bei Inferenztests für das 70B-Sprachmodell auf Gaudi 2 wurden mit einer Eingabetoken-Größe von 128 und einer Ausgabetoken-Größe von 2048 pro Beschleuniger 673 Token/Sekunde erzeugt
- Im Vergleich zu TensorRT-LLM ist Gaudi 2 28 % schneller als der A100 mit 525 Token/Sekunde
- Mit FP8 werden weitere Geschwindigkeitsverbesserungen erwartet
Nachfrage nach Computing-Lösungen
- Unternehmen wie unseres sehen eine steigende Nachfrage nach immer leistungsfähigeren und effizienteren Computing-Lösungen
- Unsere Erkenntnisse unterstreichen die Notwendigkeit von Alternativen wie Gaudi 2. Diese bieten nicht nur bessere Leistung als andere 7nm-Chips, sondern adressieren auch wichtige Marktanforderungen wie ein besseres Preis-Leistungs-Verhältnis, niedrigere Preise und kürzere Lieferzeiten
- Mehr Auswahl bei Computing-Optionen erweitert Teilhabe und Innovation und macht fortschrittliche KI-Technologien für alle zugänglicher
1 Kommentare
Hacker-News-Kommentare