Intel-Gaudi-2-Chip übertrifft Nvidia H100 im Benchmark für Diffusion Transformer

xguru · 2024-03-12T10:46:01+09:00

Die Serie „Behind the Compute“ ist eine Blogpost-Reihe über die unternehmerische Entwicklung von Stability AI und bietet Einblicke, damit andere die Leistungsfähigkeit generativer KI nutzen können In dieser Ausgabe wird die Leistung verschiedener Computing-Lösungen und ihre Vorteile genauer untersucht Leistungsanalyse Es wurde eine Leistungsanalyse mit dem Training von zwei Modellen durchgeführt, darunter das mit großer Spannung erwartete Stable Diffusion 3 Die Trainingsgeschwindigkeit wurde durch den Vergleich von Intel-Gaudi-2-Beschleunigern mit Nvidias A100 und H100 gemessen Diese Optionen werden von Startups und Entwicklern am häufigsten gewählt, wenn sie große Sprachmodelle trainieren Modell 1: Stable Diffusion 3 Stable Diffusion 3 ist das bislang leistungsfähigste Text-zu-Bild-Modell und soll bald in eine erste Vorschauphase eintreten Die öffentliche Version von Stable Diffusion 3 soll in Größen von 800M bis 8B Parametern verfügbar sein Die Analyse mit der 2B-Parameter-Version zeigte Ergebnisse, die die Erwartungen übertrafen Gemessen wurde der Trainingsdurchsatz des 2B Multimodal Diffusion Transformer (MMDiT)-Architekturmodells, das d=24, BFloat16 Mixed Precision und optimierte Attention (xFormers für A100 und FusedSDPA für Intel Gaudi) verwendet Diese Modellversion wird als MMDiT-ps2-d24 bezeichnet Betrachtet man die Trainings-Benchmark-Ergebnisse mit 2 Knoten und insgesamt 16 Beschleunigern (Gaudi/GPU), verarbeitet das Gaudi-2-System 927 Trainingsbilder pro Sekunde bei einer Batch-Größe von 16 pro Beschleuniger – 1,5-mal schneller als H100-80GB Durch Nutzung des 96GB High Bandwidth Memory (HBM2E) von Gaudi 2 wurde die Batch-Größe pro Beschleuniger auf 32 erhöht, wodurch sich die Trainingsgeschwindigkeit weiter auf 1.254 Bilder pro Sekunde steigerte Auch bei der Skalierung des verteilten Trainings auf 32 Gaudi-2-Knoten (insgesamt 256 Beschleuniger) wurde weiterhin eine sehr konkurrenzfähige Leistung gemessen In dieser Konfiguration verarbeitet der Gaudi-2-Cluster mehr als dreimal so viele Bilder pro Sekunde wie die A100-80GB-GPU. Das ist beeindruckend, obwohl die A100 über einen stark optimierten Software-Stack verfügt In Inferenztests für das Stable-Diffusion-3-Modell mit 8B Parametern lieferte der Gaudi-2-Chip mit nativem PyTorch eine ähnliche Inferenzgeschwindigkeit wie der Nvidia-A100-Chip Mit TensorRT-Optimierung erzeugte der A100-Chip jedoch 40 % schneller Bilder als Gaudi 2 Mit zusätzlicher Optimierung wird erwartet, dass Gaudi 2 dieses Modell bald gegenüber dem A100 übertrifft In früheren Tests mit nativem PyTorch erzeugte Gaudi 2 ein 1024x1024-Bild in 30 Schritten in nur 3,2 Sekunden, während der A100 mit PyTorch 3,6 Sekunden und mit TensorRT 2,7 Sekunden benötigte Dank des größeren Speichers, der schnelleren Interconnects und weiterer Designentscheidungen von Gaudi 2 ist der Einsatz der Diffusion-Transformer-Architektur, die die nächste Generation von Medienmodellen antreibt, konkurrenzfähig Modell 2: Stable Beluga 2.5 70B Stable Beluga 2.5 70B ist eine feinabgestimmte Version von LLaMA 2 70B und basiert auf Stable Beluga 2, dem ersten offenen Modell, das ChatGPT 3.5 in bestimmten Benchmarks übertroffen hat Dieser Trainings-Benchmark wurde auf 256 Gaudi-2-Beschleunigern durchgeführt; dabei wurde der PyTorch-Code ohne zusätzliche Optimierung unverändert ausgeführt und ein durchschnittlicher Gesamtdurchsatz von 116.777 Token/Sekunde gemessen Verwendet wurden der Datentyp FP16, eine globale Batch-Größe von 1024, 2 Gradient-Akkumulationsschritte und eine Micro-Batch-Größe von 2 Bei Inferenztests für das 70B-Sprachmodell auf Gaudi 2 wurden mit einer Eingabetoken-Größe von 128 und einer Ausgabetoken-Größe von 2048 pro Beschleuniger 673 Token/Sekunde erzeugt Im Vergleich zu TensorRT-LLM ist Gaudi 2 28 % schneller als der A100 mit 525 Token/Sekunde Mit FP8 werden weitere Geschwindigkeitsverbesserungen erwartet Nachfrage nach Computing-Lösungen Unternehmen wie unseres sehen eine steigende Nachfrage nach immer leistungsfähigeren und effizienteren Computing-Lösungen Unsere Erkenntnisse unterstreichen die Notwendigkeit von Alternativen wie Gaudi 2. Diese bieten nicht nur bessere Leistung als andere 7nm-Chips, sondern adressieren auch wichtige Marktanforderungen wie ein besseres Preis-Leistungs-Verhältnis, niedrigere Preise und kürzere Lieferzeiten Mehr Auswahl bei Computing-Optionen erweitert Teilhabe und Innovation und macht fortschrittliche KI-Technologien für alle zugänglicher

(stability.ai)

6 Punkte von xguru 2024-03-12 | 1 Kommentare | Auf WhatsApp teilen

Die Serie „Behind the Compute“ ist eine Blogpost-Reihe über die unternehmerische Entwicklung von Stability AI und bietet Einblicke, damit andere die Leistungsfähigkeit generativer KI nutzen können
In dieser Ausgabe wird die Leistung verschiedener Computing-Lösungen und ihre Vorteile genauer untersucht

Leistungsanalyse

Es wurde eine Leistungsanalyse mit dem Training von zwei Modellen durchgeführt, darunter das mit großer Spannung erwartete Stable Diffusion 3
Die Trainingsgeschwindigkeit wurde durch den Vergleich von Intel-Gaudi-2-Beschleunigern mit Nvidias A100 und H100 gemessen
Diese Optionen werden von Startups und Entwicklern am häufigsten gewählt, wenn sie große Sprachmodelle trainieren

Modell 1: Stable Diffusion 3

Stable Diffusion 3 ist das bislang leistungsfähigste Text-zu-Bild-Modell und soll bald in eine erste Vorschauphase eintreten
Die öffentliche Version von Stable Diffusion 3 soll in Größen von 800M bis 8B Parametern verfügbar sein
Die Analyse mit der 2B-Parameter-Version zeigte Ergebnisse, die die Erwartungen übertrafen
Gemessen wurde der Trainingsdurchsatz des 2B Multimodal Diffusion Transformer (MMDiT)-Architekturmodells, das d=24, BFloat16 Mixed Precision und optimierte Attention (xFormers für A100 und FusedSDPA für Intel Gaudi) verwendet
Diese Modellversion wird als MMDiT-ps2-d24 bezeichnet
Betrachtet man die Trainings-Benchmark-Ergebnisse mit 2 Knoten und insgesamt 16 Beschleunigern (Gaudi/GPU), verarbeitet das Gaudi-2-System 927 Trainingsbilder pro Sekunde bei einer Batch-Größe von 16 pro Beschleuniger – 1,5-mal schneller als H100-80GB
Durch Nutzung des 96GB High Bandwidth Memory (HBM2E) von Gaudi 2 wurde die Batch-Größe pro Beschleuniger auf 32 erhöht, wodurch sich die Trainingsgeschwindigkeit weiter auf 1.254 Bilder pro Sekunde steigerte
Auch bei der Skalierung des verteilten Trainings auf 32 Gaudi-2-Knoten (insgesamt 256 Beschleuniger) wurde weiterhin eine sehr konkurrenzfähige Leistung gemessen
In dieser Konfiguration verarbeitet der Gaudi-2-Cluster mehr als dreimal so viele Bilder pro Sekunde wie die A100-80GB-GPU. Das ist beeindruckend, obwohl die A100 über einen stark optimierten Software-Stack verfügt
In Inferenztests für das Stable-Diffusion-3-Modell mit 8B Parametern lieferte der Gaudi-2-Chip mit nativem PyTorch eine ähnliche Inferenzgeschwindigkeit wie der Nvidia-A100-Chip
Mit TensorRT-Optimierung erzeugte der A100-Chip jedoch 40 % schneller Bilder als Gaudi 2
Mit zusätzlicher Optimierung wird erwartet, dass Gaudi 2 dieses Modell bald gegenüber dem A100 übertrifft
In früheren Tests mit nativem PyTorch erzeugte Gaudi 2 ein 1024x1024-Bild in 30 Schritten in nur 3,2 Sekunden, während der A100 mit PyTorch 3,6 Sekunden und mit TensorRT 2,7 Sekunden benötigte
Dank des größeren Speichers, der schnelleren Interconnects und weiterer Designentscheidungen von Gaudi 2 ist der Einsatz der Diffusion-Transformer-Architektur, die die nächste Generation von Medienmodellen antreibt, konkurrenzfähig

Modell 2: Stable Beluga 2.5 70B

Stable Beluga 2.5 70B ist eine feinabgestimmte Version von LLaMA 2 70B und basiert auf Stable Beluga 2, dem ersten offenen Modell, das ChatGPT 3.5 in bestimmten Benchmarks übertroffen hat
Dieser Trainings-Benchmark wurde auf 256 Gaudi-2-Beschleunigern durchgeführt; dabei wurde der PyTorch-Code ohne zusätzliche Optimierung unverändert ausgeführt und ein durchschnittlicher Gesamtdurchsatz von 116.777 Token/Sekunde gemessen
Verwendet wurden der Datentyp FP16, eine globale Batch-Größe von 1024, 2 Gradient-Akkumulationsschritte und eine Micro-Batch-Größe von 2
Bei Inferenztests für das 70B-Sprachmodell auf Gaudi 2 wurden mit einer Eingabetoken-Größe von 128 und einer Ausgabetoken-Größe von 2048 pro Beschleuniger 673 Token/Sekunde erzeugt
Im Vergleich zu TensorRT-LLM ist Gaudi 2 28 % schneller als der A100 mit 525 Token/Sekunde
Mit FP8 werden weitere Geschwindigkeitsverbesserungen erwartet

Nachfrage nach Computing-Lösungen

Unternehmen wie unseres sehen eine steigende Nachfrage nach immer leistungsfähigeren und effizienteren Computing-Lösungen
Unsere Erkenntnisse unterstreichen die Notwendigkeit von Alternativen wie Gaudi 2. Diese bieten nicht nur bessere Leistung als andere 7nm-Chips, sondern adressieren auch wichtige Marktanforderungen wie ein besseres Preis-Leistungs-Verhältnis, niedrigere Preise und kürzere Lieferzeiten
Mehr Auswahl bei Computing-Optionen erweitert Teilhabe und Innovation und macht fortschrittliche KI-Technologien für alle zugänglicher

1 Kommentare

xguru 2024-03-12

Hacker-News-Kommentare

Es ist interessant, dass TPUs A100s mühelos schlagen. Bei dreamlook.ai, wo Stable-Diffusion-Fine-Tuning mit TPUs angeboten wird, sind die Leute von der Bereitstellungsgeschwindigkeit und den Kosten überrascht. Das große Geheimnis ist jedoch, dass es keines gibt: Man nutzt einfach schnellere und günstigere Hardware pro Arbeitseinheit.
Es ist gut, den Wettbewerb beim Modelltraining mit neuer Hardware zu fördern, aber die Verfügbarkeit dieser Maschinen ist sehr begrenzt. Große Cloud-Anbieter erlauben nicht, Gaudi2-VMs stundenweise zu mieten, und Intels eigene Website leitet einen dazu, einen 8x-GPU-Server für über 40.000 USD zu kaufen. Derzeit hat Nvidia bei Software-Stack und Verfügbarkeit weiterhin die Nase vorn, aber bis Ende dieses Jahres könnte sich etwas zu ändern beginnen.
NVIDIA erzielt beim H100 fast 92 % Marge. Es ist erstaunlich, dass nicht mehr Chip-Unternehmen in den Bereich „ML-Beschleuniger“ eingestiegen sind.
Eine Analyse dazu, warum es 3x schneller sein kann, obwohl die Hardware-Metriken nicht 3x besser sind, wäre tatsächlich nützlich und aufschlussreich. Andernfalls ist das nur Werbung.
Der H100 wurde vor fast einem Jahr veröffentlicht, also ist es okay, wenn Intel bereit ist, mit dem Modell des letzten Jahres zu konkurrieren. Man muss bedenken, dass CUDA ein sehr wichtiger Teil ist und dass sowohl Hardware als auch Software 10 Jahre brauchen, um gemeinsam zu reifen.
Der H100 wird bereits seit etwa einem Jahr in großen Stückzahlen ausgeliefert. Ist Gaudi2 in ähnlichem Umfang verfügbar? Man sollte NVIDIA niemals abschreiben, solange NVIDIA bei vergleichbaren Zeitfenstern gegenüber Konkurrenzteilen nicht klar in Führung liegt.
Niemand, einschließlich Intel-AXG-Mitarbeitern, konnte jemals zufriedenstellend beantworten, warum es sowohl Gaudi als auch Ponte Vecchio gibt. Würde Intel seine Erfolgschancen nicht erhöhen, wenn es sich auf eine einzige Produktlinie konzentrierte?
Ich frage mich, wie AI-Wissenschaftler heutzutage tatsächlich arbeiten. Hacken sie wirklich an Cudakernels herum, oder verbinden sie Modelle mit High-Level-Toolkits wie pytorch? Falls Letzteres zutrifft: Ist CUDA dann wirklich eine so große Hürde, wenn pytorch für verschiedene Hardware optimierte Backends bereitstellt?