AMDs AI-Zukunft ist Rack-Scale „Helios“

(morethanmoore.substack.com)

1 Punkte von GN⁺ 2025-06-16 | 1 Kommentare | Auf WhatsApp teilen

AMD Instinct MI355X GPU bietet die doppelte AI-Rechenleistung, mehr HBM-Speicher und eine um 40 % bessere Token/$-Effizienz gegenüber NVIDIA
ROCm 7 Software legt den Fokus auf Leistungsverbesserungen und Day-0-Support und konzentriert sich zugleich auf den Ausbau des AI-Ökosystems
Rack-Scale-Integrationslösung liefert eine schlüsselfertige AI-Infrastruktur, die AMD CPU+GPU+Netzwerk kombiniert
Roadmap: Für 2026 sind eine Next-Generation-Architektur mit 4-facher Leistung, HBM4 und Skalierbarkeit sowie die Einführung des Helios-Racks angekündigt
Energieeffizienz: Ziel ist eine 20-fache Effizienzsteigerung auf Rack-Scale-Basis bis 2030, vorangetrieben durch Innovationen bei Hardware und Software

Gesamtüberblick

AMDs Kurs auf Basis des Wachstums von Rack-Scale-AI

Mit dem rasant steigenden Bedarf an AI-Hardware konzentrieren sich alle wichtigen Halbleiterunternehmen der Branche darauf, Marktanteile zu gewinnen und das Wachstum zu beschleunigen
AMD ist mit dem Instinct MI300X schnell in den Markt für GPUs für AI-Server eingestiegen und erzielte auf Basis der jüngsten Einführung seiner ersten Architektur, die sich vollständig auf Kernfunktionen und Leistung konzentrierte, erfolgreich margenstarke Umsätze
Darauf aufbauend stellte das Unternehmen eine Strategie vor, seine Position mit AI-Server-Hardware der nächsten Generation kontinuierlich auszubauen

Detaillierte Innovationen des Instinct-MI350-Beschleunigers

Sprunghafte Stärkung der AI-Rechenleistung

Die Instinct MI350-Serie basiert auf der neuen CDNA4-Architektur und erreicht gegenüber dem MI300X mehr als die doppelte Matrixrechenleistung (Tensor-Rechenleistung) pro Takt
Sie unterstützt niedrigpräzise Gleitkommaberechnungen wie FP6 und FP4 umfassend, reduziert damit die Last bei Inferenz und steigert zugleich das gesamte Rechenvolumen deutlich
Bei FP6 ist sie darauf ausgelegt, doppelt so schnell wie NVIDIAs Blackwell zu arbeiten und damit einen Leistungsvorsprung zu erzielen
Auch die Speicherausstattung wurde stark aufgewertet: 288 GB HBM3E-Speicher (8 Stacks) und 8 TB/sec Bandbreite
Umgesetzt als riesiger Chip mit 185 Milliarden Transistoren auf Basis des TSMC N3P-Prozesses und mit effizienter Die-Stacking-Struktur

Verschiedene SKUs und der Trend zu mehr Leistung und höherem Stromverbrauch

Aufgeteilt in den nur für Flüssigkühlung vorgesehenen MI355X (2,4 GHz, 5 PFLOPS) und den luftgekühlten MI350X (2,2 GHz, 4,6 PFLOPS)
Der Stromverbrauch ist gegenüber dem MI300X gestiegen: die luftgekühlte Variante liegt bei 1000 W, die flüssigkeitsgekühlte bei 1400 W
Bei Bestückung eines Racks mit 128 MI355X kann allein der GPU-Teil einen Stromverbrauch von 180 kW erreichen
Hervorgehoben wird auch die Preiswettbewerbsfähigkeit: Gegenüber NVIDIA werden beim Maßstab Token/$ mehr als 40 % Vorteil erwartet (30 % günstiger)
Die Belieferung von Partnern beginnt ab dem 3. Quartal 2024, wobei die tatsächliche Liefergeschwindigkeit variabel bleibt

Software-Strategie für ROCm 7

Day-0-Support und maximale Leistung

ROCm 7 treibt umfassende Verbesserungen bei Unterstützung für CDNA4 und Beschleuniger der MI350-Serie, Leistung und Enterprise-Management voran
Ziel ist Day-0-Support für wichtige Frameworks wie Pytorch
Im 3. Quartal 2024 starten außerdem Support für natives Pytorch unter Windows, ONNX Runtime sowie GPUs der Serien RDNA 4/3
Allein durch Software-Optimierung steigt die Leistung der MI300X-Generation unter ROCm 7 gegenüber ROCm 6 um bis zu das 3,8-Fache
Mit ROCm Enterprise AI werden auf Unternehmen zugeschnittene Tools für den Betrieb großer AI-Cluster, Model-Fine-Tuning und mehr bereitgestellt

Das Netzwerk-Ökosystem wird komplett: Pollara 400 AI NIC

Nach der Übernahme von Pensando bringt AMD mit der Pollara 400 AI NIC (400G Ethernet, TSMC-N4-Prozess) seine erste Netzwerkkarte heraus
Mit Skalierbarkeit und programmierbaren P4-NIC-Funktionen unterstützt sie den Aufbau von Supercomputer-Racks auf AMD-Basis
Als erste AI NIC mit Kompatibilität zum Ultra Ethernet Consortium schafft sie die Grundlage für Netzwerk-Skalierung der nächsten Generation

Rack-Scale-Zukunftsroadmap auf Basis von MI400

MI400 (2026): Ziel sind die doppelte AI-Leistung auf FP8-Basis, HBM4 mit 432 GB und 19,6 TB/sec Bandbreite sowie der Einsatz einer Architektur der neuen Generation (CDNA Next)
Mit Ultra Accelerator Link wird eine Scale-up-Erweiterung von 8 GPUs auf 1024 GPUs ermöglicht, um massive Parallelverarbeitung zu unterstützen
Helios-Racksystem: Kombination aus MI400, EPYC Venice (6. Generation) und Vulcano (800G NIC), wobei Speicher- und Netzwerkvorteile gegenüber der nächsten NVIDIA-Plattform (Vera Rubin) betont werden
Über eine offene Roadmap werden jedes Jahr Pläne für Innovationen bei den Kernarchitekturen von CPU, GPU und Rack-Systemen vorgestellt
Ziel ist es, bis 2030 die Energieeffizienz auf Rack-Scale-Ebene um das 20-Fache und die Gesamteffizienz um das 100-Fache zu steigern, wofür Hardware- und Software-Optimierung vorangetrieben werden

Fazit

AMD zielt mit der Instinct-MI350-bis-Helios-Serie, CDNA 4 bis Next und schlüsselfertigen Rack-Scale-Lösungen darauf ab, sich differenzierte Führungsstärke im AI-Infrastrukturmarkt zu sichern
Kurzfristig dürften die neue MI350, die CDNA4-Architektur und die Software ROCm 7 die Hauptrolle spielen
Im Wettbewerb mit NVIDIA im AI-Server-Markt verfolgt AMD eine Strategie, Leistung, Kosten, Skalierbarkeit und Effizienz zugleich zu stärken

1 Kommentare

GN⁺ 2025-06-16

Hacker-News-Kommentare

Bei der Nutzung von ROCm scheint es wirklich extrem vom jeweiligen Anwendungsfall abzuhängen, und auch die Unterstützung für Consumer-Grafikkarten wirkt ehrlich gesagt kaum vertrauenswürdig. Ich hatte gehofft, es könnte eine Alternative sein, aber nachdem ich auf CUDA umgestiegen bin, hatte ich deutlich weniger nervige Probleme und Zeitverschwendung – besonders das Problem, dass das Ausführen von MiOpen-Benchmarks in HIP viel zu lange dauert.
Seit CUDA um 2010 für wissenschaftliches Rechnen an Bedeutung gewann, wiederholt sich gefühlt immer dieselbe Geschichte. Ich verstehe nicht, warum AMD selbst nach 15 Jahren dieses Erfolgsmodell nicht nachbilden konnte, und jetzt, wo NVIDIA das Software-Ökosystem bereits vollständig dominiert, fühlt es sich ohnehin reichlich spät an.
Ich wünschte, jemand mit guter Kenntnis der von AMD bereitgestellten Software würde einmal einen Gesamtüberblick geben. Ich würde gern wissen, welches SDK tatsächlich Inferenz oder Training von neuronalen Netzen ermöglicht. Es gibt so viele Optionen, dass ich eine Zeit lang danach gesucht habe, aber es wirkt, als würde die Richtung in zu viele verschiedene Pfade zerfasern, sodass schwer zu erkennen ist, wohin die Reise geht.
Bei Jensen hat man das Gefühl, dass er beim CUDA-Stack und im Workstation-Bereich wirklich weiß, was er tut. AMD muss sich der Realität stellen, dass es nicht reicht, nur die Hardware größer zu machen – dieser Stack selbst muss übertroffen werden. Die meisten Leute auf dem Markt werden kaum lange lernen und einen komplexen Stack studieren wollen für eine Struktur mit nicht einmal 10 % Marktanteil.
In der Realität ruft kaum ein Entwickler die CUDA-API direkt auf. Deshalb sollte AMD sich vor allem darauf konzentrieren, das ROCm-Backend sauber mit XLA und PyTorch zu verbinden. Schon das allein könnte einen beachtlichen Markt erschließen. Außerdem sollte AMD – wie Nvidia vor gut zehn Jahren – GPUs praktisch kostenlos an Universitäten verteilen, um ein Forscher-Ökosystem aufzubauen. Wegen des Mangels an AI-Rechenressourcen nutzen Universitäten heute meist Hardware, die bereits zwei oder drei Generationen alt ist. Wenn AMD stabile GPUs zum halben Preis anbieten würde, würden Doktoranden ganz natürlich in das AMD-Ökosystem einsteigen, und diese Erfahrung könnte sich später in die Industrie übertragen.
Wenn Leute über CUDA sprechen, denken sie meist nur an C, aber tatsächlich ist seit CUDA 3.0 C++ der Standard, inklusive Fortran-Unterstützung. NVIDIA unterstützt aktiv, dass verschiedene Sprachen die PTX-Umgebung nutzen können, und für 2025 ist sogar die Einführung eines Python-CUDA-JIT-DSL geplant. Selbst wenn es nicht die neueste Version ist, läuft das CUDA SDK auch auf Einsteiger-Laptops, sodass man selbst mit schwacher Hardware in Ruhe lernen kann.
Über die Software-Unterstützung für Einsteiger-Hardware habe ich viel Negatives gehört. Ein niedrigschwelliger Einstieg ist extrem wichtig. Umgekehrt könnte man durch einen Fokus auf Rechenzentrumshardware das Portfolio stärker verdichten und über Cloud-Anbieter eine breitere Zugänglichkeit schaffen. Es wäre schön, wenn es so etwas wie eine MI350-A-Workstation für Einsteiger gäbe, aber realistisch ist das wohl schwer umzusetzen.
Zum jetzigen Zeitpunkt wirkt es auf mich, als gäbe es bei AMD intern ernste Probleme, wegen derer der Software-Stack so hinterherhinkt. Es gab genug Zeit, um Kundenfeedback zu vielen Problemen aufzunehmen und die Teams auszubauen, aber tatsächlich ist nur wenig Fortschritt zu sehen. Die finanziellen Anreize sind groß, und trotzdem passiert wenig. Ich stimme zu, dass CEO Lisa Su eine hervorragende Managerin ist, frage mich aber, ob sie als jemand mit Hardware-Hintergrund vielleicht weniger offensiv auf Software-Innovation setzt.
Ob ROCm unterstützt wird, ist für normale AI-Nutzer wohl noch kein großes Thema. Dank der Vulkan-API, die seit etwa zehn Jahren im Standard-AMD-Treiber enthalten ist, laufen auch wichtige One-Click-LLM-Apps wie llama.cpp oder LM Studio. Es ist zwar langsam, aber praktisch nutzbar.
Zur künftigen Wettbewerbslage zwischen NVIDIA und AMD etwas scherzhaft: „Wenn diese Zukunft in ferner Zukunft Realität wird, melden wir uns zuerst bei Ihnen.“
Eine kurze Frage: „Wird das von Bob Page geführt?“
Die Zeile "Atropos log, abandoning Helios" aus einem Spiel löst bei mir eine emotionale Reaktion aus. Ich muss bei jeder Nachricht dazu daran denken.
Die Hoffnung, dass AMD einen Trainingschip bauen möge, der den H100 übertrifft.
Letztes Jahr hatte ich beim Training mit dem MI300X einige Probleme, und selbst wenn es lief, war es im Vergleich zum H100 etwa 20–30 % langsamer. Kürzlich habe ich mit aktuellem ROCm- und PyTorch-Setup DPO-Training mit OpenRLHF (auf Basis von transformers/DeepSpeed) ausprobiert, und bei kurzen 12-Stunden-Jobs liegt die Leistung pro GPU-Stunde tendenziell fast auf H200-Niveau. Früher habe ich auf einem 8-GPU-Knoten getestet, jetzt experimentiere ich mit einer einzelnen MI300X-GPU, also ist das kein vollständig fairer Vergleich. Multi-GPU- oder Multi-Node-Training bleibt weiterhin offen, also bitte als Einzelfall betrachten.
Wenn man bedenkt, dass der H100 schon seit drei Jahren auf dem Markt ist, wirkt der Abstand noch größer. Man spürt das Innovationstempo.
Ich verstehe das so, dass von relativ langsameren Chips die Rede ist. Tatsächlich liegt die MI300-Serie bereits vor dem H100, und die MI400 könnte bald erscheinen.
Wirklich entscheidend ist für mich, wie viel von „Software++: ROCm 7 Released“ ich – wie bei CUDA – auf einem gewöhnlichen Consumer-Laptop nutzen kann.
Ehrlich gesagt war dieser Artikel schwer zu lesen, und ich finde, der Autor hätte für seinen Einsatz ruhig eine mi355 verdient. Es gibt überhaupt keinen Grund, AMD in diesem Artikel so viel Vertrauen entgegenzubringen, wie es dort geschieht. Besonders enttäuschend ist, dass die RDNA4-Reihe in ROCm monatelang nicht unterstützt wurde. AMD wirkt dabei verantwortungslos mit einer Haltung nach dem Motto, Unterstützung komme dann eben an Tag 120 des Zeitplans. Dazu kommt, dass in den Benchmarks nicht klar offengelegt wird, woher die Leistung tatsächlich kommt. Ich habe den starken Verdacht, dass FP4-Leistung mit FP8 oder 16 verglichen und dann irreführend zitiert wurde.
Es ist immer noch schockierend und frustrierend, dass ROCm für Consumer so wenig Priorität bekommt und die Unterstützung verspätet kommt. Kürzlich wurde allerdings offiziell angekündigt, dass es nun auch für Client-Karten Day-1-Support geben soll. Natürlich ist entscheidend, ob AMD dieses Versprechen auch einhält. Es wirkt immerhin, als hätte AMD endlich erkannt, wie wichtig robuste ROCm-Unterstützung über den gesamten Stack hinweg ist. Es fühlt sich fast seltsam an, dass es sich um ein Unternehmen handelt, das sowohl Ryzen als auch Radeon baut. Ich finde, Radeon schlägt sich dieses Jahr recht gut, aber dass die offizielle ROCm-Unterstützung für RDNA4 so spät kam, ist schade. Trotzdem war der erste Eindruck bei Consumer-Produkten dank 9070 XT und FSR4 nicht schlecht, und anders als früher, als AMD Chancen eher auswich, sieht man jetzt Bewegung. Deshalb bin ich sehr vorsichtig optimistisch. Hoffentlich hält dieses Versprechen lange an. Verwandter Link
AMD hat bei Consumer-GPUs offenbar wenig Interesse an Compute-Support, liefert aber bei Rechenzentrums-GPUs einen ziemlich guten Software-Stack und entsprechenden Support.
Zur Zitierung des ursprünglichen Kommentars „Dieser Beitrag gibt AMD zu viel Vertrauen“ die Nachfrage, ob damit vielleicht Ryan Smith gemeint ist, der etwa von AnandTech bekannt ist. Link
AMD ist inzwischen eine Marketingfirma, so die Behauptung – also ein Unternehmen, das im Kern nicht mit Technik, sondern mit Marketing im Markt konkurriert.

AMDs AI-Zukunft ist Rack-Scale „Helios“

Gesamtüberblick

AMDs Kurs auf Basis des Wachstums von Rack-Scale-AI

Detaillierte Innovationen des Instinct-MI350-Beschleunigers

Sprunghafte Stärkung der AI-Rechenleistung

Verschiedene SKUs und der Trend zu mehr Leistung und höherem Stromverbrauch

Software-Strategie für ROCm 7

Day-0-Support und maximale Leistung

Das Netzwerk-Ökosystem wird komplett: Pollara 400 AI NIC

Rack-Scale-Zukunftsroadmap auf Basis von MI400

Fazit

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare