- Strix Halo ist die größte von AMD vorgestellte Chiplet-APU für Clients und darauf ausgelegt, hochleistungsfähige CPU- und GPU-Arbeiten gemeinsam zu verarbeiten.
- Mit 16 Kernen Zen 5 und 40 RDNA 3.5 iGPU Compute Units liefert sie Leistung nahe an Desktop-CPUs und mittelklassige dedizierte GPUs.
- Mit LPDDR5X-8000-Speicherbus und 32 MB Infinity Cache wird eine Umgebung mit hoher Bandbreite und niedriger Latenz umgesetzt.
- Die iGPU-Leistung übertrifft bestehende mobile APUs deutlich und kann in einigen Szenarien auch mit Midrange-dedizierten GPUs konkurrieren.
- Die ML (Machine-Learning)-Leistung wartet auf die ROCm-Unterstützung, weshalb weiteres Wachstumspotenzial und zukünftige Entwicklung erwartet werden.
Einführung und Produktübersicht
- Strix Halo ist die erste Chiplet-APU für Konsumentinnen und Konsumenten, die AMD auf der CES 2025 vorgestellt hat.
- Obwohl es sich um einen Mobilprozessor handelt, zielt es auf Desktop-nahe Hochleistung ab; es unterstützt einen TDP-Bereich von 55W~120W und erreicht hohe Leistung sogar ohne separate externe Grafik.
- Strix Halo nutzt die 16-Kern-Zen-5-Architektur (Dual 8-Core-CCD) und die gleiche 512b FPU wie Desktop-Produkte.
- Unterstützt einen maximalen Boost-Takt von 5,1 GHz (600 MHz niedriger als beim Desktop Ryzen 9 9950X).
- Die Haupt-GPU-Instanz, die RDNA 3.5 iGPU, mit 40 Compute Units, 32 MB Infinity Cache, einem 2,9-GHz-Boost-Clock bietet Rechenleistung auf RX 7600 XT~RX 7700-Niveau.
- Es wird ein 256b LPDDR5X-8000-Speicherbus (maximal 256 GB/s, gemeinsam von allen Blöcken genutzt; etwas unter den 288 GB/s der RX 7600 XT, deutlich besser als bei früheren APUs) verwendet.
Testumgebung und Geräte
- Für Performance-Messungen im realen Einsatz wurden Asus ROG Flow Z13 (2025) und HP ZBook Ultra G1a 14" genutzt.
- Der ROG Flow Z13 wurde für Gaming-fokussierte Tests verwendet, das ZBook Ultra G1a für Mikro-Benchmarks.
CPU-Sicht auf das Speicher-Subsystem
- Speicherlatenz: Gegenüber Strix Point (~128 ns) liegt Strix Halo (~123 ns) praktisch ohne nennenswerten Unterschied.
- Die CPU hat laut Interview keine direkte Zugriffsmöglichkeit auf den 32 MB Infinity Cache im I/O-Die; dies wurde offiziell bestätigt.
- Der Desktop-CPU (9950X) liegt mit 75~80 ns deutlich niedrigerer Latenz als im Mobilbereich.
- Speicherbandbreite: Bei 16 Kernen wurden bei reinen Read-Modify-Add-Operationen über 175 GB/s erreicht, Lesen bis 124 GB/s möglich.
- Die Bandbreite pro einzelner CCD beträgt 64 GB/s (Lesen), 43 GB/s (Schreiben), also rund 103 GB/s insgesamt.
- Wie bei Desktops beträgt die Verbindung CCD-I/O-Die ebenfalls 2000 MHz, mit 32 Byte pro Zyklus.
CPU-Leistung
- Die Strix-Halo-CPU erreicht die Integer-Leistung des Desktop-Flaggschiffs der Vorserie (7950X) bei 11,7 % niedrigerem Takt.
- Die FP-Leistung ist nahe am aktuellen Flaggschiff (9950X), mit Umkehr-Effekten in einigen Subtests.
- In SPEC CPU 2017 Integer/FP-Subtests liegt Strix Halo beim 9950X oder liegt in einzelnen Punkten darüber; die höheren Latenzen des LPDDR5X-Busses führen jedoch zu kleinen Unterschieden.
GPU-Sicht auf das Speicherdesign
- Die Speicherbandbreite der Strix-Halo-GPU ist unter allen mobilen SoCs überragend hoch.
- Gegenüber der RTX 5070 Mobile ist die Speicherbandbreite jedoch 50 % geringer.
- Die Infinity Cache (MALL)-Leistung ist um 40 % höher als die L2-Leistung der 5070M, die Kapazität ist ebenfalls um 33 % größer. Der 4-MB-L2-Cache bietet 2,5 TB/s Bandbreite.
- Die L2-Cache-Latenz von Strix Halo ist niedriger als die der 5070M-L2, die Latenz der 32-MB-MALL ist mit der 5070M-L2 vergleichbar.
- Die Gesamte Speicherlatenz liegt um 35 % niedriger als bei der 5070M.
GPU-Durchsatz (Throughput)
- FP-Durchsatz: Etwa das 2,5-Fache von Strix Point, ähnlich wie oder über der 5070M.
- Bei FP16-Ergebnissen fällt die Leistung nur unter die 5070M (wahrscheinlich eine Benchmark-Anomalie).
- Integer-Durchsatz: Die 5070M ist höher als die der Radeon 8060S.
GPU-Leistung und Gaming
- Strix Halo als iGPU hat eine überwältigende Leistung gegenüber den bisherigen Intel/AMD-iGPUs und kann auch mit dedizierten GPUs konkurrieren.
- Im Delta-starken Spiele-Test (Cyberpunk 2077):
- Akku-Modus: Die Radeon 8060S liegt im 1080p-Modus bei identischen Bedingungen 7,5 % vor der 5070M.
- Netzbetrieb: Bei 1080p liegt die Radeon 8060S 2,5 % voran, bei 1440p liegt die 5070M 8,3 % voran.
- Je nach Feineinstellungen und Leistungsbedingungen zeigen beide Seiten Wettbewerbsfähigkeit; die iGPU erreicht faktisch annähernd die Leistung einer dedizierten GPU.
- In Fluid X3D und rechenintensiven Workloads übertrifft die Radeon 8060S deutlich die bisherigen Intel/AMD-iGPUs.
Fazit
- Strix Halo ist auf einen leistungsstarken CPU-GPU-konvergenten SoC ausgelegt und liefert starke Leistung in verschiedenen Nutzungsumgebungen.
- Es konkurriert mit Desktop-Zen-5-CPUs und mittelklasse-dedizierten GPUs und adressiert sowohl Mobile als auch Desktop.
- Es bewahrt Effizienz und Integration (die Stärke der iGPU) und hält gleichzeitig hohe Leistung.
- Es liegt nicht über den leistungsstärksten dedizierten GPUs, bietet jedoch in kompakten Geräten und integrierten Umgebungen die beste Flexibilität und Performance.
- Die ML-Leistung erfordert eine Anschlussanalyse, da die ROCm-Unterstützung auf sich warten lässt. Mögliche zukünftige Skalierbarkeit und größere Speicherbus-Architekturen werden (wie bei Apple Max/Ultra) in Aussicht gestellt.
- Der erfolgreiche Designansatz von Strix Halo dürfte für den späteren Ausbau von AMDs High-Performance-APU-Portfolio ausschlaggebend werden.
1 Kommentare
Hacker-News-Kommentare
Ich würde wirklich gern einen Mini-PC mit diesem Teil ausprobieren, aber in Europa ist er entweder extrem teuer oder gar nicht erhältlich, und auch beim Direktimport aus China bin ich wegen Service- und Garantiefragen vorsichtig. Da ROCm 7 bereits auf den meisten Linux-Distributionen läuft, scheint das wirklich gut als Workstation oder als Home-Inference-Server für LLMs oder Ollama und andere Dienste geeignet zu sein.
Ich habe ein Produkt gefunden, das aus Deutschland geliefert wird und preislich relativ vernünftig ist: BOSGAME M5 AI Mini Desktop.
Mich würde interessieren, ob du dir den Corsair AI Workstation 300 Desktop PC angesehen hast. Je nach gewähltem Modell kostet er 2000–2700 Euro, und wenn man die Mehrwertsteuer berücksichtigt, wirkt das ähnlich wie die US-Preise in Dollar (1700–2300 USD). Corsair AI Workstations
Ich habe die Framework Desktop 395 mit 128 GB für etwas unter 1900 Euro bestellt, und mit Zusatzkonfiguration und Versand habe ich etwas über 2000 Euro bezahlt. Ich hatte nicht den Eindruck, dass der Preis überzogen ist.
Soweit ich es verstehe, ist der Hauptgrund für den hohen Preis der High-Bandwidth-Speicher, auch wenn die Speicherbandbreite verglichen mit echten High-End-GPUs nicht besonders hoch ist.
ROCm macht große Fortschritte, aber ich hatte auf einem RX9070XT-Desktop trotzdem ein paar Probleme. Für AI-Arbeit würde ich aktuell noch Nvidia- oder Apple-Lösungen empfehlen, aber ich denke, AMD wird bald aufholen. Das beste AI-System beim Preis-Leistungs-Verhältnis ist für mich immer noch ein selbst gebauter Desktop mit zwei RTX 3090s, natürlich mit einem Mainboard, das Dual-Karten unterstützt. Und man kann das Ding einfach in den Schrank stellen und laufen lassen.
Im Vergleich zu mobilen dGPUs und dem DGX Spark, das nun endlich Realität geworden ist, fühlt sich dieser Markt noch nicht abgeschlossen an, eher wie ein Segment mit weiterem Potenzial. Ich weiß nicht, warum sich der DGX Spark so lange verzögert hat, aber dadurch bekam AMD die Chance, zuerst Marktanteile zu gewinnen. Der Vorteil diskreter GPUs, auch mobiler, ist die Speicherbandbreite, der Nachteil sind der hohe Stromverbrauch und die begrenzte Speicherkapazität. CUDA lasse ich hier einmal außen vor, auch wenn das natürlich ein riesiger Faktor ist. Wenn man mehrere kleine DGX-Spark-Desktops ergänzt, könnte man mit 200Gb-Single- oder 100Gb-Dual-Netzwerkports RDMA zwischen mehreren Geräten nutzen, was bei gleicher Stückzahl möglicherweise eine höhere Auslastung als mit Strix Halo 395 bringen würde. In der Praxis würde man für echte Arbeit aber wohl eher einen GPU-Server oder eine Threadripper-GPU-Workstation statt vier DGX Sparks verwenden. Und dass der DGX Spark nicht in ein Laptop passt, ist wiederum ein Vorteil für Strix Halo. Insgesamt sehe ich das als neue Nische und bin gespannt, wie sich dieses Format über die nächsten Generationen entwickelt.
In der nächsten Generation soll von AMD Medusa Halo kommen, angeblich mit einem 384-Bit-LPDDR6-Bus. Damit wären gegenüber Strix Halo potenziell die doppelte Speichermenge und die 1,7-fache Bandbreite möglich. Da Strix Halo als Inference-Plattform offenbar erfolgreich ist, dürfte dieses Marktsegment weiter wachsen.
Nur zur Klarstellung: Es ist nicht 200Gb dual, sondern 200Gb single oder 100Gb dual.
„dGPU“ bedeutet normalerweise diskrete GPU. Meinst du vielleicht „iGPU“ für integrierte Grafik? Strix-Halo-Produkte werden zwar auch fürs Gaming vermarktet, aber die tatsächliche Performance wirkt dafür nicht ganz passend. Die CPU ist fast schon übertrieben schnell, während die iGPU im Verhältnis etwas schwach wirkt. Für Matrix-Multiplikation (
matmul) dürfte sie aber eindeutig stark sein.Der Hauptzweck des DGX Spark scheint lokale Entwicklung und Tests von AI-Modellen zu sein. Strix Halo ist eine amd64-basierte iGPU und lässt sich daher auch für klassische PC-Aufgaben verwenden, während es zugleich als lokales AI-Zielgerät völlig ausreichend ist. Meiner Meinung nach markiert Strix Halo in Laptops den Anfang vom Ende des Zeitalters diskreter GPUs. Nvidia scheint das ebenfalls erkannt zu haben und versucht wohl gemeinsam mit Intel, eine iGPU-Lösung zu bauen.
Schade ist, dass es selbst ein halbes Jahr nach dem Start nur zwei brauchbare Laptops damit gibt und davon ist das Z13 das einzige High-End-Modell. Es gibt zwar auch das Framework-Gerät, aber in vielen Ländern ist es nicht kaufbar, und insgesamt scheint die Zielgruppe ziemlich begrenzt zu sein. Ich mag das Z13 wirklich sehr, aber auch dieses Gerät ist eindeutig eine Nische. Ich weiß nicht, ob es Probleme bei der Chipfertigung gibt oder ob Apple die gesamte Produktion aufkauft.
Der US-Preis des HP ZBook Ultra war extrem hoch, aber in Europa wirkte es preislich ähnlich wie ein normales Laptop und damit vernünftig. Was ich bedaure, ist, dass ich am ersten Tag bestellt habe und nicht auf die 128-GB-Version warten konnte. Bei Akku oder Leistung hatte es aber bisher bei keiner schweren Aufgabe, die ich ausprobiert habe, echte Konkurrenz. Und abseits von Laptops bauen Firmen wie Beelink auch vernünftig bepreiste NUCs. Ich stimme zu, dass die knappe Verfügbarkeit es schwer gemacht hat, die Chance richtig einzuschätzen.
Das HP ZBook Ultra G1a ist eine gute Option, da es mit bis zu 128 GB RAM konfiguriert werden kann.
Auch Beelink, GMKtec, Minisforum und Corsair bringen Produkte auf den Markt.
In weiten Teilen Europas kann man das Z13 nicht mit mehr als 32 GB RAM kaufen, und eine Garantie von 2–3 Jahren ist ebenfalls meist nicht verfügbar. Deshalb ärgert es mich, dass ich am Ende womöglich ein Framework 13 mit schwächerem RAM, CPU und GPU kaufen muss.
High Yield hat ein Video veröffentlicht, das den 395-Chip auf Siliziumebene tiefgehend analysiert. Das ist sehenswert: High Yield - 395 Chip Deep Dive
Ich frage mich, ob man beim Framework Desktop die TDP beziehungsweise das Power Limit höher setzen kann. Die Kühlung dieses Desktops wirkt deutlich besser als bei Laptops mit demselben Chip, daher könnte es echte Leistungsunterschiede geben.
Man kann 140 W dauerhaft und 160 W als Burst für etwa 10 Sekunden einstellen.
Ich habe den Stromverbrauch nicht gemessen, nutze aber ein Framework-Mainboard in einem größeren ITX-Gehäuse mit besserer Kühlung. Mein Haupt-PC mit 7950X3D und die Strix-Einheit haben die gleiche Anzahl an Kernen und Threads, und auch in Benchmarks gibt es kaum Unterschiede. Dass man also in einem Notebook echte Desktop-Rechenleistung bekommen kann, ist ziemlich beeindruckend.
Ich habe irgendwo gelesen, dass ein Hauptgrund dafür, dass diese APU nicht so energieeffizient ist wie Apple-Produkte, in einer Designentscheidung liegt, die Architektur mit Epyc zu teilen. Angeblich wurde dafür ein Kompromiss eingegangen, der die Effizienz bei niedriger Leistungsaufnahme verschlechtert. Mich würde interessieren, ob das jemand verifizieren kann.
Im Review von Hardware Canucks gibt es einen Test von M4 Pro (3nm der zweiten Generation) gegen 395+ (4nm) bei 50 W. Die Leistung ist ziemlich ähnlich, daher könnte sich das allein durch den Unterschied zwischen 3nm- und 4nm-Fertigung erklären lassen. YouTube-Review
Die APU ist gut, aber an die Speicherbandbreite eines m3 ultra kommt sie natürlich nicht heran. Dafür ist sie viel günstiger. Ich überlege gerade, meinen alten Desktop zu ersetzen, und für mich ist wichtig, dass ich externe GPUs wie eine A6000 kurzfristig von der Arbeit ausleihen kann und dass das Setup nicht ewig dauert.
Ich habe einen Framework Desktop gekauft und teste ihn gerade. Die Maschine ist klein, aber wirklich beeindruckend. Ich hoffe, dass solche Produkte künftig mehr Interesse und Beteiligung aus der Engineering-Community anziehen. Ein Ökosystem mit guter Unterstützung für Vulkan oder ROCm wäre für alle von Vorteil.
Ich habe dazu eine verwandte Frage: Wenn man einen Desktop mit Zen-5-CPU, RX 7600 XT und RAM zusammenbaut, könnte man dann günstig etwas erreichen, das wie bei Strix Halo oder Apple Silicon den Speicher zwischen System und GPU mit gemeinsamer Bandbreite teilt? Und könnte man damit große LLMs zu einem vernünftigen Preis lokal ausführen? Soweit ich weiß, teilen nur APUs den Speicher wirklich, während diskrete GPUs das nicht tun. Ist das korrekt?
Mich würde interessieren, ob die Grafikleistung ungefähr mit einer 5070M konkurrieren kann. Wenn Preis und Stromverbrauch stimmen, wirkt das sehr attraktiv.
Mich würde interessieren, wie sich die GPU-Leistung im Vergleich zu den GPUs in Macs der M-Serie schlägt.