Nachdem ich die Nvidia DGX Spark gesehen hatte, hatte ich große Erwartungen an den GB10, aber nach den Reviews überwiegt eher die Enttäuschung. Es scheint, als würde die Speicherbandbreite die übrige Leistung ausbremsen.
Es gab auch Fälle, in denen die Leistung auf dem Niveau von AMD Strix Halo lag oder sogar besser war.
- (Sie kommt zwar mit 64 GB Unified Memory auf den Markt, optional sind aber 128 GB und eine Zuweisung von 96 GB vRAM möglich.)
FP4-Unterstützung, CUDA, und bei einer Erweiterung mit ConnectX-7 kommen zwar noch 128 GB Speicher hinzu, aber der Gerätepreis liegt bei mehr als dem Doppelten von Strix Halo, daher ist das für mich schwer zu rechtfertigen.
Auch wenn AMD ROCm im Vergleich zu CUDA ein schwächeres Ökosystem hat, laufen die Programme, die ich bisher gebaut habe, problemlos, deshalb tendiere ich eher in diese Richtung (ein 128-GB-2-TB-SoC ist für etwa 3 Millionen Won erhältlich). Mich würde interessieren, wie ihr euer System unter Berücksichtigung von Budget und Stromverbrauch zusammengestellt habt.
Ich plane mit AMD Strix Halo, als OS soll das Fedora-basierte Bazzite dienen. Grafiktreiber sind dort standardmäßig bereits installiert, und wenn ich Distrobox und mise einrichte, sollten meine selbst entwickelten Programme und die benötigten Modelle darauf laufen.
9 Kommentare
Der mit dem Singles’ Day-Rabatt gekaufte Strix-Halo-Rechner ist angekommen, ich habe Bazzite installiert und mit
distroboxein paar Bildgenerierungen ausprobiert. Die Leistung entsprach wie erwartet meinen Erwartungen (bei LLMs war sie allerdings nicht besonders hoch). Man kann ihn einfach als leistungsstarken Mini-PC betrachten.Es heißt, man könne bei Unified Memory mehr als 96 GB als vRAM zuweisen, aber vielleicht lässt sich das wegen der dynamischen Änderung nicht prüfen – jedenfalls habe ich bisher noch nie mehr als 96 GB zugewiesen gesehen.
Für die Konfiguration habe ich die Website https://strixhalo.wiki/ als Referenz verwendet. Dort gibt es auch eine Vergleichstabelle zum Kaufleitfaden (Strix Halo - Mac - DGS Spark - 6000), die hilfreich sein dürfte.
Bazzite-Werbung: Das OS wird als unveränderliches Image verwaltet, andere Programme über „Batterien“ (
flatpak,brewusw.). Mit dem Update-Befehl werden vom Firmware-Stand bis zu allen Paketen sämtliche Updates eingespielt. Wenn das OS irgendwie zugemüllt wirkt, muss man nur den Benutzerpfad aufräumen (am OS selbst kann man auf üblichem Weg nichts verändern). Die AMD-Treiber sind alle installiert, daher kannROMcsofort verwendet werden.Das als Container-Startplattform gedachte OS ist eigentlich Fedora CoreOS; Bazzite, das darauf diverse Benutzereinstellungen aufsetzt, ist aber auch für den normalen Einsatz und die Entwicklung praktisch und bietet eine sehr hohe Nutzerfreundlichkeit. Container (
distrobox),wineundtailscalesind standardmäßig installiert. Wenn man dazu nochmiseeinrichtet, lässt sich damit praktisch jede gewünschte Funktion verwalten.Eigentlich wollte ich beim Einrichten von Anfang an gleich einen Leitfaden erstellen, aber weil ich einfach mein bisher verwendetes Bazzite-Benutzerkonto-Verzeichnis komplett kopiert habe, wurden alle Einstellungen übernommen – daher kann ich leider keinen Einrichtungsleitfaden erstellen.
Meiner persönlichen Meinung nach teilt es sich bei Macs und Nvidia DGX Spark in Unified Memory auf, bei den übrigen in die Kombination aus RAM und VRAM.
Bei einigen Produkten wird der VRAM der integrierten Grafikkarte zudem so umgesetzt, dass dafür der System-RAM verwendet wird.
Für Nicht-Experten würde ich einen Mac oder Nvidia DGX Spark empfehlen; wenn man selbst einigermaßen bereit ist, sich durchzubeißen, kann AMD die bessere Wahl sein.
Jede Option hat ihre jeweiligen Vor- und Nachteile.
Bei Macs, Nvidia DGX Spark usw. besteht der Nachteil darin, dass man den Arbeitsspeicher nicht selbst aufrüsten kann und die Konfiguration daher vor dem Kauf festlegen muss.
Bei AMD hat man den Vorteil, den RAM selbst aufrüsten zu können, allerdings gibt es Grenzen bei der VRAM-Zuweisung.
Wenn man also mehr als 128 GB als VRAM nutzen möchte, ist Mac Studio aus dieser Perspektive die vorteilhafteste Option.
Es gibt zwar weniger Raum für Bastelei, aber beim Mac Studio ist Inferenz zwar ordentlich, für Training jedoch nachteilig. (Beim Training langsamer als AMD)
Beim Nvidia DGX Spark besteht der Nachteil, dass man für eine Konfiguration mit mehr als 128 GB Speicher sogar noch ein separates Kabel von Nvidia kaufen muss. Für KI-Training ist es jedoch die Option mit dem geringsten Bastelaufwand, weil CUDA grundsätzlich verwendet wird. Außerdem gibt es Gerüchte, dass die Leistung abgesehen vom VRAM auf dem Niveau einer 5070 liegt, und es gibt Grenzen bei der Speicherbandbreite ... (wenn man Training in Betracht zieht, eine solide Wahl)
VRAM-Zuweisung über integrierte Grafik
Wegen der zuletzt gestiegenen Speicherpreise ist das zwar eine etwas enttäuschende Option, aber wenn man die RAM-Optionen berücksichtigt, immer noch deutlich günstiger als ein Mac. Der Nachteil ist jedoch, dass AMD ROCm nicht ausreichend ausgereift ist und man sich daher selbst durchkämpfen muss, weshalb ich es Nicht-Experten nicht empfehle. (Außerdem ist es faktisch unmöglich, den VRAM noch weiter zu erhöhen ...)
So ungefähr lässt sich das wohl zusammenfassen.
Wenn man nur das Preis-Leistungs-Verhältnis betrachtet, ist AMD schon gut ... Wenn man es jedoch möglichst bequem haben möchte, ist auch Mac Studio keine schlechte Option. Wenn man nur Inferenz betrachtet, fällt es durchaus in einen guten Preis-Leistungs-Bereich ...
Bei AMD besteht zwar der Vorteil, dass sich der Arbeitsspeicher direkt aufrüsten lässt, aber bei der Zuweisung von VRAM gibt es Einschränkungen.
-> Diesen Teil habe ich ohne saubere Einordnung geschrieben, daher war er missverständlich. Wenn System-RAM und VRAM getrennt werden, lässt sich ein Teil davon in manchen Fällen aufrüsten; bei Laptops gibt es jedoch oft auch Modelle, bei denen das nicht möglich ist.
Ich habe nicht länger auf die 5070Ti Super gewartet, mich stattdessen von Radeon verführen lassen und nutze jetzt dieses Setup.
Ich habe die Partition aufgeteilt, Ubuntu 24.10 installiert und ROCm 7.1 aufgesetzt. Damit läuft auf der ComfyUI-Seite, wo ich LLM Inference und ungefähr PyTorch nutze, alles ohne größere Probleme.
Ein kleiner Nachteil ist, dass SageAttention nicht funktioniert, aber wenn man den Preis bedenkt, nehme ich das einfach hin.
Ich habe überlegt, ein großes Mac Studio zu kaufen, aber mir war nicht klar, dass es inzwischen so viele Optionen rund um Home-LLMs gibt.
Darf ich fragen, wie Sie das Setup auf der Strix-Seite konfigurieren?
Ich habe Strix Halo noch nicht gekauft, aber auf einem ähnlichen Gaming-PC mit AMD-GPU habe ich mit 16 GB vRAM grob 600 Millionen mögliche Fälle berechnet.
Ich habe das System nur einmal eingerichtet und dann währenddessen nach und nach recherchiert, daher ist meine Erinnerung nicht ganz genau.
Da ich Bazzite nutze, waren die Grafiktreiber bereits installiert, also gab es nichts Besonderes. Ich habe ROCm und die zugehörigen Module in Rocky Linux innerhalb von distrobox installiert und dann verschiedene GPU-beschleunigte Berechnungen ausgeführt.
Da die Speicherbandbreite schnell und hoch ist, wäre vielleicht auch ein Mac Studio eine Überlegung wert? Mit der Option 128 GB / 2 TB kostet er allerdings 4.000 Dollar. Dass es sich um eine Mac-Architektur handelt, dürfte im Vergleich zu einer AMD-Lösung keinen großen Unterschied machen.
Ich werde mich an Ihrer Antwort orientieren.
Vielen Dank für Ihre freundliche Antwort!
Laut einem auf https://www.youtube.com/watch?v=Pww8rIzr1pg basierenden Vergleich von Gemini
📊 Vergleich der 128-GB-LLM-Ausführungsoptionen (Stand November 2025, Benchmarks berücksichtigt)
Konfigurationsoption (128 GB) T/s (geschätzt) Systemleistung (geschätzt) T/W (Energieeffizienz) Systemkosten (geschätzt) Kosten/T (Preis-Leistung)
NVIDIA "Spark" (GB10) 120 T/s 400 W 0,30 ~5,2 Mio. Won 43.300 Won/T
4 x RTX 5080 32GB (neu) 240 T/s 1500 W 0,16 ~12,0 Mio. Won 50.000 Won/T
6 x RTX 3090 (gebraucht) 90 T/s 2300 W 0,04 ~7,0 Mio. Won 78.000 Won/T
AMD Strix Halo (128GB) 30 T/s 180 W 0,17 ~2,6 Mio. Won 86.700 Won/T
Apple M3 Max (128GB) 22 T/s 100 W 0,22 ~6,0 Mio. Won 273.000 Won/T
💡 Analyse und Fazit (Fehler korrigiert)
Ich korrigiere meinen gravierenden Fehler und analysiere den Inhalt des Videos erneut auf korrekter Grundlage.
Ein Video dazu, dass ein Quad-3090-Setup innerhalb eines 4K-Budgets eine deutlich bessere Leistung als DGX Spark bietet
https://www.youtube.com/watch?v=md6a4ENM9pg
Die Behauptung, dass Strix Halo als Maschine zum Ausführen lokaler LLMs ein miserabler Kauf ist
https://reddit.com/r/LocalLLaMA/…
Der zentrale Punkt scheint zu sein, dass der Stromverbrauch kaum ein wichtiges Kriterium sein kann und man wegen der Bandbreite selbst dann wenig damit anfangen kann, wenn man große Modelle in den Speicher lädt...