Erfahrungsbericht zum Aufbau einer lokalen Home-LLM-Maschine

6 Punkte von popopo 2025-11-09 | 9 Kommentare | Auf WhatsApp teilen

Nachdem ich die Nvidia DGX Spark gesehen hatte, hatte ich große Erwartungen an den GB10, aber nach den Reviews überwiegt eher die Enttäuschung. Es scheint, als würde die Speicherbandbreite die übrige Leistung ausbremsen.

Es gab auch Fälle, in denen die Leistung auf dem Niveau von AMD Strix Halo lag oder sogar besser war.

(Sie kommt zwar mit 64 GB Unified Memory auf den Markt, optional sind aber 128 GB und eine Zuweisung von 96 GB vRAM möglich.)

FP4-Unterstützung, CUDA, und bei einer Erweiterung mit ConnectX-7 kommen zwar noch 128 GB Speicher hinzu, aber der Gerätepreis liegt bei mehr als dem Doppelten von Strix Halo, daher ist das für mich schwer zu rechtfertigen.

Auch wenn AMD ROCm im Vergleich zu CUDA ein schwächeres Ökosystem hat, laufen die Programme, die ich bisher gebaut habe, problemlos, deshalb tendiere ich eher in diese Richtung (ein 128-GB-2-TB-SoC ist für etwa 3 Millionen Won erhältlich). Mich würde interessieren, wie ihr euer System unter Berücksichtigung von Budget und Stromverbrauch zusammengestellt habt.

Ich plane mit AMD Strix Halo, als OS soll das Fedora-basierte Bazzite dienen. Grafiktreiber sind dort standardmäßig bereits installiert, und wenn ich Distrobox und mise einrichte, sollten meine selbst entwickelten Programme und die benötigten Modelle darauf laufen.

9 Kommentare

popopo 2025-11-18

Der mit dem Singles’ Day-Rabatt gekaufte Strix-Halo-Rechner ist angekommen, ich habe Bazzite installiert und mit distrobox ein paar Bildgenerierungen ausprobiert. Die Leistung entsprach wie erwartet meinen Erwartungen (bei LLMs war sie allerdings nicht besonders hoch). Man kann ihn einfach als leistungsstarken Mini-PC betrachten.

Es heißt, man könne bei Unified Memory mehr als 96 GB als vRAM zuweisen, aber vielleicht lässt sich das wegen der dynamischen Änderung nicht prüfen – jedenfalls habe ich bisher noch nie mehr als 96 GB zugewiesen gesehen.

Für die Konfiguration habe ich die Website https://strixhalo.wiki/ als Referenz verwendet. Dort gibt es auch eine Vergleichstabelle zum Kaufleitfaden (Strix Halo - Mac - DGS Spark - 6000), die hilfreich sein dürfte.

Bazzite-Werbung: Das OS wird als unveränderliches Image verwaltet, andere Programme über „Batterien“ (flatpak, brew usw.). Mit dem Update-Befehl werden vom Firmware-Stand bis zu allen Paketen sämtliche Updates eingespielt. Wenn das OS irgendwie zugemüllt wirkt, muss man nur den Benutzerpfad aufräumen (am OS selbst kann man auf üblichem Weg nichts verändern). Die AMD-Treiber sind alle installiert, daher kann ROMc sofort verwendet werden.

Das als Container-Startplattform gedachte OS ist eigentlich Fedora CoreOS; Bazzite, das darauf diverse Benutzereinstellungen aufsetzt, ist aber auch für den normalen Einsatz und die Entwicklung praktisch und bietet eine sehr hohe Nutzerfreundlichkeit. Container (distrobox), wine und tailscale sind standardmäßig installiert. Wenn man dazu noch mise einrichtet, lässt sich damit praktisch jede gewünschte Funktion verwalten.

Eigentlich wollte ich beim Einrichten von Anfang an gleich einen Leitfaden erstellen, aber weil ich einfach mein bisher verwendetes Bazzite-Benutzerkonto-Verzeichnis komplett kopiert habe, wurden alle Einstellungen übernommen – daher kann ich leider keinen Einrichtungsleitfaden erstellen.

minsuchae 2025-11-11

Meiner persönlichen Meinung nach teilt es sich bei Macs und Nvidia DGX Spark in Unified Memory auf, bei den übrigen in die Kombination aus RAM und VRAM.
Bei einigen Produkten wird der VRAM der integrierten Grafikkarte zudem so umgesetzt, dass dafür der System-RAM verwendet wird.
Für Nicht-Experten würde ich einen Mac oder Nvidia DGX Spark empfehlen; wenn man selbst einigermaßen bereit ist, sich durchzubeißen, kann AMD die bessere Wahl sein.
Jede Option hat ihre jeweiligen Vor- und Nachteile.

Bei Macs, Nvidia DGX Spark usw. besteht der Nachteil darin, dass man den Arbeitsspeicher nicht selbst aufrüsten kann und die Konfiguration daher vor dem Kauf festlegen muss.
Bei AMD hat man den Vorteil, den RAM selbst aufrüsten zu können, allerdings gibt es Grenzen bei der VRAM-Zuweisung.

Wenn man also mehr als 128 GB als VRAM nutzen möchte, ist Mac Studio aus dieser Perspektive die vorteilhafteste Option.
Es gibt zwar weniger Raum für Bastelei, aber beim Mac Studio ist Inferenz zwar ordentlich, für Training jedoch nachteilig. (Beim Training langsamer als AMD)

Beim Nvidia DGX Spark besteht der Nachteil, dass man für eine Konfiguration mit mehr als 128 GB Speicher sogar noch ein separates Kabel von Nvidia kaufen muss. Für KI-Training ist es jedoch die Option mit dem geringsten Bastelaufwand, weil CUDA grundsätzlich verwendet wird. Außerdem gibt es Gerüchte, dass die Leistung abgesehen vom VRAM auf dem Niveau einer 5070 liegt, und es gibt Grenzen bei der Speicherbandbreite ... (wenn man Training in Betracht zieht, eine solide Wahl)

VRAM-Zuweisung über integrierte Grafik
Wegen der zuletzt gestiegenen Speicherpreise ist das zwar eine etwas enttäuschende Option, aber wenn man die RAM-Optionen berücksichtigt, immer noch deutlich günstiger als ein Mac. Der Nachteil ist jedoch, dass AMD ROCm nicht ausreichend ausgereift ist und man sich daher selbst durchkämpfen muss, weshalb ich es Nicht-Experten nicht empfehle. (Außerdem ist es faktisch unmöglich, den VRAM noch weiter zu erhöhen ...)

So ungefähr lässt sich das wohl zusammenfassen.
Wenn man nur das Preis-Leistungs-Verhältnis betrachtet, ist AMD schon gut ... Wenn man es jedoch möglichst bequem haben möchte, ist auch Mac Studio keine schlechte Option. Wenn man nur Inferenz betrachtet, fällt es durchaus in einen guten Preis-Leistungs-Bereich ...

minsuchae 2025-11-11

Bei AMD besteht zwar der Vorteil, dass sich der Arbeitsspeicher direkt aufrüsten lässt, aber bei der Zuweisung von VRAM gibt es Einschränkungen.
-> Diesen Teil habe ich ohne saubere Einordnung geschrieben, daher war er missverständlich. Wenn System-RAM und VRAM getrennt werden, lässt sich ein Teil davon in manchen Fällen aufrüsten; bei Laptops gibt es jedoch oft auch Modelle, bei denen das nicht möglich ist.

dhy0613 2025-11-11

Ich habe nicht länger auf die 5070Ti Super gewartet, mich stattdessen von Radeon verführen lassen und nutze jetzt dieses Setup.

9800x3D
gebrauchte 7900 XTX
96 GB RAM

Ich habe die Partition aufgeteilt, Ubuntu 24.10 installiert und ROCm 7.1 aufgesetzt. Damit läuft auf der ComfyUI-Seite, wo ich LLM Inference und ungefähr PyTorch nutze, alles ohne größere Probleme.

Ein kleiner Nachteil ist, dass SageAttention nicht funktioniert, aber wenn man den Preis bedenkt, nehme ich das einfach hin.

clastneo 2025-11-10

Ich habe überlegt, ein großes Mac Studio zu kaufen, aber mir war nicht klar, dass es inzwischen so viele Optionen rund um Home-LLMs gibt.
Darf ich fragen, wie Sie das Setup auf der Strix-Seite konfigurieren?

popopo 2025-11-10

Ich habe Strix Halo noch nicht gekauft, aber auf einem ähnlichen Gaming-PC mit AMD-GPU habe ich mit 16 GB vRAM grob 600 Millionen mögliche Fälle berechnet.

Ich habe das System nur einmal eingerichtet und dann währenddessen nach und nach recherchiert, daher ist meine Erinnerung nicht ganz genau.

Da ich Bazzite nutze, waren die Grafiktreiber bereits installiert, also gab es nichts Besonderes. Ich habe ROCm und die zugehörigen Module in Rocky Linux innerhalb von distrobox installiert und dann verschiedene GPU-beschleunigte Berechnungen ausgeführt.

Da die Speicherbandbreite schnell und hoch ist, wäre vielleicht auch ein Mac Studio eine Überlegung wert? Mit der Option 128 GB / 2 TB kostet er allerdings 4.000 Dollar. Dass es sich um eine Mac-Architektur handelt, dürfte im Vergleich zu einer AMD-Lösung keinen großen Unterschied machen.

clastneo 2025-11-11

Ich werde mich an Ihrer Antwort orientieren.
Vielen Dank für Ihre freundliche Antwort!

popopo 2025-11-09

Laut einem auf https://www.youtube.com/watch?v=Pww8rIzr1pg basierenden Vergleich von Gemini

📊 Vergleich der 128-GB-LLM-Ausführungsoptionen (Stand November 2025, Benchmarks berücksichtigt)

Berücksichtigung des Videoinhalts: Basierend auf den Benchmarks von Hardware Unboxed liegt Strix Halo vor dem M3 Max (ca. 30–35 % schneller), und das GB10-"Spark"-System zeigt eine deutlich überlegene dedizierte NPU-/GPU-Leistung gegenüber diesen APUs/integrated chipsets. (Basierend auf Llama 3 70B Q4 Inference in T/s)

Konfigurationsoption (128 GB) T/s (geschätzt) Systemleistung (geschätzt) T/W (Energieeffizienz) Systemkosten (geschätzt) Kosten/T (Preis-Leistung)
NVIDIA "Spark" (GB10) 120 T/s 400 W 0,30 ~5,2 Mio. Won 43.300 Won/T
4 x RTX 5080 32GB (neu) 240 T/s 1500 W 0,16 ~12,0 Mio. Won 50.000 Won/T
6 x RTX 3090 (gebraucht) 90 T/s 2300 W 0,04 ~7,0 Mio. Won 78.000 Won/T
AMD Strix Halo (128GB) 30 T/s 180 W 0,17 ~2,6 Mio. Won 86.700 Won/T
Apple M3 Max (128GB) 22 T/s 100 W 0,22 ~6,0 Mio. Won 273.000 Won/T

💡 Analyse und Fazit (Fehler korrigiert)

Ich korrigiere meinen gravierenden Fehler und analysiere den Inhalt des Videos erneut auf korrekter Grundlage.

Champion bei „Kosten pro Leistung (Cost/T)“: NVIDIA "Spark" (GB10)  

    Cost/T (Preis-Leistung): 43.300 Won/T  

    Wie im Hardware-Unboxed-Video gezeigt, liefert das 'Spark'-System für 3999 $ eine deutlich bessere LLM-Inference-Leistung (T/s) als das 'Strix Halo'-System für 2000 $.  

    Dadurch sind die Systemaufbaukosten pro Token (Cost/T) unter allen Optionen am niedrigsten, womit es der Champion beim Preis-Leistungs-Verhältnis ist.  

    Auch T/W (Energieeffizienz) liegt bei 0,30 und ist damit gegenüber Multi-GPU-Konfigurationen deutlich effizienter.  

Champion beim „absoluten Budget“: AMD Strix Halo (128GB)  

    Cost/T (Preis-Leistung): 86.700 Won/T  

    Der Wert dieses Systems liegt nicht in der absoluten Geschwindigkeit (30 T/s), sondern darin, dass man mit den überwältigend niedrigen Kosten von **ca. 2,6 Mio. Won (2000 $)** in eine 128-GB-VRAM-Umgebung einsteigen kann.  

    Wie im Video bestätigt wird, übertrifft es den M3 Max und ist damit für einzelne Entwickler eine hervorragende Einstiegsoption.  

Champion bei der „absoluten Geschwindigkeit“: 4 x RTX 5080 32GB  

    T/s (Geschwindigkeit): 240 T/s  

    Integrierte Systeme wie 'Spark' oder 'Strix Halo' sind zwar stark bei der Inference, können aber Grenzen haben, wenn es darum geht, Modelle selbst zu fine-tunen.  

    Wenn man neben der schnellsten Inference-Geschwindigkeit auch die Flexibilität möchte, Modelle selbst zu trainieren oder zu modifizieren, bleibt eine Konfiguration mit mehreren dedizierten GPUs (4 x 5080) weiterhin die stärkste Option.

popopo 2025-11-10

Ein Video dazu, dass ein Quad-3090-Setup innerhalb eines 4K-Budgets eine deutlich bessere Leistung als DGX Spark bietet

https://www.youtube.com/watch?v=md6a4ENM9pg

Die Behauptung, dass Strix Halo als Maschine zum Ausführen lokaler LLMs ein miserabler Kauf ist

https://reddit.com/r/LocalLLaMA/…

Der zentrale Punkt scheint zu sein, dass der Stromverbrauch kaum ein wichtiges Kriterium sein kann und man wegen der Bandbreite selbst dann wenig damit anfangen kann, wenn man große Modelle in den Speicher lädt...

Erfahrungsbericht zum Aufbau einer lokalen Home-LLM-Maschine

Verwandte Beiträge

9 Kommentare