Ein Nvidia-GH200-Server für 7.500 Euro zum Desktop umgebaut
(dnhkng.github.io)- Nvidia Grace-Hopper-GH200-Server wurden zu einem privaten KI-Desktop umgebaut und erreichen eine Leistung, mit der sich 235B-Parameter-Modelle lokal ausführen lassen
- Auf Reddit wurde ein gebrauchter GH200-Aufbau für 7.500 Euro gekauft und ein wasserkühlter Datacenter-Server zu einem luftgekühlten Desktop rekonstruiert
- Wegen Kühlungs-, Strom- und Sensorproblemen wurden zahlreiche Hardware-Troubleshooting-Maßnahmen durchgeführt, unter anderem die Anzeige einer GPU-Temperatur von 16,777,214 °C, Beschädigungen im Lüfterkreis und manuelle Lötreparaturen
- Am Ende wurde ein stabiles System aus 4 AIO-Wasserkühlern, einem CNC-gefrästen Adapter und 3D-gedruckten Teilen aufgebaut
- Mit Gesamtkosten von rund 9.000 Euro wurde eine extrem leistungsfähige KI-Workstation gebaut, günstiger als eine einzelne H100-GPU
Kauf und Spezifikation des Grace-Hopper-Servers
- Im Reddit-Subreddit r/LocalLLaMA wurde ein Angebot für einen 10.000-Euro-GH200-Server entdeckt, nach Verhandlung für 7.500 Euro gekauft
- Konfiguration: 2× Grace-Hopper Superchip, 2× 72-Core Grace-CPU, 2× H100-GPU, 480 GB LPDDR5X, 96 GB HBM3, insgesamt 1.152 GB Hochgeschwindigkeits-Speicher
- NVLink-C2C-Bandbreite 900 GB/s, Strombedarf 1.000–2.000 W, 3.000-W-PSU inklusive
- Der Verkäufer war GPTshop.ai, ein Unternehmen, das Nvidia-Server für den Desktop-Umbau verkauft
- Das System war ursprünglich eine Art Frankenstein-System, in dem ein wasserkühlter Server in Luftkühlung umgewandelt wurde
- Es war grob aufgebaut, nicht für Rack-Einbau geeignet und mit einem 48V-Netzteil ausgestattet
Demontage und Reinigung des Servers
- Der Server war stark verschmutzt, und die 8 Hochleistungs-Lüfter erzeugten Lärm auf Staubsauger-Niveau
- Da er im Haushalt wegen der Lautstärke nicht nutzbar war, wurde er zerlegt, anschließend gereinigt und wieder zusammengesetzt
- Die gesamte Hauptplatine wurde mit mehreren Litern Isopropanol gereinigt und eine Woche auf einer Heizmatte getrocknet
- Zur Prüfung des internen Zustands der Grace-Hopper-Module wurde der Server zerlegt und die innere Struktur inspiziert
Neuaufbau des Flüssigkeitskühlsystems
- Wegen des Leckagerisikos wurden statt benutzerdefinierter Kühlblöcke 4 Arctic Liquid Freezer III 420 AIO-Kühler eingesetzt
- Nach der Vermessung der GPU- und CPU-Die-Abmessungen wurden die Adapterblöcke in Fusion 360 entworfen
- Ein Prototyp wurde mit einem Bambu X1 3D-Drucker gefertigt, die finalen Teile anschließend durch CNC-Bearbeitung erstellt
- Nach der Bearbeitung wurden Restöle entfernt, die Teile montiert und die Kühlleistung gesichert
Desktop-Zusammenbau
- Der Rahmen wurde aus ProfilAlu-Aluminiumprofilen gefertigt und in Fusion 360 entworht
- Dutzende PCB- und Filter-Mounting-Komponenten wurden im 3D-Druck hergestellt
- Mehrere Kilogramm Filament wurden eingesetzt, um die Struktur zu stabilisieren
Aufgetretene Hauptprobleme
- Beim Anschließen der Lüfterstromversorgung kam es zu einem „Pop“-Geräusch mit Rauchentwicklung, und ein Teil des Lüfter-Header-Kreises wurde beschädigt
- Wahrscheinlich wurden MOSFETs durch eine falsche Stromberechnung beschädigt
- Die Lüfterversorgung wurde stattdessen durch einen separaten 12V-5A-Adapter ersetzt
- Durch den Lüfterfehler blockierte der BMC (Baseboard Management Controller) den Bootvorgang
- Mit Deaktivierung von
phosphor-sensor-monitor.servicewurde die Lüfterprüfung umgangen
- Mit Deaktivierung von
GPU-Temperaturfehler und Schaltungsreparatur
- Beim Booten wurde eine GPU-Temperatur von 16,777,214 °C angezeigt, worauf das System automatisch abschaltete
- Das entspricht dem Maximalwert eines 24-Bit-Integerwerts (2²⁴-2) und bedeutet einen Sensor-Signalfehler
- Bei mikroskopischer Prüfung wurden ein beschädigter 100nF-Kondensator und ein 4,7kΩ-Widerstand festgestellt
- Die Schaltung wurde fein gelötet repariert und mit UV-Material fixiert
- Nach der Wiederzusammensetzung startete das System erfolgreich normal
Finale Konfiguration und Leistung
- Zusätzlich gefertigte Teile:
- 8TB E1.S SSD-Montage, Rückwand-Panel für 3-kW-Netzteil, Schutzgitter für den Radiator
- Das GPU-Initialisierungsproblem wurde durch Deaktivieren von NVLink behoben
NVreg_NvLinkDisable=1wurde in/etc/modprobe.d/nvidia-disable-nvlink.confergänzt
Benchmark-Ergebnisse
- Mit 144 Kernen dauerte der Build von Llama.cpp 90 Sekunden, bei Tests großer Modelle:
- gpt-oss-120b-Q4_K_M: Prompt 2974.79, Token 195.84
- GLM-4.5-Air-Q4_K_M: Prompt 1936.65, Token 100.71
- Qwen3-235B-A22B-Instruct: Prompt 1022.79, Token 65.90
- Etwa 300 W Verbrauch pro GPU, ausreichend Reserve gegenüber der Obergrenze von 900 W
Kostenaufstellung
- Nvidia Grace-Hopper-Server 7.500 €, SSD 250 €, CNC-Adapter 700 €, Wasserkühler 180 €
- Rahmen 200 €, Glasabdeckung 40 €, 3D-Druckmaterial 40 €, weitere Teile 50 €
- Isopropanol für Reinigung 20 €, 12V-Versorgung 10 €, LED-Beleuchtung 10 €
- Gesamtkosten rund 9.000 €, günstiger als eine einzelne H100-GPU
Fazit
- Es wurde ein Desktop fertiggestellt, der Modelle mit 235B Parametern lokal ausführen kann
- Beim Umstieg von Rechenzentrums-Hardware auf den privaten Einsatz wurden zahlreiche Hürden wie Sensorfehler, Schaltungsbeschädigungen und Kühlprobleme überwunden
- Dadurch wurde eine hochleistungsfähige KI-Forschungs-Workstation zu niedrigen Kosten aufgebaut
1 Kommentare
Hacker-News-Kommentare
Ich habe KI-Hardware aus dem Rechenzentrum gekauft und sie von Flüssigkühlung → Luftkühlung → wieder Flüssigkühlung umgebaut. Dabei gab es unzählige Krisen, darunter GPU-Temperaturen, die mit 16 Millionen Grad angezeigt wurden, und am Ende stand ein Desktop, auf dem zu Hause ein Modell mit 235B Parametern laufen kann.
Das ist eine Geschichte über leichtsinnige Entscheidungen, kreative Problemlösung und den Versuch, Rechenzentrums-Hardware alltagstauglich zu machen
Es hat eine Woche gedauert, das zu finden, und dank Reddit konnte ich es lösen. Ich frage mich, ob so ein Problem in jedem Rechenzentrum auftreten kann
Ich habe auch etwas Ähnliches erlebt. Drei Jahre lang wollte ich einen Rack-Gaming-Server bauen, den ich mit meinem Sohn nutzen kann, aber unser Haus ist klein und meine Frau war nicht einverstanden, also habe ich die PV-Anlage meiner Eltern (90 kWp) und deren Rack-Server genutzt.
Vor zwei Monaten habe ich auf eBay einen Supermicro SYS-7049GP-TRT für 1.400 Euro gekauft und beim Öffnen festgestellt, dass eine Nvidia V100S 32GB darin steckte. Die habe ich für 1.600 Euro verkauft und davon zwei Xeon-6254-CPUs gekauft und eingebaut. Danach habe ich zwei Blackwell RTX 4000 Pro gekauft, sodass mein Sohn und ich jetzt damit spielen und auch mit LLMs experimentieren können.
In dieses Gehäuse passen vier Dual-GPUs, also könnte ich irgendwann vielleicht auf vier RTX 6000 aufrüsten (insgesamt 384 GB VRAM). Gebrauchte Enterprise-Hardware ist robust und bietet viel fürs Geld, deshalb ist das wirklich ein tolles Hobby
Es ist lustig, dass ein 20-kg-Server für 7,5k Euro auf einem IKEA-LACK-Tisch für 5 Euro steht. LACK ist nur bis 25 kg belastbar, das wirkt riskant
Die Formulierung „Ich bin zwei Stunden gefahren, um es abzuholen“ ist lustig. Im wahrsten Sinne: Your mileage may vary
Beeindruckend ist auch, dass er, nachdem der Weg zur funktionierenden GPU so schmerzhaft war, die Installationsbefehle für nachfolgende Entdecker hinterlassen hat.
Man musste den NVIDIA-Linux-aarch64-Treiber installieren, und jedes Mal, wenn ich solche unbegreiflichen Befehle sehe, denke ich: „Ja, da war ich auch schon“
Mal ganz ernsthaft gefragt: Mich würde interessieren, ob solche Geräte tatsächlich auch beim Gaming gut sind. Sie sind ja für AI/ML optimiert, vielleicht laufen normale Spiele darauf sogar eher schlecht.
Und bei der Stelle mit dem „Bauernhaus im Wald“ habe ich mich auch gefragt, ob das nicht vielleicht riskant war
Solche Beiträge sind wirklich großartig. Genau solche DIY-Erfolgsgeschichten machen den Reiz von Hacker News aus
Natürlich ist es immer noch ein guter Deal, aber der Vergleich mit dem Neupreis eines H100 ist etwas überzogen. Man kann inzwischen eine RTX 6000 Pro für 7.000 bis 8.000 Dollar kaufen, bei ähnlicher Leistung. Außerdem passt sie in normale Workstations. Die Abschreibung gebrauchter Enterprise-Hardware ist enorm
Blackwell ist bei FP8 doppelt so schnell wie H100, aber hier wird FP4 verglichen, deshalb sieht es in der Praxis anders aus. Auch die VRAM-Bandbreite liegt mit HBM3 bei 4,9 TB/s und ist damit 2,5-mal so hoch wie die 1,8 TB/s der RTX 6000 Pro
NVLink-C2C erreicht 900 GB/s zwischen den Karten, also etwa das Fünffache von PCIe5, was bei großen LLMs Engpässe verringert
Zum Beispiel erzeugt die RTX 6000 Pro im GPT-OSS-120B-Benchmark 145 Token pro Sekunde, der GH200 dagegen 195 Token pro Sekunde
Es fühlt sich an, als würde jemand wirklich den Cyberpunk-Traum leben. Großer Respekt vor dem Mut, so etwas auszuprobieren
Ich hätte gern Empfehlungen für Shops, bei denen man gebrauchte Enterprise-Hardware kaufen kann. Die meisten scheinen in Kalifornien zu sitzen; mich würde interessieren, ob es auch welche im Raum New York/New Jersey gibt