- Nvidia Grace-Hopper-GH200-Server wurden zu einem privaten KI-Desktop umgebaut und erreichen eine Leistung, mit der sich 235B-Parameter-Modelle lokal ausführen lassen
- Auf Reddit wurde ein gebrauchter GH200-Aufbau für 7.500 Euro gekauft und ein wasserkühlter Datacenter-Server zu einem luftgekühlten Desktop rekonstruiert
- Wegen Kühlungs-, Strom- und Sensorproblemen wurden zahlreiche Hardware-Troubleshooting-Maßnahmen durchgeführt, unter anderem die Anzeige einer GPU-Temperatur von 16,777,214 °C, Beschädigungen im Lüfterkreis und manuelle Lötreparaturen
- Am Ende wurde ein stabiles System aus 4 AIO-Wasserkühlern, einem CNC-gefrästen Adapter und 3D-gedruckten Teilen aufgebaut
- Mit Gesamtkosten von rund 9.000 Euro wurde eine extrem leistungsfähige KI-Workstation gebaut, günstiger als eine einzelne H100-GPU
Kauf und Spezifikation des Grace-Hopper-Servers
- Im Reddit-Subreddit r/LocalLLaMA wurde ein Angebot für einen 10.000-Euro-GH200-Server entdeckt, nach Verhandlung für 7.500 Euro gekauft
- Konfiguration: 2× Grace-Hopper Superchip, 2× 72-Core Grace-CPU, 2× H100-GPU, 480 GB LPDDR5X, 96 GB HBM3, insgesamt 1.152 GB Hochgeschwindigkeits-Speicher
- NVLink-C2C-Bandbreite 900 GB/s, Strombedarf 1.000–2.000 W, 3.000-W-PSU inklusive
- Der Verkäufer war GPTshop.ai, ein Unternehmen, das Nvidia-Server für den Desktop-Umbau verkauft
- Das System war ursprünglich eine Art Frankenstein-System, in dem ein wasserkühlter Server in Luftkühlung umgewandelt wurde
- Es war grob aufgebaut, nicht für Rack-Einbau geeignet und mit einem 48V-Netzteil ausgestattet
Demontage und Reinigung des Servers
- Der Server war stark verschmutzt, und die 8 Hochleistungs-Lüfter erzeugten Lärm auf Staubsauger-Niveau
- Da er im Haushalt wegen der Lautstärke nicht nutzbar war, wurde er zerlegt, anschließend gereinigt und wieder zusammengesetzt
- Die gesamte Hauptplatine wurde mit mehreren Litern Isopropanol gereinigt und eine Woche auf einer Heizmatte getrocknet
- Zur Prüfung des internen Zustands der Grace-Hopper-Module wurde der Server zerlegt und die innere Struktur inspiziert
Neuaufbau des Flüssigkeitskühlsystems
- Wegen des Leckagerisikos wurden statt benutzerdefinierter Kühlblöcke 4 Arctic Liquid Freezer III 420 AIO-Kühler eingesetzt
- Nach der Vermessung der GPU- und CPU-Die-Abmessungen wurden die Adapterblöcke in Fusion 360 entworfen
- Ein Prototyp wurde mit einem Bambu X1 3D-Drucker gefertigt, die finalen Teile anschließend durch CNC-Bearbeitung erstellt
- Nach der Bearbeitung wurden Restöle entfernt, die Teile montiert und die Kühlleistung gesichert
Desktop-Zusammenbau
- Der Rahmen wurde aus ProfilAlu-Aluminiumprofilen gefertigt und in Fusion 360 entworht
- Dutzende PCB- und Filter-Mounting-Komponenten wurden im 3D-Druck hergestellt
- Mehrere Kilogramm Filament wurden eingesetzt, um die Struktur zu stabilisieren
Aufgetretene Hauptprobleme
- Beim Anschließen der Lüfterstromversorgung kam es zu einem „Pop“-Geräusch mit Rauchentwicklung, und ein Teil des Lüfter-Header-Kreises wurde beschädigt
- Wahrscheinlich wurden MOSFETs durch eine falsche Stromberechnung beschädigt
- Die Lüfterversorgung wurde stattdessen durch einen separaten 12V-5A-Adapter ersetzt
- Durch den Lüfterfehler blockierte der BMC (Baseboard Management Controller) den Bootvorgang
- Mit Deaktivierung von
phosphor-sensor-monitor.service wurde die Lüfterprüfung umgangen
GPU-Temperaturfehler und Schaltungsreparatur
- Beim Booten wurde eine GPU-Temperatur von 16,777,214 °C angezeigt, worauf das System automatisch abschaltete
- Das entspricht dem Maximalwert eines 24-Bit-Integerwerts (2²⁴-2) und bedeutet einen Sensor-Signalfehler
- Bei mikroskopischer Prüfung wurden ein beschädigter 100nF-Kondensator und ein 4,7kΩ-Widerstand festgestellt
- Die Schaltung wurde fein gelötet repariert und mit UV-Material fixiert
- Nach der Wiederzusammensetzung startete das System erfolgreich normal
Finale Konfiguration und Leistung
- Zusätzlich gefertigte Teile:
- 8TB E1.S SSD-Montage, Rückwand-Panel für 3-kW-Netzteil, Schutzgitter für den Radiator
- Das GPU-Initialisierungsproblem wurde durch Deaktivieren von NVLink behoben
NVreg_NvLinkDisable=1 wurde in /etc/modprobe.d/nvidia-disable-nvlink.conf ergänzt
Benchmark-Ergebnisse
- Mit 144 Kernen dauerte der Build von Llama.cpp 90 Sekunden, bei Tests großer Modelle:
- gpt-oss-120b-Q4_K_M: Prompt 2974.79, Token 195.84
- GLM-4.5-Air-Q4_K_M: Prompt 1936.65, Token 100.71
- Qwen3-235B-A22B-Instruct: Prompt 1022.79, Token 65.90
- Etwa 300 W Verbrauch pro GPU, ausreichend Reserve gegenüber der Obergrenze von 900 W
Kostenaufstellung
- Nvidia Grace-Hopper-Server 7.500 €, SSD 250 €, CNC-Adapter 700 €, Wasserkühler 180 €
- Rahmen 200 €, Glasabdeckung 40 €, 3D-Druckmaterial 40 €, weitere Teile 50 €
- Isopropanol für Reinigung 20 €, 12V-Versorgung 10 €, LED-Beleuchtung 10 €
- Gesamtkosten rund 9.000 €, günstiger als eine einzelne H100-GPU
Fazit
- Es wurde ein Desktop fertiggestellt, der Modelle mit 235B Parametern lokal ausführen kann
- Beim Umstieg von Rechenzentrums-Hardware auf den privaten Einsatz wurden zahlreiche Hürden wie Sensorfehler, Schaltungsbeschädigungen und Kühlprobleme überwunden
- Dadurch wurde eine hochleistungsfähige KI-Forschungs-Workstation zu niedrigen Kosten aufgebaut
Noch keine Kommentare.