KI aus dem Keller – 192 GB + 8x RTX 3090
(ahmadosman.com)- Da private LLM-Experimente größer werden, wurde zu Hause ein dedizierter KI-Server mit 8x RTX 3090 und insgesamt 192 GB VRAM aufgebaut
- Die bisherige Umgebung mit 48 GB VRAM reichte nicht mehr aus, um mit den Experimenten Schritt zu halten; daher wurde auf einen Multi-GPU-Node erweitert, der auch den Betrieb von Metas Llama-3.1 405B im Blick hat
- Im Zentrum der Konfiguration stehen ein Asrock Rack ROMED8-2T, ein AMD Epyc Milan 7713, 512 GB DDR4-3200 RDIMM, drei 1600-W-Netzteile sowie acht RTX 3090, die über 4x NVLink gekoppelt sind
- NVLink bietet pro GPU-Paar eine Übertragungsrate von 112 GB/s; Engpässe wie PCIe-Lanes, Riser, Inference-Engines und Fine-Tuning bleiben wichtige Themen für Folgebeiträge
- Der Aufbau eines großen LLM-Servers für zu Hause ist möglich, doch Montageprobleme und kostspielige Fehler sind zahlreich – die Wahl der Hardware und der Validierungsprozess entscheiden über Erfolg oder Misserfolg
Ziele des LLM-Servers im Keller
- Das neueste Nebenprojekt AI from The Basement ist ein dedizierter LLM-Server mit 8x RTX 3090-Grafikkarten und insgesamt 192 GB VRAM
- Eines der Ziele ist der Betrieb von Metas Llama-3.1 405B
- Bisher wurden für LLM-Experimente 48 GB VRAM genutzt, doch etwa im März 2024 wurde klar, dass diese Kapazität nicht mehr ausreicht, um mit den Experimenten Schritt zu halten
- Bei der Hardware-Auswahl wurden CPU und Plattform, Speichergeschwindigkeit, Anzahl der PCIe-Lanes, GPU-Konfigurationen mit 2^n GPUs, Tensor-Parallelität und die Wahl der Inference-Engine gemeinsam geprüft
Hardware-Konfiguration und Streitpunkte beim Aufbau
- Die finale Plattform besteht aus einer Server-Mainboard-Klasse, einer EPYC-CPU, viel Arbeitsspeicher, mehreren Netzteilen und einer Kombination aus acht GPUs
- Asrock Rack ROMED8-2T-Mainboard: 7x PCIe 4.0 x16-Slots, 128 PCIe-Lanes
- AMD Epyc Milan 7713-CPU: 2,00 GHz, Boost 3,675 GHz, 64 Kerne/128 Threads
- 512 GB DDR4-3200 3DS RDIMM-Arbeitsspeicher
- Drei 1600-W-Netzteile
- 8x RTX 3090-GPUs und 4x NVLink
- NVLink bietet zwischen jedem GPU-Paar eine Datenübertragungsrate von 112 GB/s
- Beim tatsächlichen Zusammenbau traten physische Probleme auf, etwa das Bohren von Löchern in den Metallrahmen, das Hinzufügen eines 30-A-240-V-Leitungsschutzschalters und verbogene Pins am CPU-Sockel
- Für Probleme mit PCIe-Risern und fehlerfreie PCIe-Verbindungen wird auch die Bedeutung von SAS Device Adapter, Redriver und Retimer behandelt
- In Folgebeiträgen sollen die NVLink-Geschwindigkeit, die Bandbreite der PCIe-Lanes, die VRAM-Übertragungsgeschwindigkeit sowie Nvidias Entscheidung folgen, native P2P-PCIe-Bandbreite auf Softwareebene zu blockieren
- Benchmarks von Inference-Engines mit Unterstützung für Tensor-Parallelität wie TensorRT-LLM, vLLM und Aphrodite Engine sowie eigenes LLM-Training und Fine-Tuning bleiben ebenfalls nächste Themen
- Als Beispiel für technischen Fortschritt wird die Erfahrung angeführt, sich 2004 über eine 60-GB-HDD gefreut zu haben, während 20 Jahre später die Grafikkarten einer einzelnen Maschine mehr als das Dreifache dieser Kapazität besitzen
- Ziel des Projekts ist es, dazu beizutragen, künftig großartige Dinge zu schaffen; vielleicht wird man eines Tages zurückblicken und 192 GB VRAM gar nicht mehr als viel ansehen
- Part II of this Blogpost Series ist als Fortsetzung verfügbar
1 Kommentare
Ich kann nur neidisch sein ..