KI aus dem Keller – 192 GB + 8x RTX 3090

(ahmadosman.com)

3 Punkte von GN⁺ 2024-09-09 | 1 Kommentare | Auf WhatsApp teilen

Da private LLM-Experimente größer werden, wurde zu Hause ein dedizierter KI-Server mit 8x RTX 3090 und insgesamt 192 GB VRAM aufgebaut
Die bisherige Umgebung mit 48 GB VRAM reichte nicht mehr aus, um mit den Experimenten Schritt zu halten; daher wurde auf einen Multi-GPU-Node erweitert, der auch den Betrieb von Metas Llama-3.1 405B im Blick hat
Im Zentrum der Konfiguration stehen ein Asrock Rack ROMED8-2T, ein AMD Epyc Milan 7713, 512 GB DDR4-3200 RDIMM, drei 1600-W-Netzteile sowie acht RTX 3090, die über 4x NVLink gekoppelt sind
NVLink bietet pro GPU-Paar eine Übertragungsrate von 112 GB/s; Engpässe wie PCIe-Lanes, Riser, Inference-Engines und Fine-Tuning bleiben wichtige Themen für Folgebeiträge
Der Aufbau eines großen LLM-Servers für zu Hause ist möglich, doch Montageprobleme und kostspielige Fehler sind zahlreich – die Wahl der Hardware und der Validierungsprozess entscheiden über Erfolg oder Misserfolg

Ziele des LLM-Servers im Keller

Das neueste Nebenprojekt AI from The Basement ist ein dedizierter LLM-Server mit 8x RTX 3090-Grafikkarten und insgesamt 192 GB VRAM
Eines der Ziele ist der Betrieb von Metas Llama-3.1 405B
Bisher wurden für LLM-Experimente 48 GB VRAM genutzt, doch etwa im März 2024 wurde klar, dass diese Kapazität nicht mehr ausreicht, um mit den Experimenten Schritt zu halten
Bei der Hardware-Auswahl wurden CPU und Plattform, Speichergeschwindigkeit, Anzahl der PCIe-Lanes, GPU-Konfigurationen mit 2^n GPUs, Tensor-Parallelität und die Wahl der Inference-Engine gemeinsam geprüft

Hardware-Konfiguration und Streitpunkte beim Aufbau

Die finale Plattform besteht aus einer Server-Mainboard-Klasse, einer EPYC-CPU, viel Arbeitsspeicher, mehreren Netzteilen und einer Kombination aus acht GPUs
- Asrock Rack ROMED8-2T-Mainboard: 7x PCIe 4.0 x16-Slots, 128 PCIe-Lanes
- AMD Epyc Milan 7713-CPU: 2,00 GHz, Boost 3,675 GHz, 64 Kerne/128 Threads
- 512 GB DDR4-3200 3DS RDIMM-Arbeitsspeicher
- Drei 1600-W-Netzteile
- 8x RTX 3090-GPUs und 4x NVLink
NVLink bietet zwischen jedem GPU-Paar eine Datenübertragungsrate von 112 GB/s
Beim tatsächlichen Zusammenbau traten physische Probleme auf, etwa das Bohren von Löchern in den Metallrahmen, das Hinzufügen eines 30-A-240-V-Leitungsschutzschalters und verbogene Pins am CPU-Sockel
Für Probleme mit PCIe-Risern und fehlerfreie PCIe-Verbindungen wird auch die Bedeutung von SAS Device Adapter, Redriver und Retimer behandelt
In Folgebeiträgen sollen die NVLink-Geschwindigkeit, die Bandbreite der PCIe-Lanes, die VRAM-Übertragungsgeschwindigkeit sowie Nvidias Entscheidung folgen, native P2P-PCIe-Bandbreite auf Softwareebene zu blockieren
Benchmarks von Inference-Engines mit Unterstützung für Tensor-Parallelität wie TensorRT-LLM, vLLM und Aphrodite Engine sowie eigenes LLM-Training und Fine-Tuning bleiben ebenfalls nächste Themen
Als Beispiel für technischen Fortschritt wird die Erfahrung angeführt, sich 2004 über eine 60-GB-HDD gefreut zu haben, während 20 Jahre später die Grafikkarten einer einzelnen Maschine mehr als das Dreifache dieser Kapazität besitzen
Ziel des Projekts ist es, dazu beizutragen, künftig großartige Dinge zu schaffen; vielleicht wird man eines Tages zurückblicken und 192 GB VRAM gar nicht mehr als viel ansehen
Part II of this Blogpost Series ist als Fortsetzung verfügbar

1 Kommentare

brainer 2024-09-09

Ich kann nur neidisch sein ..

KI aus dem Keller – 192 GB + 8x RTX 3090

Ziele des LLM-Servers im Keller

Hardware-Konfiguration und Streitpunkte beim Aufbau

Verwandte Beiträge

1 Kommentare