3 Punkte von GN⁺ 2024-09-09 | 1 Kommentare | Auf WhatsApp teilen
  • Da private LLM-Experimente größer werden, wurde zu Hause ein dedizierter KI-Server mit 8x RTX 3090 und insgesamt 192 GB VRAM aufgebaut
  • Die bisherige Umgebung mit 48 GB VRAM reichte nicht mehr aus, um mit den Experimenten Schritt zu halten; daher wurde auf einen Multi-GPU-Node erweitert, der auch den Betrieb von Metas Llama-3.1 405B im Blick hat
  • Im Zentrum der Konfiguration stehen ein Asrock Rack ROMED8-2T, ein AMD Epyc Milan 7713, 512 GB DDR4-3200 RDIMM, drei 1600-W-Netzteile sowie acht RTX 3090, die über 4x NVLink gekoppelt sind
  • NVLink bietet pro GPU-Paar eine Übertragungsrate von 112 GB/s; Engpässe wie PCIe-Lanes, Riser, Inference-Engines und Fine-Tuning bleiben wichtige Themen für Folgebeiträge
  • Der Aufbau eines großen LLM-Servers für zu Hause ist möglich, doch Montageprobleme und kostspielige Fehler sind zahlreich – die Wahl der Hardware und der Validierungsprozess entscheiden über Erfolg oder Misserfolg

Ziele des LLM-Servers im Keller

  • Das neueste Nebenprojekt AI from The Basement ist ein dedizierter LLM-Server mit 8x RTX 3090-Grafikkarten und insgesamt 192 GB VRAM
  • Eines der Ziele ist der Betrieb von Metas Llama-3.1 405B
  • Bisher wurden für LLM-Experimente 48 GB VRAM genutzt, doch etwa im März 2024 wurde klar, dass diese Kapazität nicht mehr ausreicht, um mit den Experimenten Schritt zu halten
  • Bei der Hardware-Auswahl wurden CPU und Plattform, Speichergeschwindigkeit, Anzahl der PCIe-Lanes, GPU-Konfigurationen mit 2^n GPUs, Tensor-Parallelität und die Wahl der Inference-Engine gemeinsam geprüft

Hardware-Konfiguration und Streitpunkte beim Aufbau

  • Die finale Plattform besteht aus einer Server-Mainboard-Klasse, einer EPYC-CPU, viel Arbeitsspeicher, mehreren Netzteilen und einer Kombination aus acht GPUs
    • Asrock Rack ROMED8-2T-Mainboard: 7x PCIe 4.0 x16-Slots, 128 PCIe-Lanes
    • AMD Epyc Milan 7713-CPU: 2,00 GHz, Boost 3,675 GHz, 64 Kerne/128 Threads
    • 512 GB DDR4-3200 3DS RDIMM-Arbeitsspeicher
    • Drei 1600-W-Netzteile
    • 8x RTX 3090-GPUs und 4x NVLink
  • NVLink bietet zwischen jedem GPU-Paar eine Datenübertragungsrate von 112 GB/s
  • Beim tatsächlichen Zusammenbau traten physische Probleme auf, etwa das Bohren von Löchern in den Metallrahmen, das Hinzufügen eines 30-A-240-V-Leitungsschutzschalters und verbogene Pins am CPU-Sockel
  • Für Probleme mit PCIe-Risern und fehlerfreie PCIe-Verbindungen wird auch die Bedeutung von SAS Device Adapter, Redriver und Retimer behandelt
  • In Folgebeiträgen sollen die NVLink-Geschwindigkeit, die Bandbreite der PCIe-Lanes, die VRAM-Übertragungsgeschwindigkeit sowie Nvidias Entscheidung folgen, native P2P-PCIe-Bandbreite auf Softwareebene zu blockieren
  • Benchmarks von Inference-Engines mit Unterstützung für Tensor-Parallelität wie TensorRT-LLM, vLLM und Aphrodite Engine sowie eigenes LLM-Training und Fine-Tuning bleiben ebenfalls nächste Themen
  • Als Beispiel für technischen Fortschritt wird die Erfahrung angeführt, sich 2004 über eine 60-GB-HDD gefreut zu haben, während 20 Jahre später die Grafikkarten einer einzelnen Maschine mehr als das Dreifache dieser Kapazität besitzen
  • Ziel des Projekts ist es, dazu beizutragen, künftig großartige Dinge zu schaffen; vielleicht wird man eines Tages zurückblicken und 192 GB VRAM gar nicht mehr als viel ansehen
  • Part II of this Blogpost Series ist als Fortsetzung verfügbar

1 Kommentare

 
brainer 2024-09-09

Ich kann nur neidisch sein ..