3 Punkte von GN⁺ 2024-09-09 | 2 Kommentare | Auf WhatsApp teilen
  • Dedizierter LLM-Server mit 8 RTX-3090-Grafikkarten. Insgesamt 192GB VRAM
  • Gebaut mit Blick auf die Ausführung von Metas Llama-3.1 405B

Hintergrund

  • Im März gab es Schwierigkeiten, LLM-Experimente mit 48GB VRAM durchzuführen
  • Es entstand das Gefühl, dass mehr VRAM nötig ist, also fiel die Entscheidung für den Aufbau eines neuen Systems
  • Dabei kamen verschiedene Fragen auf: Wahl von CPU/Plattform, Bedeutung der Speichergeschwindigkeit, Bedarf an PCIe-Lanes usw.
  • Nach vielen Stunden Recherche fiel die Wahl auf die folgende Plattform
    • Asrock Rack ROMED8-2T Mainboard (7x PCIe 4.0x16 Slots, 128 PCIe-Lanes)
    • AMD Epyc Milan 7713 CPU (2.00 GHz/3.675GHz Boost, 64 Kerne/128 Threads)
    • 512GB DDR4-3200 3DS RDIMM-Arbeitsspeicher
    • 3 Netzteile mit jeweils 1600 Watt
    • 8x RTX 3090 GPU (4x NVLink, 112GB/s Datentransferrate pro Paar)

Vorschau auf die Blogserie

  • Herausforderungen beim Zusammenbau dieses Systems
    • Löcher in einen Metallrahmen bohren und einen 30-Ampere-/240-Volt-Schutzschalter hinzufügen
    • Verbogene CPU-Sockel-Pins (bitte nicht zu Hause nachmachen)
  • Probleme mit PCIe-Risern sowie die Bedeutung von SAS-Device-Adaptern, Redrivern und Retimern
  • NVLink-Geschwindigkeit, PCIe-Lane-Bandbreite, VRAM-Transferraten und Nvidias softwareseitige Sperre der nativen P2P-PCIe-Bandbreite
  • Benchmarking von Inference-Engines wie TensorRT-LLM, vLLM und Aphrodite Engine
  • Eigenes LLM-Training und Fine-Tuning

Fazit

  • Beim Blick auf den technischen Fortschritt erinnert der Autor sich an die Aufregung, 2004 eine 60GB-HDD bekommen zu haben
  • Vielleicht wird man in 20 Jahren auf die Zeit zurückblicken, in der 192GB VRAM als viel galten
  • Mit diesem Projekt möchte der Autor dazu beitragen, coole Technologien der Zukunft zu schaffen

GN⁺-Zusammenfassung

  • Dieser Artikel behandelt den Aufbau eines Hochleistungsservers für AI-Modelle
  • Er erklärt, wie sich mit aktuellen GPUs und einer leistungsstarken CPU ein LLM-Server aufbauen lässt
  • Er vermittelt das Tempo des technischen Fortschritts und die Vorfreude auf die Zukunft
  • Vergleichbare Projekte mit ähnlicher Funktion sind etwa Nvidias DGX-Systeme oder Googles TPU

2 Kommentare

 
brainer 2024-09-09

Ich kann nur neidisch sein ..

 
GN⁺ 2024-09-09
Hacker-News-Kommentare
  • Erster Kommentar: Hat einen eigenen Server zum Schutz persönlicher Daten aufgebaut. Bereut es nicht, dafür Geld ausgegeben zu haben, da die Qualität der Ausgaben der Plattformen zuletzt nachgelassen hat.

    • Nutzt Tensor-Parallelismus und Batch-Inferenz, um beeindruckende Dinge zu tun
    • Feinjustiert Modelle mit persönlichen Daten und erzeugt synthetische Daten
    • Baut derzeit als Lernprojekt ein Modell von Grund auf neu auf und plant, ein Tutorial zu schreiben, sobald die Probleme gelöst sind
    • Hat einen Blog gestartet und plant eine Reihe von Beiträgen über Lernen und Erkenntnisse
    • Ist bereit, Themen oder Ideen entgegenzunehmen, mit denen experimentiert werden soll
  • Zweiter Kommentar: Meint, dass man sich vielleicht irgendwann an die Zeit zurückerinnern wird, als 192 GB VRAM viel erschienen.

    • Große HDDs für NAS sind schwerer zu kaufen geworden, und die Preise sind stark gestiegen
    • Erwartet, dass im AI-Bereich etwas Ähnliches passieren wird
    • Große Cloud-Anbieter interessieren sich nicht für günstige Hardware für Privatanwender und wollen Daten lieber über Cloud-Services abschöpfen
  • Dritter Kommentar: Projekt, das mit 8 GPUs einen 4K-Monitor in eine randlose Mini-Pixel-Wand verwandelt

    • Ein Projekt für lokale Videokomposition und AI-generierte Hintergründe
    • Erwähnt das Beispiel von "The Mandalorian" und liefert fotorealistische Hintergründe in Echtzeit
  • Vierter Kommentar: Fragt sich, wie hilfreich NVLink ist

    • Hat ein 2x-3090-Rig gebaut und fragt sich, ob sich mit EPYC mehr Karten nutzen lassen
    • Die Gesamtkosten liegen bei etwa 3500 $, diese Konfiguration dürfte eher bei 12–15k $ liegen
  • Fünfter Kommentar: Sehr cool, aber teuer, wenn man es nicht rund um die Uhr produktiv nutzt

  • Sechster Kommentar: Fragt nach einem Kostenvergleich mit Tinybox

    • 25k $ bei 6x 4090, 15k $ bei 6x 7900XTX
    • Komplettpaket inklusive Netzteil, CPU, Speicher, Kühlung, Zusammenbau und Versand
  • Siebter Kommentar: Hat eine ähnliche Konfiguration im Keller

    • Besteht aus mehreren Nodes und nutzt insgesamt 16x 3090
    • Musste einen 30A-240V-Stromkreis installieren
  • Achter Kommentar: Fragt sich, wie 8 GPUs angeschlossen werden, wenn das Motherboard 7 PCIe-Slots hat

    • Fragt, ob zwei GPUs im selben Slot genutzt werden und dadurch die Bandbreite begrenzt wird
  • Neunter Kommentar: Fragt sich, wie die 8. Karte angeschlossen wird, wenn es 7 PCIe-4.0-x16-Slots gibt

  • Zehnter Kommentar: Freut sich darauf, diese Reihe zu lesen

    • Möchte Diagramme/Daten zum Kosten-Leistungs-Verhältnis von Open-Source-Modellen finden
    • Möchte einen $/ELO-Wert finden, der die Kosten für Aufbau und Betrieb der Maschine sowie die durchschnittliche Leistung des Modells ausdrückt