- Dedizierter LLM-Server mit 8 RTX-3090-Grafikkarten. Insgesamt 192GB VRAM
- Gebaut mit Blick auf die Ausführung von Metas Llama-3.1 405B
Hintergrund
- Im März gab es Schwierigkeiten, LLM-Experimente mit 48GB VRAM durchzuführen
- Es entstand das Gefühl, dass mehr VRAM nötig ist, also fiel die Entscheidung für den Aufbau eines neuen Systems
- Dabei kamen verschiedene Fragen auf: Wahl von CPU/Plattform, Bedeutung der Speichergeschwindigkeit, Bedarf an PCIe-Lanes usw.
- Nach vielen Stunden Recherche fiel die Wahl auf die folgende Plattform
- Asrock Rack ROMED8-2T Mainboard (7x PCIe 4.0x16 Slots, 128 PCIe-Lanes)
- AMD Epyc Milan 7713 CPU (2.00 GHz/3.675GHz Boost, 64 Kerne/128 Threads)
- 512GB DDR4-3200 3DS RDIMM-Arbeitsspeicher
- 3 Netzteile mit jeweils 1600 Watt
- 8x RTX 3090 GPU (4x NVLink, 112GB/s Datentransferrate pro Paar)
Vorschau auf die Blogserie
- Herausforderungen beim Zusammenbau dieses Systems
- Löcher in einen Metallrahmen bohren und einen 30-Ampere-/240-Volt-Schutzschalter hinzufügen
- Verbogene CPU-Sockel-Pins (bitte nicht zu Hause nachmachen)
- Probleme mit PCIe-Risern sowie die Bedeutung von SAS-Device-Adaptern, Redrivern und Retimern
- NVLink-Geschwindigkeit, PCIe-Lane-Bandbreite, VRAM-Transferraten und Nvidias softwareseitige Sperre der nativen P2P-PCIe-Bandbreite
- Benchmarking von Inference-Engines wie TensorRT-LLM, vLLM und Aphrodite Engine
- Eigenes LLM-Training und Fine-Tuning
Fazit
- Beim Blick auf den technischen Fortschritt erinnert der Autor sich an die Aufregung, 2004 eine 60GB-HDD bekommen zu haben
- Vielleicht wird man in 20 Jahren auf die Zeit zurückblicken, in der 192GB VRAM als viel galten
- Mit diesem Projekt möchte der Autor dazu beitragen, coole Technologien der Zukunft zu schaffen
GN⁺-Zusammenfassung
- Dieser Artikel behandelt den Aufbau eines Hochleistungsservers für AI-Modelle
- Er erklärt, wie sich mit aktuellen GPUs und einer leistungsstarken CPU ein LLM-Server aufbauen lässt
- Er vermittelt das Tempo des technischen Fortschritts und die Vorfreude auf die Zukunft
- Vergleichbare Projekte mit ähnlicher Funktion sind etwa Nvidias DGX-Systeme oder Googles TPU
2 Kommentare
Ich kann nur neidisch sein ..
Hacker-News-Kommentare
Erster Kommentar: Hat einen eigenen Server zum Schutz persönlicher Daten aufgebaut. Bereut es nicht, dafür Geld ausgegeben zu haben, da die Qualität der Ausgaben der Plattformen zuletzt nachgelassen hat.
Zweiter Kommentar: Meint, dass man sich vielleicht irgendwann an die Zeit zurückerinnern wird, als 192 GB VRAM viel erschienen.
Dritter Kommentar: Projekt, das mit 8 GPUs einen 4K-Monitor in eine randlose Mini-Pixel-Wand verwandelt
Vierter Kommentar: Fragt sich, wie hilfreich NVLink ist
Fünfter Kommentar: Sehr cool, aber teuer, wenn man es nicht rund um die Uhr produktiv nutzt
Sechster Kommentar: Fragt nach einem Kostenvergleich mit Tinybox
Siebter Kommentar: Hat eine ähnliche Konfiguration im Keller
Achter Kommentar: Fragt sich, wie 8 GPUs angeschlossen werden, wenn das Motherboard 7 PCIe-Slots hat
Neunter Kommentar: Fragt sich, wie die 8. Karte angeschlossen wird, wenn es 7 PCIe-4.0-x16-Slots gibt
Zehnter Kommentar: Freut sich darauf, diese Reihe zu lesen