3 Punkte von GN⁺ 2025-02-02 | 1 Kommentare | Auf WhatsApp teilen
  • Das auf einem AMD-EPYC-Rome-System basierende Deepseek-AI-Rig liefert eine beeindruckende Leistung
  • Mit dem Q4-671b-Modell werden 4,25 bis 3,5 TPS erreicht, was zeigt, dass der Betrieb auch nur mit der CPU gut möglich ist
  • Das System kann auch ohne große GPU-VRAM-Kapazität betrieben werden und ist ein spannendes Projekt für alle, die technische Herausforderungen mögen.
  • Von den destillierten Versionen wird eher abgeraten, daher wird die Nutzung des „Full Model“ empfohlen
    • Es unterstützt ein Kontextfenster von mehr als 16K und bietet dadurch eine bessere Leistung

Local AI CPU Compute Hardware

  • Ein nach dem bisherigen Quad-3090-Guide aufgebautes System ist weiterhin leistungsfähig. Das Mainboard MZ32-AR0 ermöglicht eine kostengünstige Konfiguration mit 512 GB bis 1 TB System-RAM. Verwendet wird derzeit 2400er DDR4-RAM, mit DDR4-ECC-RAM mit 3200 MT/s ist jedoch möglicherweise eine bessere Leistung erreichbar.
  • Komponenten und Kosten:
    • Rack-Rahmen: $55
    • MZ32-AR0-Mainboard: $500
    • 420-mm-Wasserkühlung Corsair h170i elite capellix xt: $170
    • 64-Core AMD EPYC 7702: $650
    • 512 GB 2400 ECC RAM: $400
    • 1 TB NVMe – Samsung 980 Pro: $75
    • 850-W-PSU: $80
  • Gesamtkosten: etwa $2000

Rack-Montage

  • Der Aufbau erfolgt wie im bestehenden Guide, jedoch ohne GPU und Riser-Karten
  • Wenn später eine GPU ergänzt werden soll, empfiehlt es sich, von Anfang an ein 1500W- oder 1600W-PSU zu verwenden
  • Um die Temperatur der RAM-Sticks zu senken, wird empfohlen, eine Fan Wall mit vier 80-mm-Lüftern zu bauen

Hinweise zum Mainboard-Upgrade

  • Bei Verwendung einer AMD EPYC 7V13 CPU wird ein Mainboard in der MZ32-AR0-V3-Version empfohlen
  • Das V1-Mainboard unterstützt Milan-CPUs möglicherweise nicht, weshalb ein BIOS-Update auf V3 erforderlich sein kann

Einrichtung selbstgehosteter lokaler AI-Software

  • Es wird empfohlen, die Server-Version von Ubuntu 24.04 zu installieren
  • Über die BMC-Konfiguration wird die Netzwerk-IP auf eine statische IP gesetzt
  • In den BIOS-Einstellungen werden folgende Änderungen vorgenommen:
    • NPS auf 1 setzen
    • CCD auf Auto setzen
    • SMT deaktivieren
    • SVM deaktivieren
    • IOMMU deaktivieren
    • cTDP auf 200 setzen
    • deterministic control auf manual setzen und den Regler auf performance stellen
    • quick power policy auf performance stellen
    • BoostFMax auf manual setzen und den Wert auf 3400 einstellen

Installation von Ollama

  • Ollama wird mit den folgenden Befehlen installiert:

    curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz  
    sudo tar -C /usr -xzf ollama-linux-amd64.tgz  
    sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama  
    sudo usermod -a -G ollama $(whoami)  
    
  • Anschließend werden Umgebungsvariablen gesetzt und eine Datei ollama.service erstellt, um den Dienst als Service zu registrieren

Download des DeepSeek-671b-Modells

  • Das DeepSeek-671b-Modell wird mit folgendem Befehl heruntergeladen:

    ollama pull deepseek-r1:671b  
    
  • Das Modell belegt rund 400 GB Speicherplatz, daher sollte ausreichend Speicher vorhanden sein

Installation von OpenWEBUI

  • OpenWEBUI wird mit Docker installiert
  • Mit Docker Compose wird der OpenWEBUI-Service eingerichtet und gestartet

Verbindung von OpenWEBUI und Ollama

  • In den Einstellungen von OpenWEBUI wird der Ollama-Server hinzugefügt und der Verbindungsstatus geprüft
  • In den erweiterten Parametern werden GPU-Einstellungen, Reasoning Effort, Context Length, num_thread usw. konfiguriert

Testlauf

  • In OpenWEBUI wird ein neuer Chat gestartet und das Modell DeepSeek-r1:671b für einen Testdialog ausgewählt

Wenn du diesem Guide folgst, kannst du das Modell DeepSeek R1 671b mit einem Budget von rund $2000 lokal ausführen

1 Kommentare

 
GN⁺ 2025-02-02
Hacker-News-Kommentare
  • Die Kosten, um das 671B-Modell in Q4-Quantisierung auf einem Single-Socket-EPYC-Server auszuführen, liegen bei 2.000 $, mit 512 GB RAM. In Q8 liefert es auf einem Dual-Socket-EPYC-Server mit 768 GB RAM 6–8 TPS und kostet 6.000 $. Es wird gefragt, wie sich die RAM-Geschwindigkeit auf die TPS auswirkt.

  • Online kostet R1 2 $/MTok, und diese Hardware schafft mehr als 4 tok/s, was Kosten von 0,04 $ pro Stunde verursacht. Die Stromkosten werden auf 0,20 $ pro Stunde geschätzt. Abgesehen von der Privatsphäre scheint das nicht besonders sinnvoll.

  • Das Merkwürdige an der heutigen AI ist, dass man die besten Modelle ausführen möchte, die Hardwarekosten aber hoch sind. In den 1990er-Jahren konnte man Linux auf günstiger Hardware ausführen. Moderne AI-Modelle benötigen mehr RAM. Es wird gefragt, ob es so etwas früher auch schon gab. Computerspiele könnten ein gutes Beispiel sein.

  • Es wäre interessanter, mit kleineren Modellen (33b–70b) 5–10 Tokens pro Sekunde zu erreichen. Es besteht kein Wunsch, Geld für eine GPU für 3.000 $ oder Hardware für 2.000 $ auszugeben.

  • Es wird gefragt, ob kleine Modelle, die nur Englisch und Spanisch übersetzen, oder Modelle, die Unix-Utilities und bash verstehen, sinnvoll wären. Unklar ist, ob eine Einschränkung der Trainingsinhalte die Ergebnisqualität oder Modellgröße beeinflusst.

  • Mit einem EPYC 9274F und 384 GB RAM wurde eine Workstation aufgebaut, aber die erwartete Leistung blieb aus. Verschiedene Benchmark-Tests wurden durchgeführt, doch das Ergebnis lag nicht einmal bei der Hälfte des Fujitsu-Benchmarks.

  • Es ist überraschend, dass die NVIDIA Digits für 3.000 $ nicht häufiger erwähnt wird. Man war AI gegenüber skeptisch, plant nun aber, DeepSeek lokal auszuführen.

  • Es ist erstaunlich, was man für 2.000 $ kaufen kann. Gesucht werden Vorschläge für den Bau eines stromsparenden Desktops.

  • Als YouTuber werden Statistiken zu Stromverbrauch und RAM-Geschwindigkeit geteilt. Der Leerlaufverbrauch liegt bei 60 W, unter Last bei 260 W, und die RAM-Geschwindigkeit beträgt 2400.

  • Das Modell wurde auf r6a.16xlarge ausgeführt, aber nach dem ersten Prompt dauert das Laden des Modells lange. Mit 512 GB RAM lässt sich keine Kontextgröße von mehr als 4k verwenden. Möglicherweise wurde etwas übersehen, da keine Vertrautheit mit den Modelleinstellungen besteht.