13 Punkte von GN⁺ 2025-02-12 | 3 Kommentare | Auf WhatsApp teilen
  • In die Entwicklung von KI-Tools wird viel Geld investiert, und viele Dienste werden trotz Verlusten betrieben
  • Dienste großer Technologiekonzerne werden kostenlos oder günstig angeboten, um den Markt zu beherrschen, und am Ende ist es wahrscheinlich, dass „KI-Modelle durch Werbung oder politische Interessen beeinflusst werden“
  • Die Lösung ist, „das eigene KI-Modell selbst zu betreiben“
    • Unternehmen wie DeepSeek wirbeln den Markt auf, indem sie ihre Modelle kostenlos veröffentlichen. Solche Modelle lassen sich von Verzerrungen befreien und auf persönlicher Hardware ausführen

Herausforderungen beim Aufbau eines persönlichen KI-Computers

  • Um ein LLM lokal auszuführen, braucht man eine leistungsstarke Grafikkarte von Nvidia oder ein Apple-Gerät
  • Je mehr Speicher vorhanden ist, desto größere Modelle lassen sich ausführen, was die Ausgabequalität deutlich verbessert
    • Nvidia-GPU oder Apple-Gerät erforderlich (beides teuer)
    • Mindestens 24 GB VRAM oder RAM erforderlich
  • Möglichkeit zur Kostensenkung: Gebrauchte Hardware zu kaufen ist eine Option; auch Speicherbandbreite und andere Spezifikationen sind wichtig

Aufbau eines kostengünstigen KI-Computers

  • Ziel: Ein System für rund 1700 Euro bauen, das KI-Modelle lokal ausführen kann
  • Endgültige Konfiguration:
    • HP Z440 Workstation (Xeon mit 12 Kernen, 128 GB RAM)
    • 2 Nvidia Tesla P40 GPUs (jeweils 24 GB VRAM, insgesamt 48 GB)
    • NZXT C850 Gold Netzteil
    • Gainward GT 1030 (Dummy-GPU für die Bildausgabe)
    • Individuelle Kühlungs-Lüfter und Stromadapter

Wichtige technische Probleme und Lösungsansätze

1. Kühlungsproblem bei Server-GPUs

  • Die Tesla P40 ist für den Einsatz in Server-Umgebungen ausgelegt und hat daher keinen eigenen Lüfter
  • Lösung: 3D-gedruckte Lüfterhalterung und erzwungene Luftstromsteuerung
  • Lüftergeschwindigkeit so anpassen, dass Temperatur und Lautstärke sinnvoll ausbalanciert sind

2. Kompatibilitätsprobleme der HP-Workstation

  • HP beschränkt das System auf eigene Komponenten
  • Zusätzlicher Kauf von Netzteil- und Board-Anschlussadaptern erforderlich

3. Boot-Probleme im BIOS

  • Die Tesla P40 hat keinen Display-Ausgang → Booten nicht möglich
  • Durch Hinzufügen einer günstigen GT 1030 GPU gelöst

Ergebnisse der Leistungstests

1. Inferenzgeschwindigkeit (Tokens pro Sekunde)

  • Mistral-Small (24B-Modell): 15.23
  • Gemma2 (27B-Modell): 13.90
  • Qwen2.5-Coder (32B-Modell): 10.75
  • Llama3.3 (70B-Modell): 5.35
  • DeepSeek-R1 (70B-Modell): 5.30

2. Stromverbrauch

  • Im Leerlauf verbraucht der Computer etwa 80 W
  • Beim Laden eines 32B-Modells steigt der Verbrauch auf 123 W, bei der Ausführung auf bis zu 241 W
  • Bei einem 70B-Modell werden 166 W beim Laden und bis zu 293 W im Betrieb verbraucht
  • Das heißt: Je größer das Modell, desto höher der Stromverbrauch. Da auch ein auf die GPU geladenes Modell bereits erheblich Strom verbraucht, ist eine Strategie wichtig, Modelle nur bei Bedarf geladen zu halten

Fazit: Lohnt sich der Aufbau eines persönlichen KI-Servers?

  • Erfolgreicher Aufbau eines vollständig unabhängigen KI-Systems
  • Mittelgroße Modelle lassen sich zu vergleichsweise geringen Kosten lokal ausführen
  • Zufriedenheit darüber, KI-Modelle auch ohne aktuelle teure Hardware betreiben zu können
  • Aufbau eines flexiblen Systems, das auf langfristige Veränderungen der KI-Technologie vorbereitet ist

3 Kommentare

 
crawler 2025-02-13

Es gab wohl auch ein Setup, das r1 ganz ohne GPU nur mit CPU und SSD laufen lässt, aber das wirkt auf mich etwas fragwürdig.

 
dhy0613 2025-02-13

| Für denselben Preis (1.799 Dollar) kann man einen Mac Mini mit 48 GB Unified Memory und M4 Pro kaufen. Er verbraucht wenig Strom, ist leise und dürfte leistungsfähiger sein als diese Konfiguration. Ich habe den Artikel gern gelesen, aber in derselben Situation würde ich einen Mac kaufen.

Genau das wollte ich sagen, aber dieser Kommentar auf Hacker News war schon da.

Da die Tokenpreise immer weiter fallen, denke ich mir: Wenn man nicht gerade Fine-Tuning betreiben oder Bilder erzeugen will, braucht man das nicht unbedingt ...

 
GN⁺ 2025-02-12
Hacker-News-Kommentare
  • Ich habe etwas Ähnliches gemacht und mir K80s und M40s günstig bei eBay besorgt. Die Treiber für die K80 waren ein echter Albtraum. 24 GB VRAM für 50 Dollar sind zwar verlockend, aber wegen der Treiberprobleme würde ich sie nicht empfehlen. Ich hatte eine HP-Workstation mit einem 1200-Watt-Netzteil, sodass ich die GPUs einbauen konnte. Diese GPUs haben keine eigene Kühlung, also habe ich mit einem 3D-Drucker Halterungen gefertigt und Noctua-Lüfter montiert, damit sie 24/7 laufen konnten. Es funktionierte deutlich besser als erwartet, und die Temperatur stieg nie über 60 Grad. Auch die CPU profitierte davon. Die Lüfter sitzen vorne und hinten im Gehäuse; der vordere saugt Luft an und der hintere bläst sie heraus. Direkt vor den GPUs sitzen außerdem zwei Lüfter. Die Workstation habe ich generalüberholt für 600 Dollar gekauft, die GPUs für 120 Dollar und die Lüfter für etwa 60 Dollar. Die STL-Dateien habe ich noch nicht hochgeladen, weil das ein sehr spezieller Anwendungsfall ist.

  • Für denselben Preis (1799 Dollar) kann man einen Mac Mini mit 48 GB Unified Memory und M4 Pro kaufen. Er verbraucht wenig Strom, ist leise und ist wahrscheinlich leistungsfähiger als dieses Setup. Ich habe den Artikel gern gelesen, aber in derselben Situation würde ich den Mac kaufen.

  • Ich würde gern eine Maschine für lokale LLMs bauen. Ich habe Modelle auf einem MBP M3 Max mit 128 GB RAM getestet und hätte gern einen dedizierten lokalen Server. Ich möchte Proxmox ausprobieren. OpenWebUI und LibreChat laufen bereits auf einem lokalen „App-Server“, und ich bin damit zufrieden. Aber jedes Mal, wenn ich über noch stärkere Hardware nachdenke, erscheint mir der ROI zu gering. Das gilt besonders in einer Branche, die sich so schnell verändert. Datenschutz ist zwar ein Faktor, den man nicht ignorieren kann, aber gegen die Kosten von Online-Inferenz kommt man nur schwer an.

  • Lokal gehostete Modelle sind niedlich und machen Spaß, schreiben witzige Scherze und können persönliche Aufgaben erledigen. Aber im Vergleich zu Modellen, auf die man per API zugreifen kann, reichen sie nicht heran. Es wäre schön, deepseek-r1-678b lokal laufen zu lassen, aber derzeit sind die Betriebskosten höher als die Investitionskosten.

  • Der Mittelweg ist, bei Bedarf einen GPU-VPS zu mieten. Man bekommt ein H100 für 2 Dollar pro Stunde. Das ist nicht so privat wie komplett lokal und offline, aber besser als eine SaaS-API. Ich hoffe, dass es in 1–3 Jahren kosteneffizient sein wird, lokal etwas wirklich Nützliches zu betreiben.

  • Wie andere schon gesagt haben, bekommt man für denselben Preis einen leistungsstarken Mac bei geringerem Stromverbrauch. Ich frage mich, warum Apple nicht in den Markt für Enterprise-AI-Chips einsteigt und mit Nvidia konkurriert. Apple sollte in der Lage sein, eigene ASICs zu entwerfen.

  • „Eigene AI besitzen“ ist als Hobby für zu Hause großartig, aber man versenkt viel Zeit und Geld in Hardware. Ich empfehle, sich die Dream Machine von Mitko Vasilev anzusehen. Wenn man keinen klaren Anwendungsfall hat, braucht man wahrscheinlich nur kleinere Modelle oder eine langsame Token-Generierung. Wenn das Ziel ist, AI zu bauen und zu verstehen, ist es wirtschaftlich sinnvoller, GPU/TPU bei Bedarf zu mieten.

  • Ich finde nicht, dass der Kauf von zwei Nvidia Tesla P40 für 660 Euro noch „Budget“ ist. Leute können „kleine“ oder „mittlere“ Modelle auch auf günstigeren Karten nutzen. Eine Nvidia Geforce RTX 3060 bekommt man auf dem Gebrauchtmarkt für 200–250 Euro. 48 GB VRAM ist zu viel, um es noch als Budget zu bezeichnen. Dieses Setup ist eher etwas für Semi-Profis oder Profis. Bei mittleren oder kleinen Modellen muss man Kompromisse eingehen, aber zu einem Budget gehört eben auch, Kompromisse zu machen.

  • Das Problem bei solchen Investitionen ist, dass nächsten Monat schon ein besseres Modell erscheinen kann. Vielleicht braucht man mehr RAM, vielleicht aber auch weniger als beim aktuellen Spitzenmodell. Mit Cloud-Infrastruktur lässt sich dieses Problem umgehen. Die Kosten pro Lauf sind zwar höher, aber bei sporadischer Nutzung kann man insgesamt sparen. Ich würde gern wissen, wie HN-Nutzer mit diesem Problem umgehen.

  • Ich frage mich, ob jemand schon einmal versucht hat, LLM-Inferenz auf einem SBC-Cluster laufen zu lassen. Zum Beispiel hat das Radxa ROCK 5C 32 GB Speicher und eine NPU und kostet etwa 300 Euro. Ich kenne mich mit der Architektur moderner LLMs nicht besonders gut aus, aber man sollte die Layer doch auf mehrere Nodes aufteilen können. Die zu übertragende Datenmenge ist nicht so groß. Es wäre sicher nicht so leistungsfähig wie ein moderner Mac oder eine Nvidia-GPU, könnte aber eine akzeptable und günstige Möglichkeit sein, viel Speicher zu bekommen. Mich würde auch der aktuelle Stand bei CPU+GPU-Inferenz interessieren. Die Prompt-Verarbeitung ist rechen- und speicherbegrenzt, während die Token-Generierung vor allem speicherbegrenzt ist. Ich frage mich, ob es Tools gibt, die für die anfängliche Prompt-Verarbeitung ein paar Layer auf die GPU laden und danach auf CPU-Inferenz umschalten. Bei meinem letzten Experiment konnte ich einige Layer auf der GPU und andere auf der CPU ausführen. Es scheint effizienter zu sein, alles zunächst auf der GPU laufen zu lassen und bei speicherbegrenzter Token-Generierung dann auf die CPU umzuschalten.