Ein Rechenzentrums-GPU für 200 £ in einen Gaming-PC einbauen

(blog.tymscar.com)

3 Punkte von GN⁺ 2026-06-01 | 2 Kommentare | Auf WhatsApp teilen

Um eine lokale LLM-Umgebung zu erweitern, für die eine RTX 4080 16GB allein nicht ausreichte, wurde für rund 200 £ zusätzlich eine gebrauchte Tesla V100 SXM2 16GB samt Adapter eingebaut, womit insgesamt 32 GB VRAM zur Verfügung stehen
Die V100 SXM2 ist eine Server-GPU ohne PCIe-Steckplatz, Display-Ausgang oder gewöhnlichen Stromanschluss, ließ sich aber mit einem SXM2-zu-PCIe-Adapter in einen Gaming-PC einbauen
Der Server-Lüfter war standardmäßig mit 82 dB für den Einsatz in Innenräumen unbrauchbar, konnte aber über ein PH2.0-2.54-mm-Jumper-Kabel an einen Mainboard-Lüfteranschluss angeschlossen werden, wodurch PWM-Steuerung und leiser Betrieb möglich wurden
Mit tensor splitting in llama.cpp wurde Qwen3.6-27B-MTP Q5_K_M auf RTX 4080 und V100 verteilt, wodurch 128k Kontext und etwa 32 tok/s Inferenzgeschwindigkeit erreicht wurden
Es ist nicht so elegant wie eine einzelne 32-GB-GPU, und Probleme mit Treibern, CUDA und warmen Neustarts bleiben bestehen, aber gebrauchte Server-GPUs können eine günstige Alternative zur lokalen LLM-VRAM-Erweiterung sein

Eine 32-GB-lokale-LLM-Umgebung für 200 £

Die RTX 4080 mit 16 GB VRAM reichte nicht aus, um die gewünschten lokalen Modelle auszuführen, daher wurde per Adapter eine gebrauchte Rechenzentrums-GPU in den Gaming-PC eingebaut
Eine Tesla V100 SXM2 16GB samt SXM2-zu-PCIe-Adapter wurde für zusammen etwa 200 £ gekauft, wodurch eine Umgebung mit insgesamt 32 GB VRAM über zwei GPUs entstand
Ein Modell mit 27 Milliarden Parametern wurde auf die zwei GPUs verteilt und mit rund 32 Tokens/s ausgeführt; sowohl das gesamte Modell als auch der Kontext passten in den VRAM
Es ist zwar nicht dasselbe Erlebnis wie mit einer einzelnen Consumer-GPU mit 32 GB, aber die VRAM-Kapazität wurde zu deutlich geringeren Kosten als bei einer RTX 5090 32GB erreicht

Tesla V100 SXM2 und Adapter

Die Tesla V100 SXM2 16GB ist eine GPU für NVIDIA-DGX-Server und Hyperscaler-Racks
- Es gibt keinen normalen PCIe-Steckplatz, keinen Display-Ausgang und keinen gewöhnlichen Stromanschluss
- Sie wird auf proprietären Boards im Server montiert und kommuniziert über NVLink
- Für den direkten Einsatz auf einem Mainboard ist ein separater Adapter nötig
Die V100 ist eine Volta-GPU mit 16 GB HBM2-Speicher und 5120 CUDA-Kernen
- Der eBay-Kaufpreis lag bei etwa 150 £
- Obwohl sie von 2017 stammt, sind Rechenleistung und VRAM für lokale LLMs noch immer brauchbar
HBM2-Speicherbandbreite ist ihr großer Vorteil
- Die V100 bietet mit einem 4096-Bit-Speicherbus 900 GB/s Bandbreite
- Das sind 22 % mehr als die 736 GB/s GDDR6X-Bandbreite der RTX 4080
- Auch mehr als Apple M3 Max mit 400 GB/s, M4 Max mit 546 GB/s und M5 Max mit 614 GB/s
Die AMD RX 7900 XTX liegt mit 24 GB GDDR6 und 960 GB/s Bandbreite leicht vor der V100, kostet aber über 700 £
- Die LLM-Inferenzunterstützung von ROCm wird im Vergleich zu CUDA noch als unausgereift bewertet
- Die V100 liefert 94 % der Bandbreite einer RX 7900 XTX für weniger als ein Viertel des Preises und funktioniert mit llama.cpp
Die RTX 5090 liegt mit 1.792 GB/s klar vor der V100, kostet aber über 2.000 £
- Bei LLM-Inferenz ist Speicherbandbreite ein wichtiger Engpass, der die Tokens/s bestimmt
Der SXM2-zu-PCIe-Adapter ist kein offizielles NVIDIA-Produkt und wird nicht offiziell unterstützt
- Es handelt sich um eine nackte Platine mit SXM2-Sockel auf der einen und PCIe-Edge-Connector auf der anderen Seite
- Der Preis lag bei rund 50 £, womit die Gesamtkonfiguration auf etwa 200 £ kam
- Dank des Adapters konnte die V100 16GB zusammen mit der RTX 4080 ins Mainboard gesteckt werden

Problem und Lösung bei der Server-Kühlung

Die V100 SXM2 wurde für industrielle Kühlung in 2U-Servern ausgelegt
- Der Lüfter des Adapters ist für einen normalen Raum viel zu laut
- Die mit der Apple Watch gemessene Lautstärke betrug 82 dB und wurde zwischen Küchenabfallzerkleinerer und Rasenmäher eingeordnet
Im Auslieferungszustand ließ sich der Lüfter nicht steuern
- Versuche mit nvidia-smi, Linux-Geräteerkennung und Windows Afterburner schlugen alle fehl
- Der Lüfter des Adapters scheint davon auszugehen, in einem Server-Rack dauerhaft mit 100 % zu laufen
Mit einem 9V-Batterietest wurde die Pin-Belegung des Lüfters geprüft
- Als Jumper auf VCC und Ground gesetzt und eine 9V-Batterie angelegt wurde, drehte sich der Lüfter
- Gegenüber dem Betrieb mit 12 V war er deutlich leiser, was auf Regelbarkeit hindeutete
Der Lüfter verhielt sich ähnlich wie ein Standard-PC-Gehäuselüfter
- Jumper wurden in den Lüfterstecker gesteckt und die andere Seite an einen freien Lüfteranschluss des Mainboards geführt
- Das Mainboard konnte die RPM auslesen und auch PWM steuern
- Selbst bei 10 % Drehzahl blieb die Temperatur unter Volllast unter 50 °C und war nahezu unhörbar
Das endgültige Kabel bestand aus einem 2.54mm male zu PH2.0 female Jumper-Kabel
- Der Lüfteranschluss des Adapters ist ein 4-poliger JST-PH2.0-Stecker
- Der Lüfteranschluss des Mainboards nutzt den Standard mit 0.1 inch bzw. 2,54 mm Raster
- Die PH2.0-female-Seite wurde mit Tachometer- und PWM-Pins des Lüfters verbunden, die 2.54mm-male-Seite mit dem Lüfteranschluss des Mainboards
- Mit einem etwa 2 £ teuren Jumper-Kabel und etwas Pin-Prüfung wurde das 82-dB-Problem gelöst

VRAM mit zwei GPUs erweitern

Die finale GPU-Konfiguration sah so aus
- RTX 4080: 16 GB VRAM, Ada-Architektur
- Tesla V100: 16 GB VRAM, Volta-Architektur
- Gesamt: 32 GB VRAM über beide GPUs
llama.cpp kann per tensor splitting ein Modell auf zwei GPUs verteilen
- Dabei werden Layer über den PCIe-Bus gepipelined
- Die RTX 4080 verarbeitet einen Teil der Layer, die V100 den Rest
- Es ist nicht schneller als eine einzelne 32-GB-GPU, funktioniert aber und kostet nur etwa 10 % einer 32-GB-GPU
Der Stromverbrauch der V100 wurde bei maximal etwa 150 W beobachtet
- Für eine GPU zur lokalen LLM-Inferenz ist das nicht klein, aber auch nicht außergewöhnlich hoch
Eine V100 mit 32 GB bleibt ebenfalls eine Option
- Sie kostet mehr als doppelt so viel wie das gekaufte Modell, bietet aber 32 GB HBM2 auf einer einzelnen Karte für einige hundert Pfund
- Zwei V100 mit 32 GB würden 64 GB VRAM ergeben und lägen laut Darstellung bei etwa 20 % des aktuellen RTX-5090-Preises
Das SXM2-Format unterstützt standardmäßig NVLink
- In einer korrekt aufgebauten Multi-GPU-Konfiguration könnten die GPUs mit hoher Bandbreite direkt kommunizieren
- Auch über den PCIe-Adapter war die tensor-split-Leistung ausreichend robust

Treiber und CUDA unter NixOS passend machen

Die Software-Konfiguration verlief dank NixOS vergleichsweise reibungslos
Die V100 nutzt einen Volta-Chip, und NVIDIA hat den Volta-Support ab Treiberzweig 560 eingestellt
- Der letzte Treiber, der sowohl RTX 4080 Ada als auch V100 Volta unterstützt, ist der Zweig 550.x
- Unter NixOS entspricht das nvidiaPackages.legacy_535
Dieser Treiber unterstützt nur bis CUDA 12.2
- Das aktuelle nixpkgs liefert CUDA 12.6 oder neuer
- Daher musste CUDA 12.2 aus nixpkgs 24.05 übernommen werden
Der Treiber verlangt einen Linux-Kernel 6.6
- Der Legacy-Treiber unterstützt neuere Kernel nicht
Obwohl es sich um einen Headless-Inferenzserver handelt, war services.xserver.enable = true nötig
- Ohne diese Einstellung wurde das NVIDIA-Kernelmodul nicht geladen
Die zentrale NixOS-Konfiguration bestand aus Kernel, NVIDIA-Legacy-Treiber und der Angabe des NVIDIA-X-Server-Treibers

boot.kernelPackages = pkgs.linuxPackages_6_6;
hardware.nvidia.package = config.boot.kernelPackages.nvidiaPackages.legacy_535;
services.xserver.enable = true;
services.xserver.videoDrivers = [ "nvidia" ];

CUDA 12.2 wurde per Overlay aus älteren nixpkgs eingebunden

nixpkgs.overlays = [
  (final: prev: {
    cudaPackages_12_2 = nixpkgs-cuda.legacyPackages.${prev.system}.cudaPackages_12_2;
  })
];

Beide GPUs wurden korrekt erkannt, und CUDA funktionierte ebenfalls
Die vollständige Maschinenkonfiguration ist in diesem Commit im dotfiles-Repo enthalten
- Dort sind auch die llama.cpp-Service-Definition und ein auf die richtige Version fixierter Custom-Build enthalten

Verwendetes Modell und Leistung

Das verwendete Modell war die quantisierte Version Qwen3.6-27B-MTP Q5_K_M
- Die Modellgröße beträgt rund 19 GB
- Mit zwei GPUs passt das gesamte Modell in den VRAM, und es bleibt noch Platz für den Kontext
Die wichtigsten Laufparameter waren wie folgt
- Model: Qwen3.6-27B-MTP Q5_K_M, 19GB
- Context size: 128k tokens
- GPU layers: 99, vollständig offloaded
- Tensor split: -ts 1.0,1.0, gleichmäßige Verteilung auf beide GPUs
Die Leistung war wie folgt
- Inference speed: etwa 32 tok/s
- Prompt processing: etwa 133–160 tok/s
32 Tokens/s werden als ausreichend für interaktive Nutzung bewertet
- Das wurde sogar mit tensor splitting über zwei unterschiedliche GPU-Architekturen hinweg per PCIe erreicht
- Einschließlich Netzwerklatenz sei dies in den meisten Fällen schneller als Cloud-API-Endpunkte

MTP und Bildeingabe

MTP steht für Multi-Token Prediction
- Normale LLM-Inferenz sagt jeweils nur ein Token voraus, akzeptiert es und berechnet dann das nächste
- MTP sagt mehrere zukünftige Tokens auf einmal voraus und validiert anschließend die richtigen
- Akzeptierte Tokens sind praktisch nahezu kostenlos, falsche Vorhersagen fallen auf den normalen Pfad zurück
Das Ergebnis von MTP ist eine etwa 1,5- bis 2-fach höhere Generierungsgeschwindigkeit ohne Genauigkeitsverlust
- In dieser Konfiguration seien statt rund 32 tok/s bei gut passendem MTP sogar 50–60 tok/s möglich
- Besonders bei vorhersehbaren Ausgaben wie Code ist der Effekt groß
Die MTP-Unterstützung in llama.cpp ist noch neu
- Die llama.cpp-Version in nixpkgs unterstützt die Qwen3.6-MTP-Architektur nicht
- Deshalb musste llama.cpp aus dem Quellcode eines bestimmten Commits gebaut werden, in dem die Unterstützung hinzugefügt wurde
- Unter NixOS wurde eine benutzerdefinierte Derivation auf diesen Commit fixiert, um reproduzierbare Builds zu erhalten
- Änderungen am Modell oder an der llama.cpp-Version werden durch Anpassen einer Zeile in der Konfiguration und anschließendes nixos-rebuild switch erledigt
Qwen3.6-27B unterstützt Bildeingaben über eine separate multimodale Projektor-Datei mmproj
- Die zusätzliche Datei ist etwa 928 MB groß
- Der Vision-Encoder wandelt Bildpixel in den Token-Embedding-Raum des LLM um
- Das Modell „sieht“ Bilder nicht wie ein Mensch
- Das LLM verarbeitet die umgewandelten Vektoren einfach wie eine weitere Token-Sequenz
Die Start-Flags für llama.cpp lauten wie folgt

--mmproj /mnt/nas/llamacpp/mmproj-F16.gguf --mmproj-offload

--mmproj-offload lädt den Vision-Encoder zusammen mit dem Modell auf die GPU
- Dadurch bleibt die Inferenz auch mit Bildeingaben schnell

Lokale Nutzung

Diese Konfiguration wird mit OpenCode genutzt
- OpenCode ist ein AI-Coding-Assistent, der mit lokalen Modellen arbeiten kann
Der LLM-Server läuft auf dem Desktop, wird aber von anderen Geräten aus genutzt
- Der Zugriff erfolgt im Heimnetz über andere Rechner
- Von außen wird über Tailscale zugegriffen
In OpenCode wird der llama.cpp-Server über die API-URL konfiguriert
- Das Modell läuft lokal
- Die Antworten kommen schnell, und die Daten verlassen das Netzwerk nicht

Verbleibende Probleme und Grenzen

Die V100 verschwindet gelegentlich nach einem warmen Neustart
- Nach einem Neustart, bei dem nur das OS neu startet und das Mainboard weiter unter Strom bleibt, taucht die V100 mitunter weder in lspci noch in nvidia-smi auf
- Die Ursache scheint ein Problem bei der ACPI-Enumeration des PCIe-Slots zu sein
- Nach einem vollständigen Ausschalten und einigen Sekunden Wartezeit funktioniert sie per Kaltstart immer wieder
Ohne die V100 startet llama.cpp nicht
- Das Modell passt nicht auf eine einzelne GPU mit 16 GB
- Bis die GPU zurückkommt, gerät der Dienst in eine Crash-Loop
- Im praktischen Einsatz wird das nicht als großes Problem gesehen, da beim Neustart meist ohnehin jemand in der Nähe ist
Die Konfiguration mit tensor splitting über zwei GPUs unterschiedlicher Architektur ist nicht so sauber wie eine einzelne GPU
- Die V100 ist auch nicht die schnellste GPU für Inferenz
- Das Preis-Leistungs-Verhältnis wird jedoch als sehr hoch bewertet

Optionen und Fazit

Für rund 200 £ erhielt man Folgendes
- Eine 16-GB-Rechenzentrums-GPU, die zusammen mit einer Gaming-GPU arbeitet
- Insgesamt 32 GB VRAM für lokale LLM-Inferenz
- 32 Tokens/s bei einem Modell mit 27 Milliarden Parametern
- Ein Kontextfenster von 128k Tokens
- Vision-Unterstützung für Bildeingaben
- Ein vollständig lokal laufendes Modell ohne Cloud und ohne Kosten pro Token
Der eigentliche Preis war der Lüfterlärm, der sich jedoch mit Jumper-Kabel und Pin-Prüfung beheben ließ
Wer ernsthaft lokale Modelle betreiben will, könnte im Markt für gebrauchte Server-GPUs eine Alternative finden
- Auch ohne vorhandene GPU lässt sich mit einer einzelnen V100 in einem günstigen Servergehäuse eine brauchbare lokale LLM-Umgebung mit 16 GB VRAM aufbauen
- Die V100 SXM2 ist nicht die einzige Option
- Eine P40 bietet für ähnliche Kosten 24 GB, ist aber langsamer und hat keine Tensor Cores
- Das V100-32-GB-Modell ist teurer, aber immer noch günstiger als Consumer-GPUs mit derselben VRAM-Kapazität
Man sollte allerdings auf das Lüfterproblem vorbereitet sein

2 Kommentare

GN⁺ 2026-06-02

Hacker-News-Kommentare

Ich habe mir vor Kurzem auch eine Data-Center-GPU gekauft und in mein System gesteckt und wollte ein paar Erfahrungen ergänzen, die im Artikel fehlen.
Ausgemusterte NVIDIA V100 und AMD MI50 sind für lokale Experimente recht günstig: 16 GB kosten etwa 200 Dollar, 32 GB etwa 400–500 Dollar, aber beide Karten sind sehr alt. Trotzdem gibt es eine Hobby-Entwickler-Community, die diese beiden Karten auch auf aktuellen Plattformen und mit aktuellen Modellen weiter am Leben hält.
Eine kleine Korrektur: Die V100 unterstützt kein bfloat16. Wenn man nur etwas mit lokalen Modellen herumspielt, ist der Performance-Verlust nicht groß, aber was Hardware-Features angeht, ist die Karte auf dem absteigenden Ast.
Die MI50 unterstützt bf16, wird aber von aktuellem AMD ROCm nicht unterstützt. Die Vulkan-Unterstützung ist gut, und sie läuft auf den meisten wichtigen Plattformen wie llama.cpp und vllm, aber man muss mit Unbequemlichkeiten wie manuellem Neukompilieren leben. Zum Glück hat die Open-Source-Community hier schon viel Vorarbeit geleistet.
Die Kühlungsanforderungen solcher Karten darf man auf keinen Fall unterschätzen. Consumer-GPUs können in kleinen Gehäusen ohne zusätzliche Lüfter throtteln, aber Data-Center-GPUs überhitzen in so einer Konfiguration selbst im Idle. Man sollte sich mindestens mehrere ordentliche 120-mm-Lüfter besorgen oder in Wasserkühlung investieren.
Am Ende habe ich mir eine AMD MI100 32GB für 950 Dollar gekauft. Ich mag AMD, aktuelles ROCm wird unterstützt, und die Einrichtung war vergleichsweise einfach. Ich überlege, eine zweite Karte zu kaufen, um größere Modelle wie qwen3-coder-next auszuprobieren.
- Für 3D-gedruckte Lüfter-Shrouds für Data-Center-GPUs scheint es schon fast eine kleine Industrie zu geben. 120-mm-Lüfter sind in Sachen Lautstärke und Praxistauglichkeit meist ein guter Mittelweg.
  Der Shroud sitzt passgenau am GPU-Lufteinlass, sodass der gesamte Luftstrom des montierten Lüfters zur GPU geleitet wird, und die Lüfterkurve kann man auch an die GPU-Temperatur koppeln.
- Ich kenne jemanden, der das auf die harte Tour gelernt hat, nachdem er mehrere Server-Karten eingesetzt hatte. Intel-10G-NICs sind zwar tatsächlich günstig zu bekommen, aber man sollte sie nicht einfach in einen Desktop stecken und so betreiben.
  Solche Karten erwarten Luftstrom auf Server-Niveau, vermutlich vor allem von der kalten Ansaugseite. Er hat eine Lüfterhalterung gedruckt und montiert, und seitdem läuft alles gut.
- Mich würde interessieren, ob du bei der Wahl der MI100 auch R9700 oder B70 in Betracht gezogen hast. Falls ja, warum hast du dich dann für die MI100 entschieden?
  Ich spiele auch damit, mir eine Karte in dieser Klasse zuzulegen, aber auf meiner 6800xt laufen Qwen3.6-MOE-Modelle für die Projekte, die ich lokal mit KI machen will, noch gut genug, sodass ich den Kauf bisher nicht rechtfertigen kann.
- qwen3-coder-next läuft auch auf meiner Consumer-NVIDIA-4070 gut. Die Performance ist nicht überragend, aber nur etwas langsamer als bei einem Modell, das wirklich gut hineinpasst.
Die Arbeit ist beeindruckend, aber das Problem sind nicht 30 tok/s, die für Agentic Coding und Chat ausreichen, sondern das Prefill.
Langsames Prefill ruiniert agentische Workloads sofort. Nach den Zahlen im Originalbeitrag bedeuten 100.000 Token bei etwa 150 tok/s ungefähr 100000 / 150 Sekunden, also rund 11 Minuten und 6,7 Sekunden Wartezeit.
- Wahrscheinlich wird kaum jemand auf einmal 100K Token hineinschieben, aber ich stimme zu, dass die gesamte Prefill-Zeit, die sich über eine Sitzung aufsummiert, ziemlich ins Gewicht fällt.
  Das ist generell ein Problem lokaler LLMs auf dem Mac. Macs sind gut darin, viel High-Bandwidth-Memory bereitzustellen, aber bei der Rechenleistung liegen sie weit hinter dedizierten GPUs der aktuellen Generation zurück. Es gibt teure Mac-Studio-Konfigurationen, mit denen sich sehr große Modelle mit brauchbaren tok/s betreiben lassen, aber bis die Token-Generierung überhaupt beginnt, kann man lange warten.
- Ich frage mich, ob sich das teilweise entschärfen ließe, wenn man Prompt-Prefix-Caching mit Agenten kombiniert, die den Prompt-Prefix kontrollieren können. Das Ziel wäre, das langsame Prefill nur einmal zu bezahlen, um einen Prompt-Cache aufzubauen, und danach Prompts zu verwenden, die größtenteils aus einem festen Prefix und konkreten Anweisungen bestehen.
  In Sprachen wie C++, bei denen Module in Definition (.h) und Implementierung (.cpp) getrennt sind, könnte man alle Header-Dateien eines Projekts als Prefix verwenden. Header ändern sich wahrscheinlich nicht so oft.
  Allgemeiner wäre die Idee, einen Agenten zu haben, dessen Hauptziel beim Kontextmanagement die Wiederverwendung gecachter Prefixe ist.
  Wenn man auch bereits geänderte Dateien cachen will, könnte der Agent zu Beginn der Sitzung einen Kontext mit einem festen Prefix aufbauen, der einen Teil oder die gesamte Codebasis zu diesem Zeitpunkt abbildet, und spätere Änderungen hinten anhängen. Dann braucht man einen Prompt, der anweist, nur die jeweils neueste Funktionsdefinition zu verwenden.
  Wenn Datei A anfangs zum Beispiel die Funktionen X, Y und Z enthält, dann enthält der Prompt-Prefix X Y Z. Wenn der Nutzer Y zu Y' ändert, wird das dem Kontext hinzugefügt, sodass der gecachte Prefix unverändert bleibt und man X Y Z Y' erhält.
- Das Laden einer Codebasis oder das Vorwärmen mit Referenzmaterial könnte man vielleicht so organisieren, dass es über Nacht oder während des Essens läuft.
  Wenn man erwartet, dass ein LLM sofort mitarbeitet, sobald man zu einem Projekt wechselt, ist das frustrierend, aber selbst der beste menschliche Kollaborateur braucht eine lange Einarbeitungszeit, bevor er sinnvoll beitragen kann.
- Nach etwas Suche sieht das nach einer nahezu standardmäßigen Funktion aus. Wenn man das Prefill cached und über PCIe-Bandbreite lädt, sollte das wohl etwa 0,2 Sekunden dauern.
Anders als vom Autor geschrieben ist die Tesla V100 SXM2 16GB nicht DGX-Klasse, sondern HGX-Klasse.
Die V100 gab es in zwei Varianten, SXM2 und SXM4; letztere hatte bis zu 80 GB Onboard-Speicher. In einem HGX-Riser werden üblicherweise 8×A100 80GB SXM4 verbaut, wodurch ein NVSwitch-Fabric und 640 GB gepooltes HBM2e entstehen. Es handelt sich um paketgestapelten Speicher mit etwa 2 TB/s Speicherbandbreite, und das Ganze passt in ein 2U-Standard-Rackformat.
- Ich weiß nicht, worauf du hinauswillst. V100 und A100 sind völlig unterschiedliche Generationen.
  Die V100 liefert keine 2 TB/s.
- Ich weiß nicht, was du sagen willst. Die V100 kam als SXM2 und SXM3 auf den Markt und hatte 16 GB und 32 GB.
  HGX ist eher so etwas wie DGX mit zusätzlicher Konfiguration.
Als ich den Titel gelesen habe, dachte ich, es ginge darum, wie man das für Gaming nutzt, aber am Ende wurde einfach nur ein LLM ausgeführt.
- Es hieß am Anfang, dass es keine Videoausgabe gibt, also kann man damit nicht spielen.
- Da es dieses Jahr keine neuen NVIDIA-Gaming-GPUs gab, sah das nach einem interessanten Problem aus, das man vielleicht lösen könnte.
- Das scheint eher unwahrscheinlich. Die für Gaming nötigen On-Chip-Strukturen wurden wahrscheinlich entfernt, um mehr Rechenkerne unterzubringen.
AMD MI250X ist ebenfalls interessant. 128 GB HBM2E und 3 TB/s, und gebraucht wird sie manchmal für unter 1.000 Dollar angeboten
Das Problem ist, dass man einen OAM-Sockel benötigt. Ich habe noch keine einfache Möglichkeit gesehen, sie an ein normales Mainboard anzuschließen
- Zusätzlich kompliziert ist, dass die MI250X zwei GPUs in einem Package vereint. Die erste und die letzte x16-SERDES-Gruppe müssen mit dem Host verbunden werden, sonst wird möglicherweise nur eine GPU erkannt oder gar nichts funktioniert
  Außerdem benötigen die günstig bei eBay angebotenen aus HPE-Systemen ausgebauten Exemplare irgendetwas Proprietäres von HPE, um zu funktionieren, und ich habe noch niemanden gesehen, der das bisher geknackt hat
- Jemand hat zwar einen Adapter für den OAM-Sockel gebaut, aber derzeit wurde die Funktion nur mit NVIDIA-Karten bestätigt (https://www.reddit.com/r/NVIDIA_SXM2PCIE/comments/1d076cn/oa...)
  Eine MI250X passt physisch hinein und wird auch vom System erkannt, aber der Treiber funktioniert nicht. Getestet wurde eine HPE-MI250X
  In dem Thread gibt es das Gerücht, dass es zwei Arten von MI250X gibt: eine für HPE und eine für andere Produkte. Für die HPE-Version sei spezielle Firmware nötig, für die normale Version nicht. Da jedoch die meisten MI250X auf dem Gebrauchtmarkt von HPE stammen, ist Vorsicht beim Kauf geboten
- Interessant und mit starker Rechenleistung, aber ein Umbau für PCIe-Lanes scheint keinen Sinn zu ergeben. Man landet dann im Flaschenhals des Slot-Busses
- Zum Glück sorgt dieser OAM-Sockel dafür, dass ich kein Geld ausgebe
Großartiger Beitrag. Ich habe solche Rechenzentrumskarten oft für Projekte in Betracht gezogen, und jetzt habe ich wirklich Lust bekommen, eine zu kaufen
Ausschlaggebend war der Teil, der den Gerätepreis mit den Token-Kosten verglichen hat
- Genau deshalb habe ich es gemacht. Ich finde, es ist wichtig, die Perspektive so zu setzen
Glückwunsch. Die meisten haben keine Lust auf Debugging von Treibern, Kernel, ACPI, Adaptern und Lüfter-Headern, aber für Leute, die das gern machen, ist das Preis-Leistungs-Verhältnis völlig absurd gut
Ich halte eine Einschätzung wie „Wenn man absolut das Beste will, gibt es auch Opus 4.8. Aber die Kosten für 20 Minuten intensiver Nutzung sind höher als der Kaufpreis dieser GPU samt Adapter. Und trotzdem ist der Abstand erstaunlich klein“ nicht für fair
Ich nutze täglich Frontier-Modelle mit im Voraus bezahlten API-Tokens, komme aber im Monat nur knapp über 100 Dollar. Es ist zwar beeindruckend, einen Weg gefunden zu haben, in 20 Minuten das Doppelte zu verbrennen, aber ich glaube nicht, dass das die Realität widerspiegelt, die viele Menschen derzeit erleben. Unter den Arten, wie LLMs genutzt werden, dient ein übermäßig verschwenderischer Ansatz in solchen Diskussionen bequem als Strohmann
API-Kosten zu zahlen ist fast immer wirtschaftlicher, als vergleichbare Infrastruktur selbst zu hosten. Ich bin nicht grundsätzlich gegen Self-Hosting, aber der Beitrag stellt Wirtschaftlichkeit als Hauptmotivation für diesen Versuch dar. Wenn man weniger als 10^9 Token pro Monat verbraucht, halte ich es für wenig sinnvoll, Zeit darauf zu verwenden, mit Hyperscalern konkurrieren zu wollen. Das Geld steckt meist darin, diese Technologie in bestehende Geschäftsprozesse zu integrieren
- Ich nutze ebenfalls einen Hosting-Anbieter, aber selbst mit günstigen Modellen wie Deepseek kann man in einem halben Tag leicht 100 Dollar an Tokens verbrennen
  Wenn die Nutzung wirklich so gering ist, spart ein Abonnement deutlich mehr. Bei höherer Nutzung hängt es davon ab, wie billig der Strom ist, ob es sich lohnt, einen Teil lokal laufen zu lassen. Für mich persönlich lohnt es sich nicht
- Claude kostet ungefähr 35 Dollar pro 1 Million Tokens. Wenn man es zu API-Preisen nutzt, kann man in einer einzigen Coding-Session von einer Stunde leicht 100 Dollar ausgeben, und mit aktiviertem /fast geht das auch in etwa 10 Minuten
  Ich weiß wirklich nicht, wie die Leute das alle nutzen
- Dass man Frontier-Modelle täglich mit vorausbezahlten API-Tokens nutzt und dabei im Monat kaum über 100 Dollar kommt, ist von meinem Nutzungsprofil ziemlich weit entfernt
  Laut ccusage hätte ich im Mai ungefähr 4.173 Dollar an Anthropic gezahlt, wenn ich nicht das 100-Dollar-Max-Abo gehabt hätte
  Input │ Output │ Cache Create │ Cache Read │ Total Tokens │ Cost (USD)
  1,948,016 │ 19,435,081 │ 103,626,350 │ 6,244,194,278 │ 6,369,203,725 │ $4173.09
  Das sind die aktuell noch einmal gezogenen Zahlen, und ich habe den Fast-Modus überhaupt nicht verwendet, sondern für die meisten Aufgaben Opus genutzt
  Mein Nutzungsmuster ist auch nicht besonders extrem. Normalerweise läuft Claude Code kontinuierlich an ein oder zwei Projekten, manchmal sogar, während ich schlafe. Ich erreiche häufig etwa 60 bis 80 % des wöchentlichen Limits
Es ist schön zu sehen, dass alte Hardware weiterverwendet wird. Ich betreibe zwei Tesla V100 in einem Supermicro-X10DRU-i-Server mit Dual-Core-CPU
Mit qwen3.6-27B-mtp komme ich bei mittleren Kontextgrößen, also unter 128k, auf etwa 35 bis 40 tok/s bei der Inferenz, und ich habe auch lange Agentenläufe mit Hunderten Millionen Tokens ausprobiert. Über die Claude-API hätte das Hunderte Dollar oder mehr gekostet
Der Haupteinsatz dieser Karten ist allerdings wissenschaftliches Rechnen. Die FP64-Leistung liegt bei 7+ TFLOPS, was angesichts des Alters ausgezeichnet ist, und seit NVIDIA die Leistung von Consumer-Karten nach Kepler beschnitten hat, ist ein solches Niveau selbst bei aktuellen Consumer-Karten schwer zu bekommen. Der Server steht im Keller und ist wirklich laut
Der interessanteste und für die meisten Menschen nützlichste Teil ist wahrscheinlich die Lüftersteuerung. Dafür muss man die Lüfter unbedingt kontrollieren. Es ist wirklich laut
Wer solche Karten in Betracht zieht, sollte außerdem wissen, dass die V100 im Leerlauf sehr viel Strom verbraucht. Selbst ohne geladenes Modell sind es 25 bis 35 W, und mit einem Modell steigt es leicht auf 50 W

GN⁺ 2026-06-01

Lobste.rs-Kommentare

Der Ansatz ist wirklich cool, und das Verschwinden der GPU aus PCIe macht noch neugieriger, weil es dafür so viele mögliche Ursachen gibt
Das laute Hochdrehen der GPU-Lüfter erinnert an meine Zeit im NVIDIA-CUDA-Team. Ein Kollege arbeitete gerade daran, die Lüftersteuerung zu NVML und nvidia-smi hinzuzufügen; von hinter der Trennwand hörte man, wie die Lüfter schneller und wieder langsamer wurden, und dann streckte er strahlend lächelnd den Kopf heraus
Er meinte, es sei eine seiner Lieblingsfunktionen gewesen, weil man das Ergebnis in dem Moment, in dem der Code funktionierte, direkt hören konnte
Falls dich selbstgehostete LLMs interessieren: Eine Dell-OEM-RTX 3090 war meist günstiger als Produkte großer Marken und war für etwa 800 kanadische Dollar zu bekommen
Jetzt sollte ich wohl mehr darüber lesen, wie vLLM funktioniert. Das Modell beginnt manchmal, lange Listen mit passenden Namen und Adjektiven auszuspucken; vermutlich ist etwas falsch konfiguriert
- Ich frage mich, welche Modelle auf einer RTX 3090 laufen
  Nach meinem Verständnis brauchen die meisten brauchbaren Modelle mindestens 48–64 GB VRAM, um ordentlich zu laufen, deshalb dachte ich, dass Apple-M-Series-Chips mit ihrer Unified-Memory-Architektur in diesem Bereich so beliebt sind
Solche Produkte gibt es auch schon als fertig verpackte Variante, aber dann endet es bei etwas wie 3 Monaten Herstellergarantie
https://ebay.com/itm/297819576914/…
- Das ist wirklich verlockend. Ich vermute, der hier erwähnte Lüfter-Umbau ist dabei nicht gemacht worden
In den USA werden gebrauchte 32-GB-Modelle für etwa 600 Dollar gehandelt
Den Adapter würde ich wahrscheinlich direkt aus China kaufen, dem Ursprungsland
Ich frage mich, ob es auf AMD-Seite ein entsprechendes Produkt gibt. Ich nutze derzeit zwei 48-GB-W7900 und würde gern erweitern, um größere Modelle laufen zu lassen
- Bis zu einem gewissen Grad schon. Es gibt die Instinct MI60 aus derselben Ära wie die V100; sie ist ziemlich alt, hat aber 32 GB VRAM und kam bereits als PCIe-Karte heraus
  Für die Kühlung muss man etwas ergänzen, aber mit Adaptern muss man nicht herumhantieren
  Ich lese jedes Mal mit, wenn ich auf eine lokale Modellkonfiguration stoße, und im mittleren VRAM-Bedarf von 48 bis 128 GB scheint es derzeit wirklich keinen echten Sweet Spot beim Preis-Leistungs-Verhältnis zu geben. Die Optionen sind ungefähr drei: mehrere Datacenter-GPUs von vor drei Generationen (Tesla V100, Instinct MI60), mehrere aktuelle Einstiegsprodukte mit viel VRAM (Arc Pro B70) oder aktuelle All-in-one-Boxen (DGX Spark, Mac Mini, Strix Halo)
  Für jemanden, der von einer einzelnen 32-GB-Consumer-GPU oder zwei 16-GB-Karten aufrüstet, hat jede dieser Optionen ihre Kompromisse, aber auch Vorteile. Wenn man allerdings bereits zwei 48-GB-Karten nutzt, bin ich mir nicht sicher, ob es überhaupt ein Upgrade mit gebrauchter Hardware gibt, das sich spürbar wie eine Verbesserung anfühlt

Ein Rechenzentrums-GPU für 200 £ in einen Gaming-PC einbauen

Eine 32-GB-lokale-LLM-Umgebung für 200 £

Tesla V100 SXM2 und Adapter

Problem und Lösung bei der Server-Kühlung

VRAM mit zwei GPUs erweitern

Treiber und CUDA unter NixOS passend machen

Verwendetes Modell und Leistung

MTP und Bildeingabe

Lokale Nutzung

Verbleibende Probleme und Grenzen

Optionen und Fazit

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentare

Lobste.rs-Kommentare