Das Mieten von GPUs ist absurd günstig

(reddit.com)

27 Punkte von GN⁺ 2025-09-09 | 1 Kommentare | Auf WhatsApp teilen

Eine NVidia H200 NVL mit 140 GB VRAM kann für 2,14 $ pro Stunde gemietet werden, was im Vergleich zum Kauf eine sehr hohe Kosteneffizienz bei der tatsächlichen Nutzung bietet
Bei einer angenommenen Nutzung von 5 Stunden pro Tag an 7 Tagen pro Woche verschiebt sich der Break-even beim Kauf auf nach 2035, selbst wenn Strom, Wartung und Zinsen berücksichtigt werden
Der Vorteil des Besitzes einer GPU liegt in Privatsphäre und Kontrolle, was für Nutzer mit Dauerbetrieb sinnvoll sein kann, für kurze Experimente ist Miete jedoch besser geeignet
Miete ist aus Sicht der Gesamtkosten inklusive Nebenkosten wie System, Strom und Uplink mit schneller Verfügbarkeit und niedrigen Kosten möglich und damit eine Alternative ohne anfängliche Kapitalbelastung
Für Experimente und Prototyping von Einzelpersonen und kleinen Teams ist daher eine Cloud-Miete-zuerst-Strategie sinnvoll

Zusammenfassung der Reddit-Kommentare

Struktur der GPU-Miete und Storage
- Runpod bietet persistente Volumes, sodass nur die GPU beendet wird, Dateien aber erhalten bleiben; dabei fallen Wartekosten von etwa 0,02 $ pro Stunde an
- Ein Volume kann an mehrere Pods gemountet werden und so für paralleles Training genutzt werden, die Secure-Cloud-Option ist jedoch teuer
- Checkpoints können über eine S3-kompatible API verschoben werden, außerdem wird die Automatisierung des Startens und Beendens von Pods per API unterstützt
Debatte über Preise und Rentabilität
- Eine H100 kostet 2 $/Stunde, eine Konfiguration mit 8 H200 kostet 16 $/Stunde
- Zu diesem Geschäftsmodell gibt es Spekulationen, dass Verluste in Kauf genommen oder diese durch Lockvogelstrategien bzw. Zusatzgebühren kompensiert werden
- Manche vermuteten bei dem Dienst sogar Geldwäsche oder unerlaubte Vermietung von Uni-Ressourcen, viele erklären die Preise jedoch auch mit Stromkosten und Skaleneffekten
- Es wurde behauptet, die Lebensdauer von GPUs liege bei 1–3 Jahren, zudem wurde die Einschätzung geäußert, dass sinkende Preise ein Signal für eine abkühlende AI-Euphorie sein könnten
Erfahrungen mit lokaler Nutzung vs. Cloud
- Je nach persönlichem Strompreis und vorhandener Hardware gibt es auch Beispiele, in denen lokale Nutzung günstiger ist; die Kosten für gecachte Input-Tokens sind lokal faktisch vernachlässigbar
- Als Praxistipp wurde genannt, zunächst mit einer lokalen 3080/3090 zu entwickeln und zu debuggen und erst bei Bedarf an großen Modellen in die Cloud hochzuskalieren
- Für manche sind API-Kosten günstiger als der Strompreis, andere berichten wiederum aus Erfahrung, dass lokal günstiger sei
Zuverlässigkeits- und Sicherheitsprobleme
- Vast.ai gilt als günstig, aber mitunter instabil bei der Verbindung, Runpod wird dagegen häufig als vergleichsweise stabil eingeschätzt
- Spot-Instanzen können ohne Vorwarnung beendet werden, daher ist regelmäßiges Checkpointing essenziell
- Code- und Daten-Privatsphäre lässt sich in der Cloud nicht vollständig garantieren; selbst bei Secure/Certified bleibt ein grundlegendes Vertrauensproblem bestehen
Zeitbasierte Abrechnung und Automatisierung
- Runpod unterstützt minuten- und sekundengenaue Abrechnung, mit Optionen zur automatischen Abschaltung lassen sich böse Überraschungen auf der Rechnung vermeiden
- Es wurde eine Erfahrung geteilt, bei der mit Terraform+Ansible der gesamte Ablauf von Instanzerstellung → Arbeit → Ergebnissynchronisierung → Löschung vollständig automatisiert wurde
Weitere Informationen
- Colab Pro A100 40GB kostet 0,7 $/Stunde, Hyperbolic bietet auch H100 für 1 $/h an
- Bei Multi-Node-Training ist wichtig, ob NVLink/IB-Netzwerk garantiert wird

Checkliste für die Praxis — Betriebstipps aus den Kommentaren

Kostenoptimierung: Storage als persistentes Volume trennen, um Kosten und Zeit für erneutes Hochladen von Modellen und Daten zu sparen; mit Auto-Shutdown und der Kombination aus Spot+Checkpoint das Abrechnungsrisiko steuern
Zuverlässigkeit: Für missionskritische Aufgaben Anbieter mit höherer Zuverlässigkeit nutzen, Experimente über günstige/Spot-Angebote billiger durchführen
Sicherheit/Privatsphäre: Für sensible Daten und Code lokal/on-premises bevorzugen; bei der Cloud setzt man Risikobereitschaft und reputationsbasiertes Vertrauen voraus
Skalierungsstrategie: Lokal zunächst eine reproduzierbare Pipeline aufbauen und bei Bedarf per Miete auf Multi-GPU oder große VRAM-Kapazitäten erweitern
Automatisierung: Mit Terraform/Ansible oder der API des Anbieters Erstellung → Ausführung → Backup → Beendigung standardisieren, um menschliche Fehler und Leerlaufkosten zu minimieren

1 Kommentare

ihabis02 2025-09-11

Das ist ein Service, den ich oft nutze, wenn ich einfach kurz AI-Modelle testen oder trainieren will.
Grundsätzlich ist eine JupyterLab-Umgebung bereits eingerichtet, was die Nutzung bequem macht, und wenn man den Server gut auswählt, kann man Modelle dank der Netzwerkgeschwindigkeit deutlich schneller herunterladen als über eine normale Heim-Internetverbindung, sodass er meiner Meinung nach für kurze Tests völlig ausreicht.

Das Mieten von GPUs ist absurd günstig

Zusammenfassung der Reddit-Kommentare

Checkliste für die Praxis — Betriebstipps aus den Kommentaren

Verwandte Beiträge

1 Kommentare