Missverständnisse über GPUs

(fly.io)

7 Punkte von GN⁺ 2025-02-15 | 1 Kommentare | Auf WhatsApp teilen

Fly.io baut eine Public Cloud auf eigener Hardware auf und entwickelte dafür Fly GPU Machines mit dem Ziel, AI/ML-Inferenz mit GPUs bereitzustellen
Fly GPU Machines sind VMs, die Docker-/OCI-Container ausführen und so entworfen wurden, dass NVIDIA-GPUs direkt durchgereicht werden, um schnelle CUDA-Berechnungen zu ermöglichen
Die Bedeutung von AI/ML war größer als erwartet, aber GPU-Produkte scheinen die Bedürfnisse des Marktes nicht richtig widerzuspiegeln

Technische Schwierigkeiten bei der Einführung von GPUs

Fly GPU Machines wurden so konzipiert, dass sie statt Firecracker den Cloud Hypervisor von Intel verwenden, um PCI-Passthrough zu unterstützen
NVIDIAs Ökosystem unterstützt keine Micro-VM-Hypervisoren, wodurch GPU-Sicherheit und Performance-Optimierung erschwert werden
GPUs waren ein Sorgenkind für das Security-Team, da bidirektionale DMA-Übertragungen (Direct Memory Access) und vom Nutzer gesteuerte Operationen möglich sind, was ein hohes Sicherheitsrisiko verursacht
Um GPU- und Nicht-GPU-Workloads zu trennen, wurde separate Server-Hardware verwendet, was zu einer kostenineffizienten Struktur führte
Für die Sicherheitsvalidierung wurden umfangreiche Sicherheitsprüfungen mit Atredis und Tetrel durchgeführt, was viel Zeit und Geld kostete

Technische Irrwege und Fehlversuche

Statt dem von NVIDIA empfohlenen Ansatz zu folgen (Aufbau eines K8s-Clusters oder Nutzung von QEMU), wurde versucht, die schnelle Startzeit von Fly Machines beizubehalten
Der Versuch, NVIDIAs virtuelle GPU-(vGPU-)Treiber mit dem Intel Cloud Hypervisor zu verwenden, scheiterte
Aufgrund von NVIDIAs geschlossenem Treiber-Ökosystem war es schwierig, eine Architektur zu schaffen, die GPUs effizient nutzt
Es war nötig, das Laden von Modellgewichten mit GPUs zu optimieren, doch das ließ sich nur schwer lösen, ohne die Developer Experience (DX) zu beeinträchtigen
Es wurden viele GPUs gekauft, aber sie lieferten nicht die erhofften Ergebnisse

Warum das GPU-Geschäftsmodell scheiterte

Normale Entwickler wollen eher LLMs als GPUs
- Statt AI/ML-Modelle zu optimieren, ist es viel einfacher, LLM-APIs von OpenAI, Anthropic usw. zu nutzen, und der Performance-Unterschied ist auch nicht groß
- Den meisten Entwicklern ist Performance in „Tokens pro Sekunde“ wichtig; für Optimierungen im Millisekundenbereich, die GPUs bieten, interessieren sie sich kaum
Unternehmen mit groß angelegten AI-Workloads benötigen enorme GPU-Rechenleistung, und selbst eine einzelne A100-GPU reicht nicht aus
- Große AI-Labore und Unternehmen wollen H100-Cluster auf SXM-Basis
Es könnte einen Markt für kleine GPUs für leichte ML-Workloads geben, aber NVIDIA MIG lässt sich in einer vollständig virtualisierten Umgebung nur schwer einsetzen
Die L40S-GPU wird sinnvoll genutzt, wurde aber nicht zu einem Wachstumstreiber für das Kerngeschäft von Fly.io

Erkenntnisse

Anfangs (2022) wurde erwartet, dass viele verschiedene AI-Modelle entstehen würden; inzwischen hat sich der Markt auf wenige LLM-Modelle wie die von OpenAI und Anthropic verengt
Fly.io folgt dem Grundsatz: „Wir entwerfen Funktionen für 10.000 Entwickler“
- GPUs waren nur eine Funktion für den 10.001. Entwickler und konnten sich daher nur schwer als Hauptprodukt etablieren
Für Startups ist Lernen durch wiederholte Versuche Teil des Prozesses, und die Einführung von GPUs war eine gescheiterte Wette
Die Investitionen in GPUs sind kein Totalverlust, da sich ein Teil der Hardware später noch verkaufen lässt
Es ist möglich, den GPU-Support zurückzufahren und dabei Sicherheit und Developer Experience von Fly Machines zu erhalten
So wie das ursprüngliche Produkt von Fly.io, eine JavaScript-Edge-Computing-Runtime, vom Markt nicht gewünscht war und schließlich auf Container-Support umgestellt wurde, waren auch GPUs eine Entscheidung, die nicht zum Marktbedarf passte
Startups finden die richtige Antwort oft über falsche Annahmen, und der aktuelle GPU-Fall ist ein Teil genau dieses Prozesses

1 Kommentare

GN⁺ 2025-02-15

Hacker-News-Kommentare

Entwickler wollen eher LLMs als GPUs oder AI/ML-Modelle. Systemingenieure kümmern sich um CUDA und GPUs, Softwareentwickler dagegen nicht
- Unter Softwareentwicklern gibt es eine große Spaltung. Einige wollen verstehen, wo ihr Code läuft und wie er funktioniert
- Die andere Gruppe will es mit git push erledigt haben und Dinge wie DNS oder Linux nicht verstehen müssen
- Unternehmen wie fly.io sind für Letztere attraktiv. GPU-Instanzen sind für Erstere attraktiv
- Beide Märkte müssen unterschiedlich angesprochen werden. Den Letzteren kann man viel Abstraktion und Automatisierung verkaufen
Seit 2012 ist das Mooresche Gesetz faktisch vorbei. Single-Thread-Ausführung ist bei 2 GHz stehen geblieben
- Durch die Verlagerung in die Cloud von 2012 bis 2022 fiel die Stagnation bei Single-Thread-Leistung nicht auf
- 2022 erkannten Rechenzentren, dass sie keine Chips der nächsten Generation mit mehr Kernen kaufen mussten
- LLMs sind zu 100 % parallelisierbar, daher kann wieder Kapital investiert werden
- 2024 wird Wafer-Scale-Silizium auf den Markt kommen. Damit lassen sich Llama-Modelle 10-mal schneller ausführen als auf einer A100
- Software muss Wege finden, diese Leistung zu nutzen
fly-GPU-Maschinen sind sehr schnell und zuverlässig und im Vergleich zu Alternativen nicht teuer
- Die DX ist hervorragend. Man muss keine neuen Befehle lernen
- Hoffentlich werden sie günstiger und in mehr Regionen verfügbar
Ich habe eine 4090 gekauft, aber 24 GB VRAM reichen nicht aus
- Zwei oder mehr 3090s und ein maßgeschneidertes Netzteil wären besser gewesen
- Leistung und Qualität reichen noch nicht aus
Kunden, die sich für Fly entscheiden, werden wahrscheinlich die letzten sein, die langfristig dedizierte GPU-Server nutzen
- Sie werden eher serverlose Lösungen verwenden
Schade, dass es keine GPU-Slices gibt. Kosten von 1.000 $ pro Monat sind schwer zu rechtfertigen
- Es könnte wirtschaftlicher sein, eine AMD-Consumer-GPU an einen Raspberry Pi anzuschließen
„Wir lagen falsch“ ist einer der edelsten und schönsten Sätze im Englischen
Fly.io zieht Entwickler an, die denen der Workers-Plattform von Cloudflare ähneln
- Sie wollen die Entwicklungsgeschwindigkeit einer PaaS-Umgebung
- Cloudflare verfolgt mit GPUs weiter einen PaaS-Ansatz und baut Workers AI auf
Es hat einen Monat gedauert, bei Runpod einen serverlosen Endpunkt einzurichten, und es war teuer und unzuverlässig
- Mit Google-Cloud-Credits konnte das Produkt an Kunden ausgeliefert werden
- Es gibt Nachfrage nach GPU-Anbietern. Ob Fly in diesen Markt eintreten kann, ist unklar

Missverständnisse über GPUs

Technische Schwierigkeiten bei der Einführung von GPUs

Technische Irrwege und Fehlversuche

Warum das GPU-Geschäftsmodell scheiterte

Erkenntnisse

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare