Verlieren OpenAI und Anthropic bei Inferenz tatsächlich Geld?
(martinalderson.com)- Entgegen einer in der Branche häufig geäußerten Behauptung sind die Kosten für AI-Inferenz niedriger als gedacht und können im Gegenteil sogar eine hohe Profitabilität sichern
- Der Analyse zufolge sind die Kosten für Eingabe-Token praktisch vernachlässigbar (rund $0.005 pro Million Token), während die Kosten für Ausgabe-Token bei über $3 pro Million Token liegen – ein Unterschied um den Faktor 1000
- Consumer-Abos (z. B. ChatGPT Pro für $20/Monat) liegen beim tatsächlichen Inferenz-Kostenpreis um das 5- bis 6-Fache, Entwickler-Pläne (Claude Code) sogar um das 10- bis 20-Fache, was sehr hohe Wirtschaftlichkeit bedeutet
- API-Preismodelle erzielen gegenüber den Kosten Margen von 80–95 % oder mehr und bilden damit eine Ertragsstruktur, die klassischer Software ähnelt
- Letztlich ist Inferenz kein „Geldverbrenner“, sondern bei guter Nutzung der Unwucht zwischen Eingabe und Ausgabe ein sehr profitables Geschäft
Einleitung
- Es wird oft behauptet, dass AI, insbesondere Inferenz (inference), enorme Kosten verursacht; dem gegenüber steht jedoch eine skeptische Sicht, die eine wirtschaftliche Analyse verlangt
- Der Autor hat keine Erfahrung im Betrieb großskaliger Frontier-Modelle, stützt sich aber auf ein Verständnis des Kostenaufbaus von Cloud-Services mit hohem Durchsatz und von Bare Metal im Vergleich zu Hyperscalern
- Die Analyse ist eher Milchmädchenrechnung (napkin math) und konzentriert sich auf reine Compute-Kosten
- Für eine einzelne H100-GPU werden $2 pro Stunde angesetzt; große AI-Unternehmen können sie realistisch günstiger beziehen
Annahmen
- Die Analyse konzentriert sich nur auf reine Compute-Kosten und testet die Nachhaltigkeit auf Basis des Nutzens heutiger Modelle ohne Modellverbesserungen
- Verwendet wird die DeepSeek-R1-Architektur (671B Gesamtparameter, 37B aktiv), bei angenommener Leistung ähnlich Claude Sonnet 4 und GPT-5
Produktionsumgebung mit H100
- Produktions-Setup: Cluster aus 72 H100-GPUs, Kosten von $144 pro Stunde
- Batch-Größe 32, Tensor Parallelism über 8 GPUs, wodurch 9 Modellinstanzen parallel laufen
- Prefill-Phase (Verarbeitung der Eingabe): Bei 3.35 TB/s HBM-Bandbreite der H100 sind 45 Forward-Passes pro Sekunde möglich
- Bei 32 Sequenzen pro Batch (im Mittel 1.000 Token) sind das 1,44 Mio. Eingabe-Token pro Sekunde bzw. 46,8 Mrd. Eingabe-Token pro Stunde
- Bei MoE-Modellen kann das Expert Routing den Durchsatz um 30–50 % senken, der Effekt wird aber durch effiziente Parallelisierung minimiert
- Decode-Phase (Erzeugung der Ausgabe): Sequentielle Token-Generierung, 1.440 Ausgabe-Token pro Sekunde bzw. 46,7 Mio. Ausgabe-Token pro Stunde
- Berechnung der reinen Kosten pro Token
- Eingabe-Token: $144 ÷ 4,68 Mrd. = rund $0.003 pro Million Token
- Ausgabe-Token: $144 ÷ 46,7 Mio. = rund $3.08 pro Million Token
- Asymmetrie: Der Kostenunterschied zwischen Eingabeverarbeitung und Ausgabegenerierung beträgt rund das 1000-Fache
Compute-Engpässe
- In der Regel ist Speicherbandbreite der Engpass, bei langen Kontextsequenzen von 128k+ wird jedoch Attention-Compute zum Flaschenhals und erhöht die Kosten um den Faktor 2 bis 10
- Claude Code bleibt mit seinem 200k-Token-Limit in einem günstigen, speicherzentrierten Regime und vermeidet teure compute-zentrierte Szenarien
- Zusätzliche Gebühren für lange Kontextfenster spiegeln diese ökonomische Veränderung wider
Reale Nutzerökonomie
- Consumer-Tarif ($20/Monat ChatGPT Pro): 100.000 Token pro Tag (70 % Eingabe, 30 % Ausgabe), tatsächliche Kosten etwa $3/Monat
- Marge für OpenAI: 5- bis 6-fach
- Entwicklernutzung (Claude Code Max 5, $100/Monat): 2 Mio. Eingabe- und 30.000 Ausgabe-Token pro Tag, tatsächliche Kosten etwa $4.92/Monat, Marge 20,3-fach
- Max 10 ($200/Monat): 10 Mio. Eingabe- und 100.000 Ausgabe-Token pro Tag, tatsächliche Kosten etwa $16.89/Monat, Marge 11,8-fach
- Coding Agents maximieren durch eingabelastige (günstige) Nutzungsmuster die Wirtschaftlichkeit
- API-Gewinnmargen: Gegenüber heutigen Preisen ($3/15 pro Million Token) und tatsächlichen Kosten ($0.01/3) liegen die Margen bei 80–95 %
Fazit
- Die Analyse beruht auf mehreren Annahmen und kann Fehler enthalten, doch selbst bei einer Abweichung um den Faktor 3 bleibt die Profitabilität hoch
- Eingabeverarbeitung ist mit $0.005 pro Million Token günstig, die Ausgabegenerierung liegt bei $3+ und damit tausendfach höher
- Entscheidend ist die asymmetrische Struktur der Kosten von Eingabe- und Ausgabe-Token; wer sie gut nutzt, kann hohe Profitabilität erreichen
- Eingabelastige Workloads (Coding-Assistenten, Dokumentenanalyse, Forschung usw.) → Kostenstruktur nahezu kostenlos, sehr hohe Profitabilität
- Ausgabelastige Workloads (z. B. Videogenerierung) → wenig Eingabe, aber Millionen Ausgabe-Token, ungünstige Kostenstruktur und daher kaum ohne hohe Preise darstellbar
- Die Aussage „AI-Inferenz ist so teuer, dass sie nicht nachhaltig ist“ passt nicht zur realen Kostenstruktur. Sie könnte eher eine Strategie etablierter großer Anbieter zur Wettbewerbsabschreckung sein. Die tatsächliche Margenstruktur ist bereits sehr robust
- Wie schon die frühere Übertreibung von Cloud-Computing-Kosten die Übergewinne von Big Tech rechtfertigte, besteht auch bei der Debatte über Inferenzkosten das Risiko überzogenen „Kosten-Angst-Marketings“
- Ein faktenbasierter Blick auf die Kostenstruktur ist notwendig
1 Kommentare
Hacker-News-Kommentare
Die mathematischen Berechnungen in diesem Artikel sind in vielerlei Hinsicht falsch
Insbesondere ist die Annahme falsch, dass die Prefill-Phase durch Bandbreite begrenzt sei
Wenn man die vom Autor berechnete MFU aufschlüsselt, kommt man auf 13 PFLOPS/s, also auf einen unmöglichen Wert von dem 7-Fachen der maximalen Hardwareleistung
Auch die Annahmen von 32 gleichzeitigen Anfragen, einer Begrenzung auf 8 GPUs und dass nur die Attention-Berechnung der Flaschenhals sei, sind allesamt falsch
Schade ist, dass die Leute auf HN, die diesen Artikel kritisieren, eher nur Nebensächlichkeiten statt der grundlegenden Fehler ansprechen
Wenn dieser Artikel korrekt wäre, wäre auch die Behauptung schwach begründet, dass OpenAI oder Anthropic bei der Inferenz Verluste machen
Auch der Teil zu den Kosten pro Ausgabetoken ist stark fehlerhaft
Danke für den Hinweis, dass die Mathematik falsch ist, aber dann wäre es hilfreich, auch korrekte Zahlen zu nennen, damit man die Erwartungen besser kalibrieren kann
Ich habe das mehrfach modelliert und denke, dass bei Inferenz je nach GPU-Abschreibung und optimierter Ressourcenauslastung Margen von über 50 % möglich sind
Das Ergebnis fällt allerdings sehr unterschiedlich aus, je nachdem, ob man die Trainingskosten einbezieht
Wenn man Trainingskosten nicht aktiviert, sehen die Margen gut aus; wenn man sie aber abschreibt und einrechnet, verschlechtert sich die Profitabilität stark
Es stellt sich allerdings die Frage, warum man das Training ausklammern sollte
Für große AI-Forschungslabore sind hohe Margen möglich, für normale Unternehmen aber nicht
Selbst wenn man GPUs über 5 Jahre abschreibt, kann sinkende Auslastung durch Marktanteilsverluste fatal sein
Auch nach IFRS/GAAP sind Trainingskosten Kosten, die direkt dem Umsatz zuzurechnen sind, und müssen letztlich in die Kosten der Umsatzerlöse eingehen
Sam Altman sagte: „Wir verdienen Geld mit Inferenz, und wenn man nur die Trainingskosten herausrechnet, ist das sehr profitabel“
Amodei erklärte ähnlich, dass, wenn man ein einzelnes Modell wie ein Unternehmen betrachtet, bei 100 Millionen Dollar Trainingskosten und 200 Millionen Dollar Umsatz das Modell als Einheit profitabel sei
Gleichzeitig trainiert man aber teurere Modelle der nächsten Generation, weshalb das Unternehmen insgesamt in den roten Zahlen bleibt
Die Aussage „ohne Trainingskosten profitabel“ ist allerdings im Grunde eine banale Formulierung, die sich auf fast jedes Unternehmen anwenden lässt
In der Praxis ist es zudem schwer, die echte Profitabilität zu beurteilen, weil OpenAI in Startups investiert und Credits bereitstellt, wodurch Geld im Kreis fließt
Laut einem NYT-Podcast sagte Sam zwar: „Wenn man nur auf Inferenz schaut, sind wir profitabel“, aber der COO daneben reagierte uneindeutig
Wenn Inferenz wirklich so billig wäre, wie im Artikel behauptet, stellt sich die Frage, warum es nicht viel mehr extrem günstige API-Anbieter gibt
In der Realität betreiben die meisten günstigen Anbieter nur kleinere Modelle
Dann fragt man sich, warum große Modelle wie DeepSeek-R1 nicht billig angeboten werden können
Tatsächlich gibt es bereits mehrere API-Anbieter, und manche bieten DeepSeek-R1 sogar kostenlos an
Es gibt auch Anbieter wie DeepInfra, und die tatsächlichen Preise liegen noch unter den Schätzungen im Artikel
Allerdings gibt es enorme Fixkosten für Modelltraining, Infrastrukturaufbau und Personal, sodass sich Profitabilität nicht allein über den reinen Inferenzpreis erklären lässt
Wenn man selbst ein 600B-Modell betreiben will, braucht man GPUs im Wert von Zehntausenden Dollar, die größtenteils ungenutzt bleiben, was ineffizient ist
Aus Sicht von jemandem mit Erfahrung in GPU-Architekturen gilt: Bei langen Kontexten steigt die Attention-Berechnung theoretisch auf O(n²)
Der Artikel rechnet auf Basis von DeepSeek R1, aber DeepSeek ist ungewöhnlich effizient, weshalb es sich nicht gut für Kostenschätzungen bei OpenAI/Anthropic eignet
Die Effizienz von DeepSeek beruht auf MoE und MLA-Attention
Der Grund, warum DeepSeek den Markt erschüttert hat, war weniger die Inferenz-Effizienz als vielmehr die Behauptung von 5 Millionen Dollar Trainingskosten
Es ist schwer anzunehmen, dass GPT-5 oder Claude 4 weniger effizient wären als DeepSeek
Auch Amodei sagte, DeepSeek sei einfach nur Teil der erwarteten Kurve sinkender Kosten
Die im Artikel genannten täglichen Token-Zahlen sind viel zu niedrig
Auch der Preis von ChatGPT Pro wurde falsch genannt
Tatsächlich sind es 200 Dollar pro Monat, und Sam Altman hat selbst einmal gesagt: „Wir machen mit dem Pro-Abo Verlust“
Der Grund ist, dass die Leute es viel stärker nutzen als erwartet
Kürzlich sagte er aber auch: „Mit Inferenz machen wir Gewinn“
Persönlich vertraue ich Sams Aussagen nicht
Wahrscheinlich entfallen in Wirklichkeit die meisten Nutzungen auf die obersten 10 % der Nutzer in einer Power-Law-Verteilung
Jüngsten Berichten zufolge liegt die Marge bei Anthropic bei 60 %, bei OpenAI inklusive kostenloser Nutzer bei 50 %
Durch speculative decoding, Caching usw. sinken die Kosten weiter
Auch die im Artikel angenommene Größe von 37 Milliarden Parametern passt nicht zur tatsächlichen Modellgröße
Aus Margen allein ergibt sich allerdings noch nicht das Gesamtbild
Sam Altman hat in mehreren Interviews wiederholt gesagt: „Wenn man nur die Trainingskosten herausrechnet, sind wir profitabel“