- Entgegen einer in der Branche häufig geäußerten Behauptung sind die Kosten für AI-Inferenz niedriger als gedacht und können im Gegenteil sogar eine hohe Profitabilität sichern
- Der Analyse zufolge sind die Kosten für Eingabe-Token praktisch vernachlässigbar (rund $0.005 pro Million Token), während die Kosten für Ausgabe-Token bei über $3 pro Million Token liegen – ein Unterschied um den Faktor 1000
- Consumer-Abos (z. B. ChatGPT Pro für $20/Monat) liegen beim tatsächlichen Inferenz-Kostenpreis um das 5- bis 6-Fache, Entwickler-Pläne (Claude Code) sogar um das 10- bis 20-Fache, was sehr hohe Wirtschaftlichkeit bedeutet
- API-Preismodelle erzielen gegenüber den Kosten Margen von 80–95 % oder mehr und bilden damit eine Ertragsstruktur, die klassischer Software ähnelt
- Letztlich ist Inferenz kein „Geldverbrenner“, sondern bei guter Nutzung der Unwucht zwischen Eingabe und Ausgabe ein sehr profitables Geschäft
Einleitung
- Es wird oft behauptet, dass AI, insbesondere Inferenz (inference), enorme Kosten verursacht; dem gegenüber steht jedoch eine skeptische Sicht, die eine wirtschaftliche Analyse verlangt
- Der Autor hat keine Erfahrung im Betrieb großskaliger Frontier-Modelle, stützt sich aber auf ein Verständnis des Kostenaufbaus von Cloud-Services mit hohem Durchsatz und von Bare Metal im Vergleich zu Hyperscalern
- Die Analyse ist eher Milchmädchenrechnung (napkin math) und konzentriert sich auf reine Compute-Kosten
- Für eine einzelne H100-GPU werden $2 pro Stunde angesetzt; große AI-Unternehmen können sie realistisch günstiger beziehen
Annahmen
- Die Analyse konzentriert sich nur auf reine Compute-Kosten und testet die Nachhaltigkeit auf Basis des Nutzens heutiger Modelle ohne Modellverbesserungen
- Verwendet wird die DeepSeek-R1-Architektur (671B Gesamtparameter, 37B aktiv), bei angenommener Leistung ähnlich Claude Sonnet 4 und GPT-5
Produktionsumgebung mit H100
- Produktions-Setup: Cluster aus 72 H100-GPUs, Kosten von $144 pro Stunde
- Batch-Größe 32, Tensor Parallelism über 8 GPUs, wodurch 9 Modellinstanzen parallel laufen
- Prefill-Phase (Verarbeitung der Eingabe): Bei 3.35 TB/s HBM-Bandbreite der H100 sind 45 Forward-Passes pro Sekunde möglich
- Bei 32 Sequenzen pro Batch (im Mittel 1.000 Token) sind das 1,44 Mio. Eingabe-Token pro Sekunde bzw. 46,8 Mrd. Eingabe-Token pro Stunde
- Bei MoE-Modellen kann das Expert Routing den Durchsatz um 30–50 % senken, der Effekt wird aber durch effiziente Parallelisierung minimiert
- Decode-Phase (Erzeugung der Ausgabe): Sequentielle Token-Generierung, 1.440 Ausgabe-Token pro Sekunde bzw. 46,7 Mio. Ausgabe-Token pro Stunde
- Berechnung der reinen Kosten pro Token
- Eingabe-Token: $144 ÷ 4,68 Mrd. = rund $0.003 pro Million Token
- Ausgabe-Token: $144 ÷ 46,7 Mio. = rund $3.08 pro Million Token
- Asymmetrie: Der Kostenunterschied zwischen Eingabeverarbeitung und Ausgabegenerierung beträgt rund das 1000-Fache
Compute-Engpässe
- In der Regel ist Speicherbandbreite der Engpass, bei langen Kontextsequenzen von 128k+ wird jedoch Attention-Compute zum Flaschenhals und erhöht die Kosten um den Faktor 2 bis 10
- Claude Code bleibt mit seinem 200k-Token-Limit in einem günstigen, speicherzentrierten Regime und vermeidet teure compute-zentrierte Szenarien
- Zusätzliche Gebühren für lange Kontextfenster spiegeln diese ökonomische Veränderung wider
Reale Nutzerökonomie
- Consumer-Tarif ($20/Monat ChatGPT Pro): 100.000 Token pro Tag (70 % Eingabe, 30 % Ausgabe), tatsächliche Kosten etwa $3/Monat
- Marge für OpenAI: 5- bis 6-fach
- Entwicklernutzung (Claude Code Max 5, $100/Monat): 2 Mio. Eingabe- und 30.000 Ausgabe-Token pro Tag, tatsächliche Kosten etwa $4.92/Monat, Marge 20,3-fach
- Max 10 ($200/Monat): 10 Mio. Eingabe- und 100.000 Ausgabe-Token pro Tag, tatsächliche Kosten etwa $16.89/Monat, Marge 11,8-fach
- Coding Agents maximieren durch eingabelastige (günstige) Nutzungsmuster die Wirtschaftlichkeit
- API-Gewinnmargen: Gegenüber heutigen Preisen ($3/15 pro Million Token) und tatsächlichen Kosten ($0.01/3) liegen die Margen bei 80–95 %
Fazit
- Die Analyse beruht auf mehreren Annahmen und kann Fehler enthalten, doch selbst bei einer Abweichung um den Faktor 3 bleibt die Profitabilität hoch
- Eingabeverarbeitung ist mit $0.005 pro Million Token günstig, die Ausgabegenerierung liegt bei $3+ und damit tausendfach höher
- Entscheidend ist die asymmetrische Struktur der Kosten von Eingabe- und Ausgabe-Token; wer sie gut nutzt, kann hohe Profitabilität erreichen
- Eingabelastige Workloads (Coding-Assistenten, Dokumentenanalyse, Forschung usw.) → Kostenstruktur nahezu kostenlos, sehr hohe Profitabilität
- Ausgabelastige Workloads (z. B. Videogenerierung) → wenig Eingabe, aber Millionen Ausgabe-Token, ungünstige Kostenstruktur und daher kaum ohne hohe Preise darstellbar
- Die Aussage „AI-Inferenz ist so teuer, dass sie nicht nachhaltig ist“ passt nicht zur realen Kostenstruktur. Sie könnte eher eine Strategie etablierter großer Anbieter zur Wettbewerbsabschreckung sein. Die tatsächliche Margenstruktur ist bereits sehr robust
- Wie schon die frühere Übertreibung von Cloud-Computing-Kosten die Übergewinne von Big Tech rechtfertigte, besteht auch bei der Debatte über Inferenzkosten das Risiko überzogenen „Kosten-Angst-Marketings“
- Ein faktenbasierter Blick auf die Kostenstruktur ist notwendig
Noch keine Kommentare.