4 Punkte von GN⁺ 2025-08-29 | 1 Kommentare | Auf WhatsApp teilen
  • Entgegen einer in der Branche häufig geäußerten Behauptung sind die Kosten für AI-Inferenz niedriger als gedacht und können im Gegenteil sogar eine hohe Profitabilität sichern
  • Der Analyse zufolge sind die Kosten für Eingabe-Token praktisch vernachlässigbar (rund $0.005 pro Million Token), während die Kosten für Ausgabe-Token bei über $3 pro Million Token liegen – ein Unterschied um den Faktor 1000
  • Consumer-Abos (z. B. ChatGPT Pro für $20/Monat) liegen beim tatsächlichen Inferenz-Kostenpreis um das 5- bis 6-Fache, Entwickler-Pläne (Claude Code) sogar um das 10- bis 20-Fache, was sehr hohe Wirtschaftlichkeit bedeutet
  • API-Preismodelle erzielen gegenüber den Kosten Margen von 80–95 % oder mehr und bilden damit eine Ertragsstruktur, die klassischer Software ähnelt
  • Letztlich ist Inferenz kein „Geldverbrenner“, sondern bei guter Nutzung der Unwucht zwischen Eingabe und Ausgabe ein sehr profitables Geschäft

Einleitung

  • Es wird oft behauptet, dass AI, insbesondere Inferenz (inference), enorme Kosten verursacht; dem gegenüber steht jedoch eine skeptische Sicht, die eine wirtschaftliche Analyse verlangt
    • Der Autor hat keine Erfahrung im Betrieb großskaliger Frontier-Modelle, stützt sich aber auf ein Verständnis des Kostenaufbaus von Cloud-Services mit hohem Durchsatz und von Bare Metal im Vergleich zu Hyperscalern
  • Die Analyse ist eher Milchmädchenrechnung (napkin math) und konzentriert sich auf reine Compute-Kosten
    • Für eine einzelne H100-GPU werden $2 pro Stunde angesetzt; große AI-Unternehmen können sie realistisch günstiger beziehen

Annahmen

  • Die Analyse konzentriert sich nur auf reine Compute-Kosten und testet die Nachhaltigkeit auf Basis des Nutzens heutiger Modelle ohne Modellverbesserungen
    • Verwendet wird die DeepSeek-R1-Architektur (671B Gesamtparameter, 37B aktiv), bei angenommener Leistung ähnlich Claude Sonnet 4 und GPT-5

Produktionsumgebung mit H100

  • Produktions-Setup: Cluster aus 72 H100-GPUs, Kosten von $144 pro Stunde
    • Batch-Größe 32, Tensor Parallelism über 8 GPUs, wodurch 9 Modellinstanzen parallel laufen
  • Prefill-Phase (Verarbeitung der Eingabe): Bei 3.35 TB/s HBM-Bandbreite der H100 sind 45 Forward-Passes pro Sekunde möglich
    • Bei 32 Sequenzen pro Batch (im Mittel 1.000 Token) sind das 1,44 Mio. Eingabe-Token pro Sekunde bzw. 46,8 Mrd. Eingabe-Token pro Stunde
    • Bei MoE-Modellen kann das Expert Routing den Durchsatz um 30–50 % senken, der Effekt wird aber durch effiziente Parallelisierung minimiert
  • Decode-Phase (Erzeugung der Ausgabe): Sequentielle Token-Generierung, 1.440 Ausgabe-Token pro Sekunde bzw. 46,7 Mio. Ausgabe-Token pro Stunde
  • Berechnung der reinen Kosten pro Token
    • Eingabe-Token: $144 ÷ 4,68 Mrd. = rund $0.003 pro Million Token
    • Ausgabe-Token: $144 ÷ 46,7 Mio. = rund $3.08 pro Million Token
      • Asymmetrie: Der Kostenunterschied zwischen Eingabeverarbeitung und Ausgabegenerierung beträgt rund das 1000-Fache

Compute-Engpässe

  • In der Regel ist Speicherbandbreite der Engpass, bei langen Kontextsequenzen von 128k+ wird jedoch Attention-Compute zum Flaschenhals und erhöht die Kosten um den Faktor 2 bis 10
    • Claude Code bleibt mit seinem 200k-Token-Limit in einem günstigen, speicherzentrierten Regime und vermeidet teure compute-zentrierte Szenarien
    • Zusätzliche Gebühren für lange Kontextfenster spiegeln diese ökonomische Veränderung wider

Reale Nutzerökonomie

  • Consumer-Tarif ($20/Monat ChatGPT Pro): 100.000 Token pro Tag (70 % Eingabe, 30 % Ausgabe), tatsächliche Kosten etwa $3/Monat
    • Marge für OpenAI: 5- bis 6-fach
  • Entwicklernutzung (Claude Code Max 5, $100/Monat): 2 Mio. Eingabe- und 30.000 Ausgabe-Token pro Tag, tatsächliche Kosten etwa $4.92/Monat, Marge 20,3-fach
    • Max 10 ($200/Monat): 10 Mio. Eingabe- und 100.000 Ausgabe-Token pro Tag, tatsächliche Kosten etwa $16.89/Monat, Marge 11,8-fach
    • Coding Agents maximieren durch eingabelastige (günstige) Nutzungsmuster die Wirtschaftlichkeit
  • API-Gewinnmargen: Gegenüber heutigen Preisen ($3/15 pro Million Token) und tatsächlichen Kosten ($0.01/3) liegen die Margen bei 80–95 %

Fazit

  • Die Analyse beruht auf mehreren Annahmen und kann Fehler enthalten, doch selbst bei einer Abweichung um den Faktor 3 bleibt die Profitabilität hoch
    • Eingabeverarbeitung ist mit $0.005 pro Million Token günstig, die Ausgabegenerierung liegt bei $3+ und damit tausendfach höher
  • Entscheidend ist die asymmetrische Struktur der Kosten von Eingabe- und Ausgabe-Token; wer sie gut nutzt, kann hohe Profitabilität erreichen
    • Eingabelastige Workloads (Coding-Assistenten, Dokumentenanalyse, Forschung usw.) → Kostenstruktur nahezu kostenlos, sehr hohe Profitabilität
    • Ausgabelastige Workloads (z. B. Videogenerierung) → wenig Eingabe, aber Millionen Ausgabe-Token, ungünstige Kostenstruktur und daher kaum ohne hohe Preise darstellbar
  • Die Aussage „AI-Inferenz ist so teuer, dass sie nicht nachhaltig ist“ passt nicht zur realen Kostenstruktur. Sie könnte eher eine Strategie etablierter großer Anbieter zur Wettbewerbsabschreckung sein. Die tatsächliche Margenstruktur ist bereits sehr robust
  • Wie schon die frühere Übertreibung von Cloud-Computing-Kosten die Übergewinne von Big Tech rechtfertigte, besteht auch bei der Debatte über Inferenzkosten das Risiko überzogenen „Kosten-Angst-Marketings“
    • Ein faktenbasierter Blick auf die Kostenstruktur ist notwendig

1 Kommentare

 
GN⁺ 2025-08-29
Hacker-News-Kommentare
  • Die mathematischen Berechnungen in diesem Artikel sind in vielerlei Hinsicht falsch

    • Insbesondere ist die Annahme falsch, dass die Prefill-Phase durch Bandbreite begrenzt sei

    • Wenn man die vom Autor berechnete MFU aufschlüsselt, kommt man auf 13 PFLOPS/s, also auf einen unmöglichen Wert von dem 7-Fachen der maximalen Hardwareleistung

    • Auch die Annahmen von 32 gleichzeitigen Anfragen, einer Begrenzung auf 8 GPUs und dass nur die Attention-Berechnung der Flaschenhals sei, sind allesamt falsch

    • Schade ist, dass die Leute auf HN, die diesen Artikel kritisieren, eher nur Nebensächlichkeiten statt der grundlegenden Fehler ansprechen

    • Wenn dieser Artikel korrekt wäre, wäre auch die Behauptung schwach begründet, dass OpenAI oder Anthropic bei der Inferenz Verluste machen

    • Auch der Teil zu den Kosten pro Ausgabetoken ist stark fehlerhaft

      • Tatsächlich kann man große Modelle schon mit einem leistungsstarken GPU-Cluster günstig dekodieren
      • Als Beispiel lag das vor vier Monaten bei etwa 0,2 Dollar pro 1 Million Ausgabetoken, und seitdem ist es durch B200-GPUs und Code-Optimierungen noch billiger geworden
    • Danke für den Hinweis, dass die Mathematik falsch ist, aber dann wäre es hilfreich, auch korrekte Zahlen zu nennen, damit man die Erwartungen besser kalibrieren kann

  • Ich habe das mehrfach modelliert und denke, dass bei Inferenz je nach GPU-Abschreibung und optimierter Ressourcenauslastung Margen von über 50 % möglich sind

    • Das Ergebnis fällt allerdings sehr unterschiedlich aus, je nachdem, ob man die Trainingskosten einbezieht

    • Wenn man Trainingskosten nicht aktiviert, sehen die Margen gut aus; wenn man sie aber abschreibt und einrechnet, verschlechtert sich die Profitabilität stark

    • Es stellt sich allerdings die Frage, warum man das Training ausklammern sollte

      • Modelle werden nicht über Jahre genutzt, sondern müssen alle paar Monate neu trainiert werden, um wettbewerbsfähig zu bleiben
    • Für große AI-Forschungslabore sind hohe Margen möglich, für normale Unternehmen aber nicht

      • Laut öffentlich zugänglichen Unterlagen des DeepSeek-Teams kommt man mit vLLM auf 8x H200 SXM auf etwa 12K tok/s
      • Um jedoch 100K~200K tok/s zu verarbeiten, braucht man enorm viele GPUs, von denen die meisten ungenutzt bleiben
      • Daher sind Annahmen wie 100% Auslastung, kostenlose Input-Verarbeitung und keine Netzwerkengpässe nicht realistisch
    • Selbst wenn man GPUs über 5 Jahre abschreibt, kann sinkende Auslastung durch Marktanteilsverluste fatal sein

    • Auch nach IFRS/GAAP sind Trainingskosten Kosten, die direkt dem Umsatz zuzurechnen sind, und müssen letztlich in die Kosten der Umsatzerlöse eingehen

  • Sam Altman sagte: „Wir verdienen Geld mit Inferenz, und wenn man nur die Trainingskosten herausrechnet, ist das sehr profitabel“

    • Amodei erklärte ähnlich, dass, wenn man ein einzelnes Modell wie ein Unternehmen betrachtet, bei 100 Millionen Dollar Trainingskosten und 200 Millionen Dollar Umsatz das Modell als Einheit profitabel sei

    • Gleichzeitig trainiert man aber teurere Modelle der nächsten Generation, weshalb das Unternehmen insgesamt in den roten Zahlen bleibt

    • Die Aussage „ohne Trainingskosten profitabel“ ist allerdings im Grunde eine banale Formulierung, die sich auf fast jedes Unternehmen anwenden lässt

    • In der Praxis ist es zudem schwer, die echte Profitabilität zu beurteilen, weil OpenAI in Startups investiert und Credits bereitstellt, wodurch Geld im Kreis fließt

    • Laut einem NYT-Podcast sagte Sam zwar: „Wenn man nur auf Inferenz schaut, sind wir profitabel“, aber der COO daneben reagierte uneindeutig

      • Das könnte bedeuten, dass selbst die reine Inferenz in Wirklichkeit noch nicht vollständig profitabel ist
  • Wenn Inferenz wirklich so billig wäre, wie im Artikel behauptet, stellt sich die Frage, warum es nicht viel mehr extrem günstige API-Anbieter gibt

    • In der Realität betreiben die meisten günstigen Anbieter nur kleinere Modelle

    • Dann fragt man sich, warum große Modelle wie DeepSeek-R1 nicht billig angeboten werden können

    • Tatsächlich gibt es bereits mehrere API-Anbieter, und manche bieten DeepSeek-R1 sogar kostenlos an

    • Es gibt auch Anbieter wie DeepInfra, und die tatsächlichen Preise liegen noch unter den Schätzungen im Artikel

    • Allerdings gibt es enorme Fixkosten für Modelltraining, Infrastrukturaufbau und Personal, sodass sich Profitabilität nicht allein über den reinen Inferenzpreis erklären lässt

    • Wenn man selbst ein 600B-Modell betreiben will, braucht man GPUs im Wert von Zehntausenden Dollar, die größtenteils ungenutzt bleiben, was ineffizient ist

      • Deshalb ist es sinnvoll, wenn Modellanbieter GPUs bündeln und als gemeinsame Infrastruktur bereitstellen
  • Aus Sicht von jemandem mit Erfahrung in GPU-Architekturen gilt: Bei langen Kontexten steigt die Attention-Berechnung theoretisch auf O(n²)

    • Der eigentliche Flaschenhals ist aber die Speichertransferrate
    • Selbst mit HBM 2+TB/s ist es etwa schwierig, die pro Kern erforderliche Bandbreite zu liefern, und wenn man Kollisionen einrechnet, wird der Flaschenhals um ein Vielfaches gravierender
  • Der Artikel rechnet auf Basis von DeepSeek R1, aber DeepSeek ist ungewöhnlich effizient, weshalb es sich nicht gut für Kostenschätzungen bei OpenAI/Anthropic eignet

    • Die Effizienz von DeepSeek beruht auf MoE und MLA-Attention

      • Es ist allerdings sehr wahrscheinlich, dass OpenAI oder Google ähnliche Optimierungen schon lange einsetzen
      • GPT OSS nutzt sogar fp4, DeepSeek bislang noch nicht
    • Der Grund, warum DeepSeek den Markt erschüttert hat, war weniger die Inferenz-Effizienz als vielmehr die Behauptung von 5 Millionen Dollar Trainingskosten

    • Es ist schwer anzunehmen, dass GPT-5 oder Claude 4 weniger effizient wären als DeepSeek

    • Auch Amodei sagte, DeepSeek sei einfach nur Teil der erwarteten Kurve sinkender Kosten

      • Das Besondere war also weniger ein revolutionärer Durchbruch als vielmehr, dass ein chinesisches Unternehmen dies zuerst gezeigt hat
  • Die im Artikel genannten täglichen Token-Zahlen sind viel zu niedrig

    • Ich selbst nutze im Schnitt 300 Millionen bis 800 Millionen Token pro Tag, und Kolleg:innen liegen bei etwa 150 Millionen bis 600 Millionen Token
    • Außerdem wurde Prompt-Caching nicht berücksichtigt, obwohl es das Inferenzvolumen um 85~95 % senken kann
    • Für eine genaue Berechnung müsste man auch angeben, welche Quantisierungsmethode für Modell und KV-Cache verwendet wird
  • Auch der Preis von ChatGPT Pro wurde falsch genannt

    • Tatsächlich sind es 200 Dollar pro Monat, und Sam Altman hat selbst einmal gesagt: „Wir machen mit dem Pro-Abo Verlust“

    • Der Grund ist, dass die Leute es viel stärker nutzen als erwartet

    • Kürzlich sagte er aber auch: „Mit Inferenz machen wir Gewinn“

      • Da das Unternehmen nicht börsennotiert ist, ist schwer zu sagen, welche Aussage näher an der Wahrheit liegt
    • Persönlich vertraue ich Sams Aussagen nicht

      • Für mich klingt das eher nach Marketing im Sinne von „Unser Produkt ist sehr wertvoll“
    • Wahrscheinlich entfallen in Wirklichkeit die meisten Nutzungen auf die obersten 10 % der Nutzer in einer Power-Law-Verteilung

      • Daher kann es gut sein, dass sich Pro-Abos wirtschaftlich nicht tragen
  • Jüngsten Berichten zufolge liegt die Marge bei Anthropic bei 60 %, bei OpenAI inklusive kostenloser Nutzer bei 50 %

    • Durch speculative decoding, Caching usw. sinken die Kosten weiter

    • Auch die im Artikel angenommene Größe von 37 Milliarden Parametern passt nicht zur tatsächlichen Modellgröße

    • Aus Margen allein ergibt sich allerdings noch nicht das Gesamtbild

      • Es ist gut möglich, dass Azure oder AWS groß angelegte Rabatte gewähren
  • Sam Altman hat in mehreren Interviews wiederholt gesagt: „Wenn man nur die Trainingskosten herausrechnet, sind wir profitabel“

    • Manche sehen darin einen Beleg dafür, dass die Behauptung „OpenAI macht bei jeder Anfrage Verlust“ falsch ist
    • Wenn Training aber kostenlos wäre, könnte es jeder machen, deshalb ist diese Annahme an sich bedeutungslos
    • Dario Amodei erklärte ebenfalls, dass auf Modellebene letztlich Profitabilität gegeben sei
    • Sams Aussagen könnten allerdings auch an Investoren gerichtet sein, und die tatsächliche Profitabilität bleibt unklar