1 Punkte von GN⁺ 2026-03-11 | 1 Kommentare | Auf WhatsApp teilen
  • Die von Forbes zitierte 5.000-Dollar-Rechnung für den Claude Code Max-Tarif basiert in Wirklichkeit auf API-Einzelhandelspreisen, nicht auf tatsächlichen Compute-Kosten
  • Ein Vergleich mit den Preisen der Modelle Qwen 3.5 397B und Kimi K2.5 auf OpenRouter zeigt, dass Modelle ähnlicher Größe für rund ein Zehntel der Anthropic-API-Preise betrieben werden
  • Auf dieser Grundlage lägen Anthropics tatsächlich geschätzte Kosten bei etwa 500 Dollar, also nur bei einem Verlust von rund 300 Dollar pro Monat für einige besonders intensive Nutzer
  • Die meisten Nutzer erreichen das Token-Limit nicht; auf Basis der durchschnittlichen Nutzung ergibt sich vielmehr ein Break-even oder profitables Modell
  • Die Vorstellung, KI-Inferenz sei übermäßig teuer, ist ein Missverständnis und wird genutzt, um die hohen API-Margen großer KI-Unternehmen zu rechtfertigen

Überprüfung der Forbes-Behauptung über 5.000 Dollar

  • Forbes zitierte in einem Artikel über Cursor die Aussage, Anthropics 200-Dollar-Tarif erlaube Compute-Nutzung im Wert von 5.000 Dollar
    • Das Zitat wurde als Aussage von jemandem eingeführt, „der die Analyse der Compute-Nutzungsmuster des Unternehmens gesehen hat“
  • Diese Zahl ist eine Berechnung auf Basis von API-Einzelhandelspreisen und entspricht nicht den tatsächlichen Compute-Kosten
  • Für die API von Anthropic Opus 4.6 gelten Preise von 5 Dollar pro 1 Million Input-Token und 25 Dollar pro 1 Million Output-Token
    • Nach diesem Tarif können Heavy User eine API-Nutzung im Gegenwert von 5.000 Dollar pro Monat erreichen

Schätzung der tatsächlichen Compute-Kosten

  • Auf OpenRouter liegt das Modell Qwen 3.5 397B-A17B vergleichbarer Größenordnung bei 0,39 Dollar pro 1 Million Input-Token und 2,34 Dollar pro 1 Million Output-Token
    • Das Modell Kimi K2.5 ist mit 0,45 Dollar für Input und 2,25 Dollar für Output sogar noch günstiger
  • Das entspricht einem Preisniveau von etwa dem Zehntel der Anthropic-API-Preise
  • Auch bei Cache-Token-Kosten zeigt sich ein ähnlicher Unterschied
    • Beispiel: Die Kosten für Cache-Reads von Kimi K2.5 bei DeepInfra liegen bei 0,07 Dollar/MTok, bei Anthropic bei 0,50 Dollar/MTok
  • Daher lassen sich die tatsächlichen Compute-Kosten auf etwa 10 % der API-Preise schätzen

Die tatsächlichen Kosten für Claude-Code-Max-Nutzer

  • Ein Nutzer, der auf Basis der API-Preise Token im Gegenwert von 5.000 Dollar verbraucht, verursacht tatsächlich nur Kosten von etwa 500 Dollar
    • In diesem Fall würde Anthropic rund 300 Dollar Verlust pro Monat machen
  • Anthropic gibt jedoch an, dass weniger als 5 % der Nutzer das Token-Limit erreichen
    • Gewöhnliche Nutzer bleiben im Durchschnitt bei unter 50 % des Token-Volumens
  • Laut den /cost-Daten von Anthropic liegt der durchschnittliche Nutzer bei API-Nutzung im Wert von 6 Dollar pro Tag, 90 % bei höchstens 12 Dollar
    • Auf Basis der tatsächlichen Kosten wären das etwa 18 Dollar pro Monat, was gegenüber Abogebühren von 20 bis 200 Dollar profitabel sein kann

Kostenunterschied zu Cursor

  • Die Zahl von 5.000 Dollar stammt aus einer internen Analyse von Cursor
    • Cursor muss Opus 4.6 von Anthropic zu den API-Einzelhandelspreisen nutzen
  • Aus Sicht von Cursor können dadurch für einen Power User monatliche Kosten von 5.000 Dollar entstehen
    • Für Anthropic selbst lägen die tatsächlichen Kosten dagegen nur bei rund 500 Dollar
  • Cursor hat damit zu kämpfen, dass Entwickler Modelle von Anthropic bevorzugen

Anthropics Ertragsmodell und das Missverständnis

  • Anthropic schreibt insgesamt zwar weiterhin Verluste, unter anderem wegen Trainingskosten, Personalkosten und großer Compute-Investitionen
  • Die Inferenzkosten pro Token dürften jedoch sehr profitabel sein
  • Die Wahrnehmung, „KI-Inferenz sei ein Verlustgeschäft“, rechtfertigt überhöhte Margen bei API-Preisen und bremst den Wettbewerb
  • Wer die tatsächliche Ökonomie von Inferenz verstehen will, sollte sich an den öffentlich einsehbaren Modellpreisen von OpenRouter orientieren
    • Diese liegen gegenüber den API-Preisen großer KI-Unternehmen nur bei einem Bruchteil der tatsächlichen Kosten

1 Kommentare

 
GN⁺ 2026-03-11
Hacker-News-Kommentare
  • Qwen 3.5 397B-A17B mit einem Anthropic-Modell zu vergleichen, ist ein unsinniger Vergleich
    Es gilt als bekannt, dass chinesische Modelle wie Qwen oder DeepSeek mehr als 10-mal effizienter sind als Anthropic
    Das ist auch der Grund, warum es kaum einen großen Unterschied zwischen den OpenRouter-Preisen und den offiziellen Preisen gibt. Außerdem ist unklar, welche **Quantisierungs-**Techniken die OpenRouter-Anbieter verwenden. In Wirklichkeit könnten sie sogar 100-mal effizienter sein
    Natürlich nutzt nicht jeder Nutzer seinen Plan bis zum Maximum, daher entsteht nicht pro Nutzer ein Verlust von 5.000 Dollar

    • Das ist Zirkelschluss. Der einzige Grund, chinesische Modelle für 10-mal effizienter zu halten, ist, dass sie 10-mal billiger sind
      Betrachtet man die t/s-Werte von Opus 4.5 auf Amazon Bedrock und von chinesischen Modellen, liegen sie auf ähnlichem Niveau, also ist auch die tatsächliche Zahl aktiver Parameter ähnlich
      Bei OpenRouter kann man Anbieter mit BF16 oder Q8 auch direkt auswählen
    • Stimme zu, aber Opus 4.6 ist wahrscheinlich ein 10-mal größeres Modell. GPT-4 ist bereits ein 1,6T-Modell und Llama 4 ist ebenfalls deutlich größer
      Chinesische Unternehmen haben zwar zu wenige GPUs, haben aber bei der Effizienzsteigerung der Inferenz viele Innovationen erreicht. Auch DeepSeek-CEO Liang steht auf der Autorenliste entsprechender Papers
    • Es ist sinnlos, ein Open-Source-Modell wie Qwen mit Anthropic zu vergleichen
      Anthropic hat Modellarchitektur und Parameterzahl nie offengelegt
      Open-Source-Modelle destillieren meist andere Modelle oder verwenden MoE, um die Rechenkosten zu senken
      Ein Blogbeitrag, der Qwen als Vergleichsmaßstab nimmt, ist schwer vertrauenswürdig
    • Opus könnte durch die Nutzung von TPUs niedrigere Kosten erreicht haben
    • Im Anbieterbereich von OpenRouter werden Quantisierungsinformationen angezeigt
  • Laut dem Originalartikel schätzte Cursor im vergangenen Jahr, dass ein Claude-Code-Abo für 200 Dollar im Monat bis zu 2.000 Dollar an Rechenleistung nutzt
    Inzwischen sei diese Subvention noch größer geworden, sodass derselbe Plan jetzt etwa 5.000 Dollar an Rechenleistung verbrauchen könne

    • Darauf kam die Reaktion: „Das ist eine Information, die alles verändert“
  • Viele glauben, dass OpenAI und Anthropic Tokens mit Verlust verkaufen, aber dafür gibt es kaum echte Belege
    Dieses Meme verbreitete sich wegen eines ungenauen Forbes-Artikels. Der Artikel verstand nicht einmal den Unterschied zwischen API-Kosten und Rechenkosten

    • Andererseits ist es auch schwer, sicher zu behaupten, dass es keine Belege für Verlustverkäufe gibt
      Wenn man bedenkt, dass Anthropic die Nutzung außerhalb von CC blockiert und dass das API-Ausgabelimit bei 5.000 Dollar liegt, könnte die Profitabilität tatsächlich gering sein
    • Manche argumentieren auch: „Wie soll ein Unternehmen, das nur Tokens verkauft, dabei keinen Verlust machen?“
      Forschungs-, Trainings- und Infrastruktur-Personalkosten müssten alle in den Kosten der Tokenerzeugung enthalten sein
      Die niedrigen Preise von Open-Weight-Modellen seien Dumping zur Gewinnung von Marktanteilen, die tatsächlichen Kosten lägen höher
      Letztlich werde diese Struktur nicht lange tragfähig sein
    • Wichtiger als die Frage, ob Anthropic pro Token Verlust macht, ist, wie hoch die Trainingskosten sind
      Wenn ein Modell nicht kontinuierlich weitertrainiert wird, sinkt der Wert der Tokens
    • Zur Referenz gibt es das zugehörige Dokument hier
  • Wenn unser Team Claude Code per API nutzen würde, würde das 200.000 Dollar pro Monat kosten, tatsächlich zahlen wir aber mit Max-Abos nur 1.400 Dollar im Monat
    Das sind etwa 50.000 Dollar pro Nutzer, aber wenn man sich die Zahl der JSON-Tokens ansieht, scheinen die meisten gecachte Requests zu sein, daher dürften die tatsächlichen Kosten viel niedriger liegen

    • Mich würde interessieren, wie ihr die Arbeit so effizient verteilt. Ich nutze Claude auch viel, stoße aber schnell an Grenzen
    • Gemini CLI zeigt pro Session die Cache-Ersparnisrate an, bei mir meist etwa 90 %
    • Ich lasse auch mehrere Claude-Agenten laufen, und 85 % der Eingabetokens sind Cache-Lesezugriffe
      Die tatsächlichen Kosten dürften eher bei 25.000 bis 30.000 Dollar liegen. Die Forbes-Schätzung von 5.000 Dollar ist übertrieben
    • Mit npx ccusage kann man lokale Logs prüfen und die API-basierten Kosten berechnen
    • Ich frage mich allerdings, ob die Nutzung des Max-Plans für Firmenzwecke nicht gegen die Nutzungsbedingungen verstößt
  • Wenn die Rechenkapazität von Anthropic vollständig ausgelastet ist, könnten Power-User von Claude Code Opportunitätskosten von 5.000 Dollar pro Nutzer verursachen
    Aber dieser Vergleich ist ungefähr so unpassend wie die Zahl der Zahnräder einer Rolex mit der einer namenlosen Uhr zu vergleichen

    • Opportunitätskosten sind keine tatsächlichen Kosten. Entscheidend ist, ob Anthropic so ausgelastet ist, dass es keine Abos mehr verkaufen kann
    • Je vollständiger eine GPU-Farm ausgelastet ist, desto stärker sinken die Stückkosten durch **Batching-**Effekte
    • Der Begriff „Opportunitätskosten“ wird auch in der Entertainment-Branche oft benutzt, in der Realität sinkt aber eher der Konsum
      Bei Anthropic dürfte es ähnlich sein: Nutzer könnten die unsichere Qualität infrage stellen oder zu API-basierter Abrechnung wechseln
    • Es gab auch den scherzhaften Kommentar: „Ich hoffe, meine Situation, mit einem 100-Dollar-Abo reichlich Opus zu nutzen, bleibt bestehen“
  • Inferenzkosten und Gewinnmargen unterscheiden sich stark zwischen Open-Weight-Modellen und großen Cloud-Anbietern
    Das ist ähnlich wie der Unterschied zwischen F&E-Kosten in der Pharmaindustrie und den Produktionskosten von Generika
    Die Inferenzmarge von OpenAI wird auf etwa 70 % geschätzt, die von Anthropic auf 40 bis 90 %
    Verwandte Artikel: Phemex, SaaStr, The Information, Investing.com

    • Es gibt die Meinung, man solle das Wort „Profit“ nicht zu leichtfertig verwenden
      Nach Rechnungslegungsstandards könnten die Erlöse pro Modell die Trainingskosten bereits ausgeglichen haben
      Auf Cashflow-Basis sei das Unternehmen aber noch nicht cashflow-positiv
      Wenn man diesen Unterschied nicht versteht, unterschätzt man die gesamte AI-Branche
  • Ich bin mir nicht sicher, wie groß das Modell Opus 4.6 ist
    Ich vermute, es ist deutlich größer als Qwen397B

    • Wenn Musk sagt, dass Grok Billionen von Parametern hat, könnte Opus ebenfalls in dieser Größenordnung liegen
      Anthropic verdient mit der API wahrscheinlich Geld, aber 90 % Marge dürften es eher nicht sein
    • Bei OpenRouter kostet DeepSeek v3.2 (685B/37B active) $0.26/0.40, Kimi K2.5 (1T/32B active) $0.45/2.25
    • Fachleute würden vermuten, dass Opus 1 bis 2 Billionen Parameter hat
  • Cache ist fast kostenlos, aber in Wirklichkeit nicht völlig gratis
    Zieht man die Kosten für Cache-Tokens ab, sinkt die tatsächliche Rechennutzung eines 200-Dollar-Abos auf etwa 800 Dollar
    Der Großteil der Rechenleistung dürfte ungenutzt bleiben

    • Aber Cache belegt dauerhaft RAM und ist daher nicht komplett kostenlos
      Wenn der Cache nicht trifft, entstehen entsprechende Opportunitätskosten
    • Dank Cache kann man Inferenz an mehr Nutzer zu Premiumpreisen verkaufen, also ist er faktisch ein Mittel zur Gewinnmaximierung
    • Wenn die Rechenleistung nicht ungenutzt bleibt, könnte man diese Ressourcen auch für Modelltraining oder Forschungsexperimente einsetzen
  • Cursor muss Opus 4.6 zu den Retail-API-Preisen von Anthropic nutzen, deshalb könnten pro Power-User 5.000 Dollar im Monat anfallen
    Dagegen dürften die tatsächlichen Kosten von Anthropic eher bei 500 Dollar liegen
    Ich habe kürzlich im Swix-Podcast von Cursors Cloud-Agent-Strategie gehört, und die Eintrittsbarrieren sinken

  • Ein Claude-Abo ist eher mit dem Konzept von Spot-Instanzen vergleichbar
    Die API ist ein On-Demand-Service, und die Priorität liegt bei der API
    Verbleibende Rechenleistung wird Abo-Nutzern zugewiesen; wenn die Kapazität knapp wird, wird auf quantisierte günstige Modelle weitergeleitet
    Solche Abos nutzen ungenutzte Ressourcen und tragen mit vorhersehbaren Workflows auch dazu bei, die Qualität des Modelltrainings zu erhöhen
    Ich habe Qwen Code, Codex und Claude alle verwendet; Codex war doppelt so gut wie Qwen und Claude doppelt so gut wie Codex
    Daher würde ich erwarten, dass Claude Opus 4- bis 5-mal teurer ist als Qwen Code

    • Dass „Claude doppelt so gut wie Codex“ sei, stimmt derzeit nicht
    • Der Teil, wonach bei Kapazitätsmangel auf günstigere Modelle geroutet werde, wurde offiziell nie bekannt gegeben