- Die von Forbes zitierte 5.000-Dollar-Rechnung für den Claude Code Max-Tarif basiert in Wirklichkeit auf API-Einzelhandelspreisen, nicht auf tatsächlichen Compute-Kosten
- Ein Vergleich mit den Preisen der Modelle Qwen 3.5 397B und Kimi K2.5 auf OpenRouter zeigt, dass Modelle ähnlicher Größe für rund ein Zehntel der Anthropic-API-Preise betrieben werden
- Auf dieser Grundlage lägen Anthropics tatsächlich geschätzte Kosten bei etwa 500 Dollar, also nur bei einem Verlust von rund 300 Dollar pro Monat für einige besonders intensive Nutzer
- Die meisten Nutzer erreichen das Token-Limit nicht; auf Basis der durchschnittlichen Nutzung ergibt sich vielmehr ein Break-even oder profitables Modell
- Die Vorstellung, KI-Inferenz sei übermäßig teuer, ist ein Missverständnis und wird genutzt, um die hohen API-Margen großer KI-Unternehmen zu rechtfertigen
Überprüfung der Forbes-Behauptung über 5.000 Dollar
- Forbes zitierte in einem Artikel über Cursor die Aussage, Anthropics 200-Dollar-Tarif erlaube Compute-Nutzung im Wert von 5.000 Dollar
- Das Zitat wurde als Aussage von jemandem eingeführt, „der die Analyse der Compute-Nutzungsmuster des Unternehmens gesehen hat“
- Diese Zahl ist eine Berechnung auf Basis von API-Einzelhandelspreisen und entspricht nicht den tatsächlichen Compute-Kosten
- Für die API von Anthropic Opus 4.6 gelten Preise von 5 Dollar pro 1 Million Input-Token und 25 Dollar pro 1 Million Output-Token
- Nach diesem Tarif können Heavy User eine API-Nutzung im Gegenwert von 5.000 Dollar pro Monat erreichen
Schätzung der tatsächlichen Compute-Kosten
- Auf OpenRouter liegt das Modell Qwen 3.5 397B-A17B vergleichbarer Größenordnung bei 0,39 Dollar pro 1 Million Input-Token und 2,34 Dollar pro 1 Million Output-Token
- Das Modell Kimi K2.5 ist mit 0,45 Dollar für Input und 2,25 Dollar für Output sogar noch günstiger
- Das entspricht einem Preisniveau von etwa dem Zehntel der Anthropic-API-Preise
- Auch bei Cache-Token-Kosten zeigt sich ein ähnlicher Unterschied
- Beispiel: Die Kosten für Cache-Reads von Kimi K2.5 bei DeepInfra liegen bei 0,07 Dollar/MTok, bei Anthropic bei 0,50 Dollar/MTok
- Daher lassen sich die tatsächlichen Compute-Kosten auf etwa 10 % der API-Preise schätzen
Die tatsächlichen Kosten für Claude-Code-Max-Nutzer
- Ein Nutzer, der auf Basis der API-Preise Token im Gegenwert von 5.000 Dollar verbraucht, verursacht tatsächlich nur Kosten von etwa 500 Dollar
- In diesem Fall würde Anthropic rund 300 Dollar Verlust pro Monat machen
- Anthropic gibt jedoch an, dass weniger als 5 % der Nutzer das Token-Limit erreichen
- Gewöhnliche Nutzer bleiben im Durchschnitt bei unter 50 % des Token-Volumens
- Laut den
/cost-Daten von Anthropic liegt der durchschnittliche Nutzer bei API-Nutzung im Wert von 6 Dollar pro Tag, 90 % bei höchstens 12 Dollar
- Auf Basis der tatsächlichen Kosten wären das etwa 18 Dollar pro Monat, was gegenüber Abogebühren von 20 bis 200 Dollar profitabel sein kann
Kostenunterschied zu Cursor
- Die Zahl von 5.000 Dollar stammt aus einer internen Analyse von Cursor
- Cursor muss Opus 4.6 von Anthropic zu den API-Einzelhandelspreisen nutzen
- Aus Sicht von Cursor können dadurch für einen Power User monatliche Kosten von 5.000 Dollar entstehen
- Für Anthropic selbst lägen die tatsächlichen Kosten dagegen nur bei rund 500 Dollar
- Cursor hat damit zu kämpfen, dass Entwickler Modelle von Anthropic bevorzugen
Anthropics Ertragsmodell und das Missverständnis
- Anthropic schreibt insgesamt zwar weiterhin Verluste, unter anderem wegen Trainingskosten, Personalkosten und großer Compute-Investitionen
- Die Inferenzkosten pro Token dürften jedoch sehr profitabel sein
- Die Wahrnehmung, „KI-Inferenz sei ein Verlustgeschäft“, rechtfertigt überhöhte Margen bei API-Preisen und bremst den Wettbewerb
- Wer die tatsächliche Ökonomie von Inferenz verstehen will, sollte sich an den öffentlich einsehbaren Modellpreisen von OpenRouter orientieren
- Diese liegen gegenüber den API-Preisen großer KI-Unternehmen nur bei einem Bruchteil der tatsächlichen Kosten
1 Kommentare
Hacker-News-Kommentare
Qwen 3.5 397B-A17B mit einem Anthropic-Modell zu vergleichen, ist ein unsinniger Vergleich
Es gilt als bekannt, dass chinesische Modelle wie Qwen oder DeepSeek mehr als 10-mal effizienter sind als Anthropic
Das ist auch der Grund, warum es kaum einen großen Unterschied zwischen den OpenRouter-Preisen und den offiziellen Preisen gibt. Außerdem ist unklar, welche **Quantisierungs-**Techniken die OpenRouter-Anbieter verwenden. In Wirklichkeit könnten sie sogar 100-mal effizienter sein
Natürlich nutzt nicht jeder Nutzer seinen Plan bis zum Maximum, daher entsteht nicht pro Nutzer ein Verlust von 5.000 Dollar
Betrachtet man die t/s-Werte von Opus 4.5 auf Amazon Bedrock und von chinesischen Modellen, liegen sie auf ähnlichem Niveau, also ist auch die tatsächliche Zahl aktiver Parameter ähnlich
Bei OpenRouter kann man Anbieter mit BF16 oder Q8 auch direkt auswählen
Chinesische Unternehmen haben zwar zu wenige GPUs, haben aber bei der Effizienzsteigerung der Inferenz viele Innovationen erreicht. Auch DeepSeek-CEO Liang steht auf der Autorenliste entsprechender Papers
Anthropic hat Modellarchitektur und Parameterzahl nie offengelegt
Open-Source-Modelle destillieren meist andere Modelle oder verwenden MoE, um die Rechenkosten zu senken
Ein Blogbeitrag, der Qwen als Vergleichsmaßstab nimmt, ist schwer vertrauenswürdig
Laut dem Originalartikel schätzte Cursor im vergangenen Jahr, dass ein Claude-Code-Abo für 200 Dollar im Monat bis zu 2.000 Dollar an Rechenleistung nutzt
Inzwischen sei diese Subvention noch größer geworden, sodass derselbe Plan jetzt etwa 5.000 Dollar an Rechenleistung verbrauchen könne
Viele glauben, dass OpenAI und Anthropic Tokens mit Verlust verkaufen, aber dafür gibt es kaum echte Belege
Dieses Meme verbreitete sich wegen eines ungenauen Forbes-Artikels. Der Artikel verstand nicht einmal den Unterschied zwischen API-Kosten und Rechenkosten
Wenn man bedenkt, dass Anthropic die Nutzung außerhalb von CC blockiert und dass das API-Ausgabelimit bei 5.000 Dollar liegt, könnte die Profitabilität tatsächlich gering sein
Forschungs-, Trainings- und Infrastruktur-Personalkosten müssten alle in den Kosten der Tokenerzeugung enthalten sein
Die niedrigen Preise von Open-Weight-Modellen seien Dumping zur Gewinnung von Marktanteilen, die tatsächlichen Kosten lägen höher
Letztlich werde diese Struktur nicht lange tragfähig sein
Wenn ein Modell nicht kontinuierlich weitertrainiert wird, sinkt der Wert der Tokens
Wenn unser Team Claude Code per API nutzen würde, würde das 200.000 Dollar pro Monat kosten, tatsächlich zahlen wir aber mit Max-Abos nur 1.400 Dollar im Monat
Das sind etwa 50.000 Dollar pro Nutzer, aber wenn man sich die Zahl der JSON-Tokens ansieht, scheinen die meisten gecachte Requests zu sein, daher dürften die tatsächlichen Kosten viel niedriger liegen
Die tatsächlichen Kosten dürften eher bei 25.000 bis 30.000 Dollar liegen. Die Forbes-Schätzung von 5.000 Dollar ist übertrieben
npx ccusagekann man lokale Logs prüfen und die API-basierten Kosten berechnenWenn die Rechenkapazität von Anthropic vollständig ausgelastet ist, könnten Power-User von Claude Code Opportunitätskosten von 5.000 Dollar pro Nutzer verursachen
Aber dieser Vergleich ist ungefähr so unpassend wie die Zahl der Zahnräder einer Rolex mit der einer namenlosen Uhr zu vergleichen
Bei Anthropic dürfte es ähnlich sein: Nutzer könnten die unsichere Qualität infrage stellen oder zu API-basierter Abrechnung wechseln
Inferenzkosten und Gewinnmargen unterscheiden sich stark zwischen Open-Weight-Modellen und großen Cloud-Anbietern
Das ist ähnlich wie der Unterschied zwischen F&E-Kosten in der Pharmaindustrie und den Produktionskosten von Generika
Die Inferenzmarge von OpenAI wird auf etwa 70 % geschätzt, die von Anthropic auf 40 bis 90 %
Verwandte Artikel: Phemex, SaaStr, The Information, Investing.com
Nach Rechnungslegungsstandards könnten die Erlöse pro Modell die Trainingskosten bereits ausgeglichen haben
Auf Cashflow-Basis sei das Unternehmen aber noch nicht cashflow-positiv
Wenn man diesen Unterschied nicht versteht, unterschätzt man die gesamte AI-Branche
Ich bin mir nicht sicher, wie groß das Modell Opus 4.6 ist
Ich vermute, es ist deutlich größer als Qwen397B
Anthropic verdient mit der API wahrscheinlich Geld, aber 90 % Marge dürften es eher nicht sein
Cache ist fast kostenlos, aber in Wirklichkeit nicht völlig gratis
Zieht man die Kosten für Cache-Tokens ab, sinkt die tatsächliche Rechennutzung eines 200-Dollar-Abos auf etwa 800 Dollar
Der Großteil der Rechenleistung dürfte ungenutzt bleiben
Wenn der Cache nicht trifft, entstehen entsprechende Opportunitätskosten
Cursor muss Opus 4.6 zu den Retail-API-Preisen von Anthropic nutzen, deshalb könnten pro Power-User 5.000 Dollar im Monat anfallen
Dagegen dürften die tatsächlichen Kosten von Anthropic eher bei 500 Dollar liegen
Ich habe kürzlich im Swix-Podcast von Cursors Cloud-Agent-Strategie gehört, und die Eintrittsbarrieren sinken
Ein Claude-Abo ist eher mit dem Konzept von Spot-Instanzen vergleichbar
Die API ist ein On-Demand-Service, und die Priorität liegt bei der API
Verbleibende Rechenleistung wird Abo-Nutzern zugewiesen; wenn die Kapazität knapp wird, wird auf quantisierte günstige Modelle weitergeleitet
Solche Abos nutzen ungenutzte Ressourcen und tragen mit vorhersehbaren Workflows auch dazu bei, die Qualität des Modelltrainings zu erhöhen
Ich habe Qwen Code, Codex und Claude alle verwendet; Codex war doppelt so gut wie Qwen und Claude doppelt so gut wie Codex
Daher würde ich erwarten, dass Claude Opus 4- bis 5-mal teurer ist als Qwen Code