Tokenpreise werden immer teurer

(ethanding.substack.com)

13 Punkte von GN⁺ 2025-08-04 | Noch keine Kommentare. | Auf WhatsApp teilen

Entgegen der Erwartung, dass die LLM-Tokenkosten jedes Jahr um das Zehnfache sinken, verschlechtert sich die Profitabilität von AI-Abo-Diensten zunehmend
Die Nachfrage nach den neuesten LLM-Modellen konzentriert sich stets auf die Topmodelle (SOTA, State-of-the-art), sodass Preisrückgänge bei „älteren“ Modellen nicht zu realen Kostensenkungen führen
Je besser die Modelle werden, desto exponentieller steigt die Zahl der verwendeten Tokens, wodurch sinkende Stückpreise kompensiert werden und die Gesamtkosten vielmehr in die Höhe schießen
Auch Experimente mit unbegrenzten Abotarifen (z. B. Claude Code für 200 $/Monat) sind wegen der explodierenden Token-Nutzung durch Heavy User nicht nachhaltig
Außer nutzungsbasierter Abrechnung gibt es langfristig kein tragfähiges Modell, doch wegen des Wettbewerbs unter Startups und des Widerstands der Verbraucher ist eine praktische Einführung schwierig
Ohne den Wechsel zu einem nachhaltigen Erlösmodell droht den meisten Startups am Ende das Insolvenzrisiko

AI-Abo-Business: Warum wachsen die Verluste trotz sinkender Tokenpreise?

Gründer glaubten an das VC-Playbook: „Die Tokenpreise fallen um den Faktor 10, also müssen wir nur kurz durchhalten, dann wechseln wir zu einer Struktur mit hohen Margen“, und betrieben Abo-Produkte anfangs zu Selbstkosten oder mit Verlust
Tatsächlich sind die Tokenpreise älterer Modelle wie GPT-3.5 um mehr als das Zehnfache gefallen, doch die Nachfrage von Nutzern und Markt bündelt sich immer auf die neuesten und leistungsstärksten Modelle (SOTA)
In der Realität haben sich die Margen nach 18 Monaten nicht verbessert, sondern sogar verschlechtert
Spürbar werden Preissenkungen bei älteren Modellen nur dann, wenn sie wie „die Zeitung von gestern“ längst außerhalb des Marktinteresses liegen

Neueste Modelle wie GPT-4 oder Claude 3 Opus kommen stets zu einem ähnlich hohen Preis auf den Markt, und selbst wenn ältere Modelle noch so billig werden, bleibt ihr tatsächliches Nutzungsvolumen minimal
Nutzer wollen nur die „beste Leistung“, und „billige alte Modelle“ sind im Automarkt kaum mehr als alte Gebrauchtwagen
Was Nutzer bei AI wirklich wollen, sind die besten Ergebnisse, daher greifen nur wenige freiwillig zu älteren Modellen, um Kosten zu sparen
Um am Markt wettbewerbsfähig zu bleiben, muss man am Ende immer die teuersten neuesten Modelle anbieten, wodurch die Kostenbasis bestehen bleibt
- Das ist so, als würden die Preise für Gebrauchtwagen aus den 90ern fallen, während Verbraucher trotzdem weiter Neuwagen kaufen

Mit steigender Modellleistung tritt das Phänomen auf, dass die Tokenmenge pro einzelner Aufgabe exponentiell wächst
Aufgaben, die früher mit 1.000 Tokens erledigt waren, können heute 100.000 Tokens verbrauchen
Früher reichten eine Ein-Satz-Anfrage und eine Ein-Satz-Antwort, heute laufen komplexe Recherchen, Loops oder Orchestrierung 10 bis 20 Minuten am Stück und verursachen enorme Tokenmengen
Weil AI für tiefere Recherche und Analyse eingesetzt wird, steigen die durchschnittlichen täglichen Nutzungsmengen pro Nutzer rapide an, etwa durch „20 Minuten pro Run, 24 Stunden am Tag im Dauerbetrieb“
- Selbst wenn man pro Tag nur einmal „Deep Research“ im Wert von 1 $ nutzt, geht die Rechnung bei einem Abo für 20 $ nicht mehr auf
Sinkende Stückpreise werden durch den Anstieg des gesamten Tokenverbrauchs kompensiert, sodass ein 20-$-Monatsabo nicht einmal mehr eine tägliche Aufgabe im Wert von 1 $ tragen kann

Anthropic mit Claude Code und andere führten verschiedene Sparmaßnahmen ein, darunter unbegrenzte Tarife für 200 $/Monat, automatische Tokenoptimierung und die Nutzung der PCs der Anwender
Dennoch näherten sich manche Power User 10 Milliarden Tokens pro Monat an („Krieg und Frieden“ in der Menge von 12.500 Büchern), weil Nutzer mit Automatisierung, Wiederholungsjobs und Loops einen explosionsartigen Tokenverbrauch erzeugten
- „AI-Nutzung entkoppelt sich von menschlicher Zeit, APIs laufen 24 Stunden durch und treiben den Tokenverbrauch ins Extreme“
Trotz technischer Innovationen wurde der Tarif am Ende zurückgerollt
Fazit: Das Modell unbegrenzter Abos ist nun unmöglich, die Gleichung geht nicht mehr auf

Wer am Abo-Modell festhält, erhöht das Risiko sinkender Profitabilität und eines Zusammenbruchs
AI-Unternehmen wissen alle, dass nur nutzungsbasierte Abrechnung (usage-based pricing) die Antwort ist, doch sobald ein abonnierender Wettbewerber auftaucht, droht Nutzerabwanderung
Durch diese Struktur eines „Gefangenendilemmas“ werden alle in einen Subventionswettlauf für Power User gedrängt
Auch Cursor, Replit und andere verfolgen den Ansatz „Wachstum zuerst, Profitabilität ist ein Problem für später“, doch letztlich werden Restrukturierungen wegen der Profitabilität unvermeidlich

1. Nutzungsbasierte Abrechnung
- Wer von Anfang an ein ehrliches Wirtschaftsmodell einführt, kann eine Erlösstruktur entwerfen, die die Kosten nicht übersteigt. Langfristig ist dies das einzig nachhaltige Modell
- Allerdings lehnen Verbraucher nutzungsabhängige Gebühren extrem stark ab, was den Massenerfolg erschwert
2. Fokus auf den Enterprise-Markt mit hohen Wechselkosten
- Über B2B-Vertrieb an Enterprise-Kunden mit hohen Wechselkosten (z. B. Großkonzerne, Finanzinstitute) kann nach dem Markteintritt ein Zustand entstehen, in dem Kündigungen nahezu unmöglich sind und die Margen hoch bleiben
- Der Bereich System of Record (SOR, CRM/ERP/EHR usw.) ist ein typisches Erfolgsbeispiel (z. B. Einführung für 40.000 Ingenieure bei Goldman Sachs)
3. Mehrwertschöpfung durch vertikale Integration (Vertical Integration)
- Wie bei Replit kann LLM-Inferenz selbst als verlustbringendes „Lockangebot“ bereitgestellt werden, während Gewinne über zusätzliche Dienste wie Hosting, Datenbanken, Deployment und Monitoring erzielt werden
- So entsteht eine Struktur, in der mehr AI-Nutzung in zusätzlichen Infrastrukturumsatz überführt wird
Auch künftig werden die Tokenstückpreise weiter fallen, während Nutzererwartungen und Nutzungsmengen exponentiell wachsen
Unternehmen, die stur nur an Abo- und Wachstumsstrategien festhalten, laufen am Ende Gefahr, eine „teure Beerdigung“ zu erleben

Mit dem Optimismus „Nächstes Jahr sind Tokens 10-mal billiger“ allein lässt sich kein Geschäft aufrechterhalten
- Nutzer verlangen immer höhere Erwartungen und mehr Nutzung
Die Formel Modellfortschritt = Nutzungsexplosion = steigende Kosten gilt bereits, und nachhaltige AI-Geschäftsmodelle müssen letztlich auf nutzungsbasierte Abrechnung, Großkundenverträge und neue Strukturen durch vertikale Integration umstellen
- Wer das Geschäft fortführen will, braucht neue strukturelle Ansätze wie eine „Neo-Cloud“-Strategie