13 Punkte von GN⁺ 2025-08-04 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Entgegen der Erwartung, dass die LLM-Tokenkosten jedes Jahr um das Zehnfache sinken, verschlechtert sich die Profitabilität von AI-Abo-Diensten zunehmend
  • Die Nachfrage nach den neuesten LLM-Modellen konzentriert sich stets auf die Topmodelle (SOTA, State-of-the-art), sodass Preisrückgänge bei „älteren“ Modellen nicht zu realen Kostensenkungen führen
  • Je besser die Modelle werden, desto exponentieller steigt die Zahl der verwendeten Tokens, wodurch sinkende Stückpreise kompensiert werden und die Gesamtkosten vielmehr in die Höhe schießen
  • Auch Experimente mit unbegrenzten Abotarifen (z. B. Claude Code für 200 $/Monat) sind wegen der explodierenden Token-Nutzung durch Heavy User nicht nachhaltig
  • Außer nutzungsbasierter Abrechnung gibt es langfristig kein tragfähiges Modell, doch wegen des Wettbewerbs unter Startups und des Widerstands der Verbraucher ist eine praktische Einführung schwierig
  • Ohne den Wechsel zu einem nachhaltigen Erlösmodell droht den meisten Startups am Ende das Insolvenzrisiko

AI-Abo-Business: Warum wachsen die Verluste trotz sinkender Tokenpreise?

Die Illusion fallender LLM-Preise

  • Gründer glaubten an das VC-Playbook: „Die Tokenpreise fallen um den Faktor 10, also müssen wir nur kurz durchhalten, dann wechseln wir zu einer Struktur mit hohen Margen“, und betrieben Abo-Produkte anfangs zu Selbstkosten oder mit Verlust
  • Tatsächlich sind die Tokenpreise älterer Modelle wie GPT-3.5 um mehr als das Zehnfache gefallen, doch die Nachfrage von Nutzern und Markt bündelt sich immer auf die neuesten und leistungsstärksten Modelle (SOTA)
  • In der Realität haben sich die Margen nach 18 Monaten nicht verbessert, sondern sogar verschlechtert
  • Spürbar werden Preissenkungen bei älteren Modellen nur dann, wenn sie wie „die Zeitung von gestern“ längst außerhalb des Marktinteresses liegen

Preis- und Nachfragestruktur aktueller Modelle

  • Neueste Modelle wie GPT-4 oder Claude 3 Opus kommen stets zu einem ähnlich hohen Preis auf den Markt, und selbst wenn ältere Modelle noch so billig werden, bleibt ihr tatsächliches Nutzungsvolumen minimal
  • Nutzer wollen nur die „beste Leistung“, und „billige alte Modelle“ sind im Automarkt kaum mehr als alte Gebrauchtwagen
  • Was Nutzer bei AI wirklich wollen, sind die besten Ergebnisse, daher greifen nur wenige freiwillig zu älteren Modellen, um Kosten zu sparen
  • Um am Markt wettbewerbsfähig zu bleiben, muss man am Ende immer die teuersten neuesten Modelle anbieten, wodurch die Kostenbasis bestehen bleibt
    • Das ist so, als würden die Preise für Gebrauchtwagen aus den 90ern fallen, während Verbraucher trotzdem weiter Neuwagen kaufen

Explosionsartiger Anstieg des Tokenverbrauchs

  • Mit steigender Modellleistung tritt das Phänomen auf, dass die Tokenmenge pro einzelner Aufgabe exponentiell wächst
  • Aufgaben, die früher mit 1.000 Tokens erledigt waren, können heute 100.000 Tokens verbrauchen
  • Früher reichten eine Ein-Satz-Anfrage und eine Ein-Satz-Antwort, heute laufen komplexe Recherchen, Loops oder Orchestrierung 10 bis 20 Minuten am Stück und verursachen enorme Tokenmengen
  • Weil AI für tiefere Recherche und Analyse eingesetzt wird, steigen die durchschnittlichen täglichen Nutzungsmengen pro Nutzer rapide an, etwa durch „20 Minuten pro Run, 24 Stunden am Tag im Dauerbetrieb“
    • Selbst wenn man pro Tag nur einmal „Deep Research“ im Wert von 1 $ nutzt, geht die Rechnung bei einem Abo für 20 $ nicht mehr auf
  • Sinkende Stückpreise werden durch den Anstieg des gesamten Tokenverbrauchs kompensiert, sodass ein 20-$-Monatsabo nicht einmal mehr eine tägliche Aufgabe im Wert von 1 $ tragen kann

Das Scheitern unbegrenzter Tarife

  • Anthropic mit Claude Code und andere führten verschiedene Sparmaßnahmen ein, darunter unbegrenzte Tarife für 200 $/Monat, automatische Tokenoptimierung und die Nutzung der PCs der Anwender
  • Dennoch näherten sich manche Power User 10 Milliarden Tokens pro Monat an („Krieg und Frieden“ in der Menge von 12.500 Büchern), weil Nutzer mit Automatisierung, Wiederholungsjobs und Loops einen explosionsartigen Tokenverbrauch erzeugten
    • „AI-Nutzung entkoppelt sich von menschlicher Zeit, APIs laufen 24 Stunden durch und treiben den Tokenverbrauch ins Extreme“
  • Trotz technischer Innovationen wurde der Tarif am Ende zurückgerollt
  • Fazit: Das Modell unbegrenzter Abos ist nun unmöglich, die Gleichung geht nicht mehr auf

Das Dilemma der gesamten Branche

  • Wer am Abo-Modell festhält, erhöht das Risiko sinkender Profitabilität und eines Zusammenbruchs
  • AI-Unternehmen wissen alle, dass nur nutzungsbasierte Abrechnung (usage-based pricing) die Antwort ist, doch sobald ein abonnierender Wettbewerber auftaucht, droht Nutzerabwanderung
  • Durch diese Struktur eines „Gefangenendilemmas“ werden alle in einen Subventionswettlauf für Power User gedrängt
  • Auch Cursor, Replit und andere verfolgen den Ansatz „Wachstum zuerst, Profitabilität ist ein Problem für später“, doch letztlich werden Restrukturierungen wegen der Profitabilität unvermeidlich

Drei realistische Lösungsansätze

  • 1. Nutzungsbasierte Abrechnung
    • Wer von Anfang an ein ehrliches Wirtschaftsmodell einführt, kann eine Erlösstruktur entwerfen, die die Kosten nicht übersteigt. Langfristig ist dies das einzig nachhaltige Modell
    • Allerdings lehnen Verbraucher nutzungsabhängige Gebühren extrem stark ab, was den Massenerfolg erschwert
  • 2. Fokus auf den Enterprise-Markt mit hohen Wechselkosten
    • Über B2B-Vertrieb an Enterprise-Kunden mit hohen Wechselkosten (z. B. Großkonzerne, Finanzinstitute) kann nach dem Markteintritt ein Zustand entstehen, in dem Kündigungen nahezu unmöglich sind und die Margen hoch bleiben
    • Der Bereich System of Record (SOR, CRM/ERP/EHR usw.) ist ein typisches Erfolgsbeispiel (z. B. Einführung für 40.000 Ingenieure bei Goldman Sachs)
  • 3. Mehrwertschöpfung durch vertikale Integration (Vertical Integration)
    • Wie bei Replit kann LLM-Inferenz selbst als verlustbringendes „Lockangebot“ bereitgestellt werden, während Gewinne über zusätzliche Dienste wie Hosting, Datenbanken, Deployment und Monitoring erzielt werden
    • So entsteht eine Struktur, in der mehr AI-Nutzung in zusätzlichen Infrastrukturumsatz überführt wird
  • Auch künftig werden die Tokenstückpreise weiter fallen, während Nutzererwartungen und Nutzungsmengen exponentiell wachsen
  • Unternehmen, die stur nur an Abo- und Wachstumsstrategien festhalten, laufen am Ende Gefahr, eine „teure Beerdigung“ zu erleben

Zusammenfassung

  • Mit dem Optimismus „Nächstes Jahr sind Tokens 10-mal billiger“ allein lässt sich kein Geschäft aufrechterhalten
    • Nutzer verlangen immer höhere Erwartungen und mehr Nutzung
  • Die Formel Modellfortschritt = Nutzungsexplosion = steigende Kosten gilt bereits, und nachhaltige AI-Geschäftsmodelle müssen letztlich auf nutzungsbasierte Abrechnung, Großkundenverträge und neue Strukturen durch vertikale Integration umstellen
    • Wer das Geschäft fortführen will, braucht neue strukturelle Ansätze wie eine „Neo-Cloud“-Strategie

Noch keine Kommentare.

Noch keine Kommentare.