13 Punkte von GN⁺ 2025-08-04 | 4 Kommentare | Auf WhatsApp teilen
  • Entgegen der Erwartung, dass die LLM-Tokenkosten jedes Jahr um das Zehnfache sinken, verschlechtert sich die Profitabilität von AI-Abo-Diensten zunehmend
  • Die Nachfrage nach den neuesten LLM-Modellen konzentriert sich stets auf die Topmodelle (SOTA, State-of-the-art), sodass Preisrückgänge bei „älteren“ Modellen nicht zu realen Kostensenkungen führen
  • Je besser die Modelle werden, desto exponentieller steigt die Zahl der verwendeten Tokens, wodurch sinkende Stückpreise kompensiert werden und die Gesamtkosten vielmehr in die Höhe schießen
  • Auch Experimente mit unbegrenzten Abotarifen (z. B. Claude Code für 200 $/Monat) sind wegen der explodierenden Token-Nutzung durch Heavy User nicht nachhaltig
  • Außer nutzungsbasierter Abrechnung gibt es langfristig kein tragfähiges Modell, doch wegen des Wettbewerbs unter Startups und des Widerstands der Verbraucher ist eine praktische Einführung schwierig
  • Ohne den Wechsel zu einem nachhaltigen Erlösmodell droht den meisten Startups am Ende das Insolvenzrisiko

AI-Abo-Business: Warum wachsen die Verluste trotz sinkender Tokenpreise?

Die Illusion fallender LLM-Preise

  • Gründer glaubten an das VC-Playbook: „Die Tokenpreise fallen um den Faktor 10, also müssen wir nur kurz durchhalten, dann wechseln wir zu einer Struktur mit hohen Margen“, und betrieben Abo-Produkte anfangs zu Selbstkosten oder mit Verlust
  • Tatsächlich sind die Tokenpreise älterer Modelle wie GPT-3.5 um mehr als das Zehnfache gefallen, doch die Nachfrage von Nutzern und Markt bündelt sich immer auf die neuesten und leistungsstärksten Modelle (SOTA)
  • In der Realität haben sich die Margen nach 18 Monaten nicht verbessert, sondern sogar verschlechtert
  • Spürbar werden Preissenkungen bei älteren Modellen nur dann, wenn sie wie „die Zeitung von gestern“ längst außerhalb des Marktinteresses liegen

Preis- und Nachfragestruktur aktueller Modelle

  • Neueste Modelle wie GPT-4 oder Claude 3 Opus kommen stets zu einem ähnlich hohen Preis auf den Markt, und selbst wenn ältere Modelle noch so billig werden, bleibt ihr tatsächliches Nutzungsvolumen minimal
  • Nutzer wollen nur die „beste Leistung“, und „billige alte Modelle“ sind im Automarkt kaum mehr als alte Gebrauchtwagen
  • Was Nutzer bei AI wirklich wollen, sind die besten Ergebnisse, daher greifen nur wenige freiwillig zu älteren Modellen, um Kosten zu sparen
  • Um am Markt wettbewerbsfähig zu bleiben, muss man am Ende immer die teuersten neuesten Modelle anbieten, wodurch die Kostenbasis bestehen bleibt
    • Das ist so, als würden die Preise für Gebrauchtwagen aus den 90ern fallen, während Verbraucher trotzdem weiter Neuwagen kaufen

Explosionsartiger Anstieg des Tokenverbrauchs

  • Mit steigender Modellleistung tritt das Phänomen auf, dass die Tokenmenge pro einzelner Aufgabe exponentiell wächst
  • Aufgaben, die früher mit 1.000 Tokens erledigt waren, können heute 100.000 Tokens verbrauchen
  • Früher reichten eine Ein-Satz-Anfrage und eine Ein-Satz-Antwort, heute laufen komplexe Recherchen, Loops oder Orchestrierung 10 bis 20 Minuten am Stück und verursachen enorme Tokenmengen
  • Weil AI für tiefere Recherche und Analyse eingesetzt wird, steigen die durchschnittlichen täglichen Nutzungsmengen pro Nutzer rapide an, etwa durch „20 Minuten pro Run, 24 Stunden am Tag im Dauerbetrieb“
    • Selbst wenn man pro Tag nur einmal „Deep Research“ im Wert von 1 $ nutzt, geht die Rechnung bei einem Abo für 20 $ nicht mehr auf
  • Sinkende Stückpreise werden durch den Anstieg des gesamten Tokenverbrauchs kompensiert, sodass ein 20-$-Monatsabo nicht einmal mehr eine tägliche Aufgabe im Wert von 1 $ tragen kann

Das Scheitern unbegrenzter Tarife

  • Anthropic mit Claude Code und andere führten verschiedene Sparmaßnahmen ein, darunter unbegrenzte Tarife für 200 $/Monat, automatische Tokenoptimierung und die Nutzung der PCs der Anwender
  • Dennoch näherten sich manche Power User 10 Milliarden Tokens pro Monat an („Krieg und Frieden“ in der Menge von 12.500 Büchern), weil Nutzer mit Automatisierung, Wiederholungsjobs und Loops einen explosionsartigen Tokenverbrauch erzeugten
    • „AI-Nutzung entkoppelt sich von menschlicher Zeit, APIs laufen 24 Stunden durch und treiben den Tokenverbrauch ins Extreme“
  • Trotz technischer Innovationen wurde der Tarif am Ende zurückgerollt
  • Fazit: Das Modell unbegrenzter Abos ist nun unmöglich, die Gleichung geht nicht mehr auf

Das Dilemma der gesamten Branche

  • Wer am Abo-Modell festhält, erhöht das Risiko sinkender Profitabilität und eines Zusammenbruchs
  • AI-Unternehmen wissen alle, dass nur nutzungsbasierte Abrechnung (usage-based pricing) die Antwort ist, doch sobald ein abonnierender Wettbewerber auftaucht, droht Nutzerabwanderung
  • Durch diese Struktur eines „Gefangenendilemmas“ werden alle in einen Subventionswettlauf für Power User gedrängt
  • Auch Cursor, Replit und andere verfolgen den Ansatz „Wachstum zuerst, Profitabilität ist ein Problem für später“, doch letztlich werden Restrukturierungen wegen der Profitabilität unvermeidlich

Drei realistische Lösungsansätze

  • 1. Nutzungsbasierte Abrechnung
    • Wer von Anfang an ein ehrliches Wirtschaftsmodell einführt, kann eine Erlösstruktur entwerfen, die die Kosten nicht übersteigt. Langfristig ist dies das einzig nachhaltige Modell
    • Allerdings lehnen Verbraucher nutzungsabhängige Gebühren extrem stark ab, was den Massenerfolg erschwert
  • 2. Fokus auf den Enterprise-Markt mit hohen Wechselkosten
    • Über B2B-Vertrieb an Enterprise-Kunden mit hohen Wechselkosten (z. B. Großkonzerne, Finanzinstitute) kann nach dem Markteintritt ein Zustand entstehen, in dem Kündigungen nahezu unmöglich sind und die Margen hoch bleiben
    • Der Bereich System of Record (SOR, CRM/ERP/EHR usw.) ist ein typisches Erfolgsbeispiel (z. B. Einführung für 40.000 Ingenieure bei Goldman Sachs)
  • 3. Mehrwertschöpfung durch vertikale Integration (Vertical Integration)
    • Wie bei Replit kann LLM-Inferenz selbst als verlustbringendes „Lockangebot“ bereitgestellt werden, während Gewinne über zusätzliche Dienste wie Hosting, Datenbanken, Deployment und Monitoring erzielt werden
    • So entsteht eine Struktur, in der mehr AI-Nutzung in zusätzlichen Infrastrukturumsatz überführt wird
  • Auch künftig werden die Tokenstückpreise weiter fallen, während Nutzererwartungen und Nutzungsmengen exponentiell wachsen
  • Unternehmen, die stur nur an Abo- und Wachstumsstrategien festhalten, laufen am Ende Gefahr, eine „teure Beerdigung“ zu erleben

Zusammenfassung

  • Mit dem Optimismus „Nächstes Jahr sind Tokens 10-mal billiger“ allein lässt sich kein Geschäft aufrechterhalten
    • Nutzer verlangen immer höhere Erwartungen und mehr Nutzung
  • Die Formel Modellfortschritt = Nutzungsexplosion = steigende Kosten gilt bereits, und nachhaltige AI-Geschäftsmodelle müssen letztlich auf nutzungsbasierte Abrechnung, Großkundenverträge und neue Strukturen durch vertikale Integration umstellen
    • Wer das Geschäft fortführen will, braucht neue strukturelle Ansätze wie eine „Neo-Cloud“-Strategie

4 Kommentare

 
mhj5730 2025-08-06

Wegen der schwierigen Zwischenspeicherung und der Automatisierung mit MCP könnte die unbegrenzte Nutzung tatsächlich auf eine wortwörtlich unbegrenzte Nutzung hinauslaufen. ... Wie bei Mobilfunkanbietern ohne unbegrenzte Datentarife könnte es auf Modelle wie etwa ~300 Mal pro Tag oder ~2000 Mal pro Tag hinauslaufen. Irgendwie wirkt es auch so, als würde es sich in Richtung eines Preismodells wie bei den alten SMS entwickeln.

 
doolayer 2025-08-05

Wie beim Internet, wo die Menge selbst unbegrenzt ist (auch wenn es in manchen Fällen nutzungsabhängige Gebühren gibt), wäre es wohl sinnvoll, den Weg über eine Begrenzung der Geschwindigkeit zu gehen. Was die Umsetzung angeht: So wie es auch jetzt schon Batch-Verarbeitung gibt, lassen sich die Rechenressourcen und die beim Nutzer ankommenden Ressourcen durchaus voneinander trennen. Letztlich wäre das doch eine Win-win-Situation, wenn Anbieter dadurch mehr Vorhersehbarkeit gewinnen und Nutzer zugleich einen angemessenen Preis und eine garantierte Geschwindigkeit bekommen könnten, oder? Bei einigen Vielnutzern müsste man wohl über separate Verträge gehen und ihnen dedizierte Ressourcen zuweisen.

 
GN⁺ 2025-08-04
Hacker-News-Kommentare
  • Aus den im Artikel zitierten Aussagen geht hervor, dass Verbraucher nutzungsbasierte Abrechnung ablehnen und lieber für einen Unlimited-Tarif zu viel zahlen, als am Ende eine überraschend hohe Rechnung zu bekommen. In der Praxis ist es aber komplizierter. Bei Amazon passiert es oft, dass plötzlich eine hohe Rechnung auftaucht, sobald man glaubt, die Kosten im Griff zu haben. Der Grund ist, dass man nicht einstellen kann: „Bitte automatisch abschalten, wenn es im Monat mehr als X Dollar kostet.“ Solche „Surprise Net 30“-Strukturen fühlen sich zwar zunächst wie kalkulierbare Kosten an, am Ende kommen aber doch unerwartete Mehrkosten zurück. Nutzungsbasierte Abrechnung könnte sogar gut funktionieren, wenn Nutzer ihren Verbrauch klar sehen und eine Obergrenze setzen könnten, um Budgetüberschreitungen zu verhindern. Aus Sicht von AI-Unternehmen wäre es ausreichend, Nutzern Möglichkeiten zur Budgetkontrolle zu geben, etwa Balkendiagramme für „verbrauchte Tokens / gesamte Tokens“, Tokenverbrauch pro Antwort oder die voraussichtliche Zahl verbleibender Antworten bis zum Limit. Entscheidend ist, niemals überraschende Rechnungen zu erzeugen. Unternehmen bevorzugen es jedoch, diese Token- und Dollar-Informationen zu verbergen – ähnlich wie Glücksspielseiten ihre „Corporate Bucks“ nicht direkt mit USD verknüpfen.

    • Für B2B-Dienste als Infrastruktur (AWS usw.) halte ich nutzungsbasierte Abrechnung für passend. Je mehr ein Unternehmen wächst, desto stärker steigen Infrastrukturverbrauch und Kosten proportional mit, daher ist das planbar. Ist die Infrastruktur einmal eingerichtet, muss man sich kaum noch darum kümmern. In Situationen, in denen AI jedoch als Arbeitsmittel oder Tool eingesetzt wird, ist nutzungsbasierte Abrechnung ein großes Hindernis. In solchen Fällen hemmt sie die Nutzung des Produkts selbst, weil man bei jeder Verwendung Aufwand damit hat, Kosten und Nutzen abzuwägen. Wenn es im Job genutzt wird, muss man womöglich ständig Genehmigungen von Vorgesetzten einholen. Ein Tool, das Produktivität steigern soll, darf solche Hürden nicht schaffen. Fast niemand überlegt 250-mal: „Ist dieser Schritt 3 Dollar wert?“ Bei nutzungsbasierter Abrechnung nutzt man es dann einfach nicht.

    • Mich stört, dass Unternehmen die Umrechnung von Tokens in Dollar verbergen wollen. Ich teste gerade die Copilot-Agent-Trial von GitHub, und die Preisgestaltung ist wirklich intransparent. Ständig taucht nur der Begriff „Premium Requests“ auf, aber in meinem Dashboard kann ich weder den Echtzeitverbrauch noch Limits sehen. Klickt man in der UI auf den Hinweis zu Premium Requests, landet man zwar in der Dokumentation, aber dort wird das eigentliche Limit- oder Abrechnungs-Dashboard nicht klar ausgewiesen.

    • Bei Amazon (AWS) ist das Problem noch gravierender. Entgegen der Verlockung „AWS ist billiger“ ergibt ein Wechsel nur dann Sinn, wenn es tatsächlich günstiger ist als die Alternative. Viele Unternehmen stellen ihre Infrastruktur aber nicht um, weil das Entwicklerzeit kostet. Die Opportunitätskosten sind hoch, und es gibt Risiken in Bezug auf Umsatz, Entwicklungszeit, Wettbewerb usw. Wenn der Effekt des Investments nicht sehr groß ist, wird es als Verschwendung von Entwicklerzeit betrachtet. Falls sich die Infrastruktur am Ende sogar als teurer als die Alternative herausstellt, muss man den Verlust hinnehmen, weil die Entwicklerzeit bereits investiert wurde. Bei tokenbasierten Preismodellen fühlt sich diese Wechsel- bzw. Opportunitätskostenlast noch nicht so stark an, weil man leicht zum alten Weg zurückkehren kann. Ich erwarte aber, dass sich diese Struktur künftig ändern wird.

    • Die Preisstruktur von Amazon wirkt sehr vage und komplex. Zum Beispiel gibt es Fälle, in denen man keine Möglichkeit hat herauszufinden, warum die Datenbankkosten ständig schwanken.

    • Für klar definierte Prozesse ist nutzungsbasierte Abrechnung wirklich nützlich. Was ich an AWS mag, ist, dass man Kosten auf das tatsächliche Geschäft abbilden kann. Früher war das schwierig und mit viel interner Politik verbunden. Es kam vor, dass ein Vertriebsmitarbeiter direkt bei der Geschäftsleitung den Bedarf für Hardware durchsetzte und man dann sogar Netzwerkausrüstung aufgedrückt bekam, die man gar nicht wollte. Aus Nutzersicht ist diese granulare Kostensteuerung aber nicht gut, weil Nutzer dann ständig anhand verschiedenster Kennzahlen bewertet werden, die mit ihrer Produktivität nichts direkt zu tun haben. Als ich in den 90ern Praktikant war, musste ich für jedes Ferngespräch durch Bürokratie. Der Genehmiger bewertete jedes Mal, ob ein 20-minütiges Gespräch angemessen war, und wenn ich das Limit überschritt, musste ich die Kosten selbst tragen. Keine angenehme Erfahrung. Für nutzerorientierte AI sind Festpreise die richtige Antwort. Wenn meine Produktivität um 20 % steigt und ich dafür ChatGPT Pro für 200 $ pro Monat nutze, ist das 16.000 $ Wert pro Jahr – eine ausgesprochen günstige Investition.

  • Die Behauptungen im Artikel wirken auf mich nicht schlüssig. Der Satz „Wenn das neueste Modell erscheint, wandern sofort 99 % der Nachfrage dorthin“ ist für mich schwer nachvollziehbar. Im Gegenteil: Sonnet 4 wird häufiger genutzt als Opus 4, und tatsächlich verwenden viele Nutzer günstige, durchschnittliche Modelle statt des leistungsstärksten. Aus vielen Gründen – Nutzbarkeit, Geschwindigkeit, Vertrautheit usw. – werden neben SOTA auch unterschiedliche andere Modelle verwendet. Modellranking: https://openrouter.ai/rankings Und der Wechsel von Opus zu Sonnet, bei hoher Last zu Haiku, wird so beschrieben, als sei das wie Autoscaling, aber ich glaube nicht, dass dieses Verhalten tatsächlich in den Modellgewichten eingebaut ist. Insgesamt reproduziert der Text beim Thema Preisgestaltung offenbar Probleme, die wir schon aus der Cloud-Hosting-Zeit kennen – viele Nutzer verwenden lieber bequem ein Monatsabo und nehmen dafür geringere Leistung in Kauf, während einige API-Nutzer (Heavy User/Unternehmen) nutzungsbasiert zahlen; diese Struktur ist bereits hinreichend profitabel – die meisten AI-Startups sind B2B, nicht B2C.

    • Ich kann mich stark mit der aktuellen Situation identifizieren, in der so aktiv darüber gestritten wird, „welches Modell das beste ist“. Ich nutze gelegentlich Mistral als primäres LLM und merke im realen Einsatz kaum große Unterschiede im Vergleich zu ChatGPT/Gemini/Claude. Dafür ist es deutlich schneller. Der kommerzielle Wettbewerb bei LLMs hat bereits einen Punkt erreicht, an dem der zusätzliche Nutzen gemessen am Ertrag gering ist. Beispiele wie Deepseek zeigen, dass niedrigere Kosten und bessere Qualität gleichzeitig möglich sind. Ich denke, ein echter Preiswettbewerb steht kurz bevor. Deshalb rücken wohl Ansätze wie Mixture of Experts oder der Wettbewerb spezialisierter Modelle stärker in den Vordergrund. Die Entwicklung geht dahin, die Kosten zu senken und die Präzision zu erhöhen.
  • Die Aussage „Claude Code bot ursprünglich unbegrenzt für 200 $/Monat und hat das dann zurückgerollt“ ist sachlich falsch. Schon der Name des Tarifs ist ein 20x-Plan, und es gab von Anfang an klar erkennbare Begrenzungen wie ein 5-Stunden-Session-Limit und ein monatliches Limit von 50 Sessions (wenn auch nicht strikt erzwungen). Ich selbst hatte bei der Nutzung fast nie das Gefühl, dass es nicht reicht; eher finde ich, dass das Limit noch immer hoch ist. Man könnte also die Wahrheit sagen, ohne dass das dem Argument im Geringsten schaden würde.

    • Genau, der Max-Plan wurde nie als unbegrenzt kommuniziert. Ich sehe und höre dieses Missverständnis viel zu oft. Weil es ständig wiederholt wird, glauben inzwischen alle, er sei unbegrenzt.
  • Das eigentliche große Problem ist in der Praxis, dass wir derzeit unterschiedslos Modelle einsetzen – also für jedes Problem das stärkste General-Model verwenden – und damit sprichwörtlich mit Kanonen auf Spatzen schießen. Nicht jedes Problem braucht ein SOTA-Modell. Künftig werden die genutzten Dienste wohl in Richtung eines „gebündelten“ Einsatzes mehrerer Modelle gehen, wodurch deutlich effizientere Nutzungskurven entstehen dürften.

    • Noch ist kein Modell so weit, dass man es bei wichtigen Aufgaben vollkommen verlässlich arbeiten lassen könnte. Selbst die leistungsstärksten Modelle verhalten sich gelegentlich seltsam. Mein Gehirn erledigt die Arbeit immer noch selbst, ohne dass ich über Delegation nachdenken müsste. Also übergebe ich etwas nur dann an AI, wenn der Vorteil wirklich sicher ist. Ich vertraue zunächst auf das, was ich selbst gut kann. AI-Unternehmen werben mit Spitzenleistung, aber für Nutzer ist der „schlechteste Moment“ der AI die entscheidende Kennzahl. Deshalb ist SOTA weiterhin konstant gefragt. AI wird nach ihrem „schlechtesten Moment“ bewertet – egal wie gut sie sonst ist, ein einziger Fehler kann vernichtend sein, so wie Menschen im echten Leben wegen ihres schlimmsten Fehlers entlassen werden. Nicht die perfekte Laborleistung ist entscheidend, sondern was im realen Einsatz passiert, wenn etwas kaputtgeht. Das kommt im Text gut zum Ausdruck.

    • Die schwierigsten Aufgaben sind bislang noch nicht gelöst, und es gibt nicht viele Aufgaben, bei denen man Antworten mit geringer Genauigkeit akzeptieren würde. Für manche textbasierten Pipeline-Aufgaben mag das in Ordnung sein, aber fast alle nutzerorientierten Anwendungsfälle verlangen hohe Qualität.

    • Das wird von vielen übersehen. 7b- und 32b-GPU-Modelle funktionieren für viele Aufgaben bereits ausreichend gut. Sie laufen sogar auf älterer Hardware. Momentan befinden wir uns noch in einer Hype-Phase, in der die Gesamtleistung von LLMs steigt; mit der Zeit werden die Leistungszuwächse großer Modelle stagnieren, und dann beginnen die pragmatischeren Entscheidungen.

    • Es lohnt sich, verschiedene Modelle auszuprobieren. Ein einfaches Chatbot-System, das ich kürzlich gebaut habe, nutzt je nach Situation fünf verschiedene Modelle. Unterschiedliche Modelle auszutauschen und zu mischen, macht einen enormen Unterschied bei Kosten, Nutzererlebnis und Qualität.

    • Wenn es eine Option gäbe, bei der Claude Opus Sonnet anleitet, würde ich das in fast jeder Unterhaltung verwenden. Das manuell so zu machen ist umständlich und unterbricht den Flow, sodass ich am Ende einfach weiter nur Opus nutze. Dank paralleler Verarbeitung sind die Input-Kosten niedrig, deshalb glaube ich nicht, dass größere Prompts eine große Belastung darstellen.

  • Ich wünschte, irgendein AI-Unternehmen würde ein System bauen, in dem eine Aufgabe für einfache Arbeiten an ein „stumpferes“ Modell delegiert werden kann. Komplexe Aufgaben verlangen ein Modell auf Opus-Niveau, aber darin stecken in Wahrheit jede Menge Teilaufgaben, die auch ein 3.5 Sonnet problemlos erledigen könnte. Opus könnte einfache und schwierige Teile unterscheiden und die leichten Dinge auf mehrere 3.5-Sonnet-Instanzen verteilen. Die Idee wirkt so naheliegend, dass ich annehme, alle arbeiten bereits daran.

    • Claude Code nutzt tatsächlich automatisch sowohl Sonnet als auch Haiku. Beim Beenden einer Session zeigt es verschiedene Statistiken wie Tokens und Kosten an. Vermutlich gibt es auch eine Möglichkeit, diese Informationen während der Session einzusehen.

    • Man könnte zum Beispiel im Prompt ausgeben lassen, welches „empfohlene Modellniveau“ von 1 bis 10 für jede Subtask angebracht wäre.

  • In den letzten ein bis zwei Jahren habe ich APIs direkt bezahlt und über Open-Source-Frontends (LibreChat usw.) auf verschiedene Modelle zugegriffen. Für gelegentliche Nutzung war das hervorragend geeignet; ein Guthaben von etwa 10 $ alle paar Monate reichte völlig aus. Da ich insgesamt weit weniger Tokens verbrauche als bei den meisten Paket-Tarifen, hielt ich diese Variante für deutlich günstiger. Als ich dann aber begann, verschiedene Tools wie Claude Code auszuprobieren, wurden die Tokens sichtbar viel schneller verbraucht. Gestern habe ich in nur 15 Minuten Tokens im Wert von 5 $ verbraucht. Mir war klar, dass Code-Tools ganz anders arbeiten als ein LLM, dem man einfach nur Fragen stellt, aber ich hätte nicht gedacht, dass der Unterschied so groß ist. Noch überraschender ist, dass der hohe Tokenverbrauch oft gar nicht gut sichtbar ist, weil er sich in immer größeren Kontexten oder Tool-Orchestrierung versteckt.

    • Das passiert, weil Claude Code viel größere Kontexte und sehr viel mehr iterative Verarbeitung nutzt als sonst.

    • Ich habe mit der Deepseek-API für 20 $ fast ein ganzes Jahr lang gut ausgehalten (dass es ein chinesisches Unternehmen ist, spielt für mich keine Rolle). Sie ist langsam, aber im Vergleich zu selbstgehosteten Deepseek-Modellen fühlt sich die Qualität für mich sogar besser an – zumindest nach meiner Erfahrung. Agenten nutze ich nicht.

  • Ich widerspreche der Behauptung, dass „99 % der Nachfrage immer auf das Frontier-Modell entfallen“. Die eigentliche Grenze liegt nicht nur bei der „Fähigkeit“ selbst, sondern bei „Fähigkeit im Verhältnis zum Preis“. Das Spitzenmodell hat keine 99 % Marktanteil – eher das Gegenteil. Laut OpenRouter-Statistiken liegt Claude Opus 4 bei etwa 1 % Anteil, während Sonnet 4 mit 18 % unter den Abonnenten am beliebtesten ist. Daneben werden auch günstigere Gemini Flash 2.0 und 2.5 viel genutzt. Sie sind sogar billiger als Sonnet 4.

    • Stimmt. Dem Grundtenor des Artikels stimme ich zwar zu, aber die Behauptung, Opus werde häufiger als Sonnet verwendet, ist falsch. Im Diagramm ist sogar ein nicht existierendes Modell namens „Claude 3.5 Opus“ eingezeichnet. Seit der Veröffentlichung von 3.5 Sonnet ist 3 Opus fast vergessen, und erst kürzlich sind mit Opus 4 wieder teure Modelle aufgetaucht. Trotzdem liegt ihr Anteil unter API-Nutzern immer noch deutlich unter Sonnet 4.
  • Ich frage mich, warum man in San Francisco keine Großbuchstaben und Satzzeichen verwendet. Und ich verstehe nicht, warum die Leute im Silicon Valley von künstlichem exponentiellem Wachstum besessen sind. Es scheint mir klarer zu sein, dass der Fortschritt bei AI nicht wirklich exponentiell ist, sondern dass im Vergleich zu vor ein paar Jahren einfach massiv mehr Ressourcen hineingesteckt werden.

    • Ich frage mich, ob dieser eigenartige Stil vielleicht zeigen soll, dass der Text nicht von einem LLM geschrieben wurde.

    • Kommst du mit dem natürlichen Wandel von Sprache nicht klar? /s Vielleicht sollte ich wohl einfach nach den alten Regeln weiterleben.

    • Wenn man ins Tenderloin oder auf Mission Street in San Francisco geht, wird man dort wirklich angeschossen, wenn man keine Großbuchstaben und Satzzeichen benutzt? (Scherz)

  • Im Text wird das „Reise-nach-Musik“-Spiel der Landnahmephase übersehen. Wie im Fall von Uber kann man mit Venture Capital Marktanteile besetzen und über Jahre Verluste tragen; wenn man sich einmal im Bewusstsein der Kunden festgesetzt hat, wird man später auch durch billigere und neuere Wettbewerber nicht leicht verdrängt. Das Unternehmen etabliert sich stabil und hält auch nach dem Börsengang einen soliden Aktienkurs – selbst wenn er nicht herausragend ist.

  • Der Text stellt es so dar, als würde niemand nutzungsbasierte Preise zahlen, aber in Wirklichkeit zahlen API-Kunden – also praktisch alle Unternehmenskunden – bereits heute vollständig nutzungsbasiert.

 
laeyoung 2025-08-05

"Ich frage mich, warum man in San Francisco keine Großbuchstaben und Satzzeichen verwendet"

Als ich den eigentlichen Text geöffnet habe, war das tatsächlich so. Interessant ist, dass manche Sätze mit einem Punkt enden und andere nicht, also gemischt sind – was könnte der Grund dafür sein? Weiß das vielleicht jemand? Ich bin neugierig 🤔