LLMs sind wirklich günstig

(snellman.net)

26 Punkte von GN⁺ 2025-06-10 | 4 Kommentare | Auf WhatsApp teilen

Die meisten Menschen überschätzen die Nutzungskosten von LLMs (Large Language Models), doch tatsächlich werden sie rapide günstiger und haben inzwischen ein Preisniveau erreicht, das sogar unter dem von Websuche liegt
- In der frühen Phase des Generative-AI-Booms waren die Inferenzkosten hoch, aber in den vergangenen zwei Jahren sind die Kosten nahezu um den Faktor 1000 gesunken
Vergleicht man die realen Stückkosten von LLM-APIs direkt mit Web-Such-APIs, sind günstige LLM-Modelle sogar mehr als zehnmal billiger als die billigsten Such-APIs, und auch Modelle im mittleren Preissegment haben eine sehr konkurrenzfähige Preisstruktur
Es gibt nur wenig Belege dafür, dass Modellanbieter ihre API-Preise künstlich subventionieren; in manchen Fällen werden gemessen an den GPU-Kosten sogar Margen von 80 % erzielt
Der Grund, warum große KI-Unternehmen wie OpenAI Verluste machen, sind nicht die Kosten, sondern eine schwache Monetarisierungsstrategie; schon 1 US-Dollar Umsatz pro Nutzer und Monat könnte für den Sprung in die Gewinnzone ausreichen
Künftig wird sich die Kostenlast voraussichtlich vom LLM selbst auf externe Backend-Dienste (z. B. verschiedene Datenanbieter) verlagern. Das Ausführen von LLMs wird immer billiger, und das Geschäftsmodell ist grundsätzlich tragfähig

Missverständnisse und Realität bei den LLM-Kosten

Viele Menschen gehen fälschlicherweise davon aus, dass der Betrieb von LLMs wie ChatGPT extrem teuer ist
Dadurch wiederholen sich Fehlanalysen, wonach das Geschäftsmodell von KI-Anbietern unklar sei oder die Monetarisierung von KI-Diensten für Verbraucher schwierig wäre
Die Annahme, LLMs seien immer noch teuer, ist ein Wahrnehmungsfehler
- Zu Beginn des KI-Booms waren die Inferenzkosten sehr hoch, doch in den letzten zwei Jahren sind sie nahezu um den Faktor 1000 gesunken
- Viele Diskussionen und Prognosen basieren fälschlich noch auf früheren Kostenstrukturen
Das häufig verwendete „Preis-pro-Million-Token-Modell“ ist intuitiv nur schwer zu verstehen

Preisvergleich zwischen Web-Such-API und LLM-API

Typische Preise von Web-Such-APIs
- Google Search: $35/1000 Anfragen
- Bing Search: $15/1000 Anfragen
- Brave Search: $5~9/1000 Anfragen, mit der eigentümlichen Struktur, dass der Preis bei höherem Volumen sogar steigt
- Insgesamt sind Web-Such-APIs nicht besonders günstig, und die qualitativ besseren Angebote sind teurer
Preise von LLM-APIs (auf Basis von 1k Token)
- Gemma 3 27B: $0.20
- Gemini 2.0 Flash: $0.40
- GPT-4.1 nano: $0.40
- Deepseek V3: $1.10
- GPT-4.1: $8.00 usw.
- Um sinnvoll mit Suche zu vergleichen, muss der LLM-Preis pro Anfrage berechnet werden: Anzahl der ausgegebenen Token pro Anfrage plus Preis pro Token
- 500 bis 1000 Token sind der durchschnittliche Verbrauch pro Anfrage und daher direkt vergleichbar
Günstige LLM-Modelle sind im Vergleich zur billigsten Such-API 10- bis 25-mal günstiger
- Auch LLMs mittlerer Qualität liegen kostenmäßig deutlich unter Suchangeboten im selben Bereich
- Berücksichtigt man zusätzliche Rabatte wie Batch-Verarbeitung oder Off-Peak-Tarife, wird es noch günstiger

Der wahre Grund für die niedrigen Kosten

Die Vermutung, Modellanbieter würden ihre API-Preise subventionieren, ist kaum belegt
- Der Anreiz, Marktanteile bei APIs zu gewinnen, ist begrenzt, und auch die Preise vieler konkurrierender APIs sind wettbewerblich entstanden
- Laut Messdaten von Deepseek liegt die Marge bezogen auf GPU-Kosten bei 80 %
Training-Kosten und Inferenzkosten
- Hohe Inferenz-Traffic-Volumina verteilen die Trainingskosten effektiv über die Nutzung hinweg (Amortisierung)
- Eher könnten die Kosten für die Nutzung von Third-Party-Backend-Diensten zum eigentlichen Problem werden

Gegenargument zur Behauptung „LLM-APIs machen sicher Verlust“

Dass große Anbieter wie OpenAI Verluste machen, ist das Ergebnis einer schwachen Monetarisierungsstrategie
- Schon eine Monetarisierung von rund 1 US-Dollar pro Monat könnte den Weg in die Gewinnzone öffnen
- Hinzu kommt, dass kostenloser Nutzer-Traffic auch zur Datensammlung genutzt werden kann
Das eigentliche künftige Kostenthema sind nicht LLMs, sondern externe Backends
- Beispiel: Wenn ein KI-Agent externe APIs für Ticketbuchungen aufruft, könnte die Kostenlast in der Praxis vor allem bei Drittanbietern liegen
- Dienstanbieter dürften darauf mit Crawlingsperren, stärkerem Fokus auf mobile Nutzung oder strengeren Login-Anforderungen reagieren

Warum das wichtig ist

Viele Zukunftsprognosen basieren auf der falschen Annahme, dass LLMs teuer sind
Tatsächlich fallen die Kosten, während zugleich die Nachfrage steigt; die Preise dürften weiter sinken und den Markt zusätzlich beleben
Frontier-AI-Unternehmen fokussieren sich stärker auf Marktanteile als auf Monetarisierung, und gerade deshalb sind die Stückpreise von LLM-Diensten besonders niedrig
Das eigentliche Kostenproblem liegt nicht im LLM selbst, sondern bei den nachgelagerten externen Integrationsdiensten (z. B. Ticketing-Websites)
Da diese externen Dienste in einer solchen Struktur womöglich keine ausreichenden Erlöse erzielen, sind künftig neue Erlösmodelle oder technische Konflikte zwischen KI und Backend-Diensten denkbar

Fazit und Ausblick

Die Inferenzkosten von LLMs sind kein grundlegender Engpass für das KI-Geschäft mehr
- Dank niedriger Ausführungskosten und verschiedener Monetarisierungsoptionen (z. B. Werbung, Abos usw.) besteht klar wirtschaftliches Potenzial
- Künftig werden nicht LLMs, sondern die Kosten- und Infrastrukturprobleme externer Datenanbieter, die von KI genutzt werden, zur wichtigsten Herausforderung
Es braucht ein realistischeres Kostenverständnis und eine Anpassung der Geschäftsstrategie an die Veränderungen von Markt und Technologie

4 Kommentare

click 2025-06-12

Ich dachte, es wäre extrem teuer, wenn man das Szenario simuliert, GPUs On-Premises anzuschaffen und zu nutzen oder GPUs in der Cloud zu mieten,
aber wenn man Skaleneffekte erreicht, scheint es durchaus machbar zu sein.

ethanhur 2025-06-11

Ich hatte Zweifel, ob sich LLMs monetarisieren lassen, deshalb überrascht es mich, dass die Einschätzung positiv ausfällt.

mhj5730 2025-06-11

Das ist ein erschreckendes Untersuchungsergebnis, schlimmer als gedacht ... Die Nutzungskosten von Modellen, in die Dutzende Billionen investiert wurden, sind niedrig, und offenbar reicht selbst dieses Kostenniveau aus, um sie profitabel zu monetarisieren ...

GN⁺ 2025-06-10

Hacker-News-Kommentare

Ich halte es für falsch, eine profitable Such-API mit einer Cloud-basierten LLM-API zu vergleichen, die Verluste in Kauf nimmt, um Marktanteile zu gewinnen.
Die aktuellen Daten zeigen eine Situation, in der Unternehmen massive Investitionen in Anlagen (Capex) tätigen, um die Führung bei KI zu übernehmen, aber noch nicht den Punkt erreicht haben, an dem Profitabilität entsteht.
Beide Produkte befinden sich in völlig unterschiedlichen Reifestadien, und man kann die Realität nicht ignorieren, dass sich dauerhafte Verluste bei einem 10 Jahre alten Dienst mit sinkender Nutzung nicht rechtfertigen lassen.
Außerdem können Suchanfragen mit CPUs und hohen Cache-Trefferraten verarbeitet werden, während LLM-Inferenz meist GPUs erfordert und die Ausgabe pro Token groß ist, sodass sich Caches zwischen Nutzern nur schwer teilen lassen.
- Es wird zwar gesagt, es gebe keinen Beleg dafür, dass Inferenzdienste nicht profitabel seien, aber meiner Ansicht nach merkt man das sofort, wenn man bei einem Hosting-Anbieter wie AWS die Inferenzkosten direkt bezahlt.
  AWS wird einen Dienst, der externe Modelle ausführt, nicht unbegrenzt subventionieren, und wichtiger ist, dass Anlageninvestitionen Capex sind, die laufenden Kosten für die Inferenz aber Opex darstellen.
- Heutzutage lassen API-Anbieter, die Open-Source-Modelle hosten, zwischen API-Gebühren und den tatsächlichen Hardwarekosten für die Inferenz genügend Marge.
  Natürlich ist das nicht alles, aber mit eigener Optimierung der Inferenz könnte die Marge noch größer werden.
  Auch bei Anbietern geschlossener Modelle wie OpenAI oder Anthropic dürfte man, wenn man auf Basis der veröffentlichten Modellspezifikationen schätzt, zu dem Schluss kommen, dass Anthropic zwischen API-Preisen und Hardwarekosten eine sehr gute Marge erzielt.
  Wer diese Modelle tatsächlich in Produktion betrieben hat, kann das meiner Meinung nach direkt verifizieren.
- Es gibt Hinweise darauf, dass Perplexity bei der Rechnungslegung COGS in R&D umgebucht hat, um profitabler zu wirken.
  Link
- Laut einer Analyse des API-Dienstes von DeepSeek erzielt das Unternehmen nicht nur 500 % Gewinnspanne, sondern bietet dasselbe Modell auch deutlich günstiger an als US-Unternehmen, die es ebenfalls bereitstellen.
  Ich halte es für gut möglich, dass auch OpenAI oder Anthropic noch deutlich höhere Margen erzielen.
  GPUs sind CPUs in der Regel sowohl bei Kosten- als auch bei Energieeffizienz überlegen, und Anthropic nutzt bei einem 24k-Token-System-Prompt KV-Cache-Caching.
- Ich stimme nicht der Auffassung zu, dass LLM-APIs eine Strategie seien, bei der man Verluste hinnimmt, um den Markt früh zu besetzen.
  Derzeit gibt es vielmehr Dienste wie openrouter, bei denen man Modelle oder Anbieter frei wechseln kann, sodass kein Lock-in-Effekt entsteht und eine Strategie zur Gewinnung von Marktanteilen wirtschaftlich wenig Sinn ergibt.
  Bei einem Produkt mit UI wie ChatGPT im Web mag das anders sein, aber eine API mit Verlust zu verkaufen, halte ich für töricht.
  Ich glaube sogar nicht, dass VCs akzeptieren würden, APIs mit Verlust zu verkaufen.
Ich halte schon den Vergleich von Suchmaschinen und LLMs unter der Annahme, dass beide nur für einfache Faktensuche (z. B. „Was ist die Hauptstadt der USA?“) genutzt werden, für eine Analogie, die an den Hauptanwendungsfällen beider Dienste weit vorbeigeht.
Wer eine Suchmaschine nutzt, fokussiert sich auf den Zugriff auf den Webindex, und eine einfache Antwort zu erhalten, ist eher eine Funktion der UI bzw. des Produkts als der Zweck der API.
LLMs werden dagegen für eher komplexe Aufgaben wie Analyse großer Datenmengen, Bilderkennung, komplexes Schlussfolgern oder Programmierung verwendet, und dabei ist der Tokenverbrauch viel höher als bei einer einfachen Suchantwort.
Was der Autor sagt, wirkt auf mich wie ein falscher Vergleich nach dem Muster: „Ein Honda Civic ist billig, weil sein Preis pro Pfund ähnlich ist wie der von Äpfeln.“
- Das klassische Suchmaschinenmodell wirkt zunehmend weniger nützlich.
  Experten verwenden Suchmaschinen immer seltener, und auch normale Nutzer verwenden sie nicht mehr in erster Linie zur Navigation durch einen Webindex, sondern eher konversationell, als würden sie eine Person fragen.
  Für Anfragen wie „Was ist die Hauptstadt der USA?“ mit überflüssigem Kontext ist eher ein LLM geeignet als eine Suchmaschine,
  und dazu kommt die starke Qualitätsverschlechterung durch SEO-Spam-Seiten.
  LLMs können natürliche Fragen besser verarbeiten und genau die gewünschte Antwort ohne unnötig lange Erklärungen, Spam oder Werbung herausfiltern, weshalb ich denke, dass sie künftig nützlicher werden.
- Ich stimme nicht zu, dass der Autor darauf hinweist, der Vergleich zwischen Suche und LLM bleibe auf einfache Faktenfragen beschränkt, aber der eigentliche Kern der Analyse ist nicht „Suchmaschinen mit LLMs vergleichen“, sondern schlicht der Vergleich von Preis und Kosten pro Einheit (Token/Query), um daraus die Marge zu berechnen.
  Wenn man beurteilen will, ob eine API subventioniert wird oder nicht, ist ein Vergleich mit Suchmaschinen meiner Meinung nach nicht zwingend nötig.
- Es stimmt zwar, dass LLMs für große Datenanalysen und komplexe Anwendungsfälle eingesetzt werden, aber ich erkenne an, dass das eher Power-User betrifft.
- Der Punkt, dass Suchmaschinen für das Auffinden eines Webindex da sind, ist gut.
  Aber auch ein LLM kann die gewünschten Informationen präziser, ohne Redundanz und schneller finden, daher kann man nicht sagen, dass klassische Suche automatisch besser ist.
  Wenn ein LLM direkte Antworten gibt und sogar Links beifügt, sodass sich die Ergebnisse leicht verifizieren lassen, kann die Nutzerzufriedenheit sogar höher sein.
  Dass Google Suchergebnisse immer weiter verdrängt, liege meiner Ansicht nach auch an der Realität, dass indexbasierte Ergebnisse zunehmend an Nutzen verlieren.
- Es gibt auch Hinweise darauf, dass OpenAI 2024 keinen besonders großen Verlust gemacht hat und dass die Inferenzkosten angesichts der monatlichen Besuche bzw. Nutzung von ChatGPT in Wirklichkeit gar nicht so hoch sind.
  Wenn man bedenkt, dass ChatGPT jeden Monat zu den meistbesuchten Websites der Welt gehört und der Großteil des Traffics kostenlos genutzt wird, könnten die tatsächlichen Kosten geringer sein als gedacht.
Ich stelle infrage, ob die Grundlage für Kostenschätzungen im LLM-Bereich klar genug ist.
Bei aktuellen Fakten wie etwa der Größe von Fluggepäck wäre es zum Beispiel verlässlicher, einem LLM Websuche-Funktionen zu geben, damit es die Quellen prüfen kann.
In diesem Fall steigt der Tokenverbrauch schnell an, sodass Kostenschätzungen danebenliegen können,
und wenn mehrere Gesprächsrunden stattfinden und sich Kontext ansammelt, wächst die gesamte Tokenmenge sprunghaft.
Ich erkenne an, dass es ohne Daten aus dem realen Einsatz schwierig ist, Kosten nur auf Basis von Schätzungen zu berechnen.
- Ich frage LLMs nach aktuellen Nachrichten, und das LLM liest dann selbst mehrere Webseiten, fasst sie zusammen und gibt Auskunft.
  Bei aktuellen Fragen führt es immer eine Websuche durch und fügt Referenzlinks an, daher halte ich diese Nutzungsweise für praktikabel.
- Ich habe gefragt: „Wie groß darf das Handgepäck auf der Strecke DFW-CDG bei einer US-Fluggesellschaft sein?“, und bekam mithilfe von Websuche eine präzise Antwort samt Verweis auf die offizielle Website und einen FAA-Link.
  Ich halte diese Vorgehensweise für effizient in der Nutzung.
Angesichts der schwierigen Versorgung mit Halbleitern sowie der hohen Strom- und Gerätekosten glaube ich nicht, dass große Player mit API-basierten LLM-Diensten schon jetzt ohne Verbesserung der Profitabilität Gewinne erzielen können.
Solange sich die Probleme bei Hardwarepreisen und Stromkosten nicht lösen, wird es schwierig bleiben, auf absehbare Zeit hohe Gewinne zu erzielen.
Als Beispiel wird genannt, dass Alphabet selbst nach 20 Jahren Betrieb von YouTube keine konkreten Angaben dazu macht, ob der Dienst tatsächlich profitabel ist.
- Die hohe Profitabilität von Alphabet (Google) beruht auf der dominierenden Marktstellung im Suchmarkt und auf den Werbeerlösen.
  Auch bei KI-Unternehmen setzt man darauf, dass sich Marktanteile irgendwann in Umsatz umwandeln lassen.
  Wenn Stickiness entsteht, ist eine Umwandlung von Marktanteil in Gewinn meiner Ansicht nach durchaus realistisch.
- Es wird auch gesagt, dass steigende Aktienkurse in gewissem Sinne ein Maßstab für Unternehmensprofitabilität sein können,
  mit dem Hinweis, dass Amazon über mehr als zehn Jahre hinweg eine ähnliche Strategie verfolgt habe.
Ausgehend von den Zahlen zu OpenAI mit 500 Millionen Dollar Verlust im Jahr 2024 und 500 Millionen MAU ist die Logik „Wenn man 500 Millionen kostenlose Nutzer in Nutzer mit einem ARPU von 10 Dollar pro Jahr verwandelt, erreicht man den Break-even“ in der Praxis schwer umsetzbar.
Würde man auch nur 1 Dollar von den Gratisnutzern verlangen, würde voraussichtlich die große Mehrheit abspringen,
und das Wort „einfach“ vereinfacht die Realität meiner Meinung nach zu stark.
- Tatsächlich geht es nicht darum, auf 1 Dollar pro Monat umzustellen, sondern darum, dass der Betrieb von LLMs inzwischen sehr billig geworden ist und sich auch mit Werbung ausreichend Geld verdienen lässt.
  Verglichen mit werbefinanzierten Diensten derselben Größenordnung sind die heutigen Stückkosten von LLMs viel niedriger, und Abonnements sind nicht die einzige Antwort.
- Eine Konvertierung von 500 Millionen Menschen zu zahlenden Nutzern würde Nutzungsverhalten und Kostenstruktur vielmehr völlig verändern und die Kosten explodieren lassen.
  Man kann stattdessen auch die einfache Annahme treffen, dass schon 1 % zahlende Nutzer 1 Milliarde Dollar pro Jahr bringen würden.
- Ich denke, diese Dienste laufen mit Verlust, weil der Wert der Nutzerdaten viel größer ist als die Abo-Gebühren.
- Tatsächlich müssen nicht alle zu zahlenden Nutzern werden; es reicht, wenn ein Teil der zahlenden Nutzer den Rest quersubventioniert, damit das Modell funktioniert.
Mit der Zeit, nach Marktanteilskonzentration und Regulierung, werden Investoren wohl erleben, dass die versprochenen Preiserhöhungen Realität werden.
- Oder es wird sehr wahrscheinlich über Werbung Geld verdient.
  Egal welche Frage man stellt, zwischen den Antworten erscheint dann Werbung für Coca-Cola,
  an ein KI-Coding-Projekt werden automatisch Anzeigen angehängt,
  und in jede zehnte von der KI versendete E-Mail wird Werbung für Versicherungsprodukte eingefügt.
  Es gibt unendliche Monetarisierungsmöglichkeiten.
Wir haben intern versucht, die Betriebskosten eines LLM anhand des Stromverbrauchs zu berechnen, und kamen trotz burstartiger Anfragen interner Nutzer auf nur etwas über 10 Dollar pro 1 Million Token.
Da die Serverlast nicht hoch war, gibt es bei Betrieb in großem Maßstab durchaus Spielraum für noch niedrigere Kosten.
- Es wird gefragt, ob diese Berechnung ausschließlich auf dem Stromverbrauch basiert.
Ich bin mir nicht sicher, ob man eine einzelne Token-Antwort eines LLM mit einem einzelnen Suchergebnis einer Suchmaschine gleichsetzen kann.
Der Autor vergleicht 1.000 LLM-Aufrufe (ca. 1 Million Token) mit 1.000 Suchanfragen,
aber es scheint, als könnte dabei ein Fehler in der Größenordnung des 1.000-Fachen vorliegen.
(Nachträgliche Korrektur: Nachdem ich die Methode des Autors angesehen habe, habe ich selbst bestätigt, dass tatsächlich Preise auf Basis von 1.000 API-Nutzungen verglichen wurden; mein ursprüngliches Verständnis war also falsch.)
- Es wird korrigiert, dass der Autor tatsächlich die Stückkosten auf Basis von 1.000 LLM-Aufrufen (insgesamt 1 Million Token) und 1.000 Suchanfragen verglichen hat.
- Wenn Gemini 2.0 Flash 0,4 Dollar pro 1 Million Token kostet und die Bing Search API 15 Dollar pro 1.000 Queries, dann ist die LLM-Seite rechnerisch 37-mal günstiger.
Wenn man künftig Effizienzsteigerungen und eine Kostenreduktion um das Hundertfache erwartet, stellt sich die Frage, warum derzeit so massiv Rechenzentren ausgebaut werden.
Vielleicht ließen sich bestehende Rechenzentren nach einem einfachen Upgrade-Zyklus der Maschinen weiterhin ausreichend nutzen,
und es wird auch die Möglichkeit erwähnt, dass die aktuelle Investitionsbegeisterung in Wirklichkeit eine Blase sein könnte.
Es wird ein Artikel zum Leistungsvergleich geteilt.
Link
Nur auf den Preis zu schauen reicht meiner Meinung nach nicht; es wirkt weiterhin teuer,
und in einer Situation mit extremem Wettbewerb um Marktanteile lassen sich die Zahlen nicht isoliert interpretieren.