OpenRouters KI-Statusbericht: Empirische Studie zu 100 Billionen Token

(openrouter.ai)

7 Punkte von GN⁺ 2025-12-29 | Noch keine Kommentare. | Auf WhatsApp teilen

Eine groß angelegte Studie, die reale LLM-Nutzungsdaten von mehr als 100 Billionen Token analysiert und den grundlegenden Wandel der KI-Inferenzmethoden seit der Einführung des Reasoning-Modells o1 im Dezember 2024 nachzeichnet
Open-Source-Modelle sind auf rund 30 % des Gesamtvolumens gewachsen, wobei chinesische Open-Source-Modelle wie DeepSeek V3 und Kimi K2 ihren Marktanteil schnell ausbauen
Rollenspiel und Programmierung bilden die beiden Hauptachsen der LLM-Nutzung; mehr als die Hälfte der Nutzung von Open-Source-Modellen konzentriert sich auf Rollenspiele, was zu einem Ergebnis führt, das der produktivitätszentrierten Annahme widerspricht
Reasoning-Modelle verarbeiten mehr als 50 % aller Token, während agentisches Reasoning als neues Basismuster aufsteigt und Tool-Aufrufe sowie mehrstufige Aufgaben zunehmen
Es wurde ein „Glass-Slipper“-Effekt entdeckt, bei dem frühe Nutzer langfristig hohe Bindungsraten zeigen, was darauf hindeutet, dass die Passung zwischen Modell und Workload eine entscheidende Wettbewerbsstärke ist

Studienüberblick und Methodik

OpenRouter ist eine Multi-Model-AI-Inferenzplattform, die mehr als 300 Modelle und über 60 Anbieter unterstützt und weltweit Millionen von Entwicklern und Endnutzern bedient
Der analysierte Datensatz besteht aus rund zwei Jahren anonymisierter Metadaten auf Anfrageebene; auf die Prompts oder die generierten Texte selbst wurde nicht zugegriffen
Alle Analysen wurden über die Analyseplattform Hex mit reproduzierbaren SQL-Abfragen, Transformationen und Visualisierungspipelines durchgeführt
Die Inhaltsklassifizierung erfolgte über GoogleTagClassifier auf Basis einer zufälligen Stichprobe von etwa 0,25 % aller Prompts; klassifiziert wurde in Kategorien wie Programmierung, Rollenspiel, Übersetzung, allgemeines Q&A, Produktivität/Schreiben, Bildung, Literatur/Kreativität und Adult
Für die Regionalanalyse wurde der Nutzerstandort auf Basis des Abrechnungsstandorts (billing location) bestimmt, der als stabilerer Proxy als IP-basierte Verfahren genutzt wurde
Der Analysezeitraum umfasst überwiegend die 13 Monate von November 2024 bis November 2025; die Analyse der Kategorieneinteilung basiert auf Daten ab Mai 2025

Open Source vs. Closed-Source-Modelle

Open-Source-(OSS)-Modelle werden als Modelle mit offengelegten Gewichten definiert, Closed-Source-Modelle als Modelle, die nur über eingeschränkte APIs zugänglich sind (z. B. Anthropic Claude)
Der Anteil von Open-Source-Modellen ist kontinuierlich gestiegen und erreichte Ende 2025 rund 30 %; das korreliert mit der Veröffentlichung wichtiger Open-Source-Modelle wie DeepSeek V3 und Kimi K2
In China entwickelte Modelle stiegen von 1,2 % wöchentlichem Anteil Ende 2024 in einzelnen Wochen auf rund 30 % und erzielten im Jahresdurchschnitt etwa 13,0 %
- Qwen, DeepSeek und andere trieben das Wachstum mit schnellen Iterationen und dichten Release-Zyklen voran
Closed-Source-Modelle definieren weiterhin die Obergrenze bei Zuverlässigkeit und Leistung und sind bei regulierten oder unternehmensbezogenen Workloads im Vorteil
OSS-Modelle sind hinsichtlich Kosteneffizienz, Transparenz und Anpassbarkeit attraktiv und haben sich derzeit bei etwa 30 % eingependelt
Die beiden Modelltypen schließen sich nicht gegenseitig aus, sondern werden innerhalb eines Multi-Model-Stacks komplementär eingesetzt
Wichtige Open-Source-Akteure
- DeepSeek ist mit insgesamt 14,37 Billionen Token der größte OSS-Beitragende, doch neue Marktteilnehmer gewinnen schnell Anteile
- Es folgen Qwen (5,59 Billionen), Meta LLaMA (3,96 Billionen) und Mistral AI (2,92 Billionen)
- Nach dem Summer Inflection Mitte 2025 wandelte sich die Marktstruktur von einem nahezu monopolistischen zu einem pluralen Markt
  - MoonshotAIs Kimi K2, OpenAIs GPT-OSS-Serie und MiniMax M2 erreichten innerhalb weniger Wochen produktionsreife Akzeptanz
- Ende 2025 überschreitet kein einzelnes Modell 25 % der OSS-Token; die Anteile verteilen sich auf 5 bis 7 Modelle
- Das OSS-Ökosystem ist ein hochdynamisches Wettbewerbsumfeld mit schnellen Innovationszyklen und nicht gesicherter Führungsposition
Modellgröße vs. Market Fit: Mittelgroß ist das neue Klein
- Einteilung nach Modellgröße: klein (unter 15B), mittelgroß (15B bis 70B), groß (über 70B)
- Kleine Modelle verlieren insgesamt Marktanteile; die Nutzung sinkt trotz neuer Modellangebote
- Mittelgroße Modelle bildeten ab der Veröffentlichung von Qwen2.5 Coder 32B im November 2024 eine eigenständige Kategorie
  - Mistral Small 3 (Januar 2025) und GPT-OSS 20B (August 2025) entwickelten sich zu starken Konkurrenten
  - Das deutet darauf hin, dass Nutzer ein Gleichgewicht zwischen Leistungsfähigkeit und Effizienz suchen
- Das Segment großer Modelle diversifizierte sich mit verschiedenen High-Performance-Konkurrenten wie Qwen3 235B A22B Instruct, Z.AI GLM 4.5 Air und OpenAI GPT-OSS-120B
- Die Ära der Dominanz kleiner Modelle ist vorbei, und der Markt tendiert zu einer Zweiteilung in mittelgroße und große Modelle
Anwendungsbereiche von Open-Source-Modellen
- Die wichtigsten Einsatzfelder von OSS-Modellen sind Rollenspiel (rund 52 %) und Programmierung; diese beiden Kategorien machen den Großteil des OSS-Tokenverbrauchs aus
- Dass Rollenspiele mehr als 50 % ausmachen, zeigt, dass offene Modelle wegen weniger restriktiver Inhaltsfilter für Fantasy- oder Entertainment-Anwendungen attraktiv sind
- Bei chinesischen OSS-Modellen ist Rollenspiel mit rund 33 % zwar die größte Kategorie, doch Programmierung und Technik zusammen kommen auf 39 % und damit auf die Mehrheit
  - Qwen, DeepSeek und andere werden zunehmend für Codegenerierung und infrastrukturbasierte Workloads eingesetzt
- In der Kategorie Programmierung verändert sich der OSS-interne Anteil dynamisch zwischen chinesischen und westlichen OSS-Modellen
  - Mitte 2025 führten chinesische OSS-Modelle, im Q4 legten jedoch westliche OSS-Modelle wie Meta LLaMA-2 Code und die OpenAI-GPT-OSS-Serie stark zu
- Der Rollenspiel-Traffic wird Ende 2025 nahezu gleichmäßig von RoW OSS (43 %) und Closed Source (42 %) getragen, ein deutlicher Wandel gegenüber der anfänglichen Dominanz von 70 % Closed Source

Der Aufstieg agentischen Reasonings

Reasoning-Modelle machen mehr als die Hälfte der Gesamtnutzung aus
- Der Tokenanteil Reasoning-optimierter Modelle stieg von einem marginalen Niveau Anfang 2025 auf über 50 %
- Veröffentlichungen leistungsstarker Systeme wie GPT-5, Claude 4.5 und Gemini 3 sowie die Präferenz der Nutzer für mehrstufige Logik und agentenartige Workflows trieben diesen Wandel voran
- Nach jüngsten Daten hat xAI Grok Code Fast 1 den größten Anteil am Reasoning-Traffic, gefolgt von Google Gemini 2.5 Pro/Flash
- Auch das offene Modell OpenAI gpt-oss-120b hält einen erheblichen Anteil, was zeigt, dass Entwickler OSS bevorzugen, wenn es möglich ist
Zunehmende Verbreitung von Tool-Aufrufen
- Der Tokenanteil von Anfragen, die mit dem Endgrund Tool Call klassifiziert werden, steigt kontinuierlich
- Tool-Aufrufe konzentrierten sich anfangs auf OpenAI gpt-4o-mini und die Anthropic-Claude-3.5/3.7-Serie, doch seit Mitte 2025 unterstützen mehr Modelle die Bereitstellung von Tools
- Seit Ende September 2025 baut Claude 4.5 Sonnet seinen Anteil schnell aus; auch Grok Code Fast und GLM 4.5 drängen in den Markt
Veränderungen bei Prompt-Completion-Formaten
- Die durchschnittlichen Prompt-Token stiegen von etwa 1,5K auf über 6K und damit auf etwa das Vierfache
- Auch die durchschnittlichen Completion-Token stiegen von etwa 150 auf 400 und damit fast auf das Dreifache, vor allem aufgrund zusätzlicher Reasoning-Token
- Programmierungsbezogene Aufgaben sind der wichtigste Treiber des Anstiegs bei Prompt-Token und nutzen häufig mehr als 20K Eingabe-Token
- Andere Kategorien verlaufen vergleichsweise flach und bleiben auf niedrigem Volumen
Längere Sequenzen, komplexere Interaktionen
- Die durchschnittliche Sequenzlänge stieg in den vergangenen 20 Monaten um mehr als das Dreifache – von unter 2.000 Token auf über 5.400 Token
- Programmierungsbezogene Prompts verzeichnen im Schnitt eine 3- bis 4-mal längere Tokenlänge als allgemeine Prompts
- Lange Sequenzen sind kein Ausdruck größerer Ausführlichkeit der Nutzer, sondern ein Merkmal eingebetteter, anspruchsvoller agentischer Workflows
Implikation: Agentisches Reasoning wird zum neuen Standard
- Der steigende Reasoning-Anteil, die breitere Tool-Nutzung, längere Sequenzen und die zunehmende Komplexität in der Programmierung deuten auf eine Verschiebung des Schwerpunkts bei der LLM-Nutzung hin
- Eine durchschnittliche LLM-Anfrage ist nicht länger nur eine einfache Frage oder isolierte Anweisung, sondern Teil einer strukturierten agentenähnlichen Schleife
- Für Modellanbieter werden Latenz, Tool-Verarbeitung, Kontextunterstützung und Robustheit gegenüber bösartigen Tool-Ketten immer wichtiger
- Bald, wenn nicht schon jetzt, wird agentisches Reasoning den Großteil der Inferenz ausmachen

Kategorie: Wie nutzen Menschen LLMs?

Dominierende Kategorien
- Programmierung ist die Kategorie mit der konsistentesten Expansion, von etwa 11 % Anfang 2025 auf zuletzt über 50 %
- Die Anthropic-Claude-Serie dominiert kontinuierlich mehr als 60 % der Ausgaben im Zusammenhang mit Programmierung
  - In der Woche vom 17. November fiel der Anteil erstmals unter 60 %
- OpenAI baute seinen Anteil seit Juli von rund 2 % auf 8 % aus, Google blieb bei etwa 15 % stabil
- MiniMax fällt als schnell aufsteigender Neueinsteiger auf
Zusammensetzung der Tags innerhalb der Kategorien
- Rollenspiel: Etwa 60 % entfallen auf Games/Roleplaying Games, also eher strukturierte Rollenspiele oder Character-Engines als lockere Chatbots
  - Dazu kommen auch Writers Resources (15,6 %) und Adult-Inhalte (15,4 %)
- Programmierung: Mehr als 2/3 sind mit Programming/Other gelabelt, was auf breit gefächerte allgemeine codebezogene Prompt-Muster hinweist
  - Development Tools (26,4 %) und ein kleiner Anteil von Skriptsprachen deuten auf eine entstehende Spezialisierung hin
- Übersetzung, Wissenschaft, Gesundheit usw. weisen intern eine relativ flache Struktur auf
  - Übersetzung: Fast gleichmäßig zwischen Foreign Language Resources (51,1 %) und Other aufgeteilt
  - Wissenschaft: Machine Learning & AI (80,4 %) dominiert, meist Meta-Fragen zu KI
  - Gesundheit: Die am stärksten segmentierte Kategorie, ohne dass ein einzelner Unter-Tag 25 % überschreitet
- Finanzen, Wissenschaftsbetrieb, Recht sind deutlich stärker verteilt, kein einzelner Tag erreicht 20 %
Anbieterbezogene Einblicke
- Anthropic Claude: Programmierungs- und Techniknutzung machen über 80 % aus, Rollenspiel und allgemeines Q&A nur in geringem Umfang
- Google: Breite Mischung aus Übersetzung, Wissenschaft, Technik und Allgemeinwissen, der Coding-Anteil fiel bis Ende 2025 auf etwa 18 %
- xAI: Während des größten Teils des Zeitraums entfielen über 80 % auf Programmierung, erst Ende November Ausweitung auf Technik, Rollenspiel, Wissenschaftsbetrieb usw.
  - Im Zusammenhang mit dem Zufluss von Nicht-Entwickler-Traffic durch kostenlose Verfügbarkeit
- OpenAI: Anfang 2025 machten wissenschaftliche Aufgaben mehr als die Hälfte aus, bis Jahresende sank der Anteil auf unter 15 %
  - Programmierungs- und technikbezogene Nutzung kamen jeweils auf 29 % und machten zusammen mehr als die Hälfte aus
- DeepSeek: Rollenspiel, lockere Chats und unterhaltungsorientierte Interaktionen dominieren mit mehr als 2/3
- Qwen: Programmierung blieb über den gesamten Zeitraum hinweg konsistent bei 40–60 %, mit hoher wöchentlicher Volatilität in Wissenschaft, Technik, Rollenspiel usw.

Region: Wie unterscheidet sich die LLM-Nutzung nach Region?

Regionale Nutzungsverteilung
- Nordamerika ist die größte Einzelregion, liegt aber im Großteil des Beobachtungszeitraums unter der Hälfte der Gesamtausgaben
- Europa hielt seinen wöchentlichen Ausgabenanteil stabil im Bereich von 10–20 %
- Asien entwickelt sich nicht nur zum Produzenten von Frontier-Modellen, sondern auch zu einem schnell wachsenden Konsumenten
  - Der Anteil stieg vom frühen Datensatzwert von rund 13 % auf zuletzt etwa 31 % und hat sich damit mehr als verdoppelt
- Verteilung nach Kontinenten: Nordamerika 47,22 %, Asien 28,61 %, Europa 21,32 %, Ozeanien 1,18 %, Südamerika 1,21 %, Afrika 0,46 %
- Top 10 der Länder: USA (47,17 %), Singapur (9,21 %), Deutschland (7,51 %), China (6,01 %), Südkorea (2,88 %), Niederlande (2,65 %), Vereinigtes Königreich (2,52 %), Kanada (1,90 %), Japan (1,77 %), Indien (1,62 %)
Sprachverteilung
- Englisch dominiert mit 82,87 %
- Vereinfachtes Chinesisch (4,95 %), Russisch (2,47 %), Spanisch (1,43 %), Thai (1,03 %), Sonstige (7,25 %)

Analyse der Nutzerbindung bei LLMs

Das „gläserner-Schuh“-Phänomen von Cinderella
- Die meisten Retention-Charts sind von hoher Abwanderung und schnellem Kohortenrückgang geprägt, doch frühe Nutzerkohorten zeigen auch über die Zeit hinweg eine belastbare Retention
- Diese Basiskohorten (foundational cohorts) stehen für Nutzer, deren Workloads tiefgehend sind und eine nachhaltige Workload-Model-Fit-Passung erreicht haben
- Gläserner-Schuh-Effekt: Im schnelllebigen KI-Ökosystem wird jedes neue Frontier-Modell auf zuvor unbefriedigte, hochwertige Workloads „anprobiert“; passt es technisch und wirtschaftlich genau, entsteht ein starker Lock-in-Effekt
- Die Juni-2025-Kohorte von Gemini 2.5 Pro und die Mai-Kohorte von Claude 4 Sonnet lagen im fünften Monat mit rund 40 % Retention deutlich über den nachfolgenden Kohorten
- GPT-4o Mini: Eine einzelne Basiskohorte (Juli 2024) etablierte zum Launch einen dominanten und klebrigen Workload-Model-Fit, danach wanderten alle Kohorten in ähnlicher Weise ab
- Gemini 2.0 Flash, Llama 4 Maverick: Es bildete sich keine leistungsstarke Basiskohorte, daher performten alle Kohorten ähnlich schwach; sie wurden nicht als „Frontier“ wahrgenommen
- Bumerang-Effekt der DeepSeek-Modelle: Statt eines typischen monotonen Rückgangs wurde ein Revival Jump beobachtet
  - Bei der April-2025-Kohorte von DeepSeek R1 stieg die Retention im dritten Monat, bei der Juli-Kohorte von DeepSeek Chat V3-0324 im zweiten Monat
  - Das deutet auf Nutzer hin, die nach dem Testen von Alternativen zurückkehren
Implikationen
- Wer ein Problem als Erster löst, verschafft sich einen dauerhaften Vorsprung
- Retention-Muster auf Kohortenebene sind ein empirisches Signal für Modelldifferenzierung
- Die zeitliche Begrenzung des Frontier-Fensters: Das Zeitfenster, in dem ein Modell Basiskunden gewinnen kann, ist eng und vorübergehend, aber entscheidend für die langfristige Adoptionsdynamik
- Basiskohorten sind der Fingerabdruck echten technologischen Fortschritts und markieren den Punkt, an dem KI-Modelle vom Neuheitswert zur Unverzichtbarkeit werden

Kosten- vs.-Nutzungsdynamik

Feingranulare Analyse von KI-Workloads nach Kategorien
- Aufbau eines Vier-Quadranten-Frameworks auf Basis eines Medianpreises von 0,73 $/1M Token
- Premium-Workloads (oben rechts): Hochkosten-Hochlast-Anwendungen, darunter technology und science
  - technology ist am teuersten und behält zugleich eine hohe Nutzung bei, was auf den Bedarf an starken Modellen für komplexes Systemdesign oder Architekturen hindeutet
- Volumentreiber im Massenmarkt (oben links): Hohe Nutzung bei niedrigen Kosten, dominiert von roleplay, programming, science
  - programming ist die „Killer-Professional“-Kategorie mit dem höchsten Nutzungsvolumen bei stark optimierten mittleren Kosten
  - Das Nutzungsvolumen von roleplay liegt auf dem Niveau von programming, was zeigt, dass verbraucherorientiertes Rollenspiel ebenso starkes Engagement erzeugt wie die führenden professionellen Anwendungsfälle
- Spezialisierte Profis (unten rechts): Geringes Volumen bei hohen Kosten, darunter finance, academia, health, marketing
  - Hochriskante Nischen-Fachdomänen mit hoher Nachfrage nach Genauigkeit, Zuverlässigkeit und domänenspezifischem Wissen
- Nischen-Utilities (unten links): Niedrige Kosten bei geringem Volumen, darunter translation, legal, trivia
  - Funktionale, kostenoptimierte Utilities, die kommodifiziert sind und für die günstige Alternativen verfügbar sind
Effektive Kosten von KI-Modellen vs. Nutzung
- Auf einer Log-Log-Skala ist die Korrelation zwischen Preis und Nutzung schwach, die Trendlinie nahezu flach
- Die Nachfrage ist relativ preisunelastisch: Ein Preisrückgang von 10 % erhöht die Nutzung nur um etwa 0,5–0,7 %
- Zwei klar unterscheidbare Regime: geschlossene Modelle (OpenAI, Anthropic) im Bereich hohe Kosten-hohe Nutzung, offene Modelle (DeepSeek, Mistral, Qwen) im Bereich niedrige Kosten-hohes Volumen
- Vier Nutzungs-Kosten-Archetypen:
  - Premium-Leader: Claude 3.7 Sonnet, Claude Sonnet 4 usw. erreichen bei etwa 2 $/1M Token hohe Nutzung
  - Effiziente Giganten: Gemini 2.0 Flash, DeepSeek V3 0324 usw. erzielen ähnliche Nutzung bei weniger als 0,40 $/1M Token
  - Long Tail: Qwen 2 7B Instruct, IBM Granite 4.0 Micro usw. kosten nur wenige Cent pro 1M Token, verzeichnen aber wegen schwächerer Leistung oder begrenzter Sichtbarkeit geringe Nutzung
  - Premium-Spezialisten: GPT-4, GPT-5 Pro usw. liegen bei etwa 35 $/1M Token und haben geringe Nutzung, beschränkt auf High-Risk-Workloads
- Hinweise auf das Jevons-Paradoxon: Sehr günstige und schnelle Modelle werden für mehr Aufgaben eingesetzt, wodurch der gesamte Token-Verbrauch steigt
- Qualität und Fähigkeiten übertreffen oft die Kosten: Die hohe Nutzung teurer Modelle (Claude, GPT-4) zeigt, dass Nutzer höhere Kosten akzeptieren, wenn Modelle klar überlegen sind oder ein Vertrauensplus bieten

Diskussion

Multi-Modell-Ökosystem: Kein einzelnes Modell dominiert alle Anwendungsfälle; sowohl geschlossene als auch offene Modelle sichern sich erhebliche Marktanteile
Vielfalt der Nutzung über Produktivität hinaus: Mehr als die Hälfte der Nutzung von Open-Source-Modellen entfällt auf Rollenspiele und Storytelling
- Hebt Chancen für verbraucherorientierte Anwendungen, Personalisierung und Crossover zwischen KI und Entertainment-IP hervor
Agenten vs. Menschen: der Aufstieg agentischen Schlussfolgerns: Übergang von Single-Turn-Interaktionen zu agentischem Schlussfolgern, bei dem Modelle planen, schlussfolgern und über mehrere Schritte hinweg ausführen
Regionale Perspektive: Die LLM-Nutzung wird zunehmend global und dezentralisiert, der Anteil Asiens stieg von 13 % auf 31 %, China entwickelt sich zu einer wichtigen Kraft
Kosten- vs.-Nutzungsdynamik: Der LLM-Markt ist noch keine Commodity; der Preis allein erklärt das Nutzungsvolumen nicht ausreichend
- Open-Source-Modelle verschieben kontinuierlich die effiziente Grenze und setzen damit die Preissetzungsmacht geschlossener Systeme unter Druck
Bindungsrate und das Cinderella-Glasschuh-Phänomen: Wenn Basismodelle Sprünge machen, ist die Bindungsrate der wahre Maßstab für Verteidigungsfähigkeit
- Die Passung zwischen Modell und Workload ist der entscheidende Wettbewerbsvorteil

Grenzen

Liefert nur eine partielle Sicht auf das breitere Ökosystem, da die Muster in einem begrenzten Zeitfenster auf einer einzelnen Plattform (OpenRouter) beobachtet wurden
Unternehmensnutzung, lokal gehostete Deployments und geschlossene interne Systeme liegen außerhalb des Datenumfangs
Ein Teil der Analyse stützt sich auf Proxy-Messungen: Identifizierung agentischen Schlussfolgerns über mehrstufige Abläufe oder Tool-Aufrufe, regionale Schlussfolgerungen auf Basis der Abrechnung usw.
Die Ergebnisse sollten eher als hinweisende Verhaltensmuster denn als definitive Messwerte interpretiert werden

Fazit

Bietet eine empirische Perspektive darauf, wie LLMs in die weltweite Computing-Infrastruktur integriert werden
Das Auftauchen von Modellen auf o1-Niveau im vergangenen Jahr löste einen stufenweisen Wandel in der Wahrnehmung von Schlussfolgern aus: weg von Single-Shot-Benchmarks hin zu prozessbasierten Kennzahlen, Latenz-Kosten-Trade-offs und Bewertung nach Erfolg unter Orchestrierung
Das LLM-Ökosystem ist strukturell pluralistisch, Nutzer wählen Systeme entlang mehrerer Achsen wie Fähigkeiten, Latenz, Preis und Vertrauen
Auch das Schlussfolgern selbst verändert sich: von statischen Vervollständigungen hin zu dynamischer Orchestrierung, mit dem Aufstieg agentischen Schlussfolgerns
Regional wird es stärker dezentralisiert, Asiens Anteil wächst, und China steigt sowohl als Modellentwickler als auch als Exporteur auf
o1 beendet den Wettbewerb nicht, sondern erweitert den Designraum und verschiebt den Fokus weg von monolithischen Wetten hin zu Systemdenken, von Intuition hin zu Messung und von Leaderboard-Deltas hin zu empirischer Nutzungsanalyse
Der nächste Schritt konzentriert sich auf operative Exzellenz: Messung des Abschlusses realer Aufgaben, Verringerung der Varianz unter Verteilungsverschiebungen und Ausrichtung des Modellverhaltens an den tatsächlichen Anforderungen von Workloads in Produktionsgröße

OpenRouters KI-Statusbericht: Empirische Studie zu 100 Billionen Token

Studienüberblick und Methodik

Open Source vs. Closed-Source-Modelle

Wichtige Open-Source-Akteure

Modellgröße vs. Market Fit: Mittelgroß ist das neue Klein

Anwendungsbereiche von Open-Source-Modellen

Der Aufstieg agentischen Reasonings

Reasoning-Modelle machen mehr als die Hälfte der Gesamtnutzung aus

Zunehmende Verbreitung von Tool-Aufrufen

Veränderungen bei Prompt-Completion-Formaten

Längere Sequenzen, komplexere Interaktionen

Implikation: Agentisches Reasoning wird zum neuen Standard

Kategorie: Wie nutzen Menschen LLMs?

Dominierende Kategorien

Zusammensetzung der Tags innerhalb der Kategorien

Anbieterbezogene Einblicke

Region: Wie unterscheidet sich die LLM-Nutzung nach Region?

Regionale Nutzungsverteilung

Sprachverteilung

Analyse der Nutzerbindung bei LLMs

Das „gläserner-Schuh“-Phänomen von Cinderella

Implikationen

Kosten- vs.-Nutzungsdynamik

Feingranulare Analyse von KI-Workloads nach Kategorien

Effektive Kosten von KI-Modellen vs. Nutzung

Diskussion

Grenzen

Fazit

Verwandte Beiträge

Noch keine Kommentare.