7 Punkte von GN⁺ 2025-12-29 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Eine groß angelegte Studie, die reale LLM-Nutzungsdaten von mehr als 100 Billionen Token analysiert und den grundlegenden Wandel der KI-Inferenzmethoden seit der Einführung des Reasoning-Modells o1 im Dezember 2024 nachzeichnet
  • Open-Source-Modelle sind auf rund 30 % des Gesamtvolumens gewachsen, wobei chinesische Open-Source-Modelle wie DeepSeek V3 und Kimi K2 ihren Marktanteil schnell ausbauen
  • Rollenspiel und Programmierung bilden die beiden Hauptachsen der LLM-Nutzung; mehr als die Hälfte der Nutzung von Open-Source-Modellen konzentriert sich auf Rollenspiele, was zu einem Ergebnis führt, das der produktivitätszentrierten Annahme widerspricht
  • Reasoning-Modelle verarbeiten mehr als 50 % aller Token, während agentisches Reasoning als neues Basismuster aufsteigt und Tool-Aufrufe sowie mehrstufige Aufgaben zunehmen
  • Es wurde ein „Glass-Slipper“-Effekt entdeckt, bei dem frühe Nutzer langfristig hohe Bindungsraten zeigen, was darauf hindeutet, dass die Passung zwischen Modell und Workload eine entscheidende Wettbewerbsstärke ist

Studienüberblick und Methodik

  • OpenRouter ist eine Multi-Model-AI-Inferenzplattform, die mehr als 300 Modelle und über 60 Anbieter unterstützt und weltweit Millionen von Entwicklern und Endnutzern bedient
  • Der analysierte Datensatz besteht aus rund zwei Jahren anonymisierter Metadaten auf Anfrageebene; auf die Prompts oder die generierten Texte selbst wurde nicht zugegriffen
  • Alle Analysen wurden über die Analyseplattform Hex mit reproduzierbaren SQL-Abfragen, Transformationen und Visualisierungspipelines durchgeführt
  • Die Inhaltsklassifizierung erfolgte über GoogleTagClassifier auf Basis einer zufälligen Stichprobe von etwa 0,25 % aller Prompts; klassifiziert wurde in Kategorien wie Programmierung, Rollenspiel, Übersetzung, allgemeines Q&A, Produktivität/Schreiben, Bildung, Literatur/Kreativität und Adult
  • Für die Regionalanalyse wurde der Nutzerstandort auf Basis des Abrechnungsstandorts (billing location) bestimmt, der als stabilerer Proxy als IP-basierte Verfahren genutzt wurde
  • Der Analysezeitraum umfasst überwiegend die 13 Monate von November 2024 bis November 2025; die Analyse der Kategorieneinteilung basiert auf Daten ab Mai 2025

Open Source vs. Closed-Source-Modelle

  • Open-Source-(OSS)-Modelle werden als Modelle mit offengelegten Gewichten definiert, Closed-Source-Modelle als Modelle, die nur über eingeschränkte APIs zugänglich sind (z. B. Anthropic Claude)
  • Der Anteil von Open-Source-Modellen ist kontinuierlich gestiegen und erreichte Ende 2025 rund 30 %; das korreliert mit der Veröffentlichung wichtiger Open-Source-Modelle wie DeepSeek V3 und Kimi K2
  • In China entwickelte Modelle stiegen von 1,2 % wöchentlichem Anteil Ende 2024 in einzelnen Wochen auf rund 30 % und erzielten im Jahresdurchschnitt etwa 13,0 %
    • Qwen, DeepSeek und andere trieben das Wachstum mit schnellen Iterationen und dichten Release-Zyklen voran
  • Closed-Source-Modelle definieren weiterhin die Obergrenze bei Zuverlässigkeit und Leistung und sind bei regulierten oder unternehmensbezogenen Workloads im Vorteil
  • OSS-Modelle sind hinsichtlich Kosteneffizienz, Transparenz und Anpassbarkeit attraktiv und haben sich derzeit bei etwa 30 % eingependelt
  • Die beiden Modelltypen schließen sich nicht gegenseitig aus, sondern werden innerhalb eines Multi-Model-Stacks komplementär eingesetzt
  • Wichtige Open-Source-Akteure

    • DeepSeek ist mit insgesamt 14,37 Billionen Token der größte OSS-Beitragende, doch neue Marktteilnehmer gewinnen schnell Anteile
    • Es folgen Qwen (5,59 Billionen), Meta LLaMA (3,96 Billionen) und Mistral AI (2,92 Billionen)
    • Nach dem Summer Inflection Mitte 2025 wandelte sich die Marktstruktur von einem nahezu monopolistischen zu einem pluralen Markt
      • MoonshotAIs Kimi K2, OpenAIs GPT-OSS-Serie und MiniMax M2 erreichten innerhalb weniger Wochen produktionsreife Akzeptanz
    • Ende 2025 überschreitet kein einzelnes Modell 25 % der OSS-Token; die Anteile verteilen sich auf 5 bis 7 Modelle
    • Das OSS-Ökosystem ist ein hochdynamisches Wettbewerbsumfeld mit schnellen Innovationszyklen und nicht gesicherter Führungsposition
  • Modellgröße vs. Market Fit: Mittelgroß ist das neue Klein

    • Einteilung nach Modellgröße: klein (unter 15B), mittelgroß (15B bis 70B), groß (über 70B)
    • Kleine Modelle verlieren insgesamt Marktanteile; die Nutzung sinkt trotz neuer Modellangebote
    • Mittelgroße Modelle bildeten ab der Veröffentlichung von Qwen2.5 Coder 32B im November 2024 eine eigenständige Kategorie
      • Mistral Small 3 (Januar 2025) und GPT-OSS 20B (August 2025) entwickelten sich zu starken Konkurrenten
      • Das deutet darauf hin, dass Nutzer ein Gleichgewicht zwischen Leistungsfähigkeit und Effizienz suchen
    • Das Segment großer Modelle diversifizierte sich mit verschiedenen High-Performance-Konkurrenten wie Qwen3 235B A22B Instruct, Z.AI GLM 4.5 Air und OpenAI GPT-OSS-120B
    • Die Ära der Dominanz kleiner Modelle ist vorbei, und der Markt tendiert zu einer Zweiteilung in mittelgroße und große Modelle
  • Anwendungsbereiche von Open-Source-Modellen

    • Die wichtigsten Einsatzfelder von OSS-Modellen sind Rollenspiel (rund 52 %) und Programmierung; diese beiden Kategorien machen den Großteil des OSS-Tokenverbrauchs aus
    • Dass Rollenspiele mehr als 50 % ausmachen, zeigt, dass offene Modelle wegen weniger restriktiver Inhaltsfilter für Fantasy- oder Entertainment-Anwendungen attraktiv sind
    • Bei chinesischen OSS-Modellen ist Rollenspiel mit rund 33 % zwar die größte Kategorie, doch Programmierung und Technik zusammen kommen auf 39 % und damit auf die Mehrheit
      • Qwen, DeepSeek und andere werden zunehmend für Codegenerierung und infrastrukturbasierte Workloads eingesetzt
    • In der Kategorie Programmierung verändert sich der OSS-interne Anteil dynamisch zwischen chinesischen und westlichen OSS-Modellen
      • Mitte 2025 führten chinesische OSS-Modelle, im Q4 legten jedoch westliche OSS-Modelle wie Meta LLaMA-2 Code und die OpenAI-GPT-OSS-Serie stark zu
    • Der Rollenspiel-Traffic wird Ende 2025 nahezu gleichmäßig von RoW OSS (43 %) und Closed Source (42 %) getragen, ein deutlicher Wandel gegenüber der anfänglichen Dominanz von 70 % Closed Source

Der Aufstieg agentischen Reasonings

  • Reasoning-Modelle machen mehr als die Hälfte der Gesamtnutzung aus

    • Der Tokenanteil Reasoning-optimierter Modelle stieg von einem marginalen Niveau Anfang 2025 auf über 50 %
    • Veröffentlichungen leistungsstarker Systeme wie GPT-5, Claude 4.5 und Gemini 3 sowie die Präferenz der Nutzer für mehrstufige Logik und agentenartige Workflows trieben diesen Wandel voran
    • Nach jüngsten Daten hat xAI Grok Code Fast 1 den größten Anteil am Reasoning-Traffic, gefolgt von Google Gemini 2.5 Pro/Flash
    • Auch das offene Modell OpenAI gpt-oss-120b hält einen erheblichen Anteil, was zeigt, dass Entwickler OSS bevorzugen, wenn es möglich ist
  • Zunehmende Verbreitung von Tool-Aufrufen

    • Der Tokenanteil von Anfragen, die mit dem Endgrund Tool Call klassifiziert werden, steigt kontinuierlich
    • Tool-Aufrufe konzentrierten sich anfangs auf OpenAI gpt-4o-mini und die Anthropic-Claude-3.5/3.7-Serie, doch seit Mitte 2025 unterstützen mehr Modelle die Bereitstellung von Tools
    • Seit Ende September 2025 baut Claude 4.5 Sonnet seinen Anteil schnell aus; auch Grok Code Fast und GLM 4.5 drängen in den Markt
  • Veränderungen bei Prompt-Completion-Formaten

    • Die durchschnittlichen Prompt-Token stiegen von etwa 1,5K auf über 6K und damit auf etwa das Vierfache
    • Auch die durchschnittlichen Completion-Token stiegen von etwa 150 auf 400 und damit fast auf das Dreifache, vor allem aufgrund zusätzlicher Reasoning-Token
    • Programmierungsbezogene Aufgaben sind der wichtigste Treiber des Anstiegs bei Prompt-Token und nutzen häufig mehr als 20K Eingabe-Token
    • Andere Kategorien verlaufen vergleichsweise flach und bleiben auf niedrigem Volumen
  • Längere Sequenzen, komplexere Interaktionen

    • Die durchschnittliche Sequenzlänge stieg in den vergangenen 20 Monaten um mehr als das Dreifache – von unter 2.000 Token auf über 5.400 Token
    • Programmierungsbezogene Prompts verzeichnen im Schnitt eine 3- bis 4-mal längere Tokenlänge als allgemeine Prompts
    • Lange Sequenzen sind kein Ausdruck größerer Ausführlichkeit der Nutzer, sondern ein Merkmal eingebetteter, anspruchsvoller agentischer Workflows
  • Implikation: Agentisches Reasoning wird zum neuen Standard

    • Der steigende Reasoning-Anteil, die breitere Tool-Nutzung, längere Sequenzen und die zunehmende Komplexität in der Programmierung deuten auf eine Verschiebung des Schwerpunkts bei der LLM-Nutzung hin
    • Eine durchschnittliche LLM-Anfrage ist nicht länger nur eine einfache Frage oder isolierte Anweisung, sondern Teil einer strukturierten agentenähnlichen Schleife
    • Für Modellanbieter werden Latenz, Tool-Verarbeitung, Kontextunterstützung und Robustheit gegenüber bösartigen Tool-Ketten immer wichtiger
    • Bald, wenn nicht schon jetzt, wird agentisches Reasoning den Großteil der Inferenz ausmachen

Kategorie: Wie nutzen Menschen LLMs?

  • Dominierende Kategorien

    • Programmierung ist die Kategorie mit der konsistentesten Expansion, von etwa 11 % Anfang 2025 auf zuletzt über 50 %
    • Die Anthropic-Claude-Serie dominiert kontinuierlich mehr als 60 % der Ausgaben im Zusammenhang mit Programmierung
      • In der Woche vom 17. November fiel der Anteil erstmals unter 60 %
    • OpenAI baute seinen Anteil seit Juli von rund 2 % auf 8 % aus, Google blieb bei etwa 15 % stabil
    • MiniMax fällt als schnell aufsteigender Neueinsteiger auf
  • Zusammensetzung der Tags innerhalb der Kategorien

    • Rollenspiel: Etwa 60 % entfallen auf Games/Roleplaying Games, also eher strukturierte Rollenspiele oder Character-Engines als lockere Chatbots
      • Dazu kommen auch Writers Resources (15,6 %) und Adult-Inhalte (15,4 %)
    • Programmierung: Mehr als 2/3 sind mit Programming/Other gelabelt, was auf breit gefächerte allgemeine codebezogene Prompt-Muster hinweist
      • Development Tools (26,4 %) und ein kleiner Anteil von Skriptsprachen deuten auf eine entstehende Spezialisierung hin
    • Übersetzung, Wissenschaft, Gesundheit usw. weisen intern eine relativ flache Struktur auf
      • Übersetzung: Fast gleichmäßig zwischen Foreign Language Resources (51,1 %) und Other aufgeteilt
      • Wissenschaft: Machine Learning & AI (80,4 %) dominiert, meist Meta-Fragen zu KI
      • Gesundheit: Die am stärksten segmentierte Kategorie, ohne dass ein einzelner Unter-Tag 25 % überschreitet
    • Finanzen, Wissenschaftsbetrieb, Recht sind deutlich stärker verteilt, kein einzelner Tag erreicht 20 %
  • Anbieterbezogene Einblicke

    • Anthropic Claude: Programmierungs- und Techniknutzung machen über 80 % aus, Rollenspiel und allgemeines Q&A nur in geringem Umfang
    • Google: Breite Mischung aus Übersetzung, Wissenschaft, Technik und Allgemeinwissen, der Coding-Anteil fiel bis Ende 2025 auf etwa 18 %
    • xAI: Während des größten Teils des Zeitraums entfielen über 80 % auf Programmierung, erst Ende November Ausweitung auf Technik, Rollenspiel, Wissenschaftsbetrieb usw.
      • Im Zusammenhang mit dem Zufluss von Nicht-Entwickler-Traffic durch kostenlose Verfügbarkeit
    • OpenAI: Anfang 2025 machten wissenschaftliche Aufgaben mehr als die Hälfte aus, bis Jahresende sank der Anteil auf unter 15 %
      • Programmierungs- und technikbezogene Nutzung kamen jeweils auf 29 % und machten zusammen mehr als die Hälfte aus
    • DeepSeek: Rollenspiel, lockere Chats und unterhaltungsorientierte Interaktionen dominieren mit mehr als 2/3
    • Qwen: Programmierung blieb über den gesamten Zeitraum hinweg konsistent bei 40–60 %, mit hoher wöchentlicher Volatilität in Wissenschaft, Technik, Rollenspiel usw.

Region: Wie unterscheidet sich die LLM-Nutzung nach Region?

  • Regionale Nutzungsverteilung

    • Nordamerika ist die größte Einzelregion, liegt aber im Großteil des Beobachtungszeitraums unter der Hälfte der Gesamtausgaben
    • Europa hielt seinen wöchentlichen Ausgabenanteil stabil im Bereich von 10–20 %
    • Asien entwickelt sich nicht nur zum Produzenten von Frontier-Modellen, sondern auch zu einem schnell wachsenden Konsumenten
      • Der Anteil stieg vom frühen Datensatzwert von rund 13 % auf zuletzt etwa 31 % und hat sich damit mehr als verdoppelt
    • Verteilung nach Kontinenten: Nordamerika 47,22 %, Asien 28,61 %, Europa 21,32 %, Ozeanien 1,18 %, Südamerika 1,21 %, Afrika 0,46 %
    • Top 10 der Länder: USA (47,17 %), Singapur (9,21 %), Deutschland (7,51 %), China (6,01 %), Südkorea (2,88 %), Niederlande (2,65 %), Vereinigtes Königreich (2,52 %), Kanada (1,90 %), Japan (1,77 %), Indien (1,62 %)
  • Sprachverteilung

    • Englisch dominiert mit 82,87 %
    • Vereinfachtes Chinesisch (4,95 %), Russisch (2,47 %), Spanisch (1,43 %), Thai (1,03 %), Sonstige (7,25 %)

Analyse der Nutzerbindung bei LLMs

  • Das „gläserner-Schuh“-Phänomen von Cinderella

    • Die meisten Retention-Charts sind von hoher Abwanderung und schnellem Kohortenrückgang geprägt, doch frühe Nutzerkohorten zeigen auch über die Zeit hinweg eine belastbare Retention
    • Diese Basiskohorten (foundational cohorts) stehen für Nutzer, deren Workloads tiefgehend sind und eine nachhaltige Workload-Model-Fit-Passung erreicht haben
    • Gläserner-Schuh-Effekt: Im schnelllebigen KI-Ökosystem wird jedes neue Frontier-Modell auf zuvor unbefriedigte, hochwertige Workloads „anprobiert“; passt es technisch und wirtschaftlich genau, entsteht ein starker Lock-in-Effekt
    • Die Juni-2025-Kohorte von Gemini 2.5 Pro und die Mai-Kohorte von Claude 4 Sonnet lagen im fünften Monat mit rund 40 % Retention deutlich über den nachfolgenden Kohorten
    • GPT-4o Mini: Eine einzelne Basiskohorte (Juli 2024) etablierte zum Launch einen dominanten und klebrigen Workload-Model-Fit, danach wanderten alle Kohorten in ähnlicher Weise ab
    • Gemini 2.0 Flash, Llama 4 Maverick: Es bildete sich keine leistungsstarke Basiskohorte, daher performten alle Kohorten ähnlich schwach; sie wurden nicht als „Frontier“ wahrgenommen
    • Bumerang-Effekt der DeepSeek-Modelle: Statt eines typischen monotonen Rückgangs wurde ein Revival Jump beobachtet
      • Bei der April-2025-Kohorte von DeepSeek R1 stieg die Retention im dritten Monat, bei der Juli-Kohorte von DeepSeek Chat V3-0324 im zweiten Monat
      • Das deutet auf Nutzer hin, die nach dem Testen von Alternativen zurückkehren
  • Implikationen

    • Wer ein Problem als Erster löst, verschafft sich einen dauerhaften Vorsprung
    • Retention-Muster auf Kohortenebene sind ein empirisches Signal für Modelldifferenzierung
    • Die zeitliche Begrenzung des Frontier-Fensters: Das Zeitfenster, in dem ein Modell Basiskunden gewinnen kann, ist eng und vorübergehend, aber entscheidend für die langfristige Adoptionsdynamik
    • Basiskohorten sind der Fingerabdruck echten technologischen Fortschritts und markieren den Punkt, an dem KI-Modelle vom Neuheitswert zur Unverzichtbarkeit werden

Kosten- vs.-Nutzungsdynamik

  • Feingranulare Analyse von KI-Workloads nach Kategorien

    • Aufbau eines Vier-Quadranten-Frameworks auf Basis eines Medianpreises von 0,73 $/1M Token
    • Premium-Workloads (oben rechts): Hochkosten-Hochlast-Anwendungen, darunter technology und science
      • technology ist am teuersten und behält zugleich eine hohe Nutzung bei, was auf den Bedarf an starken Modellen für komplexes Systemdesign oder Architekturen hindeutet
    • Volumentreiber im Massenmarkt (oben links): Hohe Nutzung bei niedrigen Kosten, dominiert von roleplay, programming, science
      • programming ist die „Killer-Professional“-Kategorie mit dem höchsten Nutzungsvolumen bei stark optimierten mittleren Kosten
      • Das Nutzungsvolumen von roleplay liegt auf dem Niveau von programming, was zeigt, dass verbraucherorientiertes Rollenspiel ebenso starkes Engagement erzeugt wie die führenden professionellen Anwendungsfälle
    • Spezialisierte Profis (unten rechts): Geringes Volumen bei hohen Kosten, darunter finance, academia, health, marketing
      • Hochriskante Nischen-Fachdomänen mit hoher Nachfrage nach Genauigkeit, Zuverlässigkeit und domänenspezifischem Wissen
    • Nischen-Utilities (unten links): Niedrige Kosten bei geringem Volumen, darunter translation, legal, trivia
      • Funktionale, kostenoptimierte Utilities, die kommodifiziert sind und für die günstige Alternativen verfügbar sind
  • Effektive Kosten von KI-Modellen vs. Nutzung

    • Auf einer Log-Log-Skala ist die Korrelation zwischen Preis und Nutzung schwach, die Trendlinie nahezu flach
    • Die Nachfrage ist relativ preisunelastisch: Ein Preisrückgang von 10 % erhöht die Nutzung nur um etwa 0,5–0,7 %
    • Zwei klar unterscheidbare Regime: geschlossene Modelle (OpenAI, Anthropic) im Bereich hohe Kosten-hohe Nutzung, offene Modelle (DeepSeek, Mistral, Qwen) im Bereich niedrige Kosten-hohes Volumen
    • Vier Nutzungs-Kosten-Archetypen:
      • Premium-Leader: Claude 3.7 Sonnet, Claude Sonnet 4 usw. erreichen bei etwa 2 $/1M Token hohe Nutzung
      • Effiziente Giganten: Gemini 2.0 Flash, DeepSeek V3 0324 usw. erzielen ähnliche Nutzung bei weniger als 0,40 $/1M Token
      • Long Tail: Qwen 2 7B Instruct, IBM Granite 4.0 Micro usw. kosten nur wenige Cent pro 1M Token, verzeichnen aber wegen schwächerer Leistung oder begrenzter Sichtbarkeit geringe Nutzung
      • Premium-Spezialisten: GPT-4, GPT-5 Pro usw. liegen bei etwa 35 $/1M Token und haben geringe Nutzung, beschränkt auf High-Risk-Workloads
    • Hinweise auf das Jevons-Paradoxon: Sehr günstige und schnelle Modelle werden für mehr Aufgaben eingesetzt, wodurch der gesamte Token-Verbrauch steigt
    • Qualität und Fähigkeiten übertreffen oft die Kosten: Die hohe Nutzung teurer Modelle (Claude, GPT-4) zeigt, dass Nutzer höhere Kosten akzeptieren, wenn Modelle klar überlegen sind oder ein Vertrauensplus bieten

Diskussion

  • Multi-Modell-Ökosystem: Kein einzelnes Modell dominiert alle Anwendungsfälle; sowohl geschlossene als auch offene Modelle sichern sich erhebliche Marktanteile
  • Vielfalt der Nutzung über Produktivität hinaus: Mehr als die Hälfte der Nutzung von Open-Source-Modellen entfällt auf Rollenspiele und Storytelling
    • Hebt Chancen für verbraucherorientierte Anwendungen, Personalisierung und Crossover zwischen KI und Entertainment-IP hervor
  • Agenten vs. Menschen: der Aufstieg agentischen Schlussfolgerns: Übergang von Single-Turn-Interaktionen zu agentischem Schlussfolgern, bei dem Modelle planen, schlussfolgern und über mehrere Schritte hinweg ausführen
  • Regionale Perspektive: Die LLM-Nutzung wird zunehmend global und dezentralisiert, der Anteil Asiens stieg von 13 % auf 31 %, China entwickelt sich zu einer wichtigen Kraft
  • Kosten- vs.-Nutzungsdynamik: Der LLM-Markt ist noch keine Commodity; der Preis allein erklärt das Nutzungsvolumen nicht ausreichend
    • Open-Source-Modelle verschieben kontinuierlich die effiziente Grenze und setzen damit die Preissetzungsmacht geschlossener Systeme unter Druck
  • Bindungsrate und das Cinderella-Glasschuh-Phänomen: Wenn Basismodelle Sprünge machen, ist die Bindungsrate der wahre Maßstab für Verteidigungsfähigkeit
    • Die Passung zwischen Modell und Workload ist der entscheidende Wettbewerbsvorteil

Grenzen

  • Liefert nur eine partielle Sicht auf das breitere Ökosystem, da die Muster in einem begrenzten Zeitfenster auf einer einzelnen Plattform (OpenRouter) beobachtet wurden
  • Unternehmensnutzung, lokal gehostete Deployments und geschlossene interne Systeme liegen außerhalb des Datenumfangs
  • Ein Teil der Analyse stützt sich auf Proxy-Messungen: Identifizierung agentischen Schlussfolgerns über mehrstufige Abläufe oder Tool-Aufrufe, regionale Schlussfolgerungen auf Basis der Abrechnung usw.
  • Die Ergebnisse sollten eher als hinweisende Verhaltensmuster denn als definitive Messwerte interpretiert werden

Fazit

  • Bietet eine empirische Perspektive darauf, wie LLMs in die weltweite Computing-Infrastruktur integriert werden
  • Das Auftauchen von Modellen auf o1-Niveau im vergangenen Jahr löste einen stufenweisen Wandel in der Wahrnehmung von Schlussfolgern aus: weg von Single-Shot-Benchmarks hin zu prozessbasierten Kennzahlen, Latenz-Kosten-Trade-offs und Bewertung nach Erfolg unter Orchestrierung
  • Das LLM-Ökosystem ist strukturell pluralistisch, Nutzer wählen Systeme entlang mehrerer Achsen wie Fähigkeiten, Latenz, Preis und Vertrauen
  • Auch das Schlussfolgern selbst verändert sich: von statischen Vervollständigungen hin zu dynamischer Orchestrierung, mit dem Aufstieg agentischen Schlussfolgerns
  • Regional wird es stärker dezentralisiert, Asiens Anteil wächst, und China steigt sowohl als Modellentwickler als auch als Exporteur auf
  • o1 beendet den Wettbewerb nicht, sondern erweitert den Designraum und verschiebt den Fokus weg von monolithischen Wetten hin zu Systemdenken, von Intuition hin zu Messung und von Leaderboard-Deltas hin zu empirischer Nutzungsanalyse
  • Der nächste Schritt konzentriert sich auf operative Exzellenz: Messung des Abschlusses realer Aufgaben, Verringerung der Varianz unter Verteilungsverschiebungen und Ausrichtung des Modellverhaltens an den tatsächlichen Anforderungen von Workloads in Produktionsgröße

Noch keine Kommentare.

Noch keine Kommentare.