Die Kluft zwischen Open-Weight-LLMs und geschlossenen LLMs
(blog.doubleword.ai)- Der Artificial Analysis Intelligence Index zeigt, dass die Zeit, die Open-Weight-LLMs benötigen, um die frühere Leistung geschlossener LLMs einzuholen, seit Sommer 2024 kontinuierlich sinkt
- Legt man über diese einzelne Kennzahl eine Trendlinie, erreicht die Lücke am 3. Dezember 2026 0 Monate; daraus ergibt sich die Prognose, dass offene Modelle nach dieser Kennzahl mit den führenden geschlossenen Modellen gleichziehen
- Weitet man dieselbe Analyse auf alle 18 Benchmarks aus, bleibt die durchschnittliche Lücke nahezu flach und liegt über den gesamten Zeitraum hinweg unter 5 Monaten
- Der Fortschritt entfällt vor allem auf Coding-Benchmarks; dort schrumpfte die Lücke von 15 Monaten auf 1 bis 2 Monate
- Bewertungen der LLM-Qualität hängen stark von den Messkriterien ab: Sowohl die Interpretation, dass offene Modelle bald aufholen, als auch die, dass sie weiterhin rund 5 Monate zurückliegen, ist möglich
Die schnelle Aufholjagd, die eine einzelne Kennzahl zeigt
- Die Lücke wird berechnet, indem man von der Benchmark-Frontier der Open-Weight-LLMs aus zurückverfolgt, zu welchem früheren Zeitpunkt die Frontier der geschlossenen LLMs dieselbe Leistung erreicht hatte
- Die verwendete Hauptkennzahl ist der Artificial Analysis Intelligence Index von Artificial Analysis, der die allgemeine Leistungsfähigkeit von Modellen bewerten soll
- In dieser Kennzahl begann sich die Lücke zwischen Open-Weight-LLMs und geschlossenen LLMs etwa ab Sommer 2024 zu verringern; seitdem setzte sich dieser Rückgang fort
- Verlängert man die Trendlinie in die Zukunft, erreicht die Lücke am 3. Dezember 2026 0 Monate
- Zum Zeitpunkt der Erstellung entspricht das einer Berechnung von etwa 6 Monaten in der Zukunft
Die andere Schlussfolgerung aus 18 Benchmarks
- Wendet man dieselbe Analyse auf alle 18 Benchmarks von Artificial Analysis an, ergibt sich ein anderes Bild als bei der einzelnen Kennzahl
- Für jeden Monat wird ein Boxplot der Lücke für alle 18 Datensätze erstellt, und für die durchschnittliche Lücke über alle Datensätze wird eine Trendlinie berechnet
- Die Trendlinie der durchschnittlichen Lücke ist nahezu vollständig flach und liegt über den gesamten Zeitraum hinweg bei etwa unter 5 Monaten
- Ein erheblicher Teil der Modellverbesserungen entfällt auf Coding-Kennzahlen
- Der Coding-Index verringerte sich von einem Rückstand von 15 Monaten auf einen Rückstand von 1 bis 2 Monaten
- Bei den meisten anderen Datensätzen zeigt sich im Zeitverlauf ein Trend zu einer leicht wachsenden Lücke
- Je nach Messkriterium fällt die Beurteilung der LLM-Qualität deutlich unterschiedlich aus
- Nach einem Kriterium lässt sich um Weihnachten eine Open-Source-Singularity vorhersagen
- Nach einem anderen Kriterium liegen Open-Source-LLMs konstant etwa 5 Monate hinter geschlossenen LLMs zurück, und die Lücke könnte größer werden
1 Kommentare
Meinungen auf Hacker News
Das größte Problem für die Zukunft von Open-Weight-Modellen ist, dass die heutigen Open-Weight-Modelle das Ergebnis des guten Willens privater Organisationen wie DeepSeek sind.
Der Hahn kann jederzeit zugedreht werden, und solange es in irgendeiner Form keine Community-eigene Hardware gibt, bleibt das Risiko bestehen, dass Open-Weight-Modelle versiegen.
Selbst wenn künftig überhaupt keine neuen Modelle mehr erscheinen, bleiben die bereits erreichten Fähigkeiten erhalten. API-basierte Modelle dagegen können vom Anbieter nach Belieben eingestellt werden; es kann also passieren, dass
gpt5-minibald verschwindet und durch ein teureres5.4-miniersetzt wird.Nvidia profitiert direkt davon, wenn Leute Modelle ausführen, hat also einen Anreiz, die Nemotron-Reihe weiterzuführen. Und Google weiß ohnehin, dass kleine Modelle für Browser-Funktionen durchsickern werden, also ist es besser, Marktanteile bei Entwicklern zu gewinnen.
Auch chinesische Forschungslabore haben Anreize, weiter Modelle zu veröffentlichen, und dank der Handelskriege zwischen Staaten dürfte staatliche Unterstützung ebenfalls anhalten.
Es ist eine Botschaft im Stil von: „Wir können 90 % von dem, was ihr könnt, zu 1/10 der Kosten, und bei Dichte-Metriken sind wir sogar besser.“ Zumindest nach meiner Theorie wirkt es wie eine KI-Version von Hindenburg Research.
Es könnte Unternehmen geben, die Modelle trainieren und diese dann an Inferenz-Unternehmen lizenzieren, die APIs betreiben.
Inferenz-Unternehmen können mit deutlich weniger Kapital arbeiten, und Trainingsunternehmen müssen keine Ressourcen für Inferenz abzweigen.
Einige chinesische Modelltrainingsunternehmen lizenzieren ihre Modelle bereits auf diese Weise an Inferenz-Anbieter.
Ich denke, es ergibt auch finanziell Sinn. Nutzer, die ihre Abo-Limits voll ausreizen, können den Betreiber mehr kosten, als sie an Abo-Gebühren einbringen, und das könnte ein Grund sein, warum Anthropic so stark auf chinesisches Datensammeln reagiert.
Wenn man die Gewichte veröffentlicht, können Wettbewerber das Modell herunterladen, analysieren und den ganzen Tag laufen lassen, ohne den Abo-Dienst zu belasten, was die Last reduziert.
Die größten Modelle direkt zu betreiben lohnt sich kaum, außer für große Akteure. Hardware-Miete ist im Vergleich zu Abos absurd teuer und kostet Zehntausende Dollar; ein Kauf erfordert Hunderttausende Dollar.
Es gab Formulierungen wie „Jetzt ist ein guter Zeitpunkt, die Rente auszuzahlen, auf eine abgelegene Insel zu fliegen und die vielleicht letzten sechs Monate der Zivilisation in Ruhe zu verbringen“ und „Deshalb steht der Open-Source-Weltuntergang vielleicht doch noch nicht bevor“. Ich weiß nicht, seit wann ein gutes Open-Source-Modell ein Vorzeichen des Weltuntergangs ist.
Zumindest kann man sie als Hedge gegen eine cyberpunkartige Dystopie sehen.
Aber Open-Model-LLMs werden als Monster behandelt. Soll der Markt etwa sicher von OpenAI oder Anthropic kontrolliert werden, die dann alle Entscheidungen treffen?
Vermutlich war es eine scherzhafte Formulierung.
Nach der aktuellen Entwicklung ist es für chinesische Modelle schwierig, die US-Spitzenmodelle zu überholen
Der Vorsprung der US-Modelle entsteht dadurch, dass sie mehr und hochwertigere, vor allem synthetische Daten gewinnen – auch mit Methoden, die man unmöglich in echten dialogischen Traffic einspeisen könnte, etwa indem sie von riesigen Teacher-Modellen generiert werden
Chinesische Modelle investieren enorme Anstrengungen in die Modelloptimierung und kommen voran, indem sie mehr und hochwertigere Trainingsdaten aus den US-Spitzenmodellen gewinnen
Damit chinesische Open-Weight-Modelle die Spitzenmodelle der US-Labore übertreffen, müsste sich diese Gleichung umkehren. Chinesische Labore müssten sich vom Ernten von Daten aus Spitzenmodellen lösen und Datensysteme sowie entsprechende Anstrengungen aufbauen, die neue Daten erzeugen, und außerdem große Mengen Hardware der neuesten Generation sichern
Das Training von Modellen in Spitzengröße selbst ist keine unvorstellbare Leistung; der Teil, in den wirklich Hardware fließt, ist die Inference der Teacher-Modelle
Ich kenne weder das Innenleben von z.ai oder Alibaba noch das von Anthropic oder OpenAI
Es erscheint allerdings äußerst unwahrscheinlich, dass sie nicht gegenseitig Daten sammeln. Ich bin sicher, dass es auch bei Anthropic ein Team gibt, das sich schon allein zur Beobachtung der Konkurrenz die GLM-5.2-Gewichte ansieht
Wenn ein Labor an Anthropic-Daten kommt, heißt das nicht, dass es keine eigene Forschung betreibt
Der Fokus auf Optimierung lag daran, dass sie nicht an die beste Hardware kamen, und der einzige Grund, warum die Top-Labore zurücklagen, könnte gewesen sein, dass sie keine H200 oder MI350 hatten. Jetzt haben sie sie
Außerdem wird ein weiteres Risiko unterschätzt. Anthropic liegt im Clinch mit der US-Regierung und hält derzeit die „besten“ Modelle der Welt intern zurück
In China könnte es ähnlich sein. Soweit bekannt, ist die chinesische Regierung überraschend offen gegenüber KI-Exporten und Open-Weight-Modellen, aber es gibt eine kleine, aber nicht zu vernachlässigende Möglichkeit, dass sie eine bessere Version von GLM 5.2 intern zurückhält und niemand darüber sprechen darf
Ob ein chinesisches Labor sechs Monate zurückliegt oder ob es gezwungen wird, sein bestes Modell zu unterdrücken, ist von außen schwer zu unterscheiden
Ich sehe das nicht als Barriere; es fühlt sich ähnlich an wie die Unterschätzung Asiens der vergangenen 50 Jahre
Es gibt keinen angeborenen Vorteil, der nur den USA beim Bau von LLMs zukäme, und der First-Mover-Vorteil der USA wird mit Exportkontrollspielchen nach dem Motto „zu gefährlich, um es zu veröffentlichen“ wahrscheinlich verzögert und vergeudet
Im Internet liegt der Großteil des Wissens, das ein Modell erwartungsgemäß kennen sollte, ohnehin vor
Distillation mit einer kleinen Datenmenge aus einem besseren Modell hilft weiterhin, aber es geht eher darum, Fähigkeiten zu finden, die zu einer folgsamen Assistenten-Persona passen, und unerwünschte Fähigkeiten wie Trolling zu unterdrücken, als Fähigkeiten zu übertragen, die im ursprünglich auf dem Internet trainierten Modell überhaupt nicht vorhanden waren
Die Nutzung von mit ChatGPT erzeugten Instruction-Tuning-Datensätzen für Alpaca und Ähnliches war eine primitive Version davon
Ohne ein klares Ziel zum Nachahmen müssen Wettbewerber stärker auf menschliche Evaluatoren setzen, aber in China gibt es viele Data-Labeling-Firmen, daher ist das kein großes Hindernis
Aus China kommen nicht nur neue Methoden der Model Distillation
Die US-Regierung scheint nicht die Absicht zu haben, ohne ausdrückliche Genehmigung Zugang zu den neuesten Modellen zu gewähren
Man sieht kaum Diskussionen darüber, dass geschlossene Modelle Benchmarks im Grunde austricksen können
Was Anthropic oder OpenAI als Modell branden, muss nicht zwingend nur aus Gewichten bestehen; es kann ein ganzes Backend-System sein, das das Modell selbst ergänzt
Dann kann es in Benchmarks besser abschneiden als ein Open-Source-Modell, das nur die Gewichte hat
Bei Open Source ist es genauso, und Benchmarks laufen auch nicht ohne irgendwelche Ausführungstools
Niemanden interessiert, ob AGI zu 100 % aus einem neuronalen Netz besteht oder aus 50 % neuronalen Netzen und 50 % Perl-Skripten
Es ergibt Sinn, dass ein erheblicher Teil der Verbesserungen der Modellleistung aus Coding-Benchmarks stammt
Coding ist einer der klarsten kurzfristigen Anwendungsfälle für Modelle, es gibt einen Markt, der bereit ist, viel Geld für Tokens zu bezahlen, es gibt einen riesigen Korpus, mit dem man arbeiten kann, und im Problembereich selbst ist ein beträchtliches Maß an Überprüfbarkeit eingebaut
Die USA, bekannt als Land der Freiheit, beschränken es inzwischen so, dass Nicht-Amerikaner Spitzenmodelle nicht einmal nutzen können
Umgekehrt hat China, das als „autoritärer Staat“ und quasi als „Gegenteil von Freiheit“ gilt, gerade auf Basis einer besonders kapitalistischen Softwareindustrie alle wettbewerbsfähigen Open-Weight-Modelle hervorgebracht
Wirklich ironisch
Als Chinese verstehe ich, dass diese Strategie darin besteht, aus einer zurückliegenden Position heraus Open Source als asymmetrisches Wettbewerbsinstrument zu nutzen und den Mangel an Rechenressourcen durch verteilte Last auszugleichen. Trotzdem ist es sehr ironisch
Die USA mögen sich selbst als Land der Freiheit bezeichnen, aber sie spielen seit Jahrhunderten das Spiel des wirtschaftlichen Protektionismus
Das hier ist nur der neueste Fall davon
Ich frage mich, in welchem Maß geschlossene Modellanbieter offenen Modellen einen Performance-Boost verschaffen.
Wenn die Verbesserungen bei geschlossenen Modellen stoppen, wird dann auch der Fortschritt offener Modelle langsamer?
DeepSeek zum Beispiel hat bereits viel Innovation bei der Effizienz geleistet.
Die Annahme, dass, wenn geschlossene Modelle aufhören, sich zu verbessern, auch alle geschlossenen Modelle stehen bleiben, ist äußerst unwahrscheinlich, sofern die Modelle nicht bald an irgendeine Wand stoßen.
Chinesische Unternehmen mögen bei der Rechenleistung hinter den USA liegen, aber sie haben Forschende, die in den Bereichen Problemgenerierung und Reinforcement Learning, die derzeit gut funktionieren, ungefähr so herausragend sind wie ihre US-Kollegen [0].
Besonders in Bereichen wie Programmierung, in denen kurze Feedback-Loops möglich sind, werden schnelle Verbesserungen wahrscheinlich so lange weitergehen, bis wir armseligen Menschen nicht mehr in der Lage sind, die Zielfunktion zu definieren.
Umgekehrt erwarte ich in Bereichen mit langsamem oder teurem Feedback keine Magie. Selbst riesige, leistungsfähige Pharmaunternehmen können nicht zuverlässig großartige neue Medikamente erfinden, weil der Evaluierungsprozess zu langsam und teuer ist; Modelle werden es aus demselben Grund in absehbarer Zeit ebenfalls schwer haben.
Um Reinforcement Learning über n Wege der Medikamentenentwicklung mit m Wiederholungen laufen zu lassen, würde es, selbst wenn es möglich wäre, n*m multipliziert mit 10 bis 100 Millionen Dollar kosten und m Jahre dauern.
[0] Da der Brain Drain, durch den Talente aus aller Welt über das US-Universitätssystem in US-Labore strömten, versiegt, dürfte der US-Vorsprung in diesem Bereich schrumpfen.
Interessant, wenn man es zusammen mit den jüngsten US-Exportverboten betrachtet.
Verspielen die USA ihren Vorsprung, indem sie Open Source, insbesondere chinesische Labore, bei der Qualität der Modelle, die der Öffentlichkeit zur Verfügung stehen, aufholen lassen?
Können US-Labore ihren Vorsprung halten, wenn Nutzer nicht auf die neuesten Modelle zugreifen können?
Ich sage weder, dass es wichtig ist, noch, dass es unwichtig ist, aber ich weiß nicht, welchen praktischen Wert „die USA gewinnen“ oder „China gewinnt“ haben soll.
Wenn die Annahme stimmt, dass Open-Weight- und chinesische Modelle stark auf die Distillation der neuesten State-of-the-Art-Modelle angewiesen sind, wird sich der Abstand auf dem Niveau der Mindestzeit stabilisieren, die nötig ist, um aus den neuesten State-of-the-Art-Modellen aussagekräftige Daten zu extrahieren, plus der Zeit, die das Training des neuesten davon abhängigen Modells bis zum Abschluss benötigt.
Dieser Abstand lässt sich durch höhere Prozesseffizienz verkleinern, aber nicht vollständig beseitigen.
Versuche, Distillation bei Anthropic oder OpenAI zu erschweren, könnten das Gleichgewicht ebenfalls verschieben.
Ich frage mich, ob viele Unternehmen und Regierungen, die glauben, an der Spitze der Anwendung führender LLMs stehen zu müssen, und die zunehmend davon abhängig werden, in eine Situation geraten werden wie in Arthur C. Clarkes Kurzgeschichte Superiority.
[1] Original: https://nob.cs.ucdavis.edu/classes/ecs153-2019-04/readings/s...
[2] Wikipedia: https://en.wikipedia.org/wiki/Superiority_(short_story)