Die Kluft zwischen Open-Weight-LLMs und geschlossenen LLMs

(blog.doubleword.ai)

1 Punkte von GN⁺ 4 시간 전 | 1 Kommentare | Auf WhatsApp teilen

Der Artificial Analysis Intelligence Index zeigt, dass die Zeit, die Open-Weight-LLMs benötigen, um die frühere Leistung geschlossener LLMs einzuholen, seit Sommer 2024 kontinuierlich sinkt
Legt man über diese einzelne Kennzahl eine Trendlinie, erreicht die Lücke am 3. Dezember 2026 0 Monate; daraus ergibt sich die Prognose, dass offene Modelle nach dieser Kennzahl mit den führenden geschlossenen Modellen gleichziehen
Weitet man dieselbe Analyse auf alle 18 Benchmarks aus, bleibt die durchschnittliche Lücke nahezu flach und liegt über den gesamten Zeitraum hinweg unter 5 Monaten
Der Fortschritt entfällt vor allem auf Coding-Benchmarks; dort schrumpfte die Lücke von 15 Monaten auf 1 bis 2 Monate
Bewertungen der LLM-Qualität hängen stark von den Messkriterien ab: Sowohl die Interpretation, dass offene Modelle bald aufholen, als auch die, dass sie weiterhin rund 5 Monate zurückliegen, ist möglich

Die schnelle Aufholjagd, die eine einzelne Kennzahl zeigt

Die Lücke wird berechnet, indem man von der Benchmark-Frontier der Open-Weight-LLMs aus zurückverfolgt, zu welchem früheren Zeitpunkt die Frontier der geschlossenen LLMs dieselbe Leistung erreicht hatte
Die verwendete Hauptkennzahl ist der Artificial Analysis Intelligence Index von Artificial Analysis, der die allgemeine Leistungsfähigkeit von Modellen bewerten soll
In dieser Kennzahl begann sich die Lücke zwischen Open-Weight-LLMs und geschlossenen LLMs etwa ab Sommer 2024 zu verringern; seitdem setzte sich dieser Rückgang fort
Verlängert man die Trendlinie in die Zukunft, erreicht die Lücke am 3. Dezember 2026 0 Monate
- Zum Zeitpunkt der Erstellung entspricht das einer Berechnung von etwa 6 Monaten in der Zukunft

Die andere Schlussfolgerung aus 18 Benchmarks

Wendet man dieselbe Analyse auf alle 18 Benchmarks von Artificial Analysis an, ergibt sich ein anderes Bild als bei der einzelnen Kennzahl
Für jeden Monat wird ein Boxplot der Lücke für alle 18 Datensätze erstellt, und für die durchschnittliche Lücke über alle Datensätze wird eine Trendlinie berechnet
Die Trendlinie der durchschnittlichen Lücke ist nahezu vollständig flach und liegt über den gesamten Zeitraum hinweg bei etwa unter 5 Monaten
Ein erheblicher Teil der Modellverbesserungen entfällt auf Coding-Kennzahlen
- Der Coding-Index verringerte sich von einem Rückstand von 15 Monaten auf einen Rückstand von 1 bis 2 Monaten
- Bei den meisten anderen Datensätzen zeigt sich im Zeitverlauf ein Trend zu einer leicht wachsenden Lücke
Je nach Messkriterium fällt die Beurteilung der LLM-Qualität deutlich unterschiedlich aus
- Nach einem Kriterium lässt sich um Weihnachten eine Open-Source-Singularity vorhersagen
- Nach einem anderen Kriterium liegen Open-Source-LLMs konstant etwa 5 Monate hinter geschlossenen LLMs zurück, und die Lücke könnte größer werden

1 Kommentare

GN⁺ 4 시간 전

Meinungen auf Hacker News

Das größte Problem für die Zukunft von Open-Weight-Modellen ist, dass die heutigen Open-Weight-Modelle das Ergebnis des guten Willens privater Organisationen wie DeepSeek sind.
Der Hahn kann jederzeit zugedreht werden, und solange es in irgendeiner Form keine Community-eigene Hardware gibt, bleibt das Risiko bestehen, dass Open-Weight-Modelle versiegen.
- Der größte Vorteil offener Modelle ist dennoch, dass einem einmal veröffentlichte Leistung nicht mehr weggenommen werden kann.
  Selbst wenn künftig überhaupt keine neuen Modelle mehr erscheinen, bleiben die bereits erreichten Fähigkeiten erhalten. API-basierte Modelle dagegen können vom Anbieter nach Belieben eingestellt werden; es kann also passieren, dass gpt5-mini bald verschwindet und durch ein teureres 5.4-mini ersetzt wird.
  Nvidia profitiert direkt davon, wenn Leute Modelle ausführen, hat also einen Anreiz, die Nemotron-Reihe weiterzuführen. Und Google weiß ohnehin, dass kleine Modelle für Browser-Funktionen durchsickern werden, also ist es besser, Marktanteile bei Entwicklern zu gewinnen.
  Auch chinesische Forschungslabore haben Anreize, weiter Modelle zu veröffentlichen, und dank der Handelskriege zwischen Staaten dürfte staatliche Unterstützung ebenfalls anhalten.
- DeepSeek ist keine Wohltätigkeit, sondern eher ein Hedgefonds, der den westlichen KI-Markt shorten will.
  Es ist eine Botschaft im Stil von: „Wir können 90 % von dem, was ihr könnt, zu 1/10 der Kosten, und bei Dichte-Metriken sind wir sogar besser.“ Zumindest nach meiner Theorie wirkt es wie eine KI-Version von Hindenburg Research.
- Als ursprünglicher Autor des Beitrags glaube ich, dass die Zukunft von Open-Weight-Modellen ähnlich wie bei fabless Chipdesign-Unternehmen aussehen wird.
  Es könnte Unternehmen geben, die Modelle trainieren und diese dann an Inferenz-Unternehmen lizenzieren, die APIs betreiben.
  Inferenz-Unternehmen können mit deutlich weniger Kapital arbeiten, und Trainingsunternehmen müssen keine Ressourcen für Inferenz abzweigen.
  Einige chinesische Modelltrainingsunternehmen lizenzieren ihre Modelle bereits auf diese Weise an Inferenz-Anbieter.
- Für das Modelltraining bräuchte es etwas wie SETI@Home.
- Das ist keine Wohltätigkeit; Forschungslabore profitieren davon, voneinander anhand offener Modelle zu lernen.
  Ich denke, es ergibt auch finanziell Sinn. Nutzer, die ihre Abo-Limits voll ausreizen, können den Betreiber mehr kosten, als sie an Abo-Gebühren einbringen, und das könnte ein Grund sein, warum Anthropic so stark auf chinesisches Datensammeln reagiert.
  Wenn man die Gewichte veröffentlicht, können Wettbewerber das Modell herunterladen, analysieren und den ganzen Tag laufen lassen, ohne den Abo-Dienst zu belasten, was die Last reduziert.
  Die größten Modelle direkt zu betreiben lohnt sich kaum, außer für große Akteure. Hardware-Miete ist im Vergleich zu Abos absurd teuer und kostet Zehntausende Dollar; ein Kauf erfordert Hunderttausende Dollar.
Es gab Formulierungen wie „Jetzt ist ein guter Zeitpunkt, die Rente auszuzahlen, auf eine abgelegene Insel zu fliegen und die vielleicht letzten sechs Monate der Zivilisation in Ruhe zu verbringen“ und „Deshalb steht der Open-Source-Weltuntergang vielleicht doch noch nicht bevor“. Ich weiß nicht, seit wann ein gutes Open-Source-Modell ein Vorzeichen des Weltuntergangs ist.
- Open-Source-Modelle sind eher ein Hedge gegen den Untergang.
  Zumindest kann man sie als Hedge gegen eine cyberpunkartige Dystopie sehen.
- Ich habe das als scherzhafte Anspielung auf die schreckliche Folge verstanden, dass, sobald Open Weights die Fähigkeiten modernster Modelle erreichen, jeder ein uneingeschränktes mythos+-Modell in die Hände bekommt.
- Niedlich. Die apokalyptischen Folgen des Klimawandels für Nahrungspflanzen und Krebsraten, besonders nach dem Abbau der Ozonschicht, haben die Menschen auch nicht verändert.
  Aber Open-Model-LLMs werden als Monster behandelt. Soll der Markt etwa sicher von OpenAI oder Anthropic kontrolliert werden, die dann alle Entscheidungen treffen?
- Dieser Artikel ist ein Blogbeitrag eines Unternehmens, das Open-Weight-LLMs hostet (https://www.doubleword.ai/).
  Vermutlich war es eine scherzhafte Formulierung.
- Die Weltuntergangsstimmung ist auf einem Allzeithoch, und die Menschen scheinen von Tag zu Tag neurotischer zu werden.
Nach der aktuellen Entwicklung ist es für chinesische Modelle schwierig, die US-Spitzenmodelle zu überholen
Der Vorsprung der US-Modelle entsteht dadurch, dass sie mehr und hochwertigere, vor allem synthetische Daten gewinnen – auch mit Methoden, die man unmöglich in echten dialogischen Traffic einspeisen könnte, etwa indem sie von riesigen Teacher-Modellen generiert werden
Chinesische Modelle investieren enorme Anstrengungen in die Modelloptimierung und kommen voran, indem sie mehr und hochwertigere Trainingsdaten aus den US-Spitzenmodellen gewinnen
Damit chinesische Open-Weight-Modelle die Spitzenmodelle der US-Labore übertreffen, müsste sich diese Gleichung umkehren. Chinesische Labore müssten sich vom Ernten von Daten aus Spitzenmodellen lösen und Datensysteme sowie entsprechende Anstrengungen aufbauen, die neue Daten erzeugen, und außerdem große Mengen Hardware der neuesten Generation sichern
Das Training von Modellen in Spitzengröße selbst ist keine unvorstellbare Leistung; der Teil, in den wirklich Hardware fließt, ist die Inference der Teacher-Modelle
- Solange man nicht in diesen Unternehmen arbeitet, weiß man nicht, was sie tatsächlich tun
  Ich kenne weder das Innenleben von z.ai oder Alibaba noch das von Anthropic oder OpenAI
  Es erscheint allerdings äußerst unwahrscheinlich, dass sie nicht gegenseitig Daten sammeln. Ich bin sicher, dass es auch bei Anthropic ein Team gibt, das sich schon allein zur Beobachtung der Konkurrenz die GLM-5.2-Gewichte ansieht
  Wenn ein Labor an Anthropic-Daten kommt, heißt das nicht, dass es keine eigene Forschung betreibt
  Der Fokus auf Optimierung lag daran, dass sie nicht an die beste Hardware kamen, und der einzige Grund, warum die Top-Labore zurücklagen, könnte gewesen sein, dass sie keine H200 oder MI350 hatten. Jetzt haben sie sie
  Außerdem wird ein weiteres Risiko unterschätzt. Anthropic liegt im Clinch mit der US-Regierung und hält derzeit die „besten“ Modelle der Welt intern zurück
  In China könnte es ähnlich sein. Soweit bekannt, ist die chinesische Regierung überraschend offen gegenüber KI-Exporten und Open-Weight-Modellen, aber es gibt eine kleine, aber nicht zu vernachlässigende Möglichkeit, dass sie eine bessere Version von GLM 5.2 intern zurückhält und niemand darüber sprechen darf
  Ob ein chinesisches Labor sechs Monate zurückliegt oder ob es gezwungen wird, sein bestes Modell zu unterdrücken, ist von außen schwer zu unterscheiden
- Selbst wenn die Beschreibung stimmt, dass „chinesische Labore sich vom Ernten von Daten aus Spitzenmodellen lösen und neue Daten erzeugen müssen“, könnten sie das schon morgen tun und sind nicht so kurzsichtig, dass sie nicht darauf kämen
  Ich sehe das nicht als Barriere; es fühlt sich ähnlich an wie die Unterschätzung Asiens der vergangenen 50 Jahre
  Es gibt keinen angeborenen Vorteil, der nur den USA beim Bau von LLMs zukäme, und der First-Mover-Vorteil der USA wird mit Exportkontrollspielchen nach dem Motto „zu gefährlich, um es zu veröffentlichen“ wahrscheinlich verzögert und vergeudet
- Die Datenmenge, von der Anthropic behauptete, sie sei für Distillation extrahiert worden, ist im Vergleich zum gesamten Internet sehr klein
  Im Internet liegt der Großteil des Wissens, das ein Modell erwartungsgemäß kennen sollte, ohnehin vor
  Distillation mit einer kleinen Datenmenge aus einem besseren Modell hilft weiterhin, aber es geht eher darum, Fähigkeiten zu finden, die zu einer folgsamen Assistenten-Persona passen, und unerwünschte Fähigkeiten wie Trolling zu unterdrücken, als Fähigkeiten zu übertragen, die im ursprünglich auf dem Internet trainierten Modell überhaupt nicht vorhanden waren
  Die Nutzung von mit ChatGPT erzeugten Instruction-Tuning-Datensätzen für Alpaca und Ähnliches war eine primitive Version davon
  Ohne ein klares Ziel zum Nachahmen müssen Wettbewerber stärker auf menschliche Evaluatoren setzen, aber in China gibt es viele Data-Labeling-Firmen, daher ist das kein großes Hindernis
- Die Vorstellung, „China kann nur die USA kopieren“, ist ein sehr kurzsichtiger und schlecht informierter Schluss
  Aus China kommen nicht nur neue Methoden der Model Distillation
- Ich frage mich, wie das gehen soll. Bald wird es nur noch die Wahl zwischen sehr alten OAI-Modellen und neuen chinesischen Modellen geben
  Die US-Regierung scheint nicht die Absicht zu haben, ohne ausdrückliche Genehmigung Zugang zu den neuesten Modellen zu gewähren
Man sieht kaum Diskussionen darüber, dass geschlossene Modelle Benchmarks im Grunde austricksen können
Was Anthropic oder OpenAI als Modell branden, muss nicht zwingend nur aus Gewichten bestehen; es kann ein ganzes Backend-System sein, das das Modell selbst ergänzt
Dann kann es in Benchmarks besser abschneiden als ein Open-Source-Modell, das nur die Gewichte hat
- Stimmt, und ich finde das in Ordnung. Das alles sollte als Teil der Performance zählen
  Bei Open Source ist es genauso, und Benchmarks laufen auch nicht ohne irgendwelche Ausführungstools
  Niemanden interessiert, ob AGI zu 100 % aus einem neuronalen Netz besteht oder aus 50 % neuronalen Netzen und 50 % Perl-Skripten
Es ergibt Sinn, dass ein erheblicher Teil der Verbesserungen der Modellleistung aus Coding-Benchmarks stammt
Coding ist einer der klarsten kurzfristigen Anwendungsfälle für Modelle, es gibt einen Markt, der bereit ist, viel Geld für Tokens zu bezahlen, es gibt einen riesigen Korpus, mit dem man arbeiten kann, und im Problembereich selbst ist ein beträchtliches Maß an Überprüfbarkeit eingebaut
Die USA, bekannt als Land der Freiheit, beschränken es inzwischen so, dass Nicht-Amerikaner Spitzenmodelle nicht einmal nutzen können
Umgekehrt hat China, das als „autoritärer Staat“ und quasi als „Gegenteil von Freiheit“ gilt, gerade auf Basis einer besonders kapitalistischen Softwareindustrie alle wettbewerbsfähigen Open-Weight-Modelle hervorgebracht
Wirklich ironisch
Als Chinese verstehe ich, dass diese Strategie darin besteht, aus einer zurückliegenden Position heraus Open Source als asymmetrisches Wettbewerbsinstrument zu nutzen und den Mangel an Rechenressourcen durch verteilte Last auszugleichen. Trotzdem ist es sehr ironisch
- Der Vergleich bricht schon im ersten Satz zusammen
  Die USA mögen sich selbst als Land der Freiheit bezeichnen, aber sie spielen seit Jahrhunderten das Spiel des wirtschaftlichen Protektionismus
  Das hier ist nur der neueste Fall davon
Ich frage mich, in welchem Maß geschlossene Modellanbieter offenen Modellen einen Performance-Boost verschaffen.
Wenn die Verbesserungen bei geschlossenen Modellen stoppen, wird dann auch der Fortschritt offener Modelle langsamer?
- Ich verstehe nicht, warum man annimmt, dass nur US-Labore innovativ sein können.
  DeepSeek zum Beispiel hat bereits viel Innovation bei der Effizienz geleistet.
- Wie sehr „Distillation“ Open-Weight-Modellen beim Aufholen hilft, wissen einige Leute in China sicher genau.
  Die Annahme, dass, wenn geschlossene Modelle aufhören, sich zu verbessern, auch alle geschlossenen Modelle stehen bleiben, ist äußerst unwahrscheinlich, sofern die Modelle nicht bald an irgendeine Wand stoßen.
  Chinesische Unternehmen mögen bei der Rechenleistung hinter den USA liegen, aber sie haben Forschende, die in den Bereichen Problemgenerierung und Reinforcement Learning, die derzeit gut funktionieren, ungefähr so herausragend sind wie ihre US-Kollegen [0].
  Besonders in Bereichen wie Programmierung, in denen kurze Feedback-Loops möglich sind, werden schnelle Verbesserungen wahrscheinlich so lange weitergehen, bis wir armseligen Menschen nicht mehr in der Lage sind, die Zielfunktion zu definieren.
  Umgekehrt erwarte ich in Bereichen mit langsamem oder teurem Feedback keine Magie. Selbst riesige, leistungsfähige Pharmaunternehmen können nicht zuverlässig großartige neue Medikamente erfinden, weil der Evaluierungsprozess zu langsam und teuer ist; Modelle werden es aus demselben Grund in absehbarer Zeit ebenfalls schwer haben.
  Um Reinforcement Learning über n Wege der Medikamentenentwicklung mit m Wiederholungen laufen zu lassen, würde es, selbst wenn es möglich wäre, n*m multipliziert mit 10 bis 100 Millionen Dollar kosten und m Jahre dauern.
  [0] Da der Brain Drain, durch den Talente aus aller Welt über das US-Universitätssystem in US-Labore strömten, versiegt, dürfte der US-Vorsprung in diesem Bereich schrumpfen.
Interessant, wenn man es zusammen mit den jüngsten US-Exportverboten betrachtet.
Verspielen die USA ihren Vorsprung, indem sie Open Source, insbesondere chinesische Labore, bei der Qualität der Modelle, die der Öffentlichkeit zur Verfügung stehen, aufholen lassen?
Können US-Labore ihren Vorsprung halten, wenn Nutzer nicht auf die neuesten Modelle zugreifen können?
- Ich frage mich, warum das wichtig ist.
  Ich sage weder, dass es wichtig ist, noch, dass es unwichtig ist, aber ich weiß nicht, welchen praktischen Wert „die USA gewinnen“ oder „China gewinnt“ haben soll.
Wenn die Annahme stimmt, dass Open-Weight- und chinesische Modelle stark auf die Distillation der neuesten State-of-the-Art-Modelle angewiesen sind, wird sich der Abstand auf dem Niveau der Mindestzeit stabilisieren, die nötig ist, um aus den neuesten State-of-the-Art-Modellen aussagekräftige Daten zu extrahieren, plus der Zeit, die das Training des neuesten davon abhängigen Modells bis zum Abschluss benötigt.
Dieser Abstand lässt sich durch höhere Prozesseffizienz verkleinern, aber nicht vollständig beseitigen.
Versuche, Distillation bei Anthropic oder OpenAI zu erschweren, könnten das Gleichgewicht ebenfalls verschieben.
Ich frage mich, ob viele Unternehmen und Regierungen, die glauben, an der Spitze der Anwendung führender LLMs stehen zu müssen, und die zunehmend davon abhängig werden, in eine Situation geraten werden wie in Arthur C. Clarkes Kurzgeschichte Superiority.
[1] Original: https://nob.cs.ucdavis.edu/classes/ecs153-2019-04/readings/s...
[2] Wikipedia: https://en.wikipedia.org/wiki/Superiority_(short_story)

Die Kluft zwischen Open-Weight-LLMs und geschlossenen LLMs

Die schnelle Aufholjagd, die eine einzelne Kennzahl zeigt

Die andere Schlussfolgerung aus 18 Benchmarks

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News