Offene Gewichte schließen sich stillschweigend – und das ist ein Problem
(martinalderson.com)- Open-Weights-Modelle ermöglichen es jedem, LLMs direkt auf eigener Hardware auszuführen, was Schutz sensibler Daten, Flexibilität bei Fine-Tuning und Quantisierung sowie niedrigere Inferenzkosten als bei Frontier-Modellen bietet
- Modelle chinesischer Labore wie MiniMax, Z.ai, DeepSeek und Qwen gelten als führende Open-Weights-Modelle, während Googles Gemma und OpenAIs
gpt-ossim Allgemeinen dahinter eingeordnet werden - Open-Weights-Modelle setzen Frontier-Labore wie OpenAI, Anthropic und Google unter erheblichen Preisdruck nach unten, weil die Möglichkeit des Wechsels zu günstigen Alternativen oligopolistisches Preisverhalten bremst
- Zuletzt hat Meta beim neuesten „Muse Spark“ die Modellveröffentlichung eingestellt, Alibaba veröffentlicht zunehmend API-first oder nur noch per API, und auch Kimi K2.6 sowie Mistral zeigen einen Trend zu strengeren Lizenzbedingungen
- Wenn ein wettbewerblicher Open-Weights-Ökosystem schwächer wird, könnten einige wenige Frontier-Labore und einzelne chinesische Labore einen größeren Teil der Konsumentenrente von AI-Nutzern abschöpfen; auch Distillation ist kaum eine grundlegende Lösung, weil sie Zugang zu leistungsfähigen Basismodellen voraussetzt
Die Rolle von Open-Weights-Modellen
- Im LLM-Markt existieren geschlossene Modelle und Open-Weights(open weights)-Modelle nebeneinander
- Zu den geschlossenen Modellen gehören entgegen dem Namen fast alle Modelle von OpenAI
- Open-Weights-Modelle wurden von anderen Laboren veröffentlicht, wobei die Llama-Reihe das bekannteste Beispiel war
- In jüngerer Zeit gelten Modelle chinesischer Labore wie MiniMax, Z.ai, DeepSeek und Qwen (Alibaba) als führende Open-Weights-Modelle
- Googles Gemma-Reihe und OpenAIs
gpt-oss-Modelle werden meist hinter den chinesischen Modellen eingeordnet
- Open-Weights-Modelle erlauben es jedem, sie direkt auszuführen auf eigener Hardware
- Für Modelle, deren Ausführung wirklich lohnend ist, war in der Regel sehr leistungsfähige Hardware nötig
- Da kleinere Modelle deutlich nützlicher werden, ändert sich diese Voraussetzung jedoch schnell
- Lokale Ausführung hat gegenüber API-Anfragen an Anbieter wie OpenAI, Anthropic oder Google drei Vorteile
- Wenn sensible Daten nur schwer oder gar nicht in die Rechenzentren von Frontier-Laboren gesendet werden können, sorgt On-Premises-Ausführung dafür, dass die Daten das eigene Netzwerk nicht verlassen
- Modelle lassen sich per Fine-Tuning anpassen oder für bestimmte Hardwarebedingungen quantisieren (also grob komprimieren), was mehr Flexibilität schafft
- Bei eigener Hardware zählen nur Hardware-CapEx, Strom und Betriebskosten; selbst bei Hosting-Anbietern liegen die Kosten pro Token meist unter 10 % der Frontier-Modelle
Preisdruck und Marktdisziplin
- Open-Weights-Modelle erzeugen erheblichen Preisdruck nach unten auf Frontier-Labore
- Das ähnelt lose der Theorie contestable markets, nach der selbst in Monopol- oder Oligopolmärkten günstige und verlässliche Alternativen bestehende Anbieter zu wettbewerblichem Verhalten zwingen
- Streng genommen setzt diese Theorie nahezu null versunkene Kosten voraus, während das Training von Frontier-Modellen eher das Gegenteil ist
- Dennoch bleibt der zentrale Mechanismus bestehen: die potenzielle Wechselmöglichkeit der Kunden diszipliniert die Preise
- Frontier-Modelle können wegen höherer Qualität und vertraglicher Vorteile höhere Preise verlangen
- Nutzer können bereit sein, für bessere Modelle deutlich mehr zu zahlen
- Ein Inferenzvertrag mit einem Unternehmen von rund 1 Billion Dollar hat einen anderen Wert, als einen günstigen Inferenzanbieter über OpenRouter zu nutzen
- OpenAI und andere geben rechtlich bindende Zusagen etwa zu SLA und Vertraulichkeit
- Dennoch wirken Open-Weights-Modelle als ausreichender Druck, um oligopolistisches Preisverhalten zu erschweren
- Wenn Frontier-Labore ihre Preise über Nacht verfünffachen würden, könnten viele Nutzer auf Open-Weights-Modelle ausweichen, besonders bei weniger anspruchsvollen Anwendungsfällen
- In Bezug auf Preisverhalten spielen Open-Weights-Modelle eine ähnliche Rolle wie Generika bei Medikamenten
- Wo es Generika gibt, senken große Pharmaunternehmen ihre Preise viel stärker in Richtung Generikapreis und konzentrieren sich, um Preisniveaus zu halten, auf neue Therapien, die den Generika einen Schritt voraus sind
- Ohne Open-Weights-Modelle könnte die Preissetzungsmacht der Frontier-Labore deutlich größer sein als heute
Veränderungen bei Lizenzierung und Veröffentlichungsmodell
- Die Verfügbarkeit von Open-Weights-Modellen ist keine Selbstverständlichkeit
- Das Training von Modellen ist teuer, und die Unternehmen dahinter sind kommerzielle Firmen
- Selbst wenn sie stark vom chinesischen Staat subventioniert werden sollten, sind sie keine Wohltätigkeitsorganisationen
- In letzter Zeit ist ein klarer Trend zu strengeren Lizenzbedingungen für Open-Weights-Modelle zu erkennen
- Meta hat beim neuesten Modell „Muse Spark“ Open Weights vollständig aufgegeben und veröffentlicht das Modell gar nicht mehr
- Alibaba veröffentlicht Modelle zunehmend zuerst per API oder bei manchen Varianten ausschließlich per API
- Die Lizenz von Kimi K2.6 fügt eine Attributionsklausel hinzu: Produkte mit mehr als 100 Millionen monatlich aktiven Nutzern oder mehr als 20 Millionen Dollar Monatsumsatz müssen „Kimi K2.6“ gut sichtbar in der UI anzeigen
- Auch das französische Unternehmen Mistral legt verschiedene Lizenzbedingungen für kommerzielle Nutzung fest
- Es gibt Ausnahmen
- DeepSeek bewegt sich eher in eine großzügigere Richtung
- Insgesamt geht der Trend aber zu weniger großzügigen Lizenzen, und Meta sowie Alibaba bewegen sich dahin, einzelne oder alle Modelle nicht mehr zu veröffentlichen
Welche Marktstruktur ein Rückgang von Open Weights schaffen könnte
- In einem Jahr könnten die meisten oder sogar alle Spitzenmodelle, die früher als Open Weights veröffentlicht worden wären, nicht mehr veröffentlicht werden
- Das ist derzeit noch ein hypothetisches Szenario
- Preisvergleiche zwischen Modellen könnten weiterhin möglich sein
- Wenn Trainingskosten und Komplexität jedoch weiter steigen, könnten am Ende nur wenige Akteure übrig bleiben
- Die mögliche Marktstruktur könnte sich auf die drei großen westlichen Frontier-Labore und einige chinesische Labore verengen
- Es ist auch möglich, dass chinesische Labore durch staatlich gesteuerte „Fusionen“ zu ein oder zwei chinesischen „Superlabs“ zusammengeführt werden
- In strategischen Industrien gibt es viele Präzedenzfälle für solche Konsolidierungen
- China hat diesen Ansatz bei Eisenbahn (CRRC), Kernenergie, Fluggesellschaften und Telekommunikation genutzt
- Auch der Westen ist keine Ausnahme: Nach dem Kalten Krieg gab es ähnliche Konsolidierungen bei großen Rüstungsunternehmen
- Solche Veränderungen könnten es wenigen Unternehmen erlauben, einen größeren Teil der durch AI erzeugten Konsumentenrente abzuschöpfen
- AI-Nutzer erhalten einen Wert, der weit über den Token-Kosten liegt
- Der Wert ist womöglich so hoch, dass viele selbst das Zehnfache der aktuellen Preise ohne Zögern zahlen würden
- Bei hochpreisiger Wissensarbeit oder agentischen Aufgaben ist die Lücke zwischen tatsächlicher Zahlung und Zahlungsbereitschaft noch größer
- Ein Oligopol ohne die Preisuntergrenze offener Gewichte wäre in der Lage, diese Lücke als Gewinn abzuschöpfen
- Nach ökonomischer Theorie könnte sich in einer solchen Welt Macht und wirtschaftlicher Reichtum historisch stark bei wenigen Unternehmen konzentrieren
- Labore könnten beginnen, Konsumentenrente direkt über Margen zu extrahieren
- Wegen des Oligopols weniger Unternehmen und der hohen CapEx als Markteintrittsbarriere für neue Modelle dürfte der Preiswettbewerb begrenzt bleiben
Gegenargumente und verbleibende Risiken
- Es ist möglich, dass diese pessimistische Sicht überzogen ist
- Wenn sich Hardware schneller verbessert, könnte das Training „gut genuger“ Modelle im Zeitverlauf sogar einfacher werden
- Es gibt zwar nur wenige AI-Hardware-Hersteller, aber auf dem AI-Hardware-Markt herrscht intensiver Wettbewerb
- Distillation gilt als möglicher Ausweg, ist aber keine grundlegende Lösung
- Distillation bedeutet, ein kleineres Modell mit den Ausgaben eines Frontier-Modells zu trainieren
- Dafür braucht man aber überhaupt erst Zugang zu einem leistungsfähigen Basismodell
- Genau dieser Zugang zu leistungsfähigen Basismodellen ist der gefährdete Faktor
- Ein wettbewerbliches Open-Weights-Ökosystem war eine stillschweigende tragende Voraussetzung unter der gesamten AI-Ökonomie
- Dass diese Voraussetzung schwächer wird, verdient Aufmerksamkeit
- Die Folgen für die breitere Wirtschaft könnten sehr groß sein
Begriffe und ergänzende Erläuterungen
- Ein Open-Weights-Modell ist eine Kategorie, in der nur das fertige Modell veröffentlicht wird
- Technisch lässt sich in drei Kategorien unterscheiden: geschlossen, Open Weights sowie vollständig offene oder reproduzierbare Modelle
- Vollständig offene oder reproduzierbare Modelle umfassen auch die Trainingsdaten und die Dokumentation der zugehörigen Trainingsverfahren
- Diese Kategorie entspricht am ehesten dem, was in der Softwarewelt als Open Source bezeichnet wird
- OpenRouter fungiert als „API der APIs“
- Anfragen werden für ein bestimmtes Modell an den günstigsten oder am besten verfügbaren Inferenzanbieter weitergeleitet
- Fällt ein Anbieter aus, kann sofort auf einen anderen gewechselt werden, was die Zuverlässigkeit stark erhöht
- Gibt es einen günstigeren Anbieter, wird entsprechend dorthin umgeschaltet
1 Kommentare
Lobste.rs-Meinungen
Dieser Beitrag ist in Bezug auf Kimi ungenau. Einige Anbieter versehen ihre Modelle zwar mit großen Einschränkungen und nennen das dann „modified MIT“, aber Kimi K2.6 just has an advertising clause. Ohne diese wäre es zwar besser, aber ich finde nicht, dass das übermäßig problematisch ist.
Im Beitrag wurde behauptet, Kimi verbiete den Einsatz des Open-Weights-Modells in Produkten mit mehr als 100 Millionen monatlich aktiven Nutzern oder mehr als 20 Millionen US-Dollar Monatsumsatz, tatsächlich verlangt die K2.6-Lizenz für solche Produkte und Dienste aber nur, dass „Kimi K2.6“ in der UI gut sichtbar angezeigt wird.
Es stimmt zwar, dass einige Anbieter ihre Open-Weights-Veröffentlichungen zurückfahren, aber es gibt auch Unternehmen wie Xiaomi, DeepSeek, Moonshot und Zai, die wettbewerbsfähige große Open-Weights-Modelle herausbringen. Bei kleineren Modellen ist außerdem positiv, dass Gemma 4 auf die Standard-Open-Lizenz Apache gewechselt ist.
Diese Sorge anzusprechen ist berechtigt, aber im Moment scheint es eher so zu sein, dass Anbieter, die sich von Open Weights zurückziehen, durch neue Marktteilnehmer oder Anbieter ersetzt werden, die zu traditionelleren Lizenzen wechseln.
Es bleibt spannend, wie sich das weiterentwickelt. Ich habe es nicht aufgenommen, weil der Artikel ohnehin schon lang war, aber ich denke, diese Unternehmen hätten Open-Weights-Modelle gebraucht, um überhaupt echte Aufmerksamkeit zu bekommen. Wenn man sich Fälle wie Grok ansieht, das trotz Rechenressourcen und aggressiver Preisgestaltung nur begrenzt angenommen wird, wäre es zumindest sehr schwer gewesen, weltweite Bekanntheit zu erlangen.
Andererseits verfügen die chinesischen Modelle bei der Inferenz wohl auch nicht über so viel Compute wie xAI. Da die Modellqualität jetzt steigt, wächst der Anreiz, sie zu schließen, aber vielleicht bleibt es auch eine Welt, in der immer wieder neue Anbieter auftauchen.
Ich frage mich selbst, wo eigentlich der Marktanreiz liegt, Open-Weights-Large Language Models zu veröffentlichen.
Nvidia on Hugging Face veröffentlicht einige Modelle, und es wirkt so, als würden sie darauf wetten, mehr Grafikkarten zu verkaufen, wenn Menschen lokale Large Language Models betreiben, statt einen Abo-Dienst zu nutzen.
Falls die Veröffentlichung von Open-Weights-Modellen zurückgeht, könnten große Inferenzanbieter vielleicht eine Open-Weights-Stiftung ähnlich der Linux Foundation gründen, um die Beschaffung von Trainingsdaten, das Training und das Fine-Tuning zu koordinieren. Ohne wettbewerbsfähige Modelle, die sie anbieten können, wäre das Geschäftsmodell dieser Unternehmen nur schwer tragfähig.
Ob die heutigen Inferenzanbieter wirklich eine Open-Weights-Stiftung vorantreiben würden, weiß ich nicht. Aber wenn Large Language Models in ein paar Jahren tatsächlich an eine Grenze stoßen, könnte auf Kundenseite definitiv ein Anreiz entstehen. So nach dem Motto: „Warum zahlen wir OpenAnthropic monatlich 5 Milliarden Dollar für etwas, das wir selbst machen könnten?“
Hier gibt es einige Kommentare, die dem teilweise widersprechen, aber ich möchte noch ein paar Punkte ergänzen.
Dass Alibaba bei Qwen zuletzt einen etwas weniger Open-First-orientierten Ansatz verfolgt hat, ist klar und bedauerlich, aber die tatsächliche Lücke ist nicht so groß. Die Max-Serie und viele spezialisierte Modelle waren schon immer nur per API verfügbar, und das wichtigste aktuell API-only-Modell ist im Wesentlichen „Plus“ mit rund 400B Parametern. Historisch war es für seine Größe auch kein überragendes Modell.
Die kleineren Modelle, die die meisten Leute mit Qwen verbinden, werden weiterhin veröffentlicht. Der Veröffentlichungsrhythmus wirkt etwas verstreuter, aber die Qwen-Releases waren schon immer recht unordentlich.
Das als geschlossen bezeichnete Qwen 3.6 Plus wird über eine exklusive Partnerschaft available on Fireworks angeboten. Ob damit auch Organisationen angesprochen werden sollen, die lokal betriebene eigene Server wollen, weiß ich nicht, aber es ist interessant, ob solche Modelle künftig häufiger werden.
Metas „Muse Spark“ ist eine praktisch völlig andere Modellfamilie von einem anderen Team als LLaMa, daher erscheint es passender, es als separates Produkt zu betrachten, statt zu sagen, Meta habe Open Weights „eingestellt“.
Die Kennzeichnungsklausel von Kimi K2.6 wurde nicht neu „hinzugefügt“, sondern the clause has been there since the original K2. Auch DeepSeek nutzt seit R1 und V3 0324 eine normale MIT-Lizenz.
Auch in jüngster Zeit gab es mehrere tatsächlich offene und viel beachtete Open-Weights-Veröffentlichungen wie die MiMo-v2.5-Reihe, GLM 5.1 und Gemma 4. Die Hauptlinie von GLM ist zwar Open Weights, aber mehrere Fine-Tunes wie die „Code“-Reihe sind proprietär, und auch das 2603-Update von Step 3.5 Flash scheint proprietär zu sein. Allerdings haben sie release their SFT training data, daher ist harte Kritik vielleicht nicht ganz fair.
Mitunter verzögern sich Veröffentlichungen, etwa bei MiMo v2.5/Pro und GLM 5.1. Das hat allerdings manchmal den Vorteil, dass SGLang/vLLM-Support direkt zum Release bereitsteht. MiniMax M2.7 ist tatsächlich zu einer much more restrictive license gewechselt, vermutlich wurde das mit Kimi verwechselt.
Der Ansatz „zuerst etwas über APIs verdienen und später veröffentlichen“ ist angesichts der hohen Kosten der Modellentwicklung immer noch ziemlich großzügig, und zumindest im Moment scheint die Branche mit diesem Gleichgewicht zufrieden zu sein.
GLM 5.1 ist ein sehr wettbewerbsfähiges Open-Weights-Modell, das letzten Monat unter MIT-Lizenz veröffentlicht wurde. Es wird bereits von mehreren Unternehmen als Dienst angeboten. Es stammt von Z.ai, und wie andere chinesische Unternehmen könnten sie später Einschränkungen hinzufügen, aber im Moment gibt es keine.
Manche gehen davon aus, dass alle chinesischen Modelle in gewissem Maß aus großen Modellen wie GPT oder Anthropic „destilliert“ wurden. Ob das stimmt, weiß ich nicht und es ist mir auch nicht besonders wichtig. Ich finde jedenfalls, dass solche Modelle gemeinfrei sein sollten, und ich freue mich, dass wir uns offenbar schnell in diese Richtung bewegen.
Ich frage mich, ob das Lizenzgeschäft für AI-Modelle nicht bald deutlich populärer werden könnte. Man zahlt einen festen Betrag, erhält dafür das Nutzungsrecht am Modell und betreibt es auf eigener Hardware. Das ist ein bisschen wie die Preisgestaltung von Photoshop.
So ließen sich Probleme mit dem Abfluss sensibler Informationen vermeiden, und die Modellanbieter würden trotzdem bezahlt. Außerdem hätte das den Vorteil eines Pauschalpreises statt potenziell sehr teurer Abrechnung pro Token. Die Hardwarekosten kämen natürlich noch dazu.
Kimi K2.5 passt für mich bisher am besten, und ich muss nicht unbedingt upgraden.