- Das Open-Weights-Modell Kimi K2.6 von Moonshot AI gewann beim AI Coding Contest Day 12 mit dem Word Gem Puzzle mit 22 Matchpunkten und einer Bilanz von 7-1-0
- Xiaomis MiMo V2-Pro wurde mit 20 Punkten Zweiter, ChatGPT GPT-5.5 mit 16 Punkten Dritter, GLM 5.1 mit 15 Punkten Vierter und Claude Opus 4.7 mit 12 Punkten Fünfter; die Modelle von Anthropic, OpenAI, Google und xAI lagen alle hinter den beiden Topmodellen
- Word Gem Puzzle ist ein Sliding-Tile-Buchstabenpuzzle von 10×10 bis 30×30, bei dem Wörter mit weniger als 7 Buchstaben Strafpunkte geben und Wörter ab 7 Buchstaben mit
Länge - 6Punkten gewertet werden; jedes Modellpaar spielte je 5 Runden pro Gittergröße mit einem Zeitlimit von 10 Sekunden - Kimi K2.6 erzielte mit einem gierigen Sliding-Ansatz, der wiederholt Züge auswählte, die Wörter mit positivem Wert freilegen, insgesamt 77 Punkte; MiMo V2-Pro rutschte tatsächlich gar nicht, sondern reichte die Wörter mit mindestens 7 Buchstaben aus dem Startgitter in einem Schritt ein und kam so mit 43 Punkten auf Platz 2
- Das Ergebnis bedeutet nicht, dass ein einzelnes Puzzle allgemeine Benchmarks auf den Kopf stellt, aber das herunterladbare Modell Kimi K2.6 kommt im Artificial Analysis Intelligence Index mit 54 Punkten nahe an GPT-5.5 mit 60 und Claude mit 57 heran, was das Wettbewerbsfeld enger macht
Turnieraufbau und teilnehmende Modelle
- GLM 5.1 von Zhipu AI wurde Vierter, DeepSeek V4 kam nur auf Platz 8
- Der von Nvidia Nemotron Super 3 erzeugte Code enthielt Syntaxfehler und konnte sich nicht mit dem Game-Server verbinden; der eigentliche Wettbewerb fand daher mit 9 Modellen statt
- Kimi K2.6 ist ein öffentlich nutzbares Open-Weights-Modell des 2023 gegründeten chinesischen Startups Moonshot AI, während MiMo V2-Pro derzeit nur per API verfügbar ist
- Xiaomi bestätigte, die Gewichte des neueren V2.5 Pro-Modells bald zu veröffentlichen
- Das Ergebnis lässt sich diesmal nicht einfach als „China hat den Westen geschlagen“ zusammenfassen, sondern als Sieg zweier konkreter Modelle: Kimi K2.6 und MiMo V2-Pro
Regeln des Word Gem Puzzle
- Word Gem Puzzle ist ein Sliding-Tile-Buchstabenpuzzle auf einem rechteckigen Gitter, das mit Buchstabenkacheln und einem freien Feld gefüllt ist
- Die Gittergröße ist eine von 10×10, 15×15, 20×20, 25×25 oder 30×30, und der Bot kann Kacheln, die an das freie Feld angrenzen, hineinschieben
- Der Bot kann jederzeit gültige englische Wörter einreichen, die horizontal oder vertikal in einer geraden Linie gebildet werden
- Diagonale Wörter und rückwärts geschriebene Wörter werden nicht anerkannt
- Das Punktesystem ist so gestaltet, dass lange Wörter belohnt und kurze Wörter bestraft werden
- Wörter mit weniger als 7 Buchstaben kosten Punkte
- Ein 5-Buchstaben-Wort gibt 1 Strafpunkt, ein 3-Buchstaben-Wort 3 Strafpunkte
- Wörter mit 7 oder mehr Buchstaben werden mit
Länge - 6Punkten gewertet, ein 8-Buchstaben-Wort bringt also 2 Punkte
- Dasselbe Wort kann nur einmal eingereicht werden, und wenn ein anderer Bot ein Wort bereits zuerst eingereicht hat, gibt es dafür keine Punkte mehr
- Jedes Modellpaar spielte insgesamt 5 Runden, je eine pro Gittergröße, mit einem Wall-Clock-Zeitlimit von 10 Sekunden pro Runde
- Die Gitter wurden erzeugt, indem echte Wörter im Kreuzworträtsel-Stil platziert, die übrigen Felder nach Scrabble-Kachelverteilung mit Buchstaben gefüllt und am Ende das freie Feld durchmischt wurde
- Größere Boards wurden stärker durchmischt; deshalb blieben auf 10×10 viele Seed-Wörter erhalten, auf 30×30 dagegen fast keine mehr
Verhalten der Modelle und Erfolgsfaktoren
-
Kimi K2.6
- Kimi K2.6 schob aktiv Kacheln und gewann mit 77 Punkten die höchste Gesamtpunktzahl des Turniers
- Die Strategie war gierig: Jeder mögliche Zug wurde danach bewertet, welche neuen Wörter mit positivem Wert er freilegt; dann wurde der beste Zug ausgeführt und dieser Prozess wiederholt
- Wenn kein Zug ein positives Wort freilegte, wurde alphabetisch die erste legale Richtung gewählt
- Das führte teils zu ineffizienten 2-cycle-Bewegungen an den Rändern, bei denen das freie Feld ohne Fortschritt hin- und hersprang
- Auf kleinen Gittern waren noch genug Seed-Wörter erhalten, sodass diese Ineffizienz schadete; auf 30×30 waren aber fast alle Wörter zerstört und mussten rekonstruiert werden, sodass die vielen Slides am Ende Punkte brachten
-
MiMo V2-Pro
- Der Sliding-Code von MiMo war zwar im Repository vorhanden, aber die Bedingung „höchster Wert größer als 0“ wurde nie ausgelöst, sodass es in der Praxis kein einziges Mal slidete
- Stattdessen scannte es das Startgitter nach Wörtern mit mindestens 7 Buchstaben und schickte alle Einreichungen in einem einzigen TCP-Paket
- Diese Strategie war fragil, weil sie vollständig davon abhing, dass nach dem Mischen noch Seed-Wörter im Gitter vorhanden waren
- In Gittern, in denen solche Wörter übrig blieben, punktete es schnell; in anderen Gittern erzielte es gar keine Punkte
- Die Endsumme lag bei 43 Punkten, was für Platz 2 reichte
-
Claude Opus 4.7
- Auch Claude slidete nicht
- Laut Bewegungslog hielt sich das Modell auf dem 25×25-Board noch, weil die Mischdichte dort gerade noch beherrschbar war, brach aber auf 30×30 ein, sobald echte Kachelbewegungen nötig wurden
- In einem Sliding-Puzzle nicht zu sliden, erwies sich als klare Grenze
-
GPT-5.5
- GPT-5.5 verwendete einen konservativeren Ansatz mit etwa 120 Slides pro Runde und einer Obergrenze, um endlose Pendelbewegungen zu vermeiden
- Die stärksten Werte zeigte es auf den 15×15- und 30×30-Gittern
-
Grok Expert 4.2 und GLM 5.1
- Grok slidete nicht, erzielte auf großen Boards aber vergleichsweise ordentliche Werte
- GLM war im gesamten Turnier das Modell mit den aggressivsten Slides und kam auf insgesamt mehr als 800.000 Slides
- GLM geriet jedes Mal stark ins Stocken, wenn keine positiven Züge mehr übrig waren
-
DeepSeek V4
- DeepSeek sendete in jeder Runde Daten im falschen Format
- Es gab keinen nützlichen Output, aber wenigstens verschlechterte es den Score nicht durch aktives Spielen
-
Muse Spark
- Muse reichte jedes Wort ein, das es finden konnte, unabhängig von der Länge
- Das Punktesystem bestraft kurze Wörter gezielt, um Strategien zu verhindern, die wahllos kurze Wörter wie „the“, „and“ oder „it“ einreichen; konkurrenzfähige Modelle filterten ihr Wörterbuch daher auf Wörter mit mindestens 7 Buchstaben
- Muse fand auf dem 30×30-Gitter zu jedem Zeitpunkt Hunderte sichtbare gültige Kurzformen und reichte sie alle ein
- Der Gesamtscore lag bei −15.309 Punkten, das Modell verlor alle 8 Matches und gewann keine einzige Runde
- Eine Muse-Version, die sich nur mit dem Server verbunden und sonst nichts getan hätte, hätte 0 Punkte erzielt und damit rechnerisch 15.309 Punkte mehr als das tatsächliche Muse erreicht
- Der Abstand zwischen Muse und Platz 8 war größer als der Abstand zwischen Platz 8 und Platz 1
Der Unterschied durch das 30×30-Gitter
- Das 30×30-Gitter trennte die Leistungsunterschiede der teilnehmenden Modelle am deutlichsten
- Auf kleineren Boards war der Unterschied zwischen statischen Scannern und aktiven Slidern gering, aber bei der größten Größe konnten Modelle, die nur bereits vorhandene Wörter suchten, keine weiteren Einreichungen mehr finden
- Kimi hatte zwar Schwächen in seiner gierigen Schleife, erzeugte aber weiterhin Output, selbst als statische Scanner keine Wörter mehr zum Einreichen hatten
- MiMo und Kimi nutzten fast gegensätzliche Strategien, trotzdem betrug der Abstand im Endscore nur 2 Punkte
- In den Abstand zwischen Platz 1 und 2 spielte neben dem Fähigkeitsunterschied auch Seed-Variabilität hinein
Risiken bei strukturierten Aufgaben
- Der fehlerhaft formatierte Output von DeepSeek ist ein Signal dafür, wie Modelle unter Zeitdruck mit einer unbekannten Protokollspezifikation umgehen
- Muse fand und übermittelte zwar gültige Wörter, konnte aber die Bedeutung von „gültig“ unter Einbezug der Bewertungsregeln nicht anwenden
- Das Scheitern von Muse zeigte sich als Fall, in dem die Aufgabe nur teilweise gelesen und diese Teilinterpretation dann konsequent ausgeführt wurde
- Wenn Modelle in strukturierte Aufgaben mit Strafpunkten eingesetzt werden, kann eine Ausführung, die nicht das gesamte Regelwerk abbildet, zu großen Verlusten führen
Grenzen und Bedeutung der Ergebnisse
- Dieses Punktesystem belohnt aggressive Worteinreichungen, und stark auf Sicherheit ausgerichtete Modelle könnten bei solcher wahllosen Einreichung konservativer sein
- In solchen Fällen spiegeln die Ergebnisse möglicherweise weniger reine Fähigkeit als vielmehr eine Fehlanpassung zwischen Aufgabendesign und modelltypischem Verhalten wider
- Eine einzelne Challenge stellt allgemeine Benchmarks nicht auf den Kopf
- Dieses Puzzle testet Echtzeitentscheidungen, das Verbinden mit einem TCP-Server und die Fähigkeit, funktionierenden Code zu schreiben, der ein neues Spiel korrekt spielt
- Es ist keine Aufgabe, die langes Kontext-Reasoning oder spezifikationsbasierte Codegenerierung im Allgemeinen testet
- Kimi K2.6 erreicht im Artificial Analysis Intelligence Index 54 Punkte, GPT-5.5 60 Punkte und Claude 57 Punkte
- Diese Werte sind kein vollständiges Gleichziehen, liegen aber nahe beieinander, und dass Kimi K2.6 ein Modell ist, das jeder herunterladen kann, verändert die Wettbewerbslage
- Wenn sich ein Modell, das lokal frei betrieben werden kann, nur wenige Punkte hinter Frontier-Modellen befindet, ist das eine andere Wettbewerbssituation als noch vor einem Jahr
- Diese Challenge ist ein Datenpunkt dafür, dass die Abstände kleiner geworden sind und solche Ergebnisse nun möglich sind
1 Kommentare
Hacker-News-Kommentare
Vermutlich werden wir im nächsten Jahr noch viele solcher Beiträge sehen. Es gibt nämlich keine Möglichkeit, Modelle objektiv zu vergleichen. Abgesehen von niedrigstufigen Zahlen wie Token-Generierungsgeschwindigkeit, durchschnittlicher Anzahl von Inferenz-Token, Parameterzahl oder Zahl aktiver Experten unterscheiden sich die Einsatzbereiche je nach Modell, ebenso die Nutzer, und deterministisch ist das Ganze auch nicht.
Deshalb werden weiterhin Benchmarks und Aussagen wie „dieses Modell hat jenes Modell geschlagen“ auftauchen, aber ein bestes Modell gibt es nicht. Es gibt nur Modelle, die zu den jeweiligen Kriterien passen, und am Ende könnte es sehr gut eine Welt werden wie bei Windows vs. MacOS vs. Linux, in der jeder in seinem eigenen Lager bleibt.
Sie sind Open Source und pro Token deutlich günstiger als US-Modelle. Ich nutze gerade den $20-Ollama-Cloud-Plan, und damit kann ich tatsächlich an Side-Projects arbeiten, bei denen ich im Claude-Pro-$20-Plan schon nach ein oder zwei Prompts an die Grenzen gestoßen bin. Ich habe Ollama nur wegen der bequemen CLI gewählt, und es gibt viele Anbieter, die diese Modelle anbieten, sodass man nicht an schlechte Konditionen oder Nutzungsregeln gebunden ist. Ich sehe das als ziemlich schlechtes Signal für die US-Wirtschaft.
Wenn man jedes Modell so feinjustiert, dass es bei den erwarteten Aufgaben seine Maximalleistung erreicht, stimmen die Rangfolgen in verschiedenen Benchmarks in recht hohem Maß überein: https://arxiv.org/abs/2507.05195
Der Autor dieses Beitrags hat dieses Verfahren aber nicht angewandt. Er hat jedes Modell bisher nur einmal auf 13 Probleme losgelassen und dann bloß das Ergebnis des 12. Problems hervorgehoben. Das lässt sich kaum p-hacking nennen, weil nicht einmal an p-Werte gedacht wurde. Die Qualität großer Sprachmodelle schwankt von Lauf zu Lauf stark, daher ist ein einzelner Lauf pro Modell ungefähr so, als würde man zwei Münzen einmal werfen, bei der einen kommt Kopf, bei der anderen Zahl heraus, und dann behaupten, man wisse, welche Münze stärker verzerrt ist.
Es ist noch nicht breit angenommen, und aus Sicht der jeweiligen Stakeholder kann es sogar vorteilhaft sein, wenn das vorerst so bleibt. Das ist de facto fast wie p-hacking.
Blogs und Artikel sind entweder selbst ein Geschäft oder bringen Traffic für Geschäfte im Umfeld der Technik, und viele Bewertungsbeiträge dienen vor allem dazu, Aufmerksamkeit zu erzeugen. Das ist nicht per se schlecht, aber es erzeugt viel Rauschen.
Die Branche kann fast in keiner Dimension objektiv feststellen, ob ein Software Engineer besser ist als ein anderer. Warum also glaubt man, Modelle objektiv ranken zu können?
Ich begrüße die Bewegung hin zu objektiv bewertbaren Tests.
Wir machen das in großem Maßstab auf https://gertlabs.com/rankings, und auch wenn der Autor hier offenbar nur eine einmalige Stichprobe gefahren hat, überrascht die starke Leistung von Kimi K2.6 nicht. Nach unseren Tests liegt Kimi insbesondere beim Coding innerhalb der statistischen Unsicherheitsmarge auf dem Niveau von MiMo V2.5 Pro, dem stärksten Open-Weight-Modell, und beim Tool-Use deutlich vor DeepSeek V4 Pro. GPT 5.5 liegt klar vorne, aber Kimi ist auf Augenhöhe mit Opus 4.6 oder besser. Das Problem von Kimi 2.6 ist allerdings, dass es zu den langsameren Modellen gehört, die wir getestet haben.
Wenn das für Coding repräsentativ sein soll, müsste man über 100 solcher Rätsel über das gesamte Spektrum hinweg testen, um zu sehen, wer bessere Strategien mit einem englischen Wörterbuch findet.
Das passt auch zu einem Kommentar hier von gestern, wonach Flash-Modelle Tool-Calls besser beherrschen. Eine Kombination aus Planung mit GPT 5.5 und Umsetzung mit Flash-Modellen könnte ein kosteneffizienter Weg sein.
Leistung hängt nicht nur von Sprache und Aufgabe ab, sondern auch vom verwendeten Prompt und vom erwarteten Ergebnis. In internen Tests war es wirklich schwer zu entscheiden, ob GPT 5.5 oder Opus 4.7 besser ist. Der Stil ist unterschiedlich, und am Ende ist es fast Geschmackssache. Manchmal habe ich einem Modell den Sieg gegeben und es mir dann anders überlegt. Letztlich bevorzuge ich Opus 4.7 leicht.
Laut einer Studie, die ich vor ein paar Tagen gelesen habe, werden Open-Source-Modelle bei diesem Tempo die Cloud-Modelle in wenigen Jahren überholen.
Wenn man sich ChatGPT und Claude von vor ein paar Jahren ansieht, sind selbst sehr kleine Qwen-Modelle beim Coding inzwischen fast auf demselben Niveau wie die damaligen Cloud-basierten Modelle. Berücksichtigt man außerdem Skalierungsgesetze, dann sind 9B auf 18B ungefähr 40 % Zuwachs, aber 18B auf 35B nur etwa 20 %, sodass sich bei Cloud-basierten Modellen zumindest beim Preis wohl etwas ändern wird. Adobe kostete früher ja auch einmal $600 im Monat und später, nach Skalierung der Auslieferung, $20.
Die einfache Wahrheit ist, dass Cloud-Modelle offenen Modellen immer strikt überlegen sein können. Cloud-Anbieter können dieselben offenen Modelle schließlich ebenfalls betreiben. Dazu kommen Größenvorteile und Effizienz durch große Rechenzentren voller spezialisierter Hardware. Sie können offene Modelle mindestens zu niedrigeren Kosten pro Token anbieten als jeder Einzelne mit seiner Stromrechnung. Obendrauf haben sie Personal für Forschung an Modellen und Begleitsystemen und können Top-Ingenieure darauf ansetzen, Laufzeitumgebungen zu pflegen, die immer vor den gerade auf GitHub trendenden Tools liegen.
Selbst wenn es ein hinreichend gutes Modell gibt: Was passiert, wenn Cloud-Anbieter einfach besser darin sind, Inferenz-Hardware zu beschaffen?
Kimi ist wirklich gut.
Ich habe es in einem Compiler-/VM-Projekt zusammen mit Sonnet, DeepSeek, ChatGPT, MiniMax, Qwen und anderen verwendet, und der Claude-Pro-Plan ist für ernsthafte Coding-Arbeit fast unbrauchbar. Deshalb nutze ich dort den Browser-Chat-Modus, damit nicht unnötig das ganze Projekt eingelesen wird, und Kimi verwende ich zusammen mit Pi im OpenCode-Go-Plan. In einem C+Python-Projekt war Kimi Sonnet konstant überlegen, und ich musste nie befürchten, dass es Dinge tut, die ich gar nicht verlangt hatte. GLM ist ein- oder zweimal spektakulär gescheitert, Kimi dagegen nicht.
Das Ergebnis bezieht sich auf eine einzelne Aufgabe und misst nur die Leistung der Lösung.
Kimi K2.6 ist eindeutig ein Modell in Frontier-Größe, daher ist es nicht extrem überraschend, dass es neben geschlossenen Frontier-Modellen steht. Offenheit ist schön, aber für mich mit nur einer Consumer-GPU hat das keinen besonders großen praktischen Wert.
Selbst wenn ich mir die Hardware für große Open-Source-Modelle nicht leisten kann, kann es jemand anders, und diese Person kann immer noch Gewinn machen, selbst wenn sie nur die Hälfte der Kosten geschlossener Modelle verlangt. Der einzige Grund, warum man das derzeit nicht sieht, ist, dass die aktuellen führenden Token-Anbieter die Inferenzkosten subventionieren. In dem Moment, in dem sie anfangen, die Qualität zu verschlechtern und den Monetarisierungsdruck zu erhöhen, wird ein Alternativmarkt möglich. Ohne Open-Source-Modelle gibt es auch keine echte Alternative. Schon die bloße Existenz eines Open-Source-Modells, das nicht weit zurückliegt, wirkt als Zwangskraft, wenn sie versuchen, 80 % der Entwicklerkosten zu verlangen. Sie haben keinen Burggraben.
Ich nutze privat GLM 5.1, Kimi K2.6, MiniMax M2.7 und Xiaomi MiMo V2.5 Pro in Coding-Plänen, und das Preis-Leistungs-Verhältnis ist sehr gut.
Der Qualitätsverfall wird anfangs nicht auffallen, aber ich sehe bereits, dass Frontier-Modelle, die ich früher mochte, stark geschwächt wurden und dumme Dinge tun, die sie früher nicht getan haben. Je abhängiger wir davon werden, desto mehr brauchen wir Open-Weight-Modelle als stabile Plattform.
Für kleine RTX-Karten zu Hause kann man jederzeit distillieren. Aber auf Consumer-Hardware zugeschnittene Modelle werden kaum breit adaptiert oder auf Dauer mit Frontier-Labs konkurrenzfähig bleiben. Diese Form kann konkurrieren, und sie braucht zugleich eine neue Generation offener Cloud-Infrastruktur für Inferenz und wird sie anstoßen. Zuerst kommen Produkte wie „Deploy per Button“ oder „Fine-Tuning per Button“, und später womöglich viel fortgeschrittenere Produkte, die nur mit offenen Gewichten möglich sind und nicht hinter einer API eingeschlossen bleiben. Jetzt fehlen nur noch Open-Weight-Entsprechungen zu Nano Banana Pro / GPT Image 2 und Seedance 2.0. Der Kampf und der Fokus sollten auf Open Weights für Rechenzentren liegen.
Die Platzierung hat mich erst überrascht, aber nach dem Lesen des Tests war sie nachvollziehbar. Mit Coding scheint das nicht viel zu tun zu haben.
Das aktuelle Ranking des gesamten Tests ergibt deutlich mehr Sinn, abgesehen davon, wie gut Gemini abschneidet: https://aicc.rayonnant.ai
DNP bedeutet, dass nicht teilgenommen wurde. Aus dieser Perspektive hat Kimi mehr und bessere Medaillen als Claude.
Nur anekdotisch, aber nachdem ich in den letzten Monaten ausschließlich Claude Code verwendet hatte, war ich von den Fähigkeiten von Pi + Kimi K2.6 positiv überrascht. Über OpenRouter ist es deutlich schneller und viel günstiger.
Leider kommt Kimi an GPT oder Opus überhaupt nicht wirklich heran. Ich wünschte, es wäre so, aber nein.
Ich lasse gerade eine Evaluation laufen, bei der das Modell Code zur Erzeugung von 3D-Modellen schreiben muss, und es ist klar, dass es beim räumlichen Verständnis schwächer ist und viel mehr Codefehler macht, bevor es zum Erfolg kommt. In einzelnen Spezialfällen kann es besser sein, und ich vermute, dass dieser Blogpost genau so ein Beispiel ist.
Das ist nicht einmal ein visuelles Problem. DeepSeek ist nicht multimodal, aber aus irgendeinem Grund versteht Opus die Blender-API deutlich besser. Es scheint immer kleine Bereiche zu geben, in denen geschlossene Frontier-Modelle noch etwas besser sind.
Das wirkt weniger so, als wäre Kimi besser im Coding als Claude, sondern eher so, als hätte Kimi die richtige Strategie für ein bestimmtes Spiel gefunden.
Interessant ist es trotzdem. Der eigentliche Kern könnte sein, dass Open-Weight-Modelle inzwischen so nahe herangekommen sind, dass der Unterschied überhaupt relevant wird.
Ich kenne mich im KI-Bereich nicht besonders gut aus, aber die Idee, ein einzelnes Modell darauf zu trainieren, für alle alles zu sein, wirkt auf mich wirklich töricht.
Das verschlingt enorme Ressourcen und erzeugt extreme Knappheit und Marktverzerrungen bei allem, was KI-Unternehmen verbrauchen, also RAM, SSDs, Rechenzentren und so weiter. Im echten Leben stellt man keinen Klempner ein und erwartet zugleich Landschaftsbau, Autoreparaturen und Änderungsschneiderei. Es erschiene mir ressourceneffizienter, wenn man zum Beispiel eine App für Shell, Python und C herunterladen könnte, oder sogar drei solche Apps, die miteinander kommunizieren. Vielleicht liefe das dann sogar auf normalen Maschinen mit 16 GB RAM. Man braucht nicht zwingend ein riesiges Modell, das zusätzlich auch noch Fortran, COBOL und Lisp codieren kann. Menschen sind mit Spezialisierung ziemlich gut gefahren, und ich würde lieber mehr kleinere, fokussierte KI-Modelle sehen als den aktuellen Pfad, bei dem „ein Modell alles beherrscht und nur in Rechenzentren nationaler Größenordnung läuft“.
Seit GPT-3 sagen Leute, dass kein Modell so allgemein einsetzbar sein könne und dass Fine-Tuning deshalb besser sei, aber mit jeder Generation stimmt das ein Stück weniger.