Kimi K2.6 schlägt Claude, GPT-5.5 und Gemini in einer Coding-Challenge

(thinkpol.ca)

5 Punkte von GN⁺ 2 시간 전 | 1 Kommentare | Auf WhatsApp teilen

Das Open-Weights-Modell Kimi K2.6 von Moonshot AI gewann beim AI Coding Contest Day 12 mit dem Word Gem Puzzle mit 22 Matchpunkten und einer Bilanz von 7-1-0
Xiaomis MiMo V2-Pro wurde mit 20 Punkten Zweiter, ChatGPT GPT-5.5 mit 16 Punkten Dritter, GLM 5.1 mit 15 Punkten Vierter und Claude Opus 4.7 mit 12 Punkten Fünfter; die Modelle von Anthropic, OpenAI, Google und xAI lagen alle hinter den beiden Topmodellen
Word Gem Puzzle ist ein Sliding-Tile-Buchstabenpuzzle von 10×10 bis 30×30, bei dem Wörter mit weniger als 7 Buchstaben Strafpunkte geben und Wörter ab 7 Buchstaben mit Länge - 6 Punkten gewertet werden; jedes Modellpaar spielte je 5 Runden pro Gittergröße mit einem Zeitlimit von 10 Sekunden
Kimi K2.6 erzielte mit einem gierigen Sliding-Ansatz, der wiederholt Züge auswählte, die Wörter mit positivem Wert freilegen, insgesamt 77 Punkte; MiMo V2-Pro rutschte tatsächlich gar nicht, sondern reichte die Wörter mit mindestens 7 Buchstaben aus dem Startgitter in einem Schritt ein und kam so mit 43 Punkten auf Platz 2
Das Ergebnis bedeutet nicht, dass ein einzelnes Puzzle allgemeine Benchmarks auf den Kopf stellt, aber das herunterladbare Modell Kimi K2.6 kommt im Artificial Analysis Intelligence Index mit 54 Punkten nahe an GPT-5.5 mit 60 und Claude mit 57 heran, was das Wettbewerbsfeld enger macht

Turnieraufbau und teilnehmende Modelle

GLM 5.1 von Zhipu AI wurde Vierter, DeepSeek V4 kam nur auf Platz 8
Der von Nvidia Nemotron Super 3 erzeugte Code enthielt Syntaxfehler und konnte sich nicht mit dem Game-Server verbinden; der eigentliche Wettbewerb fand daher mit 9 Modellen statt
Kimi K2.6 ist ein öffentlich nutzbares Open-Weights-Modell des 2023 gegründeten chinesischen Startups Moonshot AI, während MiMo V2-Pro derzeit nur per API verfügbar ist
Xiaomi bestätigte, die Gewichte des neueren V2.5 Pro-Modells bald zu veröffentlichen
Das Ergebnis lässt sich diesmal nicht einfach als „China hat den Westen geschlagen“ zusammenfassen, sondern als Sieg zweier konkreter Modelle: Kimi K2.6 und MiMo V2-Pro

Regeln des Word Gem Puzzle

Word Gem Puzzle ist ein Sliding-Tile-Buchstabenpuzzle auf einem rechteckigen Gitter, das mit Buchstabenkacheln und einem freien Feld gefüllt ist
Die Gittergröße ist eine von 10×10, 15×15, 20×20, 25×25 oder 30×30, und der Bot kann Kacheln, die an das freie Feld angrenzen, hineinschieben
Der Bot kann jederzeit gültige englische Wörter einreichen, die horizontal oder vertikal in einer geraden Linie gebildet werden
Diagonale Wörter und rückwärts geschriebene Wörter werden nicht anerkannt
Das Punktesystem ist so gestaltet, dass lange Wörter belohnt und kurze Wörter bestraft werden
- Wörter mit weniger als 7 Buchstaben kosten Punkte
- Ein 5-Buchstaben-Wort gibt 1 Strafpunkt, ein 3-Buchstaben-Wort 3 Strafpunkte
- Wörter mit 7 oder mehr Buchstaben werden mit Länge - 6 Punkten gewertet, ein 8-Buchstaben-Wort bringt also 2 Punkte
Dasselbe Wort kann nur einmal eingereicht werden, und wenn ein anderer Bot ein Wort bereits zuerst eingereicht hat, gibt es dafür keine Punkte mehr
Jedes Modellpaar spielte insgesamt 5 Runden, je eine pro Gittergröße, mit einem Wall-Clock-Zeitlimit von 10 Sekunden pro Runde
Die Gitter wurden erzeugt, indem echte Wörter im Kreuzworträtsel-Stil platziert, die übrigen Felder nach Scrabble-Kachelverteilung mit Buchstaben gefüllt und am Ende das freie Feld durchmischt wurde
Größere Boards wurden stärker durchmischt; deshalb blieben auf 10×10 viele Seed-Wörter erhalten, auf 30×30 dagegen fast keine mehr

Verhalten der Modelle und Erfolgsfaktoren

Kimi K2.6
- Kimi K2.6 schob aktiv Kacheln und gewann mit 77 Punkten die höchste Gesamtpunktzahl des Turniers
- Die Strategie war gierig: Jeder mögliche Zug wurde danach bewertet, welche neuen Wörter mit positivem Wert er freilegt; dann wurde der beste Zug ausgeführt und dieser Prozess wiederholt
- Wenn kein Zug ein positives Wort freilegte, wurde alphabetisch die erste legale Richtung gewählt
- Das führte teils zu ineffizienten 2-cycle-Bewegungen an den Rändern, bei denen das freie Feld ohne Fortschritt hin- und hersprang
- Auf kleinen Gittern waren noch genug Seed-Wörter erhalten, sodass diese Ineffizienz schadete; auf 30×30 waren aber fast alle Wörter zerstört und mussten rekonstruiert werden, sodass die vielen Slides am Ende Punkte brachten
MiMo V2-Pro
- Der Sliding-Code von MiMo war zwar im Repository vorhanden, aber die Bedingung „höchster Wert größer als 0“ wurde nie ausgelöst, sodass es in der Praxis kein einziges Mal slidete
- Stattdessen scannte es das Startgitter nach Wörtern mit mindestens 7 Buchstaben und schickte alle Einreichungen in einem einzigen TCP-Paket
- Diese Strategie war fragil, weil sie vollständig davon abhing, dass nach dem Mischen noch Seed-Wörter im Gitter vorhanden waren
- In Gittern, in denen solche Wörter übrig blieben, punktete es schnell; in anderen Gittern erzielte es gar keine Punkte
- Die Endsumme lag bei 43 Punkten, was für Platz 2 reichte
Claude Opus 4.7
- Auch Claude slidete nicht
- Laut Bewegungslog hielt sich das Modell auf dem 25×25-Board noch, weil die Mischdichte dort gerade noch beherrschbar war, brach aber auf 30×30 ein, sobald echte Kachelbewegungen nötig wurden
- In einem Sliding-Puzzle nicht zu sliden, erwies sich als klare Grenze
GPT-5.5
- GPT-5.5 verwendete einen konservativeren Ansatz mit etwa 120 Slides pro Runde und einer Obergrenze, um endlose Pendelbewegungen zu vermeiden
- Die stärksten Werte zeigte es auf den 15×15- und 30×30-Gittern
Grok Expert 4.2 und GLM 5.1
- Grok slidete nicht, erzielte auf großen Boards aber vergleichsweise ordentliche Werte
- GLM war im gesamten Turnier das Modell mit den aggressivsten Slides und kam auf insgesamt mehr als 800.000 Slides
- GLM geriet jedes Mal stark ins Stocken, wenn keine positiven Züge mehr übrig waren
DeepSeek V4
- DeepSeek sendete in jeder Runde Daten im falschen Format
- Es gab keinen nützlichen Output, aber wenigstens verschlechterte es den Score nicht durch aktives Spielen
Muse Spark
- Muse reichte jedes Wort ein, das es finden konnte, unabhängig von der Länge
- Das Punktesystem bestraft kurze Wörter gezielt, um Strategien zu verhindern, die wahllos kurze Wörter wie „the“, „and“ oder „it“ einreichen; konkurrenzfähige Modelle filterten ihr Wörterbuch daher auf Wörter mit mindestens 7 Buchstaben
- Muse fand auf dem 30×30-Gitter zu jedem Zeitpunkt Hunderte sichtbare gültige Kurzformen und reichte sie alle ein
- Der Gesamtscore lag bei −15.309 Punkten, das Modell verlor alle 8 Matches und gewann keine einzige Runde
- Eine Muse-Version, die sich nur mit dem Server verbunden und sonst nichts getan hätte, hätte 0 Punkte erzielt und damit rechnerisch 15.309 Punkte mehr als das tatsächliche Muse erreicht
- Der Abstand zwischen Muse und Platz 8 war größer als der Abstand zwischen Platz 8 und Platz 1

Der Unterschied durch das 30×30-Gitter

Das 30×30-Gitter trennte die Leistungsunterschiede der teilnehmenden Modelle am deutlichsten
Auf kleineren Boards war der Unterschied zwischen statischen Scannern und aktiven Slidern gering, aber bei der größten Größe konnten Modelle, die nur bereits vorhandene Wörter suchten, keine weiteren Einreichungen mehr finden
Kimi hatte zwar Schwächen in seiner gierigen Schleife, erzeugte aber weiterhin Output, selbst als statische Scanner keine Wörter mehr zum Einreichen hatten
MiMo und Kimi nutzten fast gegensätzliche Strategien, trotzdem betrug der Abstand im Endscore nur 2 Punkte
In den Abstand zwischen Platz 1 und 2 spielte neben dem Fähigkeitsunterschied auch Seed-Variabilität hinein

Risiken bei strukturierten Aufgaben

Der fehlerhaft formatierte Output von DeepSeek ist ein Signal dafür, wie Modelle unter Zeitdruck mit einer unbekannten Protokollspezifikation umgehen
Muse fand und übermittelte zwar gültige Wörter, konnte aber die Bedeutung von „gültig“ unter Einbezug der Bewertungsregeln nicht anwenden
Das Scheitern von Muse zeigte sich als Fall, in dem die Aufgabe nur teilweise gelesen und diese Teilinterpretation dann konsequent ausgeführt wurde
Wenn Modelle in strukturierte Aufgaben mit Strafpunkten eingesetzt werden, kann eine Ausführung, die nicht das gesamte Regelwerk abbildet, zu großen Verlusten führen

Grenzen und Bedeutung der Ergebnisse

Dieses Punktesystem belohnt aggressive Worteinreichungen, und stark auf Sicherheit ausgerichtete Modelle könnten bei solcher wahllosen Einreichung konservativer sein
In solchen Fällen spiegeln die Ergebnisse möglicherweise weniger reine Fähigkeit als vielmehr eine Fehlanpassung zwischen Aufgabendesign und modelltypischem Verhalten wider
Eine einzelne Challenge stellt allgemeine Benchmarks nicht auf den Kopf
Dieses Puzzle testet Echtzeitentscheidungen, das Verbinden mit einem TCP-Server und die Fähigkeit, funktionierenden Code zu schreiben, der ein neues Spiel korrekt spielt
Es ist keine Aufgabe, die langes Kontext-Reasoning oder spezifikationsbasierte Codegenerierung im Allgemeinen testet
Kimi K2.6 erreicht im Artificial Analysis Intelligence Index 54 Punkte, GPT-5.5 60 Punkte und Claude 57 Punkte
Diese Werte sind kein vollständiges Gleichziehen, liegen aber nahe beieinander, und dass Kimi K2.6 ein Modell ist, das jeder herunterladen kann, verändert die Wettbewerbslage
Wenn sich ein Modell, das lokal frei betrieben werden kann, nur wenige Punkte hinter Frontier-Modellen befindet, ist das eine andere Wettbewerbssituation als noch vor einem Jahr
Diese Challenge ist ein Datenpunkt dafür, dass die Abstände kleiner geworden sind und solche Ergebnisse nun möglich sind

1 Kommentare

GN⁺ 2 시간 전

Hacker-News-Kommentare

Vermutlich werden wir im nächsten Jahr noch viele solcher Beiträge sehen. Es gibt nämlich keine Möglichkeit, Modelle objektiv zu vergleichen. Abgesehen von niedrigstufigen Zahlen wie Token-Generierungsgeschwindigkeit, durchschnittlicher Anzahl von Inferenz-Token, Parameterzahl oder Zahl aktiver Experten unterscheiden sich die Einsatzbereiche je nach Modell, ebenso die Nutzer, und deterministisch ist das Ganze auch nicht.
Deshalb werden weiterhin Benchmarks und Aussagen wie „dieses Modell hat jenes Modell geschlagen“ auftauchen, aber ein bestes Modell gibt es nicht. Es gibt nur Modelle, die zu den jeweiligen Kriterien passen, und am Ende könnte es sehr gut eine Welt werden wie bei Windows vs. MacOS vs. Linux, in der jeder in seinem eigenen Lager bleibt.
- Der eigentliche Punkt ist nicht die Vergleichsmethode, sondern dass Kimi K2.6 und DeepSeek v4 Pro fast auf dem Niveau von Opus liegen, und das ist an sich schon ziemlich bedeutend.
  Sie sind Open Source und pro Token deutlich günstiger als US-Modelle. Ich nutze gerade den $20-Ollama-Cloud-Plan, und damit kann ich tatsächlich an Side-Projects arbeiten, bei denen ich im Claude-Pro-$20-Plan schon nach ein oder zwei Prompts an die Grenzen gestoßen bin. Ich habe Ollama nur wegen der bequemen CLI gewählt, und es gibt viele Anbieter, die diese Modelle anbieten, sodass man nicht an schlechte Konditionen oder Nutzungsregeln gebunden ist. Ich sehe das als ziemlich schlechtes Signal für die US-Wirtschaft.
- Es gibt sehr wohl objektive Methoden, Modelle zu vergleichen. Mit wiederholtem Sampling und statistischer Analyse muss man prüfen, ob das Ergebnis auch künftig Bestand hat oder nur Zufall ist.
  Wenn man jedes Modell so feinjustiert, dass es bei den erwarteten Aufgaben seine Maximalleistung erreicht, stimmen die Rangfolgen in verschiedenen Benchmarks in recht hohem Maß überein: https://arxiv.org/abs/2507.05195
  Der Autor dieses Beitrags hat dieses Verfahren aber nicht angewandt. Er hat jedes Modell bisher nur einmal auf 13 Probleme losgelassen und dann bloß das Ergebnis des 12. Problems hervorgehoben. Das lässt sich kaum p-hacking nennen, weil nicht einmal an p-Werte gedacht wurde. Die Qualität großer Sprachmodelle schwankt von Lauf zu Lauf stark, daher ist ein einzelner Lauf pro Modell ungefähr so, als würde man zwei Münzen einmal werfen, bei der einen kommt Kopf, bei der anderen Zahl heraus, und dann behaupten, man wisse, welche Münze stärker verzerrt ist.
- Dem stimme ich teilweise zu, aber die Arbeit daran, Metriken vergleichbar zu machen, läuft bereits. Zum Beispiel: https://ghzhang233.github.io/blog/2026/03/05/train-before-te...
  Es ist noch nicht breit angenommen, und aus Sicht der jeweiligen Stakeholder kann es sogar vorteilhaft sein, wenn das vorerst so bleibt. Das ist de facto fast wie p-hacking.
- Meine Anwendungsfälle für große Sprachmodelle und agentische Laufzeitumgebungen sind ziemlich begrenzt, daher teste ich bei neuen Modellen oder Ausführungstools einfach ein oder zwei meiner Use Cases, bilde mir ein subjektives Urteil und ignoriere die meisten Benchmarks.
  Blogs und Artikel sind entweder selbst ein Geschäft oder bringen Traffic für Geschäfte im Umfeld der Technik, und viele Bewertungsbeiträge dienen vor allem dazu, Aufmerksamkeit zu erzeugen. Das ist nicht per se schlecht, aber es erzeugt viel Rauschen.
- Am Ende dürfte es ähnlich werden wie bei der Einstellung von Menschen. Man kann sich den Lebenslauf ansehen, also den Benchmark, aber sicher sein kann man erst, wenn man sechs Monate mit der Person gearbeitet hat.
  Die Branche kann fast in keiner Dimension objektiv feststellen, ob ein Software Engineer besser ist als ein anderer. Warum also glaubt man, Modelle objektiv ranken zu können?
Ich begrüße die Bewegung hin zu objektiv bewertbaren Tests.
Wir machen das in großem Maßstab auf https://gertlabs.com/rankings, und auch wenn der Autor hier offenbar nur eine einmalige Stichprobe gefahren hat, überrascht die starke Leistung von Kimi K2.6 nicht. Nach unseren Tests liegt Kimi insbesondere beim Coding innerhalb der statistischen Unsicherheitsmarge auf dem Niveau von MiMo V2.5 Pro, dem stärksten Open-Weight-Modell, und beim Tool-Use deutlich vor DeepSeek V4 Pro. GPT 5.5 liegt klar vorne, aber Kimi ist auf Augenhöhe mit Opus 4.6 oder besser. Das Problem von Kimi 2.6 ist allerdings, dass es zu den langsameren Modellen gehört, die wir getestet haben.
- Es mag objektiv bewertbar sein, aber das zeigt nicht die Coding-Fähigkeit von jemandem oder etwas. Dieser Test misst eher, welches Modell gegen andere Bots mehr oder weniger zufällig die beste Strategie gefunden hat.
  Wenn das für Coding repräsentativ sein soll, müsste man über 100 solcher Rätsel über das gesamte Spektrum hinweg testen, um zu sehen, wer bessere Strategien mit einem englischen Wörterbuch findet.
- In agentischen Workflows scheinen Qwen Flash und die DeepSeek-Flash-Modelle ziemlich gut zu sein.
  Das passt auch zu einem Kommentar hier von gestern, wonach Flash-Modelle Tool-Calls besser beherrschen. Eine Kombination aus Planung mit GPT 5.5 und Umsetzung mit Flash-Modellen könnte ein kosteneffizienter Weg sein.
- Meiner Erfahrung nach sind Benchmarks ziemlich bedeutungslos.
  Leistung hängt nicht nur von Sprache und Aufgabe ab, sondern auch vom verwendeten Prompt und vom erwarteten Ergebnis. In internen Tests war es wirklich schwer zu entscheiden, ob GPT 5.5 oder Opus 4.7 besser ist. Der Stil ist unterschiedlich, und am Ende ist es fast Geschmackssache. Manchmal habe ich einem Modell den Sieg gegeben und es mir dann anders überlegt. Letztlich bevorzuge ich Opus 4.7 leicht.
- Sind die Tests und Ergebnisse Open Source?
- Ich frage mich, warum man kein Maß für die Kontextgröße von Menschen angeben kann. Es scheint, als gäbe es genug Wissenschaft dafür, zumindest eine brauchbare Näherung zu bauen.
Laut einer Studie, die ich vor ein paar Tagen gelesen habe, werden Open-Source-Modelle bei diesem Tempo die Cloud-Modelle in wenigen Jahren überholen.
Wenn man sich ChatGPT und Claude von vor ein paar Jahren ansieht, sind selbst sehr kleine Qwen-Modelle beim Coding inzwischen fast auf demselben Niveau wie die damaligen Cloud-basierten Modelle. Berücksichtigt man außerdem Skalierungsgesetze, dann sind 9B auf 18B ungefähr 40 % Zuwachs, aber 18B auf 35B nur etwa 20 %, sodass sich bei Cloud-basierten Modellen zumindest beim Preis wohl etwas ändern wird. Adobe kostete früher ja auch einmal $600 im Monat und später, nach Skalierung der Auslieferung, $20.
- Das ergibt keinen Sinn und riecht nach einer Extrapolation von Trends weit jenseits gültiger Bedingungen.
  Die einfache Wahrheit ist, dass Cloud-Modelle offenen Modellen immer strikt überlegen sein können. Cloud-Anbieter können dieselben offenen Modelle schließlich ebenfalls betreiben. Dazu kommen Größenvorteile und Effizienz durch große Rechenzentren voller spezialisierter Hardware. Sie können offene Modelle mindestens zu niedrigeren Kosten pro Token anbieten als jeder Einzelne mit seiner Stromrechnung. Obendrauf haben sie Personal für Forschung an Modellen und Begleitsystemen und können Top-Ingenieure darauf ansetzen, Laufzeitumgebungen zu pflegen, die immer vor den gerade auf GitHub trendenden Tools liegen.
- Möglich, aber ich mache mir Sorgen um die Hardware.
  Selbst wenn es ein hinreichend gutes Modell gibt: Was passiert, wenn Cloud-Anbieter einfach besser darin sind, Inferenz-Hardware zu beschaffen?
- Ich weiß nicht, auf welches Produkt sich „Adobe kostete $600 im Monat und wurde mit zunehmender Skalierung $20“ beziehen soll. Ich habe nie von einem so teuren Adobe-Produkt gehört.
- $600 im Monat? Meinst du vielleicht eine einmalige lebenslange Lizenz für $600? Von einem derart teuren Adobe-Plan habe ich noch nie gehört.
- Wenn du einen Link zu der Studie hast, die du gelesen hast, wäre es gut, ihn zu teilen.
Kimi ist wirklich gut.
Ich habe es in einem Compiler-/VM-Projekt zusammen mit Sonnet, DeepSeek, ChatGPT, MiniMax, Qwen und anderen verwendet, und der Claude-Pro-Plan ist für ernsthafte Coding-Arbeit fast unbrauchbar. Deshalb nutze ich dort den Browser-Chat-Modus, damit nicht unnötig das ganze Projekt eingelesen wird, und Kimi verwende ich zusammen mit Pi im OpenCode-Go-Plan. In einem C+Python-Projekt war Kimi Sonnet konstant überlegen, und ich musste nie befürchten, dass es Dinge tut, die ich gar nicht verlangt hatte. GLM ist ein- oder zweimal spektakulär gescheitert, Kimi dagegen nicht.
- Mich würde interessieren, warum „der Claude-Pro-Plan für ernsthafte Coding-Arbeit fast unbrauchbar“ sei. Das wirkt völlig gegensätzlich zur verbreiteten Einschätzung, dass Claude Pro gerade für ernsthaftes Coding häufig bevorzugt wird.
Das Ergebnis bezieht sich auf eine einzelne Aufgabe und misst nur die Leistung der Lösung.
Kimi K2.6 ist eindeutig ein Modell in Frontier-Größe, daher ist es nicht extrem überraschend, dass es neben geschlossenen Frontier-Modellen steht. Offenheit ist schön, aber für mich mit nur einer Consumer-GPU hat das keinen besonders großen praktischen Wert.
- Der Wert von Open Source liegt nicht darin, dass ich es lokal ausführen kann, sondern darin, dass irgendjemand es ausführen kann.
  Selbst wenn ich mir die Hardware für große Open-Source-Modelle nicht leisten kann, kann es jemand anders, und diese Person kann immer noch Gewinn machen, selbst wenn sie nur die Hälfte der Kosten geschlossener Modelle verlangt. Der einzige Grund, warum man das derzeit nicht sieht, ist, dass die aktuellen führenden Token-Anbieter die Inferenzkosten subventionieren. In dem Moment, in dem sie anfangen, die Qualität zu verschlechtern und den Monetarisierungsdruck zu erhöhen, wird ein Alternativmarkt möglich. Ohne Open-Source-Modelle gibt es auch keine echte Alternative. Schon die bloße Existenz eines Open-Source-Modells, das nicht weit zurückliegt, wirkt als Zwangskraft, wenn sie versuchen, 80 % der Entwicklerkosten zu verlangen. Sie haben keinen Burggraben.
- Natürlich hat es Bedeutung. Deshalb sind deutlich günstigere Pläne möglich als die Coding-Pläne von Anthropic und OpenAI.
  Ich nutze privat GLM 5.1, Kimi K2.6, MiniMax M2.7 und Xiaomi MiMo V2.5 Pro in Coding-Plänen, und das Preis-Leistungs-Verhältnis ist sehr gut.
- Das ist wirklich wichtig.
  Der Qualitätsverfall wird anfangs nicht auffallen, aber ich sehe bereits, dass Frontier-Modelle, die ich früher mochte, stark geschwächt wurden und dumme Dinge tun, die sie früher nicht getan haben. Je abhängiger wir davon werden, desto mehr brauchen wir Open-Weight-Modelle als stabile Plattform.
- Die Zukunft liegt hier. Open-Weight-Modelle, die auf H200 laufen, eröffnen viel mehr Möglichkeiten, Produkte und echte Infrastruktur aufzubauen.
  Für kleine RTX-Karten zu Hause kann man jederzeit distillieren. Aber auf Consumer-Hardware zugeschnittene Modelle werden kaum breit adaptiert oder auf Dauer mit Frontier-Labs konkurrenzfähig bleiben. Diese Form kann konkurrieren, und sie braucht zugleich eine neue Generation offener Cloud-Infrastruktur für Inferenz und wird sie anstoßen. Zuerst kommen Produkte wie „Deploy per Button“ oder „Fine-Tuning per Button“, und später womöglich viel fortgeschrittenere Produkte, die nur mit offenen Gewichten möglich sind und nicht hinter einer API eingeschlossen bleiben. Jetzt fehlen nur noch Open-Weight-Entsprechungen zu Nano Banana Pro / GPT Image 2 und Seedance 2.0. Der Kampf und der Fokus sollten auf Open Weights für Rechenzentren liegen.
Die Platzierung hat mich erst überrascht, aber nach dem Lesen des Tests war sie nachvollziehbar. Mit Coding scheint das nicht viel zu tun zu haben.
Das aktuelle Ranking des gesamten Tests ergibt deutlich mehr Sinn, abgesehen davon, wie gut Gemini abschneidet: https://aicc.rayonnant.ai
- Wenn man sich die Ranglisten-Details ansieht, hat Kimi K2.6 nur an den letzten fünf Challenges teilgenommen. Davor dominierte Claude, und zählt man nur die letzten fünf, steht Kimi auf Platz 1.
- Eine Goldmedaillen-Rangliste ist nur sinnvoll, wenn alle Modelle an allen Tests teilgenommen haben.
  DNP bedeutet, dass nicht teilgenommen wurde. Aus dieser Perspektive hat Kimi mehr und bessere Medaillen als Claude.
- Ironisch, dass eine Seite mit so vielen Modellen auf Mobilgeräten nicht responsive ist.
- Der von dir verlinkte Link bestätigt Kimi eigentlich nur in seiner Überlegenheit.
Nur anekdotisch, aber nachdem ich in den letzten Monaten ausschließlich Claude Code verwendet hatte, war ich von den Fähigkeiten von Pi + Kimi K2.6 positiv überrascht. Über OpenRouter ist es deutlich schneller und viel günstiger.
Leider kommt Kimi an GPT oder Opus überhaupt nicht wirklich heran. Ich wünschte, es wäre so, aber nein.
Ich lasse gerade eine Evaluation laufen, bei der das Modell Code zur Erzeugung von 3D-Modellen schreiben muss, und es ist klar, dass es beim räumlichen Verständnis schwächer ist und viel mehr Codefehler macht, bevor es zum Erfolg kommt. In einzelnen Spezialfällen kann es besser sein, und ich vermute, dass dieser Blogpost genau so ein Beispiel ist.
- Etwas off-topic, aber nachdem ich in den letzten Wochen DeepSeek V4 Pro genutzt habe, würde ich sagen, dass es insgesamt auf dem Niveau von Opus liegt. Eine Ausnahme ist aber Blender.
  Das ist nicht einmal ein visuelles Problem. DeepSeek ist nicht multimodal, aber aus irgendeinem Grund versteht Opus die Blender-API deutlich besser. Es scheint immer kleine Bereiche zu geben, in denen geschlossene Frontier-Modelle noch etwas besser sind.
- Fairerweise braucht nicht jeder 3D-Modelle.
Das wirkt weniger so, als wäre Kimi besser im Coding als Claude, sondern eher so, als hätte Kimi die richtige Strategie für ein bestimmtes Spiel gefunden.
Interessant ist es trotzdem. Der eigentliche Kern könnte sein, dass Open-Weight-Modelle inzwischen so nahe herangekommen sind, dass der Unterschied überhaupt relevant wird.
Ich kenne mich im KI-Bereich nicht besonders gut aus, aber die Idee, ein einzelnes Modell darauf zu trainieren, für alle alles zu sein, wirkt auf mich wirklich töricht.
Das verschlingt enorme Ressourcen und erzeugt extreme Knappheit und Marktverzerrungen bei allem, was KI-Unternehmen verbrauchen, also RAM, SSDs, Rechenzentren und so weiter. Im echten Leben stellt man keinen Klempner ein und erwartet zugleich Landschaftsbau, Autoreparaturen und Änderungsschneiderei. Es erschiene mir ressourceneffizienter, wenn man zum Beispiel eine App für Shell, Python und C herunterladen könnte, oder sogar drei solche Apps, die miteinander kommunizieren. Vielleicht liefe das dann sogar auf normalen Maschinen mit 16 GB RAM. Man braucht nicht zwingend ein riesiges Modell, das zusätzlich auch noch Fortran, COBOL und Lisp codieren kann. Menschen sind mit Spezialisierung ziemlich gut gefahren, und ich würde lieber mehr kleinere, fokussierte KI-Modelle sehen als den aktuellen Pfad, bei dem „ein Modell alles beherrscht und nur in Rechenzentren nationaler Größenordnung läuft“.
- Im Grundsatz stimmt das, aber es gibt auch Gegenbeispiele.
  Seit GPT-3 sagen Leute, dass kein Modell so allgemein einsetzbar sein könne und dass Fine-Tuning deshalb besser sei, aber mit jeder Generation stimmt das ein Stück weniger.

Kimi K2.6 schlägt Claude, GPT-5.5 und Gemini in einer Coding-Challenge

Turnieraufbau und teilnehmende Modelle

Regeln des Word Gem Puzzle

Verhalten der Modelle und Erfolgsfaktoren

Kimi K2.6

MiMo V2-Pro

Claude Opus 4.7

GPT-5.5

Grok Expert 4.2 und GLM 5.1

DeepSeek V4

Muse Spark

Der Unterschied durch das 30×30-Gitter

Risiken bei strukturierten Aufgaben

Grenzen und Bedeutung der Ergebnisse

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare