5 Punkte von GN⁺ 9 일 전 | 3 Kommentare | Auf WhatsApp teilen
  • Ein Modell mit gesteigerter Leistung bei Long-Horizon-Coding und agentischen Aufgaben, mit verbesserter Generalisierungsleistung über mehrere Sprachen sowie in Frontend-, DevOps- und Performance-Optimierungsaufgaben hinweg
  • Bearbeitet komplexe Engineering-Aufgaben als dauerhaft laufendes Coding, erreichte nach Tausenden Tool-Aufrufen und mehr als 12 Stunden kontinuierlicher Ausführung deutliche Durchsatzsteigerungen bei der Optimierung von Zig-Inferenz und der umfassenden Überarbeitung von exchange-core
  • Verwandelt einfache Prompts in vollständige Frontend-Interfaces und unterstützt unter Nutzung von Bild- und Video-Generierungstools auch einfache Full-Stack-Workflows inklusive Authentifizierung und Datenbankaufgaben
  • Skaliert die Agent Swarm-Struktur auf 300 Sub-Agenten und 4.000 Koordinationsschritte, um Suche, Research, Dokumentenerstellung und Dateigenerierung parallel auszuführen, und wandelt Format und Stil von PDFs, Slides, Tabellen und Word-Dokumenten in wiederverwendbare Skills um
  • Erweitert den Umfang bis zu proaktiven Agenten und Claw Groups für langfristigen autonomen Betrieb, Multi-Agenten-Zusammenarbeit und Aufgaben-Neuzuweisung; Benchmarks und Beta-Tests in Unternehmen bestätigen Verbesserungen bei Coding, Tool-Aufrufen und Zuverlässigkeit bei Langläufern

Long-Horizon-Coding

  • Bei Long-Horizon-Coding-Aufgaben wurden Leistungssteigerungen bestätigt; die Generalisierungsleistung wurde über mehrere Sprachen wie Rust, Go und Python sowie über verschiedene Aufgaben wie Frontend, DevOps und Performance-Optimierung hinweg verbessert
    • Auf dem internen Coding-Benchmark Kimi Code Bench wurden bei komplexen End-to-End-Aufgaben deutliche Verbesserungen gegenüber Kimi K2.5 erzielt
  • Führt bei komplexen Engineering-Aufgaben dauerhaft laufendes Coding aus
    • Erfolgreicher Download und Deployment des Modells Qwen3.5-0.8B in einer lokalen Mac-Umgebung
    • Implementierte und optimierte Modellinferenz in der vergleichsweise speziellen Sprache Zig und belegte damit Out-of-Distribution-Generalisierungsleistung
    • Steigerte den Durchsatz nach mehr als 4.000 Tool-Aufrufen, mehr als 12 Stunden kontinuierlicher Ausführung und 14 Iterationen von etwa 15 tokens/sec auf rund 193 tokens/sec
    • Die finale Geschwindigkeit ist etwa 20 % schneller als LM Studio
  • Führte eine umfassende Überarbeitung der 8 Jahre alten Open-Source-Finanz-Matching-Engine exchange-core durch
    • Während einer 13-stündigen Ausführung wurden 12 Optimierungsstrategien iteriert und mit mehr als 1.000 Tool-Aufrufen über 4.000 Codezeilen präzise angepasst
    • Versteckte Engpässe wurden durch Analyse von CPU- und Speicherzuweisungs-flame graphs identifiziert
    • Die Core-Thread-Topologie wurde von 4ME+2RE auf 2ME+1RE umgestellt
    • Bei einer Engine, die bereits nahe an ihrer Leistungsgrenze war, wurden 185 % mehr mittlerer Durchsatz (0,43→1,24 MT/s) und 133 % mehr Performance-Durchsatz (1,23→2,86 MT/s) erreicht
  • Auch in Unternehmensbewertungen der Beta-Tests wurden zahlreiche positive Einschätzungen zur Zuverlässigkeit bei Long-Horizon-Coding und zur Qualität von Tool-Aufrufen bestätigt
    • Baseten nennt eine Coding-Leistung auf ähnlichem Niveau wie führende geschlossene Modelle, starke Qualität bei Tool-Aufrufen auf Basis des Verständnisses von Third-Party-Frameworks sowie Eignung für komplexe und langfristige Engineering-Aufgaben
    • Blackbox nennt einen neuen Maßstab für Open-Source-Modelle in Long-Horizon- und agentischen Coding-Workflows, die Verarbeitung komplexer mehrstufiger Aufgaben, hohe Codequalität, Stabilität in langen Sessions und die Fähigkeit, nicht offensichtliche Bugs zu erkennen
    • CodeBuddy verzeichnet gegenüber K2.5 12 % mehr Genauigkeit bei der Codegenerierung, 18 % bessere Stabilität bei langem Kontext und eine Erfolgsrate von 96,60 % bei Tool-Aufrufen
    • Factory berichtet von einer Verbesserung um 15 % in einer Bewertung parallel zu den eigenen Benchmarks
    • Fireworks nennt Zuverlässigkeit über lange Abschnitte und Befolgung von Anweisungen als die größten Verbesserungen
    • Hermes Agent nennt die enge Verzahnung von Tool-Aufrufen und Agent-Loops, Verbesserungen beim Coding und einen erweiterten kreativen Spielraum
    • Kilo nennt SOTA-nahe Leistung bei niedrigen Kosten und Stärken bei Aufgaben mit langem Kontext über die gesamte Codebasis hinweg
    • Ollama nennt Eignung für Coding und agentische Tools, Stabilität in langen mehrstufigen Sessions und sofortige Anbindung an bestehende Integrationen
    • OpenCode nennt die Stabilität bei Aufgabenzerlegung und Tool-Aufrufen, reduzierten Wiederholungs-Overhead und die Zuverlässigkeit der End-to-End-Erfahrung
    • Qoder nennt häufigere Tool- und Modellaufrufe, mehr Proaktivität bei der Aufgabenausführung sowie weniger Nutzerunterbrechungen und geringere Latenz
    • Vercel nennt mehr als 50 % Verbesserung im Next.js-Benchmark, Spitzenleistung auf der Plattform sowie Eignung für agentisches Coding und Frontend-Generierung auf Basis der Kosteneffizienz

Auf Coding ausgerichtetes Design

  • Auf Basis starker Coding-Fähigkeiten können einfache Prompts in vollständige Frontend-Interfaces umgewandelt werden
    • Erzeugt strukturierte Layouts mit ästhetischen Hero Sections, interaktiven Elementen und reichhaltigen Animationen inklusive scroll-getriggerter Effekte
  • Unterstützt mit Fähigkeiten zur Nutzung von Bild- und Video-Generierungstools die Erstellung visuell konsistenter Assets
    • Trägt zu höherer Qualität und auffälligeren Hero Sections bei
  • Geht über statische Frontends hinaus und erweitert sich auf einfache Full-Stack-Workflows
    • Einschließlich Authentifizierung, Nutzerinteraktion und Datenbankaufgaben
    • Unterstützt leichte Anwendungsfälle wie Transaktionsprotokolle oder Session-Management
  • Interne Kimi Design Bench aufgebaut
    • Besteht aus vier Kategorien: Visual Input Tasks, Landing Page Construction, Full-Stack Application Development, General Creative Programming
    • Verzeichnete im Vergleich mit Google AI Studio vielversprechende Ergebnisse und gute Leistung in mehreren Kategorien
  • Beispielartefakte von K2.6 Agent bereitgestellt
    • Ergebnisse wurden mit einem einzelnen Prompt sowie vorkonfiguriertem Harness und Tools erzeugt
    • Im ästhetischen Bereich enthalten sie schöne Frontend-Designs mit reichhaltiger Interaktivität
    • Im Funktionsbereich enthalten sie integrierte Datenbank und Authentifizierung
    • Im Bereich der Tool-Nutzung enthalten sie ausgearbeitete Websites unter Einsatz von Bild- und Video-Generierungstools

Verbesserter Agent Swarm

  • Architektur mit Fokus auf horizontale statt nur vertikale Skalierung
    • Agent Swarm zerlegt Aufgaben dynamisch in heterogene Teilaufgaben, die von selbst erzeugten domänenspezifischen Agenten parallel ausgeführt werden
  • Aufbauend auf der Forschungs-Preview von K2.5 Agent Swarm zeigt Kimi K2.6 Agent Swarm einen qualitativen Sprung in der Erfahrung
    • Verbindet breite Suche mit tiefem Research
    • Verbindet groß angelegte Dokumentenanalyse mit dem Schreiben langer Texte
    • Führt die Erstellung von Inhalten in mehreren Formaten parallel aus
    • Liefert innerhalb eines einzelnen autonomen Laufs End-to-End-Ergebnisse über Dokumente, Websites, Slides und Tabellen hinweg
  • Ausbau des horizontalen Skalierungsumfangs der Architektur
    • 300 Sub-Agenten führen 4.000 Koordinationsschritte gleichzeitig aus
    • Deutliche Skalierung gegenüber den 100 Sub-Agenten und 1.500 Schritten von K2.5
    • Umfangreiche Parallelisierung reduziert End-to-End-Latenz, verbessert die Ausgabequalität und erweitert die Einsatzgrenzen von Agent Swarm
  • Hochwertige Dateien wie PDFs, Tabellen, Slides und Word-Dokumente können in Skills umgewandelt werden
    • Erfasst und bewahrt Struktur- und Stilmerkmale der Dokumente
    • Ermöglicht es, später dieselbe Qualität und dasselbe Format zu reproduzieren
  • Mehrere Beispielaufgaben vorgestellt
    • Entwarf und führte 5 Quant-Strategien für 100 globale Halbleiter-Assets aus, leitete ein McKinsey-artiges PPT als wiederverwendbaren Skill ab und lieferte eine detaillierte Modellierungs-Tabelle sowie vollständige Präsentationsunterlagen für Führungskräfte
    • Wandelte eine hochwertige Astrophysik-Arbeit mit umfangreichen visuellen Daten in einen wiederverwendbaren akademischen Skill um, leitete Argumentationsfluss und Visualisierungsmethoden ab und erzeugte eine 40-seitige Forschungsarbeit mit 7.000 Wörtern, einen strukturierten Datensatz mit mehr als 20.000 Einträgen sowie 14 Diagramme auf astronomischem Niveau
    • Erzeugte auf Basis eines hochgeladenen Lebenslaufs 100 Sub-Agenten, matchte 100 passende Stellen in California und lieferte einen strukturierten Chancen-Datensatz sowie 100 maßgeschneiderte Lebensläufe
    • Identifizierte in Google Maps 30 Einzelhandelsgeschäfte in Los Angeles ohne offizielle Website und erzeugte für jedes Geschäft eine Landing Page mit Fokus auf Conversion-Rate

Proaktive Agenten

  • Verzeichnet starke Leistung bei autonomen und proaktiven Agenten wie OpenClaw und Hermes
    • Unterstützt Typen, die 24 Stunden am Tag, 7 Tage die Woche über mehrere Anwendungen hinweg laufen
  • Unterstützt Workflows, die sich von einfacher chatbasierter Interaktion unterscheiden
    • Terminverwaltung, Codeausführung und plattformübergreifende Aufgabenorchestrierung müssen als dauerhafte Hintergrundagenten ausgeführt werden
  • Das RL-Infrastrukturteam führte mit einem auf K2.6 basierenden Agenten einen 5-tägigen autonomen Betrieb durch
    • Zuständig für Monitoring, Incident Response und Systembetrieb
    • Belegte die Aufrechterhaltung dauerhaften Kontexts, die Verarbeitung multithreadiger Aufgaben und die vollständige Ausführung vom Alarm bis zur Behebung
    • Erwähnt das Vorhandensein von Arbeitslogs nach Entfernung sensibler Informationen
  • Verbesserte Zuverlässigkeit in realen Umgebungen gemessen
    • Präzisere API-Interpretation
    • Stabilere Leistung bei langen Ausführungen
    • Verbessertes Sicherheitsbewusstsein bei langfristigen Research-Aufgaben
  • Mit der internen Evaluierungssuite Claw Bench wurden Leistungsverbesserungen quantifiziert
    • Umfasst fünf Bereiche: Coding Tasks, IM Ecosystem Integration, Information Research & Analysis, Scheduled Task Management, Memory Utilization
    • In allen Metriken wurden Abschlussraten und Genauigkeit bei Tool-Aufrufen gegenüber Kimi K2.5 deutlich verbessert
    • Besonders starke Verbesserungen bei Workflows, die dauerhaften autonomen Betrieb ohne menschliche Aufsicht erfordern

Bring Your Own Agents

  • Aufbauend auf starker Orchestrierungsfähigkeit werden proaktive Agenten zu Claw Groups erweitert
    • Eine neue Implementierungsform der Agent-Swarm-Architektur, als Forschungs-Preview vorgestellt
  • Nimmt ein offenes und heterogenes Ökosystem auf
    • Mehrere Agenten und Menschen arbeiten gemeinsam als reale Kollaborationspartner
    • Nutzer können Agenten auf jedem Gerät und unabhängig vom verwendeten Modell onboarden
    • Jeder Agent verfügt über einen eigenen Tool-Satz, eigene Skills und einen persistenten Memory-Kontext
    • Agenten aus unterschiedlichen Umgebungen wie lokale Laptops, mobile Geräte und Cloud-Instanzen werden natürlich in einen gemeinsamen Arbeitsraum integriert
  • Zentral übernimmt Kimi K2.6 die Rolle eines adaptiven Koordinators
    • Verteilt Aufgaben dynamisch anhand des Skill-Profils und der verfügbaren Tools jedes Agenten
    • Optimiert Aufgaben entsprechend den passenden Fähigkeiten
    • Erkennt Agentenausfälle oder Stillstand und weist Aufgaben neu zu oder erzeugt Teilaufgaben erneut
    • Verwaltet den gesamten Lebenszyklus von Ergebnissen aktiv, vom Start über Verifikation bis zum Abschluss
  • Enthält eigene Anwendungsfälle für Claw Groups
    • Ein internes Agent-Marketing-Team wird genutzt, um Mensch-Agent-Workflows in der Praxis zu verfeinern
    • Spezialisierte Agenten wie Demo Makers, Benchmark Makers, Social Media Agents und Video Makers arbeiten zusammen
    • Betreibt End-to-End-Content-Produktion und Launch-Kampagnen
    • K2.6 koordiniert das Teilen von Zwischenergebnissen und die Überführung von Ideen in konsistente, ausgereifte Deliverables
  • Erweitert die Beziehung zwischen Mensch und KI über Frage-Antwort und einfache Aufgabenzuweisung hinaus zu einer substanziellen kollaborativen Partnerschaft
    • Stellt eine Zukunftsvision vor, in der die Grenzen zwischen „my agent“, „your agent“ und „our team“ innerhalb eines Kollaborationssystems natürlich verschwinden

Benchmark-Tabelle

  • Wichtige Kennzahlen im Bereich Agentic
    • HLE-Full w/ tools 54.0, GPT-5.4 52.1, Claude Opus 4.6 53.0, Gemini 3.1 Pro 51.4, Kimi K2.5 50.2
    • BrowseComp 83.2, BrowseComp(agent swarm) 86.3, Kimi K2.5 jeweils 74.9 und 78.4
    • DeepSearchQA f1-score 92.5, accuracy 83.0
    • WideSearch item-f1 80.8
    • Toolathlon 50.0, Kimi K2.5 27.8
    • MCPMark 55.9
    • Claw Eval pass^3 62.3, pass@3 80.9
    • APEX-Agents 27.9
    • OSWorld-Verified 73.1
  • Wichtige Kennzahlen im Bereich Coding
    • Terminal-Bench 2.0 (Terminus-2) 66.7
    • SWE-Bench Pro 58.6
    • SWE-Bench Multilingual 76.7
    • SWE-Bench Verified 80.2
    • SciCode 52.2
    • OJBench (python) 60.6
    • LiveCodeBench (v6) 89.6
  • Wichtige Kennzahlen im Bereich Reasoning & Knowledge
    • HLE-Full 34.7
    • AIME 2026 96.4
    • HMMT 2026 (Feb) 92.7
    • IMO-AnswerBench 86.0
    • GPQA-Diamond 90.5
  • Wichtige Kennzahlen im Bereich Vision
    • MMMU-Pro 79.4, MMMU-Pro w/ python 80.1
    • CharXiv (RQ) 80.4, CharXiv (RQ) w/ python 86.7
    • MathVision 87.4, MathVision w/ python 93.2
    • BabyVision 39.8, BabyVision w/ python 68.5
    • V* w/ python 96.9
  • Für die offizielle Reproduktion der Kimi-K2.6-Benchmark-Ergebnisse wird die Nutzung der offiziellen API empfohlen
    • Für die Auswahl von Drittanbieter-Providern wird auf den Kimi Vendor Verifier (KVV) verwiesen

Fußnoten

  • Allgemeine Testdetails

    • Für Kimi K2.6 und Kimi K2.5 wurden Ergebnisse mit thinking mode enabled berichtet, für Claude Opus 4.6 mit max effort, für GPT-5.4 mit xhigh reasoning effort und für Gemini 3.1 Pro mit high thinking level
    • Sofern nicht anders angegeben, wurden Kimi-K2.6-Experimente mit temperature 1.0, top-p 1.0 und einer Kontextlänge von 262.144 Tokens durchgeführt
    • Benchmarks ohne öffentlich verfügbare Scores wurden unter denselben Bedingungen wie Kimi K2.6 erneut evaluiert und mit einem Sternchen (*) markiert
    • Ergebnisse ohne Sternchen stammen aus offiziellen Berichten
  • Reasoning-Benchmarks

    • Die IMO-AnswerBench-Scores von GPT-5.4 und Claude 4.6 wurden aus dem z.ai-Blog übernommen
    • Humanity's Last Exam (HLE) und andere Reasoning-Aufgaben wurden mit einer maximalen Generierungslänge von 98.304 Tokens evaluiert
    • Der standardmäßig berichtete Wert ist das HLE full set
    • Im rein textbasierten Teilset erreichte Kimi K2.6 36,4 % accuracy ohne Tools und 55,5 % accuracy mit Tools
  • Tool-augmented und agentische Aufgaben

    • Bei HLE with tools, BrowseComp, DeepSearchQA und WideSearch wurden die Tools search, code-interpreter und web-browsing eingesetzt
    • HLE-Full with tools wurde mit einer maximalen Generierungslänge von 262.144 Tokens und einem Step-Limit von 49.152 Tokens durchgeführt
    • Wenn das Kontextfenster den Schwellenwert überschritt, wurde eine einfache Kontextverwaltungsstrategie verwendet, die nur die jüngste Runde toolbezogener Nachrichten beibehält
    • Die BrowseComp-Scores wurden mit derselben Kontextverwaltung per discard-all-Strategie wie bei Kimi K2.5 und DeepSeek-V3.2 erzielt
    • Bei DeepSearchQA wurde in den Kimi-K2.6-Tests keine Kontextverwaltung angewendet; Aufgaben, die die unterstützte Kontextlänge überschritten, wurden direkt als Fehlschlag gezählt
    • Die DeepSearchQA-Scores von Claude Opus 4.6, GPT-5.4 und Gemini 3.1 Pro stammen aus der Claude Opus 4.7 System Card
    • WideSearch berichtet Ergebnisse mit der Kontextverwaltungseinstellung hide tool result
    • Der Test-System-Prompt ist identisch mit dem des Kimi K2.5 technical report
    • Claw Eval wurde mit version 1.1 und max-tokens-per-step 16384 durchgeführt
    • Bei APEX-Agents wurden von 480 öffentlichen Aufgaben 452 Aufgaben evaluiert
      • Wie bei Artificial Analysis wurden Investment Banking Worlds 244, 246 ausgeschlossen
      • Grund für den Ausschluss sind externe Laufzeitabhängigkeiten
  • Coding-Aufgaben

    • Der Terminal-Bench-2.0-Score wurde mit dem Standard-Agent-Framework Terminus-2 und dem bereitgestellten JSON parser im Modus preserve thinking mode erzielt
    • Für SWE-Bench-Evaluierungen (einschließlich Verified, Multilingual und Pro) wurde ein intern entwickeltes Evaluierungsframework verwendet, das auf SWE-agent basiert
    • Die Tool-Konfiguration dieses Frameworks besteht aus dem minimalen Satz bash tool, createfile tool, insert tool, view tool, strreplace tool und submit tool
    • Alle berichteten Scores für Coding-Aufgaben sind Durchschnittswerte aus 10 unabhängigen Läufen
  • Vision-Benchmarks

    • Es wurden max-tokens 98,304 und ein Durchschnitt aus 3 Läufen (avg@3) verwendet
    • Bei aktivierter Python-Tool-Nutzung wurde mehrstufiges Reasoning mit max-tokens-per-step 65,536 und max-steps 50 durchgeführt
    • MMMU-Pro folgt dem offiziellen Protokoll, behält die Eingabereihenfolge bei und platziert Bilder an erster Stelle

3 Kommentare

 
GN⁺ 9 일 전
Hacker-News-Kommentare
  • Ich habe es mal über OpenRouter angebunden ausprobiert, und beeindruckend war, dass dieses Modell nicht einfach nur einen SVG-Pelikan gezeichnet hat, sondern ihn auch noch in HTML verpackt mit Steuerung der Animationsgeschwindigkeit ausgegeben hat. Der Chatverlauf und das HTML sind in diesem gist zu finden, ein Laufbeispiel gibt es unter diesem Link

    • Inzwischen denke ich, dass solche Pelikan-SVGs wohl schon im Trainingsdatensatz gelandet sind
    • Das wirkte völlig wie ein übereifriger Musterschüler, und auch der Name Kimi klingt irgendwie nach einem braven Vorzeigeschüler
    • Leider scheint in die Beine und Füße des Pelikans nicht die gleiche Sorgfalt geflossen zu sein. Das linke Bein bewegt sich gar nicht, als wäre es gelähmt, und der rechte Knöchel rotiert beunruhigend hektisch
    • Ich habe es in der Beta benutzt, und es war ein ziemlich gutes Modell. In manchen Momenten habe ich sogar vergessen, dass ich nicht Opus oder GPT benutze. Trotzdem ist Opus weiterhin besser, und GPT wirkte für mich eher angestrengter. Bei Backend-Arbeit gab es zwar eine kleine Nische, aber mit Können ließ sich Ähnliches auch mit Opus lösen, und insgesamt hatte es eher mehr Schwächen
    • Ich frage mich ernsthaft, was der Zweck davon ist, das in fast jedem Thread zu neuen Modellen zu posten. Vielleicht bin ich einfach alt und grantig, aber das war schon vor langer Zeit abgenutzt und wirkt wie ein Reddit-Kommentar mit Minimalaufwand
  • Nach den frühen Benchmarks hat sich Kimi K2.6 deutlich gegenüber Kimi K2 Thinking verbessert. Das vorherige Modell hat in unseren Benchmarks nicht besonders gut abgeschnitten, obwohl auch die Quantisierung mit den bestmöglichen Einstellungen lief. Jetzt gehört Kimi K2.6 bei One-Shot-Coding-Reasoning zu den besten Open-Weight-Modellen, ist leicht besser als GLM 5.1 und konkurrenzfähig mit den SOTA-Modellen von vor etwa drei Monaten, also ungefähr auf dem Niveau von Gemini 3.1 Pro Preview. Agentische Tests laufen noch, und Open-Weight-Modelle sind in Long-Context-Agent-Workflows meist eher schwach, aber GLM 5.1 hat sich ziemlich gut gehalten, daher bin ich auf Kimis Ergebnisse gespannt. Allerdings sind sowohl die alte als auch die neue Version eher langsam, was die Praxistauglichkeit für agentisches Coding einschränken könnte. Das frühere Kimi K2 war stark benchmarkoptimiert und schien mehr an Variationen und Temperatur interessiert als am Lösen schwieriger Probleme, aber dieses Modell wirkt deutlich stärker als Generalist. Insgesamt sieht das Open-Weight-Lager wirklich stark aus, und es wirkt fast so, als käme jede Woche ein neues Frontier-Modell heraus. Detaillierte Benchmarks gibt es bei gertlabs

    • Ich würde gern wissen, wie K2.6 bei Preis und Leistung im Vergleich zu Sonnet 4.6 abschneidet
    • Dass die Leistung je nach Sprache so stark schwankt, fand ich ziemlich überraschend
  • Es hat einen ironischen Witz, dass China vielleicht die wichtigste Technologie der Welt per Open Source vorantreibt, während die USA genau in die entgegengesetzte Richtung gehen

    • Ich denke, ein Motiv ist die Eindämmung US-amerikanischer Unternehmen. OpenAI und Anthropic sind die größten Player, und beide sind US-Firmen. Je mehr Open-Weight-Modelle es gibt, desto schwächer wird ihre industrielle Dominanz. Wenn chinesische Firmen die amerikanische Strategie geschlossener Modelle wählen würden, würden die meisten am Ende wohl doch ChatGPT oder Claude nutzen. Wenn sich also ohnehin kaum große Gewinne erzielen lassen, ist es realistischer, Open-Weight-Modelle zu veröffentlichen und damit die Extraprofite der US-Firmen zu verringern
    • Große technologische Fortschritte werden am Ende durch Offenheit beschleunigt. Man muss sich nur das iPhone ansehen: Viele Schlüsseltechnologien wie GPS, Internet, Sprachassistenten, Touchscreens, Mikroprozessoren und Lithium-Ionen-Batterien stammen aus staatlicher Forschung oder aus Forschung, die dem öffentlichen Bereich sehr nahe war. Private Unternehmen öffnen ihren Wettbewerbern keine Durchbrüche einfach so, daher muss Technologie am Ende geöffnet werden, wenn ein ganzes Feld vorankommen soll
    • Mit diesem Update ist Kimi K2.6 meiner Meinung nach das stärkste offene multimodale KI-Modell. Natürlich bin ich nicht beteiligt. Wenn man veröffentlichte KI-Benchmarks zusammenträgt, steht es im Vergleich zu Opus 4.6 max effort bei Agenten 5 zu 5, beim Coding Kimi 5 zu Opus 1, bei Reasoning und Wissen Kimi 1 zu Opus 4 und bei Vision Kimi 9 zu Opus 0. Man muss dabei bedenken, dass Benchmarks von den Modellherstellern ausgewählt werden und daher verzerrt sein können, aber viele Coding- und Reasoning-Kategorien waren dennoch ziemlich standardnah
    • Ganz so eindeutig ist es nicht. Google hat vor Kurzem Gemma 4 veröffentlicht, und Allen AI bringt ebenfalls offene Modelle der Olmo-Reihe heraus. Trotzdem wirken die offenen Modelle aus China eindeutig stärker, und besonders die Qwen-3-Familie schlägt sich gefühlt über ihrer Gewichtsklasse
    • Es gibt viele Spekulationen darüber, warum chinesische Labs ihre Modelle als Open Source veröffentlichen, aber für mich ist der Grund einfach und klar: Das ist faktisch ihre einzige mögliche Kommerzialisierungsstrategie. Das habe ich in meinem Text zusammengefasst
  • Ich fand es immer überraschend, dass Kimi weniger Aufmerksamkeit bekommt, als man erwarten würde. Es fiel bei Kreativität und Qualität immer wieder auf und war lange Zeit mein Lieblingsmodell. Natürlich bin ich keine Autorität

    • Es ist gut, aber für mich noch nicht auf Claude-Niveau. Außerdem hat die API oft Kapazitätsprobleme. Das Preis-Leistungs-Verhältnis ist aber absurd gut; ich habe vor Wochen oder Monaten 40 Dollar aufgeladen und noch nicht einmal die Hälfte verbraucht
    • Auch witzig ist, dass es eines der wenigen Modelle ist, die eine SVG-Uhr zeichnen können. Beispiele gibt es auf dieser Seite
    • Noch besser war, dass es bei OpenRouter sehr günstig war. Hoffentlich setzt 2.6 diese Tradition fort
    • Ich habe es als Option in Kagi Assistant genutzt, und in einer Umgebung mit viel Suche und Zusammenfassung haben mir die Ergebnisse gefallen. Besonders gut war es, wenn ich statt des typischen listenhaften oder mit Markdown überladenen LLM-Stils um natürliche Prosa gebeten habe. Ich kann es nicht sicher vergleichen, aber es schien den Originaltext recht mutig umzustellen, um den Output flüssiger zu machen, und manchmal war genau diese Bearbeitung nötig, um getrennt behandelte verwandte Ideen zu verbinden oder die Anfrage wirklich zu beantworten
    • Ich erinnere mich an das erste K2: Beim kreativen Schreiben lag es eine Zeit lang klar vor anderen Modellen
  • Ich frage mich, ob hier jemand Kimi tatsächlich in der Arbeit benutzt hat. Ich habe es einmal ausprobiert, und trotz glänzender Benchmarks war mein Eindruck im echten Einsatz eher mittelmäßig. Qwen 3.6 hingegen fand ich ziemlich gut, und auch wenn es nicht an Opus heranreicht, kann es mit Sonnet durchaus mithalten

    • Wenn mein Codex-Kontingent aufgebraucht war, habe ich stattdessen Kimi K2.5 verwendet, und für kleine bis mittlere Aufgaben war es solide. Bei komplexen Aufgaben musste ich hinterher aber zwei Tage lang mit Codex aufräumen, daher hoffe ich, dass 2.6 besser geworden ist
    • Vor GLM-5.1 bin ich zwischen Opus 4.5 und Kimi 4.5 hin- und hergewechselt, und auch auf der Kimi-Seite waren die Ergebnisse ziemlich gut
    • Wahrscheinlich benutzen viele es bereits tatsächlich, denn wenn man in Cursor das Modell composer-2 nutzt, ist das aus der Kimi-Familie. Für Planung gehört es zur Spitzengruppe, und auch die Ausführung läuft in composer-2 meiner Erfahrung nach gut
  • Wenn das Benchmark-Gefühl und der reale Eindruck zusammenpassen, könnte das so ein DeepSeek-Moment sein, in dem chinesische KI fast auf Augenhöhe mit Modellen der besten US-Labs steht

    • Im Vergleich zur vorherigen Modellgeneration ja, aber im Vergleich zu den sogenannten mythischen 10T-Modellen ist es meiner Meinung nach noch überhaupt nicht nah dran
  • Nach meinen Tests und laut aibenchy-Vergleich war Kimi K2.6 nur leicht besser als Kimi K2.5. Vor allem bei Rätseln, domänenspezifischen Problemen und Aufgaben mit Fallen zur Genauigkeit gab es häufig Nichtbefolgen von Anweisungen und falsche Antworten. Als Coding-Modell mag es hervorragend sein, aber beim allgemeinen Intelligenzeindruck liegt es für mich weiterhin etwas unter der absoluten SOTA-Spitze

    • Ich habe es bei OpenRouter mit max tokens auf 8192 benutzt, aber selbst im Non-Thinking-Modus waren alle Antworten abgeschnitten. Das könnte ein Deployment-Problem sein, aber auch in deinem Link sah es so aus, als würde es extrem viele Output-Tokens erzeugen
  • Manchmal frage ich mich, ob in der Zukunft, so wie Computer früher einen ganzen Raum füllten und heute in die Hosentasche passen, die Rechenleistung eines heutigen Rechenzentrums irgendwann in ein einzelnes Gerät wie ein Smartphone passen könnte. Das Tempo des technischen Fortschritts wirkt, als würde es sich jedes Jahr beschleunigen, daher frage ich mich, ob so ein Wandel nicht auch schneller kommen könnte

    • Es gibt in diese Richtung bereits erste Arbeiten. Firmen wie Taalas bauen etwa LLM-ASICs, und HC1 soll bei llama 8b 17k Token pro Sekunde schaffen. Mit derzeit etwa 2,5 kW ist das noch eher ein einzelner Server als ein Smartphone, aber für einen ersten Chip ist das dennoch bedeutsam. Alternativen wie photonisches Rechnen könnten den Stromverbrauch stark senken, wirken aber noch wie Forschung. Da so viel Geld in KI fließt und klassische GPU-Inferenz sehr energiehungrig ist, erwarte ich in diesem Bereich ziemlich schnelle Fortschritte
    • Ich glaube nicht, dass es ganz so schnell geht. Historisch gab es meist eine exponentielle Verkleinerung, und wenn dieser Trend anhält, sollte die Zeit, die es braucht, Rechenleistung von Raumgröße auf Taschengröße zu schrumpfen, ungefähr ähnlich bleiben. Außerdem liegen wir zuletzt sogar unter dieser Exponentialkurve, und exponentielles Wachstum hält ohnehin selten sehr lange an. Ich stimme zu, dass sich die Technologie weiter beschleunigt und Rechengeräte weiter kleiner werden, aber daraus folgt für mich nicht automatisch, dass der nächste Schrumpfungsschritt in kürzerer Zeit kommt
  • Ich habe den ganzen Morgen damit in einer App getestet, und vom Gefühl her lagen die Ergebnisse nahe bei Sonnet 4.6. Das ist rein ein vibes-basierter Eindruck ohne formale Verifizierung, aber es ist schön zu sehen, dass bei Frontier-Modellen echter Wettbewerb entsteht

    • Dank K2.6 und GLM 5.1 fühlt es sich jetzt so an, als bekäme man Sonnet-Niveau an Intelligenz zum Haiku-Preis. Das ist wirklich großartig. Ich hoffe, Anthropic bringt bald ein neues Haiku heraus; um mit den billigeren Modellen konkurrieren zu können, bräuchte es wohl ein Produkt zum Preis von einem Drittel bis einem Fünftel des aktuellen Haiku. Gemma-4 schlägt sich in dieser Preisklasse ziemlich gut
  • Ich habe mich gefragt, ob es für dieses Modell ein Coding-Abo zum Pauschalpreis gibt, also eines mit begrenzten API-Aufrufen statt Token-Limits. Bei z.ai ist mir zuletzt die GLM-Abrechnung fehlgeschlagen, dadurch ist mein Abo ausgelaufen, und die Preise sind in den letzten Monaten auch viel zu stark gestiegen

    • Kimi hat auch ein eigenes Abo, ziemlich ähnlich zu anderen Diensten, und man kann es unter Kimi Code nachsehen
 
ingwannu 8 일 전

Ich persönlich habe kimi2.5 über den firepass von Fireworks.ai für 30 US-Dollar im Monat unbegrenzt sehr gut genutzt. Deshalb freue ich mich sehr auf die Leistungsverbesserungen von 2.6, die bald auch bei firepass übernommen werden sollen.

Nachdem ich es kurz über die API ausprobiert habe, hatte ich den Eindruck, dass es im Vergleich zu 2.5 ein sehr großer Fortschritt ist.

 
chlrhdmltkfkd 7 일 전

Wow, hier wurden Neuanmeldungen gesperrt.