3 Punkte von GN⁺ 2026-01-28 | 1 Kommentare | Auf WhatsApp teilen
  • Kimi K2.5 ist ein multimodales Open-Source-Modell, das mit rund 1,5 Billionen zusätzlichen visuellen und Text-Token weitertrainiert wurde und Fähigkeiten für Coding und Vision vereint
  • Mit der Agent-Swarm-Architektur, die bis zu 100 Sub-Agenten parallel steuert, erledigt es komplexe Aufgaben 4,5-mal schneller
  • In Verbindung mit Kimi Code und der Kimi App unterstützt es verschiedene praxisnahe Funktionen wie bild- und videobasiertes Coding, visuelles Debugging und Office-Automatisierung
  • In internen Benchmarks verzeichnete es gegenüber K2 deutliche Leistungssteigerungen in den Bereichen Coding, Vision und Office-Produktivität
  • In der Open-Source-Community wird es als Modell bewertet, das konkrete Fortschritte auf dem Weg zu AGI (Artificial General Intelligence) zeigt

Überblick über Kimi K2.5

  • Kimi K2.5 ist ein nativ multimodales Modell, das auf dem K2-Modell basiert und mit rund 1,5 Billionen gemischten visuellen und Text-Token zusätzlich vortrainiert wurde
    • Es integriert Coding- und Vision-Funktionen und setzt das Paradigma eines autonomen Agent Swarm um
  • Bis zu 100 Sub-Agenten führen parallel bis zu 1.500 Tool-Aufrufe aus und erreichen gegenüber einem einzelnen Agenten bis zu 4,5-mal schnellere Laufzeiten
  • Verfügbar über Kimi.com, die Kimi App, die API und Kimi Code; unterstützt die Modi Instant, Thinking, Agent und Agent Swarm (Beta)

Integration von Coding und Vision

  • K2.5 ist ein Open-Source-Coding-Modell mit Stärken in der Frontend-Entwicklung und erzeugt automatisch komplexe UIs wie dialogbasierte Oberflächen und scroll-triggered animation
  • Es unterstützt visuelles Coding auf Basis von Bildern und Videos, indem es die visuell ausgedrückte Absicht der Nutzer in Code umwandelt
    • Beispiele sind die Rekonstruktion einer Website aus einem Video oder die Suche nach dem kürzesten Pfad (113.557 Schritte) in einem Labyrinthbild mit dem BFS-Algorithmus
  • Durch großskaliges gemeinsames Vision-Text-Training wurden visuelle und sprachliche Fähigkeiten gemeinsam verbessert
  • In der internen Kimi Code Bench zeigte es gegenüber K2 durchgehend bessere Ergebnisse bei mehrsprachigen Coding-Aufgaben wie Build, Debugging, Refactoring und Tests
  • Kimi Code ist in das Terminal sowie in IDEs wie VSCode, Cursor und Zed integriert und unterstützt Bild- und Videoeingaben sowie automatische Skill-Migration

Agent Swarm

  • K2.5 Agent Swarm ist keine Erweiterung eines Einzelagenten, sondern eine parallel kollaborative Struktur, die mit Parallel-Agent Reinforcement Learning (PARL) trainiert wurde
    • Ein Orchestrator-Agent zerlegt Aufgaben in parallelisierbare Teilaufgaben, die von festen Sub-Agenten gleichzeitig ausgeführt werden
  • Die Reward-Funktion fördert anfangs die Suche nach Parallelität und verlagert den Schwerpunkt schrittweise auf die Task-Qualität Q(τ)
  • Mit Critical Steps wurde eine verzögerungsorientierte Metrik eingeführt, um die Effizienz paralleler Ausführung zu bewerten
  • In internen Bewertungen wurde die End-to-End-Ausführungszeit um 80 % reduziert und die Fähigkeit zur Bearbeitung komplexer Langzeitaufgaben verbessert
    • Beispiel: Bei der Suche nach YouTube-Creatorn in 100 Spezialgebieten werden 100 Sub-Agenten parallel erzeugt und die Ergebnisse zusammengeführt

Office-Produktivität

  • K2.5 Agent unterstützt die Automatisierung umfangreicher Office-Aufgaben und erledigt interaktiv alles von Dokumenten und Tabellen bis zur Erstellung von PDFs und Präsentationsfolien
  • Im internen AI Office Benchmark und General Agent Benchmark wurden Verbesserungen von 59,3 % bzw. 24,3 % erzielt
  • Es führt anspruchsvolle Aufgaben aus, etwa das Hinzufügen von Word-Kommentaren, Finanzmodellierung auf Basis von Pivot Tables oder das Schreiben von LaTeX-Formeln in PDFs
  • Auch längere Arbeiten wie eine 10.000-Wörter-Abhandlung oder ein 100-seitiges Dokument werden in wenigen Minuten erstellt

Fazit

  • Kimi K2.5 zeigt Fortschritte in drei Bereichen: visionbasiertes Coding, Agent Swarm und Office-Automatisierung und demonstriert damit einen AGI-Ansatz unter realen Einschränkungen
  • Künftig soll durch den Ausbau von agentic intelligence die Grenze von Wissensarbeit neu definiert werden

Anhang: Wichtige Benchmark-Ergebnisse

  • Vergleich mit GPT-5.2, Claude 4.5, Gemini 3 Pro und anderen in sieben Bereichen wie Reasoning, Vision, Coding und Agentic Search
    • HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
    • MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
    • SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
    • BrowseComp (Swarm Mode) : 78.4
  • In den meisten Vision-, Coding- und Agentic-Search-Benchmarks wurden Spitzenergebnisse erzielt
  • Alle Experimente wurden mit 256k Token Context, temperature=1.0 und top-p=0.95 durchgeführt
  • Mit dem Kimi Vendor Verifier (KVV) kann die Genauigkeit von Drittanbieterdiensten überprüft werden

1 Kommentare

 
GN⁺ 2026-01-28
Hacker-News-Kommentare
  • Auf der Kimi-K2.5-Seite von Hugging Face steht, dass es sich um ein Modell mit 1 Billion Parametern handelt.
    Es basiert auf der MIT-Lizenz, aber für kommerzielle Dienste mit mehr als 100 Millionen monatlich aktiven Nutzern oder mehr als 20 Millionen Dollar Umsatz gibt es die zusätzliche Auflage, in der UI „Kimi K2.5“ anzuzeigen.

    • 1 Billion – selbst mit int4 dürfte man dafür etwa ein halbes Terabyte VRAM brauchen.
      Technisch beeindruckend, aber weil man das zu Hause ohnehin nicht laufen lassen kann, wirkt es fast so, als hätte man es kostenlos freigegeben und dabei das Risiko halbiert.
    • Die Cursor-Entwickler wollten wohl verbergen, dass das Composer-Modell auf GLM basiert; das dürfte für sie eine eher unangenehme Nachricht sein.
    • Ich frage mich, ob bei Kimi K2.5 wirklich thinking, instruct, agent und agent swarm (beta) alle Open Source sind.
      In der API wird agent swarm erwähnt, aber ich würde gern wissen, ob damit auch die Gewichte veröffentlicht wurden.
    • Wenn in der Klausel steht „Bei über 20 Millionen Dollar Umsatz muss in der UI Kimi K2.5 angezeigt werden“, dann wäre es vielleicht ehrlicher zu sagen: „Zahlt 1 Million Dollar“.
  • Der „Deepseek moment“ war genau vor einem Jahr.
    Verglichen mit damals wird heute wirklich sehr viel Technik kostenlos veröffentlicht, und das fühlt sich komplett anders an als der geschlossene Ansatz von OpenAI.

    • Seit DeepSeekR1 ist das Entwicklungstempo chinesischer Modelle erstaunlich: v3-0324, v3.1, v3.1-terminus, v3.2-speciale und mehr.
      Dazu kommen GLM 4.7 flash, Minimax-M2 und die Qwen-Serie – die Vielfalt ist enorm.
      Ich habe meine OpenAI- und Anthropic-Abos vor zwei Jahren gekündigt und vermisse nichts.
    • Das ist kein Zufall. Chinesische Unternehmen bringen vor dem Frühlingsfest oft große Releases heraus, daher könnte auch vor dem 17. Februar noch mehr kommen.
    • Ich frage mich, warum man ein derart großes Modell kostenlos veröffentlicht. Was ist dabei eigentlich das Geschäftsmodell?
    • Ich denke, Deepseek war in Wirklichkeit ein marketinggetriebenes Projekt.
      Selbst auf Reddit tauchten ständig merkwürdig viele ‚pro-deepseek‘-Kommentare auf. Fast wie Apple-artiges Marketing.
    • Aber solche Modelle können auch für Sicherheitsangriffe oder biologische Angriffe missbraucht werden.
      Chinesische Firmen veröffentlichen so etwas wohl kaum aus Menschenfreundlichkeit.
  • Hier wurden einige nützliche Seiten geteilt, um verschiedene Modelle zu vergleichen.

  • Kimi K2.5 führt bis zu 100 Sub-Agenten parallel aus und verarbeitet dabei bis zu 1.500 Tool-Aufrufe gleichzeitig.
    Interessant ist, dass nicht nur einfache Tool-Aufrufe unterstützt werden, sondern die Agenten-Orchestrierung selbst per Reinforcement Learning (RL) trainiert wurde.

    • Aber 1.500 Tool-Aufrufe sind ein Albtraum für die Kostenstruktur. Schon bei einigen Dutzend Schritten brechen die Margen weg; ohne VC-Geld scheint das kaum nachhaltig.
    • Ich frage mich, ob „self-direct an agent swarm“ eine interne Modellfunktion ist oder auf IDE-/Service-Ebene umgesetzt wurde.
      Normalerweise gibt das Modell „call tool X“ aus, dann führt die IDE das aus und schickt das Ergebnis zurück.
    • Parallele Agenten sind ein einfacher, aber wirkungsvoller Trick.
      Ich erziele mit dem TeammateTool von Claude Code einen ähnlichen Effekt.
  • Moonshot AI hat neben K2.5 auch Kimi Code veröffentlicht.
    Das ist ein Terminal-Coding-Agent, der aus der bisherigen Kimi CLI hervorgegangen ist; ich habe ihn seit letztem Monat genutzt und er wirkt recht stabil.
    GitHub: MoonshotAI/kimi-cli

    • Es ist nicht nur ein einfacher Coding-Agent, sondern übernimmt auch die Rolle einer Shell.
      Es gibt einen zsh-Hook, mit dem man von überall in den Agent-Modus wechseln kann.
    • Ich frage mich, ob die Swarm-Funktion unterstützt wird und ob auch Opencode unterstützt wird.
    • Mich würde auch interessieren, wie die Leistung im Vergleich zu CC ausfällt.
  • Interessant an K2.5 ist, dass es darauf trainiert wurde, automatisch Sub-Agenten zu erzeugen und einen Swarm zu bilden.
    Das ähnelt den dynamischen Sub-Agenten von Claude Code, kann aber deutlich mehr Agenten autonom steuern.
    Ich bin gespannt, ob Claude ähnlich trainiert wird und ob das in der nächsten Version öffentlich wird.

  • In letzter Zeit setzen chinesische Modelle bei Benchmarks Claude Opus als Referenz.
    Sowohl Qwen3 max thinking als auch Kimi K2.5 vergleichen sich nicht mit Sonnet, sondern mit Opus. Sie holen fast im gleichen Tempo auf.

    • Auf clocks.brianmoore.com gehört K2 zu den wenigen Modellen, die den Uhrentest perfekt bestehen.
    • Chinesische Forschungslabore folgen einem Muster, bei dem sie westliche SOTA-Modelle destillieren und innerhalb weniger Monate aufholen.
    • In Benchmarks wirken sie ähnlich, aber in der tatsächlichen Nutzbarkeit liegen die Modelle von Anthropic noch vorn.
    • Am Ende sind reale Nutzungsszenarien wichtiger. Nur anhand von Benchmark-Scores lässt sich das schwer beurteilen.
  • Kimi K2 wurde oft eine hohe emotionale Intelligenz zugeschrieben.
    Ich frage mich, ob K2.5 diese Eigenschaft beibehalten wird.

    • Ich hatte denselben Eindruck. Ich würde wirklich gern wissen, wie sie solche emotionalen Reaktionen umgesetzt haben.
    • Ich werde das auf mafia-arena.com testen.
    • Es ist subjektiv, aber es wirkte auf mich menschlicher als Gemini 3, GPT 5.2 und Opus 4.5.
  • Der CCP-bench-Score wurde bei K2.5 deutlich verbessert.
    Siehe dieses Bild.

  • Glückwunsch an das Kimi-Team zu diesem Ergebnis.
    Ich frage mich aber, warum Claude im Coding-Bereich immer noch auf Platz 1 steht. Liegt das an coding-spezifischem Training oder an der allgemeinen Trainingsqualität?
    Es wäre schön, wenn jemand Opus 4.5 beim Coding schlagen würde.

    • Der Unterschied in Benchmarks bedeutet fast nichts. Im echten Coding-Umfeld ist das Rauschen viel größer.
      Teilweise sind Modelle eher auf Benchmarks überangepasst.
      Ich habe sowohl GPT5.2 als auch Opus 4.5 verwendet, und in der Praxis ist die Coding-Leistung fast identisch.
      Außerdem kostet K2.5 nur etwa ein Fünftel der Top-Modelle, was vielversprechend ist.
    • Ich nutze statt Opus Gemini Pro, weil es die Code-Struktur neu entwirft und Anforderungen besser umsetzt.
      Opus greift oft zu unnötiger Abstraktion oder Hardcoding.
    • Gemini 3 Pro ist vor allem bei großen Codebasen deutlich stärker.
    • Opus 4.5 wurde vor zwei Monaten veröffentlicht, und Anthropic hat sich bei der Leistung im Coding-Bereich besonders darauf konzentriert.