Kimi K2.5 Technischer Bericht [PDF] – Offenes multimodales Modell auf dem Weg zu visueller Agentenintelligenz

(github.com/MoonshotAI)

5 Punkte von GN⁺ 2026-02-01 | Noch keine Kommentare. | Auf WhatsApp teilen

Das von Moonshot AI veröffentlichte Kimi K2.5 ist ein Open-Source-multimodales Agentenmodell, das Text und Vision gemeinsam optimiert, und verarbeitet in einem einzigen Modell umfassend Schlussfolgern, Coding, Vision- und Agentenaufgaben
Um die Grenzen bestehender sequenzieller Agenten zu überwinden, führt es eine parallele Agenten-Orchestrierung mit Agent Swarm ein, die komplexe Aufgaben gleichzeitig zerlegt und ausführt
In umfassenden Benchmark-Evaluierungen, die Bilder, Videos, Dokumente, Web- und OS-Umgebungen einschließen, werden Leistungswerte im Vergleich zu kommerziellen und Open-Source-Modellen präsentiert
Experimentell bestätigt wird ein Cross-Modal-Transfer-Effekt, bei dem visuelles Reinforcement Learning auch die Leistung beim Text-Reasoning verbessert
Durch die Veröffentlichung der trainierten Checkpoints zielt das Projekt auf die Erforschung universeller Agentensysteme und die Ausweitung auf den praktischen Einsatz ab

Überblick und Problemstellung

Große Sprachmodelle entwickeln sich über einfache Frage-Antwort-Systeme hinaus zu Agentenintelligenz, die Tools nutzt und langfristige Planung ausführt
Bestehende multimodale Modelle setzen meist auf textzentrierte Designs, denen Vision nachträglich hinzugefügt wird, was zu Konflikten zwischen Modalitäten und Grenzen bei der Generalisierung führt
Bei komplexen realen Aufgaben wirken Verzögerungen durch sequenzielle Agentenausführung und Kontextgrenzen als zentrale Engpässe

Zentrale Architektur von Kimi K2.5

Durch gemeinsames Vortraining von Text und Vision werden beide Modalitäten bereits früh im Training in einem festen Verhältnis gemischt, um die Ausrichtung zu verbessern
Mit dem Vision-Encoder MoonViT-3D verarbeitet das Modell Bilder in Originalauflösung und lange Videos in derselben Struktur
Es nutzt eine Zero-Vision-SFT-Strategie, bei der Leistung auch ohne visionsspezifisches SFT aktiviert wird
Über gemeinsames multimodales Reinforcement Learning entlang von Fähigkeitsbausteinen werden Wissen, Schlussfolgern, Coding und Agentenfähigkeiten gemeinsam verbessert

Agent-Swarm-Architektur

Ein zentraler Orchestrator zerlegt Aufgaben in parallelisierbare Teilprobleme und erzeugt dynamisch spezialisierte Subagenten
Jeder Subagent arbeitet in einem eigenständigen lokalen Kontext, um eine Verunreinigung des globalen Kontexts zu vermeiden
Nicht der vollständige Verlauf, sondern nur zusammengefasste Ergebnisse werden selektiv zusammengeführt, wodurch Context Sharding umgesetzt wird
Mit Trainings-Prompts, die Parallelisierung fördern, und der Metrik Critical Steps wird auf minimale Latenz hin trainiert

Trainingsaufbau und Größenordnung

Das Basismodell Kimi K2 ist eine MoE-Architektur mit 1 Billion Parametern und wurde mit 15 Billionen Text-Token vortrainiert
Durch Joint-Long-Context-Training wird eine maximale Kontextlänge von 256k unterstützt
Enthalten sind vielfältige multimodale Daten wie Bilder, Videos, OCR, Dokumente und OS-Screenshots

Evaluation und Leistung: Zusammenfassung mit Fokus auf den Vergleich zentraler Modelle

Kimi K2.5 wurde unter identischen Bedingungen mit kommerziellen Modellen (Claude Opus 4.5, GPT-5.2, Gemini 3 Pro) und Open-Source-Modellen (DeepSeek-V3.2, Qwen3-VL-235B) verglichen
Alle Evaluierungen wurden mit temperature 1.0, top-p 0.95 und einer maximalen Kontextlänge von 256k durchgeführt
Benchmarks für Schlussfolgern und Allgemeinwissen
- Bei AIME 2025 erreicht Kimi K2.5 mit 96.1 einen Wert über Claude Opus 4.5 (92.8) und Gemini 3 Pro (95.0) und liegt nahe an GPT-5.2 (100)
- Auch bei HMMT 2025 und IMO-AnswerBench hält es höhere Werte als Claude Opus 4.5 und Qwen3-VL
- Bei GPQA-Diamond erreicht es 87.6, ähnlich zu Claude Opus 4.5 (87.0), und zeigt bessere Leistung als die Open-Source-Modelle
- In LongBench v2 erzielte Gemini 3 Pro zwar den höchsten Wert, Kimi K2.5 zeigt jedoch konkurrenzfähige Ergebnisse gegenüber DeepSeek-V3.2 und Qwen3-VL
Coding und Software Engineering
- Bei SWE-Bench Verified erreicht Kimi K2.5 mit 76.8 ein ähnliches Ergebnis wie DeepSeek-V3.2 (76.2) und übertrifft Qwen3-VL (73.1)
- Auch bei SWE-Bench Pro und Multilingual liegt es zwar unter kommerziellen Modellen, hält sich aber im Open-Source-Vergleich in der Spitzengruppe
- In LiveCodeBench v6 erzielt es mit 85.0 einen höheren Wert als Claude Opus 4.5 (82.2) und Qwen3-VL (83.3)
- Bei PaperBench(CodeDev) und CyberGym bleiben kommerzielle Modelle zwar vorn, Kimi K2.5 zeigt jedoch eine stabile Leistung auf praktisch nutzbarem Niveau
Agenten- und suchbasierte Aufgaben
- In BrowseComp erreicht es als Einzelagent 60.6 und liegt damit deutlich vor Claude Opus 4.5 (37.0)
- Mit Agent Swarm steigt die Leistung in BrowseComp auf 78.4 und in WideSearch auf 79.0, was klare Verbesserungen gegenüber dem Einzelagenten zeigt
- In WideSearch erzielt Claude Opus 4.5 als Einzelagent zwar den höheren Wert, in der parallelen Agentenkonfiguration ist Kimi K2.5 jedoch überlegen
- Auch in der Familie DeepSearchQA und FinSearchComp erreicht es Ergebnisse nahe an kommerziellen Modellen
Verständnis von Vision, Dokumenten und Video
- In MMMU-Pro, OCRBench, OmniDocBench 1.5 und weiteren Benchmarks wird es direkt mit Qwen3-VL verglichen und bleibt insgesamt bei visuellem Schlussfolgern und Dokumentenverständnis konkurrenzfähig
- Bei GPT-5.2 trat in einigen Vision-Evaluierungen eine Ausgabefehlerquote von rund 10 % auf, weshalb konservativ bewertet wurde
- In Benchmarks für lange und kurze Videos zeigt Kimi K2.5 eine konsistente Leistung und stabilere Ergebnisse als auf Einzelbilder fokussierte Modelle
Gesamtbewertung
- Kimi K2.5 erreicht zwar in einigen Metriken nicht das Niveau der besten kommerziellen Modelle, zeigt unter den Open-Source-Modellen für Multimodalität und Agenten jedoch die breiteste und ausgewogenste Leistung
- Besonders beim Einsatz von Agent Swarm zeigt sich ein klarer Vorteil bei agentischen und suchorientierten Aufgaben
- Da Schlussfolgern, Coding, Vision und Agenten in einem einzigen offenen Modell zusammengeführt werden, handelt es sich um ein universelles Agentenmodell für den realen Einsatz statt nur für Experimente

Grenzen und Beobachtungen

Bei einigen kommerziellen Modellen traten in Vision-Benchmarks Ausgabefehlerquoten auf, die zu konservativen Bewertungen führten
Bei langen Agentenaufgaben zeigen sich je nach Kontextverwaltungsstrategie erhebliche Leistungsunterschiede
Einige kostenintensive Benchmarks wurden wegen Problemen mit der API-Stabilität von der Evaluation ausgeschlossen

Veröffentlichung und Einsatz

Die Post-Training-Checkpoints von Kimi K2.5 werden Open Source veröffentlicht
Es ist ein wiederverwendbares Basismodell für universelle Agentensysteme, multimodale Forschung und reale Automatisierungs-Workloads
Der Ansatz, Text und Vision nicht zu trennen, sowie die parallele Agentenstruktur könnten ein praktischer Weg zu General Agentic Intelligence sein

Kimi K2.5 Technischer Bericht [PDF] – Offenes multimodales Modell auf dem Weg zu visueller Agentenintelligenz

Überblick und Problemstellung

Zentrale Architektur von Kimi K2.5

Agent-Swarm-Architektur

Trainingsaufbau und Größenordnung

Evaluation und Leistung: Zusammenfassung mit Fokus auf den Vergleich zentraler Modelle

Benchmarks für Schlussfolgern und Allgemeinwissen

Coding und Software Engineering

Agenten- und suchbasierte Aufgaben

Verständnis von Vision, Dokumenten und Video

Gesamtbewertung

Grenzen und Beobachtungen

Veröffentlichung und Einsatz

Verwandte Beiträge

Noch keine Kommentare.