Kimi veröffentlicht mit Kimi K2.5 ein Open-Source-Visual-SOTA-Agentic-Modell

(kimi.com)

3 Punkte von GN⁺ 2026-01-28 | Noch keine Kommentare. | Auf WhatsApp teilen

Kimi K2.5 ist ein multimodales Open-Source-Modell, das mit rund 1,5 Billionen zusätzlichen visuellen und Text-Token weitertrainiert wurde und Fähigkeiten für Coding und Vision vereint
Mit der Agent-Swarm-Architektur, die bis zu 100 Sub-Agenten parallel steuert, erledigt es komplexe Aufgaben 4,5-mal schneller
In Verbindung mit Kimi Code und der Kimi App unterstützt es verschiedene praxisnahe Funktionen wie bild- und videobasiertes Coding, visuelles Debugging und Office-Automatisierung
In internen Benchmarks verzeichnete es gegenüber K2 deutliche Leistungssteigerungen in den Bereichen Coding, Vision und Office-Produktivität
In der Open-Source-Community wird es als Modell bewertet, das konkrete Fortschritte auf dem Weg zu AGI (Artificial General Intelligence) zeigt

Überblick über Kimi K2.5

Kimi K2.5 ist ein nativ multimodales Modell, das auf dem K2-Modell basiert und mit rund 1,5 Billionen gemischten visuellen und Text-Token zusätzlich vortrainiert wurde
- Es integriert Coding- und Vision-Funktionen und setzt das Paradigma eines autonomen Agent Swarm um
Bis zu 100 Sub-Agenten führen parallel bis zu 1.500 Tool-Aufrufe aus und erreichen gegenüber einem einzelnen Agenten bis zu 4,5-mal schnellere Laufzeiten
Verfügbar über Kimi.com, die Kimi App, die API und Kimi Code; unterstützt die Modi Instant, Thinking, Agent und Agent Swarm (Beta)

K2.5 ist ein Open-Source-Coding-Modell mit Stärken in der Frontend-Entwicklung und erzeugt automatisch komplexe UIs wie dialogbasierte Oberflächen und scroll-triggered animation
Es unterstützt visuelles Coding auf Basis von Bildern und Videos, indem es die visuell ausgedrückte Absicht der Nutzer in Code umwandelt
- Beispiele sind die Rekonstruktion einer Website aus einem Video oder die Suche nach dem kürzesten Pfad (113.557 Schritte) in einem Labyrinthbild mit dem BFS-Algorithmus
Durch großskaliges gemeinsames Vision-Text-Training wurden visuelle und sprachliche Fähigkeiten gemeinsam verbessert
In der internen Kimi Code Bench zeigte es gegenüber K2 durchgehend bessere Ergebnisse bei mehrsprachigen Coding-Aufgaben wie Build, Debugging, Refactoring und Tests
Kimi Code ist in das Terminal sowie in IDEs wie VSCode, Cursor und Zed integriert und unterstützt Bild- und Videoeingaben sowie automatische Skill-Migration

K2.5 Agent Swarm ist keine Erweiterung eines Einzelagenten, sondern eine parallel kollaborative Struktur, die mit Parallel-Agent Reinforcement Learning (PARL) trainiert wurde
- Ein Orchestrator-Agent zerlegt Aufgaben in parallelisierbare Teilaufgaben, die von festen Sub-Agenten gleichzeitig ausgeführt werden
Die Reward-Funktion fördert anfangs die Suche nach Parallelität und verlagert den Schwerpunkt schrittweise auf die Task-Qualität Q(τ)
Mit Critical Steps wurde eine verzögerungsorientierte Metrik eingeführt, um die Effizienz paralleler Ausführung zu bewerten
In internen Bewertungen wurde die End-to-End-Ausführungszeit um 80 % reduziert und die Fähigkeit zur Bearbeitung komplexer Langzeitaufgaben verbessert
- Beispiel: Bei der Suche nach YouTube-Creatorn in 100 Spezialgebieten werden 100 Sub-Agenten parallel erzeugt und die Ergebnisse zusammengeführt

K2.5 Agent unterstützt die Automatisierung umfangreicher Office-Aufgaben und erledigt interaktiv alles von Dokumenten und Tabellen bis zur Erstellung von PDFs und Präsentationsfolien
Im internen AI Office Benchmark und General Agent Benchmark wurden Verbesserungen von 59,3 % bzw. 24,3 % erzielt
Es führt anspruchsvolle Aufgaben aus, etwa das Hinzufügen von Word-Kommentaren, Finanzmodellierung auf Basis von Pivot Tables oder das Schreiben von LaTeX-Formeln in PDFs
Auch längere Arbeiten wie eine 10.000-Wörter-Abhandlung oder ein 100-seitiges Dokument werden in wenigen Minuten erstellt

Kimi K2.5 zeigt Fortschritte in drei Bereichen: visionbasiertes Coding, Agent Swarm und Office-Automatisierung und demonstriert damit einen AGI-Ansatz unter realen Einschränkungen
Künftig soll durch den Ausbau von agentic intelligence die Grenze von Wissensarbeit neu definiert werden

Vergleich mit GPT-5.2, Claude 4.5, Gemini 3 Pro und anderen in sieben Bereichen wie Reasoning, Vision, Coding und Agentic Search
- HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
- MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
- SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
- BrowseComp (Swarm Mode) : 78.4
In den meisten Vision-, Coding- und Agentic-Search-Benchmarks wurden Spitzenergebnisse erzielt
Alle Experimente wurden mit 256k Token Context, temperature=1.0 und top-p=0.95 durchgeführt
Mit dem Kimi Vendor Verifier (KVV) kann die Genauigkeit von Drittanbieterdiensten überprüft werden