- Kimi K2.5 ist ein multimodales Open-Source-Modell, das mit rund 1,5 Billionen zusätzlichen visuellen und Text-Token weitertrainiert wurde und Fähigkeiten für Coding und Vision vereint
- Mit der Agent-Swarm-Architektur, die bis zu 100 Sub-Agenten parallel steuert, erledigt es komplexe Aufgaben 4,5-mal schneller
- In Verbindung mit Kimi Code und der Kimi App unterstützt es verschiedene praxisnahe Funktionen wie bild- und videobasiertes Coding, visuelles Debugging und Office-Automatisierung
- In internen Benchmarks verzeichnete es gegenüber K2 deutliche Leistungssteigerungen in den Bereichen Coding, Vision und Office-Produktivität
- In der Open-Source-Community wird es als Modell bewertet, das konkrete Fortschritte auf dem Weg zu AGI (Artificial General Intelligence) zeigt
Überblick über Kimi K2.5
- Kimi K2.5 ist ein nativ multimodales Modell, das auf dem K2-Modell basiert und mit rund 1,5 Billionen gemischten visuellen und Text-Token zusätzlich vortrainiert wurde
- Es integriert Coding- und Vision-Funktionen und setzt das Paradigma eines autonomen Agent Swarm um
- Bis zu 100 Sub-Agenten führen parallel bis zu 1.500 Tool-Aufrufe aus und erreichen gegenüber einem einzelnen Agenten bis zu 4,5-mal schnellere Laufzeiten
- Verfügbar über Kimi.com, die Kimi App, die API und Kimi Code; unterstützt die Modi Instant, Thinking, Agent und Agent Swarm (Beta)
Integration von Coding und Vision
- K2.5 ist ein Open-Source-Coding-Modell mit Stärken in der Frontend-Entwicklung und erzeugt automatisch komplexe UIs wie dialogbasierte Oberflächen und scroll-triggered animation
- Es unterstützt visuelles Coding auf Basis von Bildern und Videos, indem es die visuell ausgedrückte Absicht der Nutzer in Code umwandelt
- Beispiele sind die Rekonstruktion einer Website aus einem Video oder die Suche nach dem kürzesten Pfad (113.557 Schritte) in einem Labyrinthbild mit dem BFS-Algorithmus
- Durch großskaliges gemeinsames Vision-Text-Training wurden visuelle und sprachliche Fähigkeiten gemeinsam verbessert
- In der internen Kimi Code Bench zeigte es gegenüber K2 durchgehend bessere Ergebnisse bei mehrsprachigen Coding-Aufgaben wie Build, Debugging, Refactoring und Tests
- Kimi Code ist in das Terminal sowie in IDEs wie VSCode, Cursor und Zed integriert und unterstützt Bild- und Videoeingaben sowie automatische Skill-Migration
Agent Swarm
- K2.5 Agent Swarm ist keine Erweiterung eines Einzelagenten, sondern eine parallel kollaborative Struktur, die mit Parallel-Agent Reinforcement Learning (PARL) trainiert wurde
- Ein Orchestrator-Agent zerlegt Aufgaben in parallelisierbare Teilaufgaben, die von festen Sub-Agenten gleichzeitig ausgeführt werden
- Die Reward-Funktion fördert anfangs die Suche nach Parallelität und verlagert den Schwerpunkt schrittweise auf die Task-Qualität Q(τ)
- Mit Critical Steps wurde eine verzögerungsorientierte Metrik eingeführt, um die Effizienz paralleler Ausführung zu bewerten
- In internen Bewertungen wurde die End-to-End-Ausführungszeit um 80 % reduziert und die Fähigkeit zur Bearbeitung komplexer Langzeitaufgaben verbessert
- Beispiel: Bei der Suche nach YouTube-Creatorn in 100 Spezialgebieten werden 100 Sub-Agenten parallel erzeugt und die Ergebnisse zusammengeführt
Office-Produktivität
- K2.5 Agent unterstützt die Automatisierung umfangreicher Office-Aufgaben und erledigt interaktiv alles von Dokumenten und Tabellen bis zur Erstellung von PDFs und Präsentationsfolien
- Im internen AI Office Benchmark und General Agent Benchmark wurden Verbesserungen von 59,3 % bzw. 24,3 % erzielt
- Es führt anspruchsvolle Aufgaben aus, etwa das Hinzufügen von Word-Kommentaren, Finanzmodellierung auf Basis von Pivot Tables oder das Schreiben von LaTeX-Formeln in PDFs
- Auch längere Arbeiten wie eine 10.000-Wörter-Abhandlung oder ein 100-seitiges Dokument werden in wenigen Minuten erstellt
Fazit
- Kimi K2.5 zeigt Fortschritte in drei Bereichen: visionbasiertes Coding, Agent Swarm und Office-Automatisierung und demonstriert damit einen AGI-Ansatz unter realen Einschränkungen
- Künftig soll durch den Ausbau von agentic intelligence die Grenze von Wissensarbeit neu definiert werden
Anhang: Wichtige Benchmark-Ergebnisse
- Vergleich mit GPT-5.2, Claude 4.5, Gemini 3 Pro und anderen in sieben Bereichen wie Reasoning, Vision, Coding und Agentic Search
- HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
- MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
- SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
- BrowseComp (Swarm Mode) : 78.4
- In den meisten Vision-, Coding- und Agentic-Search-Benchmarks wurden Spitzenergebnisse erzielt
- Alle Experimente wurden mit 256k Token Context, temperature=1.0 und top-p=0.95 durchgeführt
- Mit dem Kimi Vendor Verifier (KVV) kann die Genauigkeit von Drittanbieterdiensten überprüft werden
Noch keine Kommentare.