- Das von Moonshot AI veröffentlichte Kimi K2.5 ist ein Open-Source-multimodales Agentenmodell, das Text und Vision gemeinsam optimiert, und verarbeitet in einem einzigen Modell umfassend Schlussfolgern, Coding, Vision- und Agentenaufgaben
- Um die Grenzen bestehender sequenzieller Agenten zu überwinden, führt es eine parallele Agenten-Orchestrierung mit Agent Swarm ein, die komplexe Aufgaben gleichzeitig zerlegt und ausführt
- In umfassenden Benchmark-Evaluierungen, die Bilder, Videos, Dokumente, Web- und OS-Umgebungen einschließen, werden Leistungswerte im Vergleich zu kommerziellen und Open-Source-Modellen präsentiert
- Experimentell bestätigt wird ein Cross-Modal-Transfer-Effekt, bei dem visuelles Reinforcement Learning auch die Leistung beim Text-Reasoning verbessert
- Durch die Veröffentlichung der trainierten Checkpoints zielt das Projekt auf die Erforschung universeller Agentensysteme und die Ausweitung auf den praktischen Einsatz ab
Überblick und Problemstellung
- Große Sprachmodelle entwickeln sich über einfache Frage-Antwort-Systeme hinaus zu Agentenintelligenz, die Tools nutzt und langfristige Planung ausführt
- Bestehende multimodale Modelle setzen meist auf textzentrierte Designs, denen Vision nachträglich hinzugefügt wird, was zu Konflikten zwischen Modalitäten und Grenzen bei der Generalisierung führt
- Bei komplexen realen Aufgaben wirken Verzögerungen durch sequenzielle Agentenausführung und Kontextgrenzen als zentrale Engpässe
Zentrale Architektur von Kimi K2.5
- Durch gemeinsames Vortraining von Text und Vision werden beide Modalitäten bereits früh im Training in einem festen Verhältnis gemischt, um die Ausrichtung zu verbessern
- Mit dem Vision-Encoder MoonViT-3D verarbeitet das Modell Bilder in Originalauflösung und lange Videos in derselben Struktur
- Es nutzt eine Zero-Vision-SFT-Strategie, bei der Leistung auch ohne visionsspezifisches SFT aktiviert wird
- Über gemeinsames multimodales Reinforcement Learning entlang von Fähigkeitsbausteinen werden Wissen, Schlussfolgern, Coding und Agentenfähigkeiten gemeinsam verbessert
Agent-Swarm-Architektur
- Ein zentraler Orchestrator zerlegt Aufgaben in parallelisierbare Teilprobleme und erzeugt dynamisch spezialisierte Subagenten
- Jeder Subagent arbeitet in einem eigenständigen lokalen Kontext, um eine Verunreinigung des globalen Kontexts zu vermeiden
- Nicht der vollständige Verlauf, sondern nur zusammengefasste Ergebnisse werden selektiv zusammengeführt, wodurch Context Sharding umgesetzt wird
- Mit Trainings-Prompts, die Parallelisierung fördern, und der Metrik Critical Steps wird auf minimale Latenz hin trainiert
Trainingsaufbau und Größenordnung
- Das Basismodell Kimi K2 ist eine MoE-Architektur mit 1 Billion Parametern und wurde mit 15 Billionen Text-Token vortrainiert
- Durch Joint-Long-Context-Training wird eine maximale Kontextlänge von 256k unterstützt
- Enthalten sind vielfältige multimodale Daten wie Bilder, Videos, OCR, Dokumente und OS-Screenshots
Evaluation und Leistung: Zusammenfassung mit Fokus auf den Vergleich zentraler Modelle
- Kimi K2.5 wurde unter identischen Bedingungen mit kommerziellen Modellen (Claude Opus 4.5, GPT-5.2, Gemini 3 Pro) und Open-Source-Modellen (DeepSeek-V3.2, Qwen3-VL-235B) verglichen
- Alle Evaluierungen wurden mit temperature 1.0, top-p 0.95 und einer maximalen Kontextlänge von 256k durchgeführt
-
Benchmarks für Schlussfolgern und Allgemeinwissen
- Bei AIME 2025 erreicht Kimi K2.5 mit 96.1 einen Wert über Claude Opus 4.5 (92.8) und Gemini 3 Pro (95.0) und liegt nahe an GPT-5.2 (100)
- Auch bei HMMT 2025 und IMO-AnswerBench hält es höhere Werte als Claude Opus 4.5 und Qwen3-VL
- Bei GPQA-Diamond erreicht es 87.6, ähnlich zu Claude Opus 4.5 (87.0), und zeigt bessere Leistung als die Open-Source-Modelle
- In LongBench v2 erzielte Gemini 3 Pro zwar den höchsten Wert, Kimi K2.5 zeigt jedoch konkurrenzfähige Ergebnisse gegenüber DeepSeek-V3.2 und Qwen3-VL
-
Coding und Software Engineering
- Bei SWE-Bench Verified erreicht Kimi K2.5 mit 76.8 ein ähnliches Ergebnis wie DeepSeek-V3.2 (76.2) und übertrifft Qwen3-VL (73.1)
- Auch bei SWE-Bench Pro und Multilingual liegt es zwar unter kommerziellen Modellen, hält sich aber im Open-Source-Vergleich in der Spitzengruppe
- In LiveCodeBench v6 erzielt es mit 85.0 einen höheren Wert als Claude Opus 4.5 (82.2) und Qwen3-VL (83.3)
- Bei PaperBench(CodeDev) und CyberGym bleiben kommerzielle Modelle zwar vorn, Kimi K2.5 zeigt jedoch eine stabile Leistung auf praktisch nutzbarem Niveau
-
Agenten- und suchbasierte Aufgaben
- In BrowseComp erreicht es als Einzelagent 60.6 und liegt damit deutlich vor Claude Opus 4.5 (37.0)
- Mit Agent Swarm steigt die Leistung in BrowseComp auf 78.4 und in WideSearch auf 79.0, was klare Verbesserungen gegenüber dem Einzelagenten zeigt
- In WideSearch erzielt Claude Opus 4.5 als Einzelagent zwar den höheren Wert, in der parallelen Agentenkonfiguration ist Kimi K2.5 jedoch überlegen
- Auch in der Familie DeepSearchQA und FinSearchComp erreicht es Ergebnisse nahe an kommerziellen Modellen
-
Verständnis von Vision, Dokumenten und Video
- In MMMU-Pro, OCRBench, OmniDocBench 1.5 und weiteren Benchmarks wird es direkt mit Qwen3-VL verglichen und bleibt insgesamt bei visuellem Schlussfolgern und Dokumentenverständnis konkurrenzfähig
- Bei GPT-5.2 trat in einigen Vision-Evaluierungen eine Ausgabefehlerquote von rund 10 % auf, weshalb konservativ bewertet wurde
- In Benchmarks für lange und kurze Videos zeigt Kimi K2.5 eine konsistente Leistung und stabilere Ergebnisse als auf Einzelbilder fokussierte Modelle
-
Gesamtbewertung
- Kimi K2.5 erreicht zwar in einigen Metriken nicht das Niveau der besten kommerziellen Modelle, zeigt unter den Open-Source-Modellen für Multimodalität und Agenten jedoch die breiteste und ausgewogenste Leistung
- Besonders beim Einsatz von Agent Swarm zeigt sich ein klarer Vorteil bei agentischen und suchorientierten Aufgaben
- Da Schlussfolgern, Coding, Vision und Agenten in einem einzigen offenen Modell zusammengeführt werden, handelt es sich um ein universelles Agentenmodell für den realen Einsatz statt nur für Experimente
Grenzen und Beobachtungen
- Bei einigen kommerziellen Modellen traten in Vision-Benchmarks Ausgabefehlerquoten auf, die zu konservativen Bewertungen führten
- Bei langen Agentenaufgaben zeigen sich je nach Kontextverwaltungsstrategie erhebliche Leistungsunterschiede
- Einige kostenintensive Benchmarks wurden wegen Problemen mit der API-Stabilität von der Evaluation ausgeschlossen
Veröffentlichung und Einsatz
- Die Post-Training-Checkpoints von Kimi K2.5 werden Open Source veröffentlicht
- Es ist ein wiederverwendbares Basismodell für universelle Agentensysteme, multimodale Forschung und reale Automatisierungs-Workloads
- Der Ansatz, Text und Vision nicht zu trennen, sowie die parallele Agentenstruktur könnten ein praktischer Weg zu General Agentic Intelligence sein
Noch keine Kommentare.