5 Punkte von GN⁺ 2026-02-01 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Das von Moonshot AI veröffentlichte Kimi K2.5 ist ein Open-Source-multimodales Agentenmodell, das Text und Vision gemeinsam optimiert, und verarbeitet in einem einzigen Modell umfassend Schlussfolgern, Coding, Vision- und Agentenaufgaben
  • Um die Grenzen bestehender sequenzieller Agenten zu überwinden, führt es eine parallele Agenten-Orchestrierung mit Agent Swarm ein, die komplexe Aufgaben gleichzeitig zerlegt und ausführt
  • In umfassenden Benchmark-Evaluierungen, die Bilder, Videos, Dokumente, Web- und OS-Umgebungen einschließen, werden Leistungswerte im Vergleich zu kommerziellen und Open-Source-Modellen präsentiert
  • Experimentell bestätigt wird ein Cross-Modal-Transfer-Effekt, bei dem visuelles Reinforcement Learning auch die Leistung beim Text-Reasoning verbessert
  • Durch die Veröffentlichung der trainierten Checkpoints zielt das Projekt auf die Erforschung universeller Agentensysteme und die Ausweitung auf den praktischen Einsatz ab

Überblick und Problemstellung

  • Große Sprachmodelle entwickeln sich über einfache Frage-Antwort-Systeme hinaus zu Agentenintelligenz, die Tools nutzt und langfristige Planung ausführt
  • Bestehende multimodale Modelle setzen meist auf textzentrierte Designs, denen Vision nachträglich hinzugefügt wird, was zu Konflikten zwischen Modalitäten und Grenzen bei der Generalisierung führt
  • Bei komplexen realen Aufgaben wirken Verzögerungen durch sequenzielle Agentenausführung und Kontextgrenzen als zentrale Engpässe

Zentrale Architektur von Kimi K2.5

  • Durch gemeinsames Vortraining von Text und Vision werden beide Modalitäten bereits früh im Training in einem festen Verhältnis gemischt, um die Ausrichtung zu verbessern
  • Mit dem Vision-Encoder MoonViT-3D verarbeitet das Modell Bilder in Originalauflösung und lange Videos in derselben Struktur
  • Es nutzt eine Zero-Vision-SFT-Strategie, bei der Leistung auch ohne visionsspezifisches SFT aktiviert wird
  • Über gemeinsames multimodales Reinforcement Learning entlang von Fähigkeitsbausteinen werden Wissen, Schlussfolgern, Coding und Agentenfähigkeiten gemeinsam verbessert

Agent-Swarm-Architektur

  • Ein zentraler Orchestrator zerlegt Aufgaben in parallelisierbare Teilprobleme und erzeugt dynamisch spezialisierte Subagenten
  • Jeder Subagent arbeitet in einem eigenständigen lokalen Kontext, um eine Verunreinigung des globalen Kontexts zu vermeiden
  • Nicht der vollständige Verlauf, sondern nur zusammengefasste Ergebnisse werden selektiv zusammengeführt, wodurch Context Sharding umgesetzt wird
  • Mit Trainings-Prompts, die Parallelisierung fördern, und der Metrik Critical Steps wird auf minimale Latenz hin trainiert

Trainingsaufbau und Größenordnung

  • Das Basismodell Kimi K2 ist eine MoE-Architektur mit 1 Billion Parametern und wurde mit 15 Billionen Text-Token vortrainiert
  • Durch Joint-Long-Context-Training wird eine maximale Kontextlänge von 256k unterstützt
  • Enthalten sind vielfältige multimodale Daten wie Bilder, Videos, OCR, Dokumente und OS-Screenshots

Evaluation und Leistung: Zusammenfassung mit Fokus auf den Vergleich zentraler Modelle

  • Kimi K2.5 wurde unter identischen Bedingungen mit kommerziellen Modellen (Claude Opus 4.5, GPT-5.2, Gemini 3 Pro) und Open-Source-Modellen (DeepSeek-V3.2, Qwen3-VL-235B) verglichen
  • Alle Evaluierungen wurden mit temperature 1.0, top-p 0.95 und einer maximalen Kontextlänge von 256k durchgeführt
  • Benchmarks für Schlussfolgern und Allgemeinwissen

    • Bei AIME 2025 erreicht Kimi K2.5 mit 96.1 einen Wert über Claude Opus 4.5 (92.8) und Gemini 3 Pro (95.0) und liegt nahe an GPT-5.2 (100)
    • Auch bei HMMT 2025 und IMO-AnswerBench hält es höhere Werte als Claude Opus 4.5 und Qwen3-VL
    • Bei GPQA-Diamond erreicht es 87.6, ähnlich zu Claude Opus 4.5 (87.0), und zeigt bessere Leistung als die Open-Source-Modelle
    • In LongBench v2 erzielte Gemini 3 Pro zwar den höchsten Wert, Kimi K2.5 zeigt jedoch konkurrenzfähige Ergebnisse gegenüber DeepSeek-V3.2 und Qwen3-VL
  • Coding und Software Engineering

    • Bei SWE-Bench Verified erreicht Kimi K2.5 mit 76.8 ein ähnliches Ergebnis wie DeepSeek-V3.2 (76.2) und übertrifft Qwen3-VL (73.1)
    • Auch bei SWE-Bench Pro und Multilingual liegt es zwar unter kommerziellen Modellen, hält sich aber im Open-Source-Vergleich in der Spitzengruppe
    • In LiveCodeBench v6 erzielt es mit 85.0 einen höheren Wert als Claude Opus 4.5 (82.2) und Qwen3-VL (83.3)
    • Bei PaperBench(CodeDev) und CyberGym bleiben kommerzielle Modelle zwar vorn, Kimi K2.5 zeigt jedoch eine stabile Leistung auf praktisch nutzbarem Niveau
  • Agenten- und suchbasierte Aufgaben

    • In BrowseComp erreicht es als Einzelagent 60.6 und liegt damit deutlich vor Claude Opus 4.5 (37.0)
    • Mit Agent Swarm steigt die Leistung in BrowseComp auf 78.4 und in WideSearch auf 79.0, was klare Verbesserungen gegenüber dem Einzelagenten zeigt
    • In WideSearch erzielt Claude Opus 4.5 als Einzelagent zwar den höheren Wert, in der parallelen Agentenkonfiguration ist Kimi K2.5 jedoch überlegen
    • Auch in der Familie DeepSearchQA und FinSearchComp erreicht es Ergebnisse nahe an kommerziellen Modellen
  • Verständnis von Vision, Dokumenten und Video

    • In MMMU-Pro, OCRBench, OmniDocBench 1.5 und weiteren Benchmarks wird es direkt mit Qwen3-VL verglichen und bleibt insgesamt bei visuellem Schlussfolgern und Dokumentenverständnis konkurrenzfähig
    • Bei GPT-5.2 trat in einigen Vision-Evaluierungen eine Ausgabefehlerquote von rund 10 % auf, weshalb konservativ bewertet wurde
    • In Benchmarks für lange und kurze Videos zeigt Kimi K2.5 eine konsistente Leistung und stabilere Ergebnisse als auf Einzelbilder fokussierte Modelle
  • Gesamtbewertung

    • Kimi K2.5 erreicht zwar in einigen Metriken nicht das Niveau der besten kommerziellen Modelle, zeigt unter den Open-Source-Modellen für Multimodalität und Agenten jedoch die breiteste und ausgewogenste Leistung
    • Besonders beim Einsatz von Agent Swarm zeigt sich ein klarer Vorteil bei agentischen und suchorientierten Aufgaben
    • Da Schlussfolgern, Coding, Vision und Agenten in einem einzigen offenen Modell zusammengeführt werden, handelt es sich um ein universelles Agentenmodell für den realen Einsatz statt nur für Experimente

Grenzen und Beobachtungen

  • Bei einigen kommerziellen Modellen traten in Vision-Benchmarks Ausgabefehlerquoten auf, die zu konservativen Bewertungen führten
  • Bei langen Agentenaufgaben zeigen sich je nach Kontextverwaltungsstrategie erhebliche Leistungsunterschiede
  • Einige kostenintensive Benchmarks wurden wegen Problemen mit der API-Stabilität von der Evaluation ausgeschlossen

Veröffentlichung und Einsatz

  • Die Post-Training-Checkpoints von Kimi K2.5 werden Open Source veröffentlicht
  • Es ist ein wiederverwendbares Basismodell für universelle Agentensysteme, multimodale Forschung und reale Automatisierungs-Workloads
  • Der Ansatz, Text und Vision nicht zu trennen, sowie die parallele Agentenstruktur könnten ein praktischer Weg zu General Agentic Intelligence sein

Noch keine Kommentare.

Noch keine Kommentare.