- Kimi Vendor Verifier (KVV) ist ein öffentliches Tool, das nach der Bereitstellung von Open-Source-Modellen Abweichungen in der Inferenzimplementierung zwischen unterschiedlichen Infrastrukturen überprüft, damit sich modellbedingte Grenzen von Engineering-Fehlern unterscheiden lassen
- Auf Basis der offiziellen API werden OCRBench 91.0, AIME2025 avg@32 98.4 und MMMU Pro Vision 78.8 angegeben; außerdem werden für jede Bewertung die Einstellungen für Temperature, TopP und MaxTokens sowie die Ergebnisdateien der K2VV-Bewertung offengelegt
- Die Untersuchung von in der Community gemeldeten Benchmark-Auffälligkeiten ergab, dass ein erheblicher Teil auf falsch verwendete Decoding-Parameter zurückzuführen war; im Thinking-Modus werden daher Temperature 1.0 und TopP 0.95 erzwungen und zusätzlich die korrekte Weitergabe der Inhalte geprüft
- Das Validierungsverfahren ist so aufgebaut, dass nach einer Vorabprüfung der Parameterbeschränkungen mit OCRBench, MMMU Pro, AIME2025, K2VV ToolCall, SWE-Bench usw. Vision-Preprocessing, lange Ausgaben, Tool-Aufrufe bis hin zu agentic coding überprüft werden
- Der gesamte Workflow benötigt bei sequenzieller Ausführung auf zwei NVIDIA-H20-8-GPU-Servern etwa 15 Stunden; mit einem öffentlichen Leaderboard und Early Access soll die Verbreitung einer Validierung mit Priorität auf Genauigkeit vorangetrieben werden
Wiederaufbau einer Vertrauenskette (Chain of Trust)
- Mit der Veröffentlichung des Kimi Vendor Verifier (KVV)-Quellcodes wurde das System so konzipiert, dass Nutzer von Open-Source-Modellen die Korrektheit der Inferenzimplementierung überprüfen können
- Es wurde zeitgleich mit dem Kimi-K2.6-Modell veröffentlicht; die bloße Veröffentlichung eines Modells reicht nicht aus, sondern es braucht auch einen Prozess zur Prüfung, ob es in unterschiedlichen Umgebungen korrekt funktioniert
- Je weiter im Open-Source-Modell-Ökosystem die Veröffentlichung von Gewichten und die Vielfalt der Bereitstellungspfade voranschreitet, desto deutlicher wird eine Struktur, in der die Möglichkeiten zur Qualitätskontrolle abnehmen
- Wenn Nutzer Leistungsdefizite des Modells selbst nicht von Abweichungen in der Engineering-Implementierung unterscheiden können, kann das Vertrauen in das Open-Source-Ökosystem zusammenbrechen
Lösungsansatz
-
Von einzelnen Auffälligkeiten zu einem strukturellen Problem
- Seit der Veröffentlichung von K2 Thinking gingen aus der Community häufig Rückmeldungen zu auffälligen Benchmark-Ergebnissen ein
- Die Untersuchung zeigte, dass ein erheblicher Teil der Fälle auf falsch verwendete Decoding-Parameter zurückzuführen war
- Als sofortige Gegenmaßnahme wurde auf API-Ebene eine erste Verteidigungslinie eingerichtet
- Im Thinking-Modus werden Temperature=1.0 und TopP=0.95 erzwungen
- Es wird eine verpflichtende Prüfung angewendet, ob Thinking-Inhalte korrekt erneut übermittelt werden
- Bei bestimmten LiveBenchmark-Auswertungen wurde ein großer Unterschied zwischen Drittanbieter-APIs und der offiziellen API beobachtet
- Umfangreiche Tests mit verschiedenen Infrastrukturanbietern bestätigten, dass diese Unterschiede breit verbreitet sind
-
Validierungsverfahren und Betrieb
- Veröffentlichung der Benchmark-Werte auf Basis der offiziellen API
- OCRBench Genauigkeit 91.0
- AIME2025 avg@32 98.4
- MMMU Pro Vision Genauigkeit 78.8
- Die Konfigurationswerte der Evaluierung werden ebenfalls angegeben
- Für alle drei Punkte werden Temperature 1.0 und TopP 0.95 verwendet
- MaxTokens beträgt bei OCRBench 16384, bei AIME2025 98304 und bei MMMU Pro Vision 65536
- Es wird ein Link zur Datei mit den Kimi API K2VV Evaluation Results bereitgestellt; angegeben ist, dass sie zur Berechnung des F1-Scores dient
- Betrieb einer Pre-Verification-Phase
- Es wird überprüft, ob API-Parameterbeschränkungen wie temperature und top_p korrekt erzwungen werden
- Erst wenn alle Tests bestanden sind, wird die Benchmark-Evaluierung durchgeführt
- Einsatz von OCRBench
- Dient als 5-minütiger Smoke-Test für multimodale Pipelines
- Einsatz von MMMU Pro
- Überprüft durch verschiedene visuelle Eingaben das Preprocessing von Vision-Eingaben
- Einsatz von AIME2025
- Dient als Stresstest für lange Ausgaben
- Erkennt KV-Cache-Bugs und Leistungseinbußen durch Quantisierung, die in kurzen Benchmarks nicht sichtbar werden
- Einsatz von K2VV ToolCall
- Misst Trigger-Konsistenz (F1) und die Genauigkeit des JSON Schema
- Dient der frühen Erkennung, bevor sich Tool-Fehler in Agenten aufschaukeln
- Einsatz von SWE-Bench
- Dient als vollständiger agentic coding test
- Wird wegen Sandbox-Abhängigkeiten nicht als Open Source veröffentlicht
- Zusammenarbeit mit den Communities von vLLM, SGLang und KTransformers
- Ziel ist nicht nur die Erkennung von Symptomen, sondern die Behebung der Grundursachen
- Statt nach der Bereitstellung auf Beschwerden zu warten, erhalten Infrastrukturanbieter frühen Zugang
- So können Anbieter ihren eigenen Stack validieren, bevor Nutzer auf Probleme stoßen
- Ein öffentliches Leaderboard für die Ergebnisse der Anbieter soll dauerhaft betrieben werden
- Diese Transparenz ist darauf ausgelegt, bei Anbietern die Priorität für Genauigkeit zu erhöhen
- Die Validierung des gesamten Evaluierungs-Workflows wurde abgeschlossen
- Verwendet wurden zwei NVIDIA-H20-8-GPU-Server
- Bei sequenzieller Ausführung beträgt die Laufzeit etwa 15 Stunden
- Die Skripte wurden für langlaufende Inferenzszenarien optimiert
- Streaming-Inferenz
- automatische Wiederholungsversuche
- einschließlich eines Mechanismus zum Fortsetzen per Checkpoint
- Es wird der Grundsatz formuliert, dass mit der Veröffentlichung der Gewichte auch das Wissen über ihre korrekte Ausführung offengelegt werden sollte
- Die Ausweitung der Vendor-Abdeckung und die Erkundung leichterer agentic tests laufen weiter
- Veröffentlichung der Benchmark-Werte auf Basis der offiziellen API
2 Kommentare
Ich hoffe wirklich, dass dieses Projekt erfolgreich wird.
Hacker-News-Kommentare