MiMo-V2.5 — Xiaomis Open-Source-Omnimodell-KI-Modell

(huggingface.co)

7 Punkte von xguru 23 시간 전 | 1 Kommentare | Auf WhatsApp teilen

Ein nativ omnimodales Modell, das Text, Bilder, Video und Audio in einer einzigen Architektur integriert verarbeitet und auf Agenten-Aufgaben spezialisiert ist
Unter MIT-Lizenz sind kommerzielle Verbreitung und Fine-Tuning vollständig möglich – keine gesonderte Genehmigung erforderlich
Sparse-MoE-Struktur, bei der von insgesamt 310B Parametern nur 15B aktiviert werden, was effiziente Inferenz ermöglicht (Pro-Version: 1.02T/42B)
Hybrid Attention (SWA + GA im Verhältnis 5:1, Fenstergröße 128) reduziert den KV-Cache-Speicherbedarf um etwa das 6-Fache und unterstützt gleichzeitig bis zu 1M Token Kontext
Ausgestattet mit einem dedizierten Vision Encoder (729M-Parameter-ViT, hybride Window Attention) und einem Audio Encoder (261M Parameter, basierend auf MiMo-Audio-Tokenizer)
Multi-Token Prediction (MTP) mit 3 Layern beschleunigt die Inferenz auf Basis von Speculative Decoding und verbessert die Effizienz des RL-Trainings
Insgesamt mit rund 48T Token in FP8 Mixed Precision trainiert; in der Nachbearbeitungsphase wurden SFT, großskaliges Agenten-RL und Multi-Teacher On-Policy Distillation (MOPD) angewendet, um die Leistung bei Agenten- und multimodalen Benchmarks zu steigern
- 5-stufige Pipeline (Text-Pretraining → Projector-Warm-up → multimodales Pretraining → SFT/Agenten-Post-Processing → RL/MOPD)
Unterstützung für SGLang (FP8-Quantisierung, dp/tp-Parallelisierung) und offizielle Bereitstellung über vLLM
Verfügbar in zwei Versionen: Base (256K) und Full (1M)

1 Kommentare

xguru 23 시간 전

VentureBeat hat das getestet, und es soll ziemlich gut für OpenClaw geeignet sein
https://venturebeat.com/ai/…

Im ClawEval-Benchmark erreichte das Pro-Modell als Spitzenreiter im Open-Source-Bereich eine Erfolgsquote von 63,8 %
Gegenüber Anthropic Claude Opus 4.6, Google Gemini 3.1 Pro und OpenAI GPT-5.4 wurden mit 40–60 % weniger Tokens gleichwertige Ergebnisse erzielt
MiMo-V2.5 ("Omni") ist ein natives multimodales Spezialmodell, das visuelle, akustische und textuelle Eingaben integriert verarbeitet
MiMo-V2.5-Pro ("Agent") ist auf "long-horizon coherence" und komplexes Software Engineering spezialisiert
Das Pro-Modell erreichte im GDPVal-AA-(Elo-)Benchmark 1581 Punkte und übertraf damit Kimi K2.6 und GLM 5.1
Anders als viele "offene" Modelle, die eingeschränkte "Acceptable Use"-Richtlinien enthalten, wird MiMo-V2.5 unter der MIT-Lizenz veröffentlicht
- Keine Genehmigung erforderlich: Kommerzielle Verbreitung ist ohne ausdrückliche Erlaubnis von Xiaomi möglich
- Freies Weitertraining: Fine-Tuning mit eigenen Daten möglich, anschließend können abgeleitete Weights veröffentlicht werden
- Uneingeschränkte kommerzielle Nutzung: Keine bei Community-Lizenzen üblichen Umsatzobergrenzen oder Nutzerzahlbeschränkungen
Projektleiter Fuli Luo (ehemals zentrales Mitglied bei DeepSeek)

"Der Wert eines Modells wird nicht an Rankings gemessen, sondern an den Problemen, die es löst"

MiMo-V2.5 — Xiaomis Open-Source-Omnimodell-KI-Modell

Verwandte Beiträge

1 Kommentare