- Ein nativ omnimodales Modell, das Text, Bilder, Video und Audio in einer einheitlichen Architektur integriert verarbeitet und auf Agenten-Aufgaben spezialisiert ist
- Kommerzielle Bereitstellung und Fine-Tuning sind dank MIT-Lizenz vollständig möglich – keine separate Genehmigung erforderlich
- Sparse-MoE-Struktur, bei der von insgesamt 310B Parametern nur 15B aktiviert werden, was effiziente Inferenz ermöglicht (Pro-Version: 1.02T/42B)
- Hybrid Attention (SWA + GA im Verhältnis 5:1, Fenster 128) reduziert den KV-Cache-Speicherbedarf um etwa das 6-Fache und unterstützt gleichzeitig bis zu 1M Token Kontext
- Ausgestattet mit dediziertem Vision Encoder (729M-Parameter-ViT, Hybrid Window Attention) und Audio Encoder (261M Parameter, basierend auf MiMo-Audio-Tokenizer)
- Multi-Token Prediction (MTP) mit 3 Schichten beschleunigt die Inferenz auf Basis von Speculative Decoding und verbessert die Effizienz des RL-Trainings
- Mit insgesamt rund 48T Token in FP8 Mixed Precision trainiert; in der Nachbearbeitungsphase wurden SFT, großskaliges Agenten-RL und Multi-Teacher On-Policy Distillation (MOPD) angewendet, um die Leistung bei Agenten- und multimodalen Benchmarks zu steigern
- 5-stufige Pipeline (Text-Pretraining → Projector-Warm-up → multimodales Pretraining → SFT/Agenten-Post-Training → RL/MOPD)
- Unterstützt SGLang (FP8-Quantisierung, dp/tp-Parallelisierung) sowie offizielle Bereitstellung über vLLM
- Verfügbar in zwei Versionen: Base (256K) und Full (1M)
2 Kommentare
VentureBeat hat das getestet, und es soll ziemlich gut für OpenClaw geeignet sein
https://venturebeat.com/ai/…
Wenn man die wichtigsten Geschäftsbereiche von Xiaomi betrachtet, liegt die Vermutung nahe, dass das Modell möglicherweise auch mit Blick auf Agenten wie OpenClaw oder Hermes entwickelt wurde.