- Ein nativ omnimodales Modell, das Text, Bilder, Video und Audio in einer einzigen Architektur integriert verarbeitet und auf Agenten-Aufgaben spezialisiert ist
- Unter MIT-Lizenz sind kommerzielle Verbreitung und Fine-Tuning vollständig möglich – keine gesonderte Genehmigung erforderlich
- Sparse-MoE-Struktur, bei der von insgesamt 310B Parametern nur 15B aktiviert werden, was effiziente Inferenz ermöglicht (Pro-Version: 1.02T/42B)
- Hybrid Attention (SWA + GA im Verhältnis 5:1, Fenstergröße 128) reduziert den KV-Cache-Speicherbedarf um etwa das 6-Fache und unterstützt gleichzeitig bis zu 1M Token Kontext
- Ausgestattet mit einem dedizierten Vision Encoder (729M-Parameter-ViT, hybride Window Attention) und einem Audio Encoder (261M Parameter, basierend auf MiMo-Audio-Tokenizer)
- Multi-Token Prediction (MTP) mit 3 Layern beschleunigt die Inferenz auf Basis von Speculative Decoding und verbessert die Effizienz des RL-Trainings
- Insgesamt mit rund 48T Token in FP8 Mixed Precision trainiert; in der Nachbearbeitungsphase wurden SFT, großskaliges Agenten-RL und Multi-Teacher On-Policy Distillation (MOPD) angewendet, um die Leistung bei Agenten- und multimodalen Benchmarks zu steigern
- 5-stufige Pipeline (Text-Pretraining → Projector-Warm-up → multimodales Pretraining → SFT/Agenten-Post-Processing → RL/MOPD)
- Unterstützung für SGLang (FP8-Quantisierung, dp/tp-Parallelisierung) und offizielle Bereitstellung über vLLM
- Verfügbar in zwei Versionen: Base (256K) und Full (1M)
1 Kommentare
VentureBeat hat das getestet, und es soll ziemlich gut für OpenClaw geeignet sein
https://venturebeat.com/ai/…