7 Punkte von xguru 13 일 전 | 2 Kommentare | Auf WhatsApp teilen
  • Ein nativ omnimodales Modell, das Text, Bilder, Video und Audio in einer einheitlichen Architektur integriert verarbeitet und auf Agenten-Aufgaben spezialisiert ist
  • Kommerzielle Bereitstellung und Fine-Tuning sind dank MIT-Lizenz vollständig möglich – keine separate Genehmigung erforderlich
  • Sparse-MoE-Struktur, bei der von insgesamt 310B Parametern nur 15B aktiviert werden, was effiziente Inferenz ermöglicht (Pro-Version: 1.02T/42B)
  • Hybrid Attention (SWA + GA im Verhältnis 5:1, Fenster 128) reduziert den KV-Cache-Speicherbedarf um etwa das 6-Fache und unterstützt gleichzeitig bis zu 1M Token Kontext
  • Ausgestattet mit dediziertem Vision Encoder (729M-Parameter-ViT, Hybrid Window Attention) und Audio Encoder (261M Parameter, basierend auf MiMo-Audio-Tokenizer)
  • Multi-Token Prediction (MTP) mit 3 Schichten beschleunigt die Inferenz auf Basis von Speculative Decoding und verbessert die Effizienz des RL-Trainings
  • Mit insgesamt rund 48T Token in FP8 Mixed Precision trainiert; in der Nachbearbeitungsphase wurden SFT, großskaliges Agenten-RL und Multi-Teacher On-Policy Distillation (MOPD) angewendet, um die Leistung bei Agenten- und multimodalen Benchmarks zu steigern
    • 5-stufige Pipeline (Text-Pretraining → Projector-Warm-up → multimodales Pretraining → SFT/Agenten-Post-Training → RL/MOPD)
  • Unterstützt SGLang (FP8-Quantisierung, dp/tp-Parallelisierung) sowie offizielle Bereitstellung über vLLM
  • Verfügbar in zwei Versionen: Base (256K) und Full (1M)

2 Kommentare

 
xguru 13 일 전

VentureBeat hat das getestet, und es soll ziemlich gut für OpenClaw geeignet sein
https://venturebeat.com/ai/…

  • Im ClawEval-Benchmark erreichte das Pro-Modell als Spitzenreiter im Open-Source-Bereich eine Erfolgsquote von 63,8 %
  • Gegenüber Anthropic Claude Opus 4.6, Google Gemini 3.1 Pro und OpenAI GPT-5.4 wurden mit 40–60 % weniger Tokens gleichwertige Ergebnisse erzielt
  • MiMo-V2.5 ("Omni") ist ein natives multimodales Spezialmodell, das visuelle, akustische und textuelle Eingaben integriert verarbeitet
  • MiMo-V2.5-Pro ("Agent") ist auf "long-horizon coherence" und komplexes Software Engineering spezialisiert
  • Das Pro-Modell erreichte im GDPVal-AA-(Elo-)Benchmark 1581 Punkte und übertraf damit Kimi K2.6 und GLM 5.1
  • Anders als viele "offene" Modelle, die eingeschränkte "Acceptable Use"-Richtlinien enthalten, wird MiMo-V2.5 unter der MIT-Lizenz veröffentlicht
    • Keine Genehmigung erforderlich: Kommerzielle Verbreitung ist ohne ausdrückliche Erlaubnis von Xiaomi möglich
    • Freies Weitertraining: Fine-Tuning mit eigenen Daten möglich, anschließend können abgeleitete Weights veröffentlicht werden
    • Uneingeschränkte kommerzielle Nutzung: Keine bei Community-Lizenzen üblichen Umsatzobergrenzen oder Nutzerzahlbeschränkungen
  • Projektleiter Fuli Luo (ehemals zentrales Mitglied bei DeepSeek)

    "Der Wert eines Modells wird nicht an Rankings gemessen, sondern an den Problemen, die es löst"

 
cosine20 11 일 전

Wenn man die wichtigsten Geschäftsbereiche von Xiaomi betrachtet, liegt die Vermutung nahe, dass das Modell möglicherweise auch mit Blick auf Agenten wie OpenClaw oder Hermes entwickelt wurde.