7 Punkte von xguru 23 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • Ein nativ omnimodales Modell, das Text, Bilder, Video und Audio in einer einzigen Architektur integriert verarbeitet und auf Agenten-Aufgaben spezialisiert ist
  • Unter MIT-Lizenz sind kommerzielle Verbreitung und Fine-Tuning vollständig möglich – keine gesonderte Genehmigung erforderlich
  • Sparse-MoE-Struktur, bei der von insgesamt 310B Parametern nur 15B aktiviert werden, was effiziente Inferenz ermöglicht (Pro-Version: 1.02T/42B)
  • Hybrid Attention (SWA + GA im Verhältnis 5:1, Fenstergröße 128) reduziert den KV-Cache-Speicherbedarf um etwa das 6-Fache und unterstützt gleichzeitig bis zu 1M Token Kontext
  • Ausgestattet mit einem dedizierten Vision Encoder (729M-Parameter-ViT, hybride Window Attention) und einem Audio Encoder (261M Parameter, basierend auf MiMo-Audio-Tokenizer)
  • Multi-Token Prediction (MTP) mit 3 Layern beschleunigt die Inferenz auf Basis von Speculative Decoding und verbessert die Effizienz des RL-Trainings
  • Insgesamt mit rund 48T Token in FP8 Mixed Precision trainiert; in der Nachbearbeitungsphase wurden SFT, großskaliges Agenten-RL und Multi-Teacher On-Policy Distillation (MOPD) angewendet, um die Leistung bei Agenten- und multimodalen Benchmarks zu steigern
    • 5-stufige Pipeline (Text-Pretraining → Projector-Warm-up → multimodales Pretraining → SFT/Agenten-Post-Processing → RL/MOPD)
  • Unterstützung für SGLang (FP8-Quantisierung, dp/tp-Parallelisierung) und offizielle Bereitstellung über vLLM
  • Verfügbar in zwei Versionen: Base (256K) und Full (1M)

1 Kommentare

 

VentureBeat hat das getestet, und es soll ziemlich gut für OpenClaw geeignet sein
https://venturebeat.com/ai/…

  • Im ClawEval-Benchmark erreichte das Pro-Modell als Spitzenreiter im Open-Source-Bereich eine Erfolgsquote von 63,8 %
  • Gegenüber Anthropic Claude Opus 4.6, Google Gemini 3.1 Pro und OpenAI GPT-5.4 wurden mit 40–60 % weniger Tokens gleichwertige Ergebnisse erzielt
  • MiMo-V2.5 ("Omni") ist ein natives multimodales Spezialmodell, das visuelle, akustische und textuelle Eingaben integriert verarbeitet
  • MiMo-V2.5-Pro ("Agent") ist auf "long-horizon coherence" und komplexes Software Engineering spezialisiert
  • Das Pro-Modell erreichte im GDPVal-AA-(Elo-)Benchmark 1581 Punkte und übertraf damit Kimi K2.6 und GLM 5.1
  • Anders als viele "offene" Modelle, die eingeschränkte "Acceptable Use"-Richtlinien enthalten, wird MiMo-V2.5 unter der MIT-Lizenz veröffentlicht
    • Keine Genehmigung erforderlich: Kommerzielle Verbreitung ist ohne ausdrückliche Erlaubnis von Xiaomi möglich
    • Freies Weitertraining: Fine-Tuning mit eigenen Daten möglich, anschließend können abgeleitete Weights veröffentlicht werden
    • Uneingeschränkte kommerzielle Nutzung: Keine bei Community-Lizenzen üblichen Umsatzobergrenzen oder Nutzerzahlbeschränkungen
  • Projektleiter Fuli Luo (ehemals zentrales Mitglied bei DeepSeek)

    "Der Wert eines Modells wird nicht an Rankings gemessen, sondern an den Problemen, die es löst"