Xiaomi MiMo Inferenzmodell
(github.com/XiaomiMiMo)- MiMo-7B ist eine Modellreihe, die entwickelt wurde, um das Inferenzpotenzial von Sprachmodellen maximal auszuschöpfen
- Durch Strategien für Pre-Training und Post-Training erzielt es herausragende Leistungen bei mathematischen und Code-Inferenzaufgaben
- Obwohl MiMo-7B ein kleines Modell ist, zeigt es eine mit größeren Modellen vergleichbare Leistung
- Es wird als Open Source bereitgestellt und bietet damit die Möglichkeit, zur Community beizutragen
- Über die RL-Infrastruktur werden Trainings- und Validierungsgeschwindigkeit deutlich verbessert
I. Einführung
- Die meisten erfolgreichen Forschungen zu Reinforcement Learning (RL) stützen sich auf große Modelle, und es ist schwierig, bei kleinen Modellen gleichzeitig mathematische und Code-Fähigkeiten zu verbessern
- MiMo-7B ist ein von Grund auf für Inferenzaufgaben trainiertes Modell und besitzt ein Inferenzpotenzial, das größere Modelle übertrifft
- Die MiMo-7B-Serie wird als Open Source bereitgestellt und kann dazu beitragen, dass die Community leistungsstarke Sprachmodelle für Inferenz entwickelt
🌟 Wichtige Inhalte
-
Pre-Training: Basismodell für Inferenz
- Die Datenvorverarbeitungs-Pipeline wurde optimiert, um die Dichte von Inferenzmustern zu erhöhen
- Es wurden mehrere Strategien eingesetzt, um vielfältige synthetische Inferenzdaten zu erzeugen
- Multi-Token Prediction wurde als zusätzliches Trainingsziel aufgenommen, um die Modellleistung zu verbessern
-
Post-Training-Rezept: Wegweisendes Inferenzmodell
- 130K Mathematik- und Code-Probleme wurden als RL-Trainingsdaten verwendet
- Eine Code-Belohnung auf Basis der Testschwierigkeit wurde eingeführt, um die Policy-Optimierung effektiv durchzuführen
- Eine Daten-Resampling-Strategie für einfache Probleme wurde implementiert, um Policy-Updates zu stabilisieren
-
RL-Infrastruktur
- Die Seamless Rollout Engine wurde entwickelt, um RL-Training und -Validierung zu beschleunigen
- MTP wird in vLLM unterstützt, und die Robustheit der Inferenz-Engine des RL-Systems wurde verbessert
II. Modelldetails
- Die MiMo-7B-Serie bietet verschiedene Modell-Checkpoints und kann über HuggingFace heruntergeladen werden
III. Evaluationsergebnisse
- MiMo-7B-RL zeigt starke Leistung bei Aufgaben zu mathematischer und Code-Inferenz
- In verschiedenen Benchmarks wurden wettbewerbsfähige Ergebnisse erzielt
IV. Bereitstellung
- Inferenzunterstützung über vLLM und HuggingFace
- Mit der empfohlenen Umgebung und der Verwendung von Prompts kann eine optimale Leistung erzielt werden
V. Zitation
- Es werden Zitationsinformationen zu MiMo-7B bereitgestellt
VI. Kontakt
- Bei Fragen kann mimo@xiaomi.com kontaktiert oder ein GitHub-Issue erstellt werden
1 Kommentare
Hacker-News-Kommentare
Im Paper war die Verarbeitung der Reinforcement-Learning-(RL)-Phase für Code-Daten interessant. Es wurde auf Codegenerierungsaufgaben trainiert, die sich durch Ausführen von Unit-Tests lösen lassen. Ich frage mich, ob andere Modelle diesen Trainingsschritt ebenfalls durchführen.
Ich frage mich, warum es in China so viele AI-Modelle gibt, bei denen Englisch im Vordergrund steht. Haben sie kein Interesse an der eigenen Bevölkerung, oder glauben sie, dass ein zuerst auf Chinesisch ausgerichtetes Modell im Westen keine Aufmerksamkeit bekäme?
Die Coding-Leistung des 7B-Modells ist sehr stark. Ich nutze Gemini Pro 2.5, das 67,8 Punkte erzielt hat, und dieses Modell kommt auf 57,8 Punkte und liegt damit sehr nah an den 60,6 Punkten von Gemini 2.5 Flash.
MiMo-7B übertrifft größere Modelle wie Qwen-32B und beansprucht Gleichstand mit OpenAI o1-mini bei Mathematik-/Code-Benchmarks. Ich frage mich, ob das ein Zeichen dafür ist, dass Pretraining + RLHF-Optimierung beginnt, Größe zu übertreffen, oder ob wir einfach besser darin geworden sind, schmale Fähigkeiten zu benchmarken.
Es ist amüsant, Benchmarks zu sehen, in denen Spitzenmodelle wie O3 ausgelassen werden. Es ist derzeit in vielen Benchmarks das beste Modell. Es gibt auch Gemini Pro/Claude 3.7.
Wenn man in ollama gguf-Dateien verwendet: Erstellt man normalerweise ein modelfile für neue Modelle, oder hofft man einfach, dass das Standard-ollama mit dem neuen Modell funktioniert?
Im README steht nur „RL“, ohne anzugeben, welche Art von RL verwendet wurde. An die Forschenden: Ich weiß, dass ihr beschäftigt seid, aber bitte lasst solche Details nicht weg.
Ich habe es ein wenig getestet, und insgesamt wirkt es ziemlich solide. Wegen der langen Denkzeit muss man recht lange warten, sogar länger als bei größeren Modellen wie dem aktuellen qwen moe.
Ich frage mich, ob sie dieses Modell als AI-Assistenten für die Xiaomi-15-Serie verwenden werden. Wahrscheinlich schon. Ich bin mir nur nicht sicher, was man erwarten sollte.
Wow. Großartige Benchmarks. Ich freue mich darauf, mit diesem Modell zu sprechen.