- MiniMax-M1 ist das weltweit erste großskalige Reasoning-Modell mit hybrider Attention und Open Weights
- Die hybride MoE-Struktur mit 456 Milliarden Parametern und der Lightning-Attention-Mechanismus sind hervorragend für die Verarbeitung langer Kontexte geeignet
- Durch RL-basiertes Training und die Einführung des CISPO-Algorithmus lassen sich verschiedenste Probleme effizient lösen
- In Benchmarks zeigt es im Vergleich zu bestehenden Modellen wie DeepSeek-R1 und Qwen3-235B eine herausragende Leistung bei komplexem Software Engineering, Tool-Nutzung und langen Eingaben
- Mit vielfältigen Inferenzumgebungen sowie unterstützenden Tools, API und Chatbot eignet es sich hervorragend als Grundlage für Language-Model-Agents der nächsten Generation
Überblick über das Open-Source-Projekt MiniMax-M1
- MiniMax-M1 ist das weltweit erste großskalige Reasoning-Modell mit hybrider Attention und Open Weights und zeigt gegenüber bestehenden kommerziellen und offenen Modellen starke Vorteile und hohe Praxistauglichkeit
- Es kombiniert eine großskalige hybride Mixture-of-Experts-(MoE)-Struktur mit dem Lightning-Attention-Mechanismus und ist für lange Kontexte, komplexes Reasoning und Problemlösungen in Software-Umgebungen optimiert
- Es unterstützt lange Kontexte (bis zu 1 Million Token) effizient und reduziert den Rechenaufwand bei Tests deutlich (bei 100K nur 25 % der FLOPs von DeepSeek-R1)
- Mit modernster RL-Technologie, dem neuartigen CISPO-Algorithmus und einem hybriden Attention-Design maximiert es sowohl Skalierbarkeit als auch Inferenz-Effizienz
1. Modellüberblick
- MiniMax-M1 verfügt über eine hybride Mixture-of-Experts-(MoE)-Struktur und Lightning Attention
- Es wurde auf Basis des Vorgängers MiniMax-Text-01 entwickelt (456 Milliarden Parameter, 45,9 Milliarden aktivierte Parameter pro Token)
- Unterstützung für eine Kontextlänge von 1 Million Token (achtmal so viel Kontext wie DeepSeek R1)
- Lightning Attention reduziert den Rechenaufwand bei Tests erheblich (25 % im Vergleich zu DeepSeek R1)
- Geeignet für Aufgaben, die lange Eingaben und komplexes Reasoning erfordern
- Trainiert mittels großskaligem RL für ein breites Spektrum an Problemen, darunter mathematisches Reasoning und praxisnahes Software Engineering
- Präsentiert ein eigenes RL-Scaling-Framework für MiniMax-M1
- CISPO-Methode: Einführung eines Importance-Sampling-Weight-Clipping-Algorithmus, der bestehenden RL-Verfahren überlegen ist
- Verbesserung von RL-Effizienz und Skalierbarkeit auf Basis hybrider Attention
- In zwei Varianten mit 40K- und 80K-Thinking-Budget trainiert und veröffentlicht
- In Software Engineering, Tool-Nutzung und Long-Context-Aufgaben herausragende Leistung gegenüber leistungsstarken offenen Modellen wie DeepSeek-R1 und Qwen3-235B
- Bietet eine Grundlage für den Aufbau von Language-Model-Agents der nächsten Generation zur Lösung realer Herausforderungen
2. Evaluation
Zentrale Benchmark-Ergebnisse
- In den Bereichen Mathematik, Code, Software Engineering und lange Kontexte auf SOTA-Niveau
- Insgesamt höhere Scores als andere offene Modelle, insbesondere mit differenzierender Wettbewerbsstärke bei SWE-bench und Long Context
- Beispiele für besonders auffällige Werte
- SWE-bench: 56.0 (M1-80k) / 34.4 (Qwen3) / 49.2 (DeepSeek R1)
- OpenAI-MRCR (128k): 73.4 (M1-80k) / 27.7 (Qwen3) / 35.8 (DeepSeek R1)
- Robust bei für die Softwareentwicklung relevanten Tasks wie LiveCodeBench und FullStackBench
- Ausführungsumgebung: bewertet mit temperature 1.0 und top_p 0.95
- Für Benchmarks wie SWE-bench und TAU-bench wurden Bewertungen auf Grundlage eigener Verfahren und Einstellungen durchgeführt (z. B. dateibasierte zweistufige Lokalisierung, ohne Nutzung von Embeddings)
3. Leitfaden zur Nutzung des MiniMax-M1-Modells
Empfohlene Einstellungen für optimale Leistung
3.1. Inferenzparameter
- Temperature: 1.0
- Top_p: 0.95
Diese Kombination bietet eine Umgebung, die sowohl Textvielfalt als auch logische Konsistenz sicherstellt
3.2. System-Prompt
- Allgemeine Aufgaben: "You are a helpful assistant."
- Webentwicklung: spezialisierter Prompt für komplexe Webseitenerstellung, etwa für die Ausgabe vollständig integrierten UI-Codes
- Mathematisches Reasoning: schrittweise Lösung und Eintragung der finalen Antwort in \boxed{}
4. Deployment-Leitfaden
- Auf HuggingFace können die Modelle MiniMax-M1-40k und MiniMax-M1-80k heruntergeladen werden
- Für produktive Services wird ein Deployment auf Basis von vLLM empfohlen
- Geeignet für das Serving großer Modelle dank effizientem Speichermanagement, hervorragender Batch-Verarbeitung und Performance-Optimierung
- Zusätzlich wird auch ein separates Deployment auf Transformers-Basis unterstützt
5. Function Calling (funktionale Schnittstelle)
- MiniMax-M1 unterstützt Function Calling
- Falls externe Funktionen erforderlich sind, werden Parameter automatisch in einem strukturierten Format ausgegeben
- Ein Leitfaden zu Function Calling ist verfügbar
6. Chatbot & API
- MiniMax Chatbot: bietet eine Chat-Oberfläche einschließlich Online-Suche
- API: bietet eine Online-API für Entwickler sowie Entwicklertools wie den MiniMax MCP Server
- Einschließlich KI-gestützter Video-, Bild- und Sprachsynthese sowie Voice Cloning
1 Kommentare
Hacker-News-Kommentare
Falls sich jemand fragt, womit man das ausführen soll: Man braucht 8× H200 141GB, und der Preis liegt bei etwa 250.000 US-Dollar
GitHub-Diskussion / eBay-Produktpreisinfo
Diese Woche soll MiniMaxs „Launch Week“ sein
Am Montag wurde M1 vorgestellt, am Dienstag Hailuo 2
Neuigkeiten zu chinesischen Modellen
Ob solche Ankündigungen die ganze Woche über weitergehen, ist noch unklar, und bislang ist das Unternehmen vor allem für LLMs und Videomodelle bekannt
Offizielle Ankündigungen findet man auf MiniMaxs X (früher Twitter)
Außerdem ist der technische Bericht zu MiniMax M1 nützlich
Technischer Bericht PDF
Es ist kein SOTA-Open-Weight-Modell, aber es macht sehr interessante und weitreichende Aussagen zu Lightning Attention und einer GRPO-Variante (CISPO)
(Ich habe nichts mit dem Unternehmen zu tun und teile nur Informationen, die ich gefunden habe)
Als ich im arXiv-Paper die Formulierung "We publicly release MiniMax-M1 at this https url" sah, mochte ich die Firma, weil es eine echte Code-Veröffentlichung war und nicht nur ein tatsächlich leeres Repository
Meine Gedanken
Falls jemand vertrauenswürdige Expertinnen oder Experten oder interessante Diskussionspartner zu diesem Bereich kennt, würde ich mich über Empfehlungen freuen
Ein Börsengang an der Hongkonger Börse (HKEX) ist ebenfalls geplant
Zugehöriger Artikel
Auf der offiziellen Seite steht es nicht ausdrücklich, aber MiniMax ist ein chinesisches Unternehmen
Wikipedia als Referenz
Solche Modellnamen hätten besser gewählt werden können
Klingt wie ein Mac-Studio-Prozessor
Der Name ist von diesem berühmten klassischen KI-Algorithmus abgeleitet
Im Paper steht: "In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention"
Das heißt, 87,5 % des Ganzen sind Linear Attention und 12,5 % Full Attention
Tatsächlich ist der Begriff „Linear Attention“ verwirrend
Softmax Attention ist eine Methode des Information Routing, und bei der Berechnung von Token k nimmt sie Informationen aus 1 bis k auf, muss dabei aber durch Kanäle fester Größe gehen
Bei Linear Attention gibt es dagegen pro Layer nur eine „Registerbank“ fester Größe
Außer dass sie mit einer Layer-at-once-Berechnung kompatibel ist, ist daran kaum etwas bemerkenswert; echte Attention ist es nicht wirklich
Es heißt, MiniMax streue Gerüchte über einen IPO
Zugehöriger Artikel
Falls ein Training in dieser Größenordnung ohne westliche Cloud-Infrastruktur stattgefunden hat, frage ich mich, wie die Token-Verarbeitung strukturiert ist
xcancel als Referenz