MiniMax-M1 mit Open Weights: großskaliges Reasoning-Modell mit hybrider Attention

(github.com/MiniMax-AI)

5 Punkte von GN⁺ 2025-06-19 | 1 Kommentare | Auf WhatsApp teilen

MiniMax-M1 ist das weltweit erste großskalige Reasoning-Modell mit hybrider Attention und Open Weights
Die hybride MoE-Struktur mit 456 Milliarden Parametern und der Lightning-Attention-Mechanismus sind hervorragend für die Verarbeitung langer Kontexte geeignet
Durch RL-basiertes Training und die Einführung des CISPO-Algorithmus lassen sich verschiedenste Probleme effizient lösen
In Benchmarks zeigt es im Vergleich zu bestehenden Modellen wie DeepSeek-R1 und Qwen3-235B eine herausragende Leistung bei komplexem Software Engineering, Tool-Nutzung und langen Eingaben
Mit vielfältigen Inferenzumgebungen sowie unterstützenden Tools, API und Chatbot eignet es sich hervorragend als Grundlage für Language-Model-Agents der nächsten Generation

Überblick über das Open-Source-Projekt MiniMax-M1

MiniMax-M1 ist das weltweit erste großskalige Reasoning-Modell mit hybrider Attention und Open Weights und zeigt gegenüber bestehenden kommerziellen und offenen Modellen starke Vorteile und hohe Praxistauglichkeit
Es kombiniert eine großskalige hybride Mixture-of-Experts-(MoE)-Struktur mit dem Lightning-Attention-Mechanismus und ist für lange Kontexte, komplexes Reasoning und Problemlösungen in Software-Umgebungen optimiert
Es unterstützt lange Kontexte (bis zu 1 Million Token) effizient und reduziert den Rechenaufwand bei Tests deutlich (bei 100K nur 25 % der FLOPs von DeepSeek-R1)
Mit modernster RL-Technologie, dem neuartigen CISPO-Algorithmus und einem hybriden Attention-Design maximiert es sowohl Skalierbarkeit als auch Inferenz-Effizienz

1. Modellüberblick

MiniMax-M1 verfügt über eine hybride Mixture-of-Experts-(MoE)-Struktur und Lightning Attention
Es wurde auf Basis des Vorgängers MiniMax-Text-01 entwickelt (456 Milliarden Parameter, 45,9 Milliarden aktivierte Parameter pro Token)
Unterstützung für eine Kontextlänge von 1 Million Token (achtmal so viel Kontext wie DeepSeek R1)
Lightning Attention reduziert den Rechenaufwand bei Tests erheblich (25 % im Vergleich zu DeepSeek R1)
Geeignet für Aufgaben, die lange Eingaben und komplexes Reasoning erfordern
Trainiert mittels großskaligem RL für ein breites Spektrum an Problemen, darunter mathematisches Reasoning und praxisnahes Software Engineering
Präsentiert ein eigenes RL-Scaling-Framework für MiniMax-M1
- CISPO-Methode: Einführung eines Importance-Sampling-Weight-Clipping-Algorithmus, der bestehenden RL-Verfahren überlegen ist
- Verbesserung von RL-Effizienz und Skalierbarkeit auf Basis hybrider Attention
In zwei Varianten mit 40K- und 80K-Thinking-Budget trainiert und veröffentlicht
In Software Engineering, Tool-Nutzung und Long-Context-Aufgaben herausragende Leistung gegenüber leistungsstarken offenen Modellen wie DeepSeek-R1 und Qwen3-235B
Bietet eine Grundlage für den Aufbau von Language-Model-Agents der nächsten Generation zur Lösung realer Herausforderungen

2. Evaluation

Zentrale Benchmark-Ergebnisse

In den Bereichen Mathematik, Code, Software Engineering und lange Kontexte auf SOTA-Niveau
Insgesamt höhere Scores als andere offene Modelle, insbesondere mit differenzierender Wettbewerbsstärke bei SWE-bench und Long Context
Beispiele für besonders auffällige Werte
- SWE-bench: 56.0 (M1-80k) / 34.4 (Qwen3) / 49.2 (DeepSeek R1)
- OpenAI-MRCR (128k): 73.4 (M1-80k) / 27.7 (Qwen3) / 35.8 (DeepSeek R1)
- Robust bei für die Softwareentwicklung relevanten Tasks wie LiveCodeBench und FullStackBench
Ausführungsumgebung: bewertet mit temperature 1.0 und top_p 0.95
Für Benchmarks wie SWE-bench und TAU-bench wurden Bewertungen auf Grundlage eigener Verfahren und Einstellungen durchgeführt (z. B. dateibasierte zweistufige Lokalisierung, ohne Nutzung von Embeddings)

3. Leitfaden zur Nutzung des MiniMax-M1-Modells

Empfohlene Einstellungen für optimale Leistung

3.1. Inferenzparameter

Temperature: 1.0
Top_p: 0.95
Diese Kombination bietet eine Umgebung, die sowohl Textvielfalt als auch logische Konsistenz sicherstellt

3.2. System-Prompt

Allgemeine Aufgaben: "You are a helpful assistant."
Webentwicklung: spezialisierter Prompt für komplexe Webseitenerstellung, etwa für die Ausgabe vollständig integrierten UI-Codes
Mathematisches Reasoning: schrittweise Lösung und Eintragung der finalen Antwort in \boxed{}

4. Deployment-Leitfaden

Auf HuggingFace können die Modelle MiniMax-M1-40k und MiniMax-M1-80k heruntergeladen werden
Für produktive Services wird ein Deployment auf Basis von vLLM empfohlen
- Geeignet für das Serving großer Modelle dank effizientem Speichermanagement, hervorragender Batch-Verarbeitung und Performance-Optimierung
Zusätzlich wird auch ein separates Deployment auf Transformers-Basis unterstützt

5. Function Calling (funktionale Schnittstelle)

MiniMax-M1 unterstützt Function Calling
- Falls externe Funktionen erforderlich sind, werden Parameter automatisch in einem strukturierten Format ausgegeben
- Ein Leitfaden zu Function Calling ist verfügbar

6. Chatbot & API

MiniMax Chatbot: bietet eine Chat-Oberfläche einschließlich Online-Suche
API: bietet eine Online-API für Entwickler sowie Entwicklertools wie den MiniMax MCP Server
- Einschließlich KI-gestützter Video-, Bild- und Sprachsynthese sowie Voice Cloning

1 Kommentare

GN⁺ 2025-06-19

Hacker-News-Kommentare

Falls sich jemand fragt, womit man das ausführen soll: Man braucht 8× H200 141GB, und der Preis liegt bei etwa 250.000 US-Dollar
GitHub-Diskussion / eBay-Produktpreisinfo
- Ich frage mich, ob es nicht auf einem Mac Studio mit 512GB laufen könnte; etwa 8.500 US-Dollar sollten reichen
- Das gilt nur bei vollständiger Quantisierung; mit Q4 oder Q8 sollte es auf Hardware für unter 10.000 US-Dollar laufen
- Ich frage mich, wie viele Parameter dieses Modell hat
Diese Woche soll MiniMaxs „Launch Week“ sein
Am Montag wurde M1 vorgestellt, am Dienstag Hailuo 2
Neuigkeiten zu chinesischen Modellen
Ob solche Ankündigungen die ganze Woche über weitergehen, ist noch unklar, und bislang ist das Unternehmen vor allem für LLMs und Videomodelle bekannt
Offizielle Ankündigungen findet man auf MiniMaxs X (früher Twitter)
Außerdem ist der technische Bericht zu MiniMax M1 nützlich
Technischer Bericht PDF
Es ist kein SOTA-Open-Weight-Modell, aber es macht sehr interessante und weitreichende Aussagen zu Lightning Attention und einer GRPO-Variante (CISPO)
(Ich habe nichts mit dem Unternehmen zu tun und teile nur Informationen, die ich gefunden habe)
- Wenn es am Montag M1 und am Dienstag Hailuo 2 gab, wäre es lustig gewesen, nach Art von Apple-Chips M1, M1 Pro und M1 Ultra als Namen zu verwenden
Als ich im arXiv-Paper die Formulierung "We publicly release MiniMax-M1 at this https url" sah, mochte ich die Firma, weil es eine echte Code-Veröffentlichung war und nicht nur ein tatsächlich leeres Repository
Meine Gedanken
- Laut LinkedIn scheint es ein in Singapur ansässiges Unternehmen zu sein, und die Einstiegshürden für gute LLMs wirken gar nicht so hoch
- Dank Open-Weight-Modellen und den Fortschritten bei Strix Halo / Ryzen AI Max bin ich optimistisch, dass man in ein paar Jahren gute LLMs lokal günstig betreiben kann
- Es scheint unvermeidlich zu werden, lokale Modelle zu betreiben, und ich sehe dem mit Erwartung und Sorge zugleich entgegen
  Falls jemand vertrauenswürdige Expertinnen oder Experten oder interessante Diskussionspartner zu diesem Bereich kennt, würde ich mich über Empfehlungen freuen
- Anders als auf LinkedIn angegeben, ist es in Wirklichkeit ein Unternehmen mit Sitz in Shanghai
- Ich habe einen Twitter-Post gesehen, laut dem MiniMax das Modell mit einem Budget von etwa 500.000 US-Dollar trainiert hat
  
  RL (Reinforcement Learning) wurde für 534.700 US-Dollar trainiert
  Ich frage mich, wie das zu diesen Kosten möglich war
- Das Unternehmen ist tatsächlich eine chinesische Firma mit Sitz in Shanghai
  Ein Börsengang an der Hongkonger Börse (HKEX) ist ebenfalls geplant
  Zugehöriger Artikel
Auf der offiziellen Seite steht es nicht ausdrücklich, aber MiniMax ist ein chinesisches Unternehmen
Wikipedia als Referenz
- Viele wissen, dass MiniMax ein chinesisches Unternehmen ist, weil ihr Videogenerator wegen des stark chinesisch wirkenden Namens „Hailuo“ bekannt wurde und bis heute dafür bekannt ist
- Ich frage mich, ob es überhaupt einen Grund gibt, auf der eigenen Projektseite zu erwähnen, dass man ein chinesisches Unternehmen ist
Solche Modellnamen hätten besser gewählt werden können
Klingt wie ein Mac-Studio-Prozessor
- Ich kenne den Minimax-Algorithmus
  Der Name ist von diesem berühmten klassischen KI-Algorithmus abgeleitet
- Dein Mac wird von „Apple“ hergestellt, und das stammt tatsächlich vom Namen einer Apfelsorte ab
- Es erinnert mich an meinen alten, verlorenen Hund namens Max; ich finde den Namen wirklich so schlecht, dass er fast schon kriminell ist
Im Paper steht: "In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention"
Das heißt, 87,5 % des Ganzen sind Linear Attention und 12,5 % Full Attention
Tatsächlich ist der Begriff „Linear Attention“ verwirrend
Softmax Attention ist eine Methode des Information Routing, und bei der Berechnung von Token k nimmt sie Informationen aus 1 bis k auf, muss dabei aber durch Kanäle fester Größe gehen
Bei Linear Attention gibt es dagegen pro Layer nur eine „Registerbank“ fester Größe
Außer dass sie mit einer Layer-at-once-Berechnung kompatibel ist, ist daran kaum etwas bemerkenswert; echte Attention ist es nicht wirklich
Es heißt, MiniMax streue Gerüchte über einen IPO
Zugehöriger Artikel
Falls ein Training in dieser Größenordnung ohne westliche Cloud-Infrastruktur stattgefunden hat, frage ich mich, wie die Token-Verarbeitung strukturiert ist
- Es wurde 3 Wochen lang mit 512 H800-GPUs trainiert und kostete etwa 500.000 US-Dollar
  xcancel als Referenz
- Mit Sneakernet (physischer Transport)

MiniMax-M1 mit Open Weights: großskaliges Reasoning-Modell mit hybrider Attention

Überblick über das Open-Source-Projekt MiniMax-M1

1. Modellüberblick

2. Evaluation

Zentrale Benchmark-Ergebnisse

3. Leitfaden zur Nutzung des MiniMax-M1-Modells

Empfohlene Einstellungen für optimale Leistung

3.1. Inferenzparameter

3.2. System-Prompt

4. Deployment-Leitfaden

5. Function Calling (funktionale Schnittstelle)

6. Chatbot & API

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare