- Ein Modell, das durch groß angelegtes Training auf Basis von Reinforcement Learning seine Fähigkeit verbessert, komplexe Aufgaben in realen Umgebungen auszuführen, und in wirtschaftlich besonders wertvollen Bereichen wie Coding, Suche und Office-Arbeit Spitzenleistungen erzielt
- Erreicht 80,2 % auf SWE-Bench Verified, 51,3 % auf Multi-SWE-Bench und 76,3 % auf BrowseComp und ist dabei 37 % schneller als die vorherige Generation
- Kann zu geringen Kosten von 1 US-Dollar pro Stunde (bei 100 TPS) betrieben werden, bei einer Leistung auf ähnlichem Niveau wie Claude Opus 4.6
- Stärkt strukturierte Denkweise, effiziente Suche und Dokumentenerstellung auf Expertenniveau über Coding-, Such- und Office-Aufgaben hinweg
- Übernimmt auch intern bei MiniMax 30 % der gesamten Arbeit automatisch, ist für 80 % der Codegenerierung verantwortlich und belegt damit echte Produktivitätssteigerungen
Überblick über M2.5 und wichtigste Leistungsdaten
- M2.5 ist ein Modell, das mit Reinforcement Learning in Hunderttausenden komplexer realer Umgebungen trainiert wurde und bei Coding, Tool-Nutzung, Suche und Büroarbeit SOTA-Niveau erreicht
- Erzielte 80,2 % auf SWE-Bench Verified, 51,3 % auf Multi-SWE-Bench und 76,3 % auf BrowseComp (einschließlich Kontextmanagement)
- In der Bewertung auf SWE-Bench Verified schloss es Aufgaben 37 % schneller als M2.1 ab und erreichte dieselbe Verarbeitungsgeschwindigkeit wie Claude Opus 4.6
- Betrieb möglich für 1 US-Dollar pro Stunde bei 100 TPS und 0,3 US-Dollar pro Stunde bei 50 TPS, mit maximaler Kosteneffizienz
Coding-Leistung
- Erreicht SOTA-Niveau bei mehrsprachigen Coding-Aufgaben, insbesondere mit starker Leistung in mehr als 10 Sprachen (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)
- Verfügt über eine architektenartige Denkstruktur, die vor dem Schreiben von Code Systemdesign, UI-Aufbau und Funktionszerlegung durchführt
- Wurde in mehr als 200.000 realen Umgebungen trainiert und unterstützt nicht nur Bugfixes, sondern den gesamten Entwicklungslebenszyklus (Design → Entwicklung → Funktionsiteration → Test)
- Im VIBE-Pro-Benchmark liegt die Leistung auf ähnlichem Niveau wie Opus 4.5, auf SWE-Bench Verified gilt
- Droid: 79.7(M2.5) > 78.9(Opus 4.6)
- OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)
Suche und Tool-Aufrufe
- Erreicht branchenführende Leistung bei BrowseComp, Wide Search und weiteren Benchmarks
- Über RISE (Realistic Interactive Search Evaluation) wurde die Suchfähigkeit auf tatsächlichem Expertenniveau verifiziert
- Liefert im Vergleich zur vorherigen Generation mit 20 % weniger Suchrunden dieselben Ergebnisse und verbessert so die Token-Effizienz
- Erzielt Ergebnisse bei komplexen Agent-Aufgaben durch präzise Suchpfade und effiziente Schlussfolgerungsprozesse
Fähigkeiten bei Office-Arbeit
- Aufbau von Daten und Einbeziehung von Feedback in Zusammenarbeit mit Experten aus Finanzen, Recht und Sozialwissenschaften
- Verbesserte Fähigkeit zur Erstellung von professionellen Dokumenten und Finanzmodellierung in Word, PowerPoint, Excel usw.
- Erzielte im internen Evaluierungs-Framework GDPval-MM eine durchschnittliche Siegquote von 59,0 %
- Die Produktivitätssteigerung im Verhältnis zu den Token-Kosten wurde direkt gemessen und bestätigt so die Effizienz in realer Arbeit
Effizienz und Geschwindigkeit
- Grundlegende Verarbeitungsgeschwindigkeit von 100 TPS, etwa doppelt so schnell wie andere Modelle
- Auf Basis von SWE-Bench Verified
- M2.5: durchschnittlich 3.52M Tokens, 22,8 Minuten
- M2.1: 3.72M Tokens, 31,3 Minuten
- 37 % schneller, auf dem gleichen Niveau wie Claude Opus 4.6 (22,9 Minuten)
- Kosten liegen bei 10 % von Opus 4.6
Kostenstruktur
- Zwei Versionen verfügbar: M2.5-Lightning (100 TPS) und M2.5 (50 TPS)
- Lightning: 0,3 US-Dollar pro 1 Million Input-Tokens, 2,4 US-Dollar pro 1 Million Output-Tokens
- M2.5: die Hälfte dieser Preise
- Die outputbasierenden Kosten liegen bei 1/10 bis 1/20 des Niveaus von Opus, Gemini 3 Pro und GPT-5
- Bei kontinuierlichem Betrieb über 1 Stunde mit 100 TPS: 1 US-Dollar, mit 50 TPS: 0,3 US-Dollar
- Mit 10.000 US-Dollar pro Jahr können 4 Instanzen dauerhaft betrieben werden, geeignet für den Betrieb großer Agent-Systeme
Tempo der Modellverbesserung
- Innerhalb von dreieinhalb Monaten wurden M2 → M2.1 → M2.5 nacheinander veröffentlicht; das Verbesserungstempo ist höher als bei konkurrierenden Modellreihen (Claude, GPT, Gemini)
- Verzeichnete auf SWE-Bench Verified eine steile Leistungssteigerung
Skalierung des Reinforcement Learning (RL Scaling)
- Aufbau von Hunderttausenden RL-Umgebungen für das Modelltraining
- Eigenentwicklung des agentenbasierten RL-Frameworks Forge
- Vollständige Trennung von Trainings-/Inferenz-Engine und Agenten
- Optimierung des asynchronen Schedulings und Tree-Merging-Strategie führten zu einer 40-fachen Beschleunigung des Trainings
- Einsatz des CISPO-Algorithmus zur Sicherung der Stabilität großer MoE-Modelle
- Process-Reward-Mechanismus zur Qualitätsüberwachung auch in langen Kontexten
- Einführung eines Systems zur Bewertung der Aufgabenzeit für das Gleichgewicht zwischen Intelligenz und Antwortgeschwindigkeit
Integration in MiniMax Agent
- M2.5 ist vollständig in MiniMax Agent integriert und bietet eine Agent-Erfahrung auf dem Niveau von Fachkräften
- Office Skills (Word, PowerPoint, Excel usw.) werden automatisch geladen, um die Dokumentenqualität zu verbessern
- Nutzer können Office Skills mit branchenspezifischem Fachwissen kombinieren, um maßgeschneiderte Experts zu erstellen
- Beispiele: automatische Erstellung von Forschungsberichten, automatische Generierung und Validierung von Finanzmodellen
- Derzeit wurden mehr als 10.000 Experts aufgebaut, Tendenz schnell steigend
- Innerhalb von MiniMax übernimmt M2.5 automatisch 30 % der gesamten Arbeit
- Einsatz in allen Bereichen wie R&D, Produkt, Vertrieb, HR und Finanzen
- 80 % des neu committeten Codes stammen von M2.5-generiertem Code
Anhang: Zusammenfassung der Bewertungsmethoden
- Verwendung verschiedener interner und externer Benchmarks wie SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC und Finance Modeling
- Alle Tests wurden auf Basis einer einheitlichen Pipeline und der Durchschnittswerte mehrerer Wiederholungen berechnet
- Die Evaluierungsumgebung umfasste 8-Core-CPU, 16 GB Arbeitsspeicher, 7200-Sekunden-Limit und ein standardisiertes Tool-Set
1 Kommentare
Hacker-News-Kommentare
Hoffentlich kommen noch viele bessere und günstigere Modelle heraus
Nur bei lebhaftem Wettbewerb bleibt der Markt gesund
Benchmark-Ergebnisse sollte man aber mit Vorsicht betrachten
MiniMax 2.1 ist okay, aber schwer als wirklich „intelligent“ zu bezeichnen
Besonders auffällig ist die Tendenz, die Codebasis zu manipulieren, um Tests zu bestehen
Teilweise werden Berichte sogar so geschönt, als seien fehlgeschlagene Tests erfolgreich gewesen
Laut den Metriken von Artificial Analysis liegt der Coding-Score von MiniMax 2.1 bei 33 und damit weit hinter den Spitzenmodellen
Gibt man ihnen algorithmische Aufgaben, hardcoden sie Testfälle, wenn sie die Aufgabe nicht lösen können
DeepSeek hat zeitweise ebenfalls so gearbeitet
Statt einen simplen Type Error zu beheben, werden cast oder Any exzessiv eingesetzt, um das Problem zu verdecken
Es war also eher ein Umgehen der Typprüfung als ein echter Fix
Stattdessen war MiMo v2 Flash beim Preis-Leistungs-Verhältnis deutlich besser
Das Pelican-Bild ist zwar erkennbar, aber qualitativ schwach
Besonders auffällig ist, dass eine Strebe des Fahrradrahmens fehlt
Zugehöriges Bild
Die meisten Modelle erzeugen eine Konstruktion des Vorderrads, mit der man nicht lenken kann; hier wirkt es eher wie eine ehrliche Markierung eines „ungelösten Problems“
Fast wie ein „TODO“-Kommentar im Code
Wenn man die Beinlänge eines Pelikans bedenkt, wirkt die Haltung anatomisch überraschend natürlich
MiniMax M2.1 ist das Modell, das ich am häufigsten nutze
Es ist schnell, günstig und stark bei Tool-Calls
Für Entwicklung nutze ich Antigravity + Claude, aber im Workflow greife ich zuerst zu MiniMax
Für Code verwende ich GLM, für englische Analysen Kimi K2.5
Ich betreibe noch kein Self-Hosting, bevorzuge aber chinesische OSS-Modelle
Weil damit künftig die Möglichkeit besteht, selbst zu hosten
Auch mein openclaw assistant läuft mit MiniMax, und die Balance aus Geschwindigkeit, Qualität und Kosten ist dort am besten
Bei 100 tokens/sec kostet eine Stunde etwa $1, bei 50 tokens/sec rund $0.30
Mich würde interessieren, ob du es per API nutzt oder als Monatsabo
Und ob es bei Monatsplänen Geschwindigkeitslimits oder Resets gibt
Ich finde ebenfalls, dass MM2.1 am wirtschaftlichsten ist und K2.5 insgesamt am stärksten
Ich sollte direkt mal bei OpenRouter nachsehen
Die Benchmarks sehen fast zu gut aus, um glaubwürdig zu sein
Der Trainingsansatz ist zwar interessant, aber ob er wirklich innovativ ist, bleibt unklar
Ich beurteile die Glaubwürdigkeit von Benchmarks anhand objektiver Modelleigenschaften und früherer Erfahrungen
Kimi K2.5 etwa wirkt in der Praxis tatsächlich ausgewogen und intelligent, daher erscheinen mir auch die Zahlen plausibel
GLM 5 hatte früher übertriebene Benchmarks, aber diesmal wurden Modellgröße und Architektur stark verbessert, also ist es denkbar
MiniMax dagegen war bisher immer ein fragiles Modell, das leicht in Fehlerloops gerät
Es hat sogar einfachen JavaScript-Code oft beschädigt, und wegen der zu kleinen Modellgröße sind die aktuellen Leistungsbehauptungen schwer zu glauben
M2 war ein Paradebeispiel für aufgeblähte Benchmark-Werte
Die Lücke zwischen den SWE-B-Ergebnissen und realen, nicht trainierten Aufgaben war groß
Version 2.5 soll in das Power Ranking von brokk.ai aufgenommen werden
Unsere Firma erlaubt in GitHub Copilot nur LLMs von OpenAI, Anthropic und Google
Deshalb sind die Credits schon nach einer Woche aufgebraucht
Es wäre schön, wenn mehr verschiedene LLMs nutzbar wären
Ich habe M2.5 in OpenCode für einfache Aufgaben ausprobiert, und die Ergebnisse waren miserabel
Es ging nur um ein eigenständiges Skript mit 250 Zeilen, aber etwas, das Opus 4.6 schon mit einem Hinweis lösen kann, bekam M2.5 ohne sehr detaillierten Prompt nicht hin
Link zum getesteten Code
Interessant ist, dass mittelgroße Unternehmen (Tier 2) kaum konkurrierende Modelle herausbringen
Am Ende läuft es auf einen Zweikampf zwischen den Big Four der Labs und den chinesischen Labs hinaus
Es wäre gut, wenn sprachspezifische LLMs auch auf normalen Computern laufen würden
Zum Beispiel Modelle, die nur auf Python 3+ und einem bestimmten Framework oder Code-Repository trainiert wurden
So könnte man sie getrennt von Modellen für Internetsuche einsetzen und dadurch Kosten sparen
Dieses Modell soll $1 pro Stunde kosten, also ungefähr auf dem Niveau meines Claude-Code-Plans für $200/Monat liegen
Tatsächlich lasse ich meist etwa drei Instanzen parallel laufen und nutze das rund 60 Stunden pro Woche
Wenn es dafür einen Anwendungsfall für einen 24/7-Dauerbetrieb gäbe, wäre das interessant, aber im Moment sehe ich ihn nicht wirklich
Mich würde interessieren, ob jemand so etwas tatsächlich auf diese Weise nutzt