MiniMax M2.5 veröffentlicht – ein für echte Arbeitsproduktivität entwickeltes Modell

(minimax.io)

7 Punkte von GN⁺ 2026-02-13 | 1 Kommentare | Auf WhatsApp teilen

Ein Modell, das durch groß angelegtes Training auf Basis von Reinforcement Learning seine Fähigkeit verbessert, komplexe Aufgaben in realen Umgebungen auszuführen, und in wirtschaftlich besonders wertvollen Bereichen wie Coding, Suche und Office-Arbeit Spitzenleistungen erzielt
Erreicht 80,2 % auf SWE-Bench Verified, 51,3 % auf Multi-SWE-Bench und 76,3 % auf BrowseComp und ist dabei 37 % schneller als die vorherige Generation
Kann zu geringen Kosten von 1 US-Dollar pro Stunde (bei 100 TPS) betrieben werden, bei einer Leistung auf ähnlichem Niveau wie Claude Opus 4.6
Stärkt strukturierte Denkweise, effiziente Suche und Dokumentenerstellung auf Expertenniveau über Coding-, Such- und Office-Aufgaben hinweg
Übernimmt auch intern bei MiniMax 30 % der gesamten Arbeit automatisch, ist für 80 % der Codegenerierung verantwortlich und belegt damit echte Produktivitätssteigerungen

Überblick über M2.5 und wichtigste Leistungsdaten

M2.5 ist ein Modell, das mit Reinforcement Learning in Hunderttausenden komplexer realer Umgebungen trainiert wurde und bei Coding, Tool-Nutzung, Suche und Büroarbeit SOTA-Niveau erreicht
- Erzielte 80,2 % auf SWE-Bench Verified, 51,3 % auf Multi-SWE-Bench und 76,3 % auf BrowseComp (einschließlich Kontextmanagement)
In der Bewertung auf SWE-Bench Verified schloss es Aufgaben 37 % schneller als M2.1 ab und erreichte dieselbe Verarbeitungsgeschwindigkeit wie Claude Opus 4.6
Betrieb möglich für 1 US-Dollar pro Stunde bei 100 TPS und 0,3 US-Dollar pro Stunde bei 50 TPS, mit maximaler Kosteneffizienz

Coding-Leistung

Erreicht SOTA-Niveau bei mehrsprachigen Coding-Aufgaben, insbesondere mit starker Leistung in mehr als 10 Sprachen (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)
Verfügt über eine architektenartige Denkstruktur, die vor dem Schreiben von Code Systemdesign, UI-Aufbau und Funktionszerlegung durchführt
Wurde in mehr als 200.000 realen Umgebungen trainiert und unterstützt nicht nur Bugfixes, sondern den gesamten Entwicklungslebenszyklus (Design → Entwicklung → Funktionsiteration → Test)
Im VIBE-Pro-Benchmark liegt die Leistung auf ähnlichem Niveau wie Opus 4.5, auf SWE-Bench Verified gilt
- Droid: 79.7(M2.5) > 78.9(Opus 4.6)
- OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)

Suche und Tool-Aufrufe

Erreicht branchenführende Leistung bei BrowseComp, Wide Search und weiteren Benchmarks
Über RISE (Realistic Interactive Search Evaluation) wurde die Suchfähigkeit auf tatsächlichem Expertenniveau verifiziert
Liefert im Vergleich zur vorherigen Generation mit 20 % weniger Suchrunden dieselben Ergebnisse und verbessert so die Token-Effizienz
Erzielt Ergebnisse bei komplexen Agent-Aufgaben durch präzise Suchpfade und effiziente Schlussfolgerungsprozesse

Fähigkeiten bei Office-Arbeit

Aufbau von Daten und Einbeziehung von Feedback in Zusammenarbeit mit Experten aus Finanzen, Recht und Sozialwissenschaften
Verbesserte Fähigkeit zur Erstellung von professionellen Dokumenten und Finanzmodellierung in Word, PowerPoint, Excel usw.
Erzielte im internen Evaluierungs-Framework GDPval-MM eine durchschnittliche Siegquote von 59,0 %
Die Produktivitätssteigerung im Verhältnis zu den Token-Kosten wurde direkt gemessen und bestätigt so die Effizienz in realer Arbeit

Effizienz und Geschwindigkeit

Grundlegende Verarbeitungsgeschwindigkeit von 100 TPS, etwa doppelt so schnell wie andere Modelle
Auf Basis von SWE-Bench Verified
- M2.5: durchschnittlich 3.52M Tokens, 22,8 Minuten
- M2.1: 3.72M Tokens, 31,3 Minuten
- 37 % schneller, auf dem gleichen Niveau wie Claude Opus 4.6 (22,9 Minuten)
- Kosten liegen bei 10 % von Opus 4.6

Kostenstruktur

Zwei Versionen verfügbar: M2.5-Lightning (100 TPS) und M2.5 (50 TPS)
- Lightning: 0,3 US-Dollar pro 1 Million Input-Tokens, 2,4 US-Dollar pro 1 Million Output-Tokens
- M2.5: die Hälfte dieser Preise
Die outputbasierenden Kosten liegen bei 1/10 bis 1/20 des Niveaus von Opus, Gemini 3 Pro und GPT-5
Bei kontinuierlichem Betrieb über 1 Stunde mit 100 TPS: 1 US-Dollar, mit 50 TPS: 0,3 US-Dollar
Mit 10.000 US-Dollar pro Jahr können 4 Instanzen dauerhaft betrieben werden, geeignet für den Betrieb großer Agent-Systeme

Tempo der Modellverbesserung

Innerhalb von dreieinhalb Monaten wurden M2 → M2.1 → M2.5 nacheinander veröffentlicht; das Verbesserungstempo ist höher als bei konkurrierenden Modellreihen (Claude, GPT, Gemini)
Verzeichnete auf SWE-Bench Verified eine steile Leistungssteigerung

Skalierung des Reinforcement Learning (RL Scaling)

Aufbau von Hunderttausenden RL-Umgebungen für das Modelltraining
Eigenentwicklung des agentenbasierten RL-Frameworks Forge
- Vollständige Trennung von Trainings-/Inferenz-Engine und Agenten
- Optimierung des asynchronen Schedulings und Tree-Merging-Strategie führten zu einer 40-fachen Beschleunigung des Trainings
Einsatz des CISPO-Algorithmus zur Sicherung der Stabilität großer MoE-Modelle
Process-Reward-Mechanismus zur Qualitätsüberwachung auch in langen Kontexten
Einführung eines Systems zur Bewertung der Aufgabenzeit für das Gleichgewicht zwischen Intelligenz und Antwortgeschwindigkeit

Integration in MiniMax Agent

M2.5 ist vollständig in MiniMax Agent integriert und bietet eine Agent-Erfahrung auf dem Niveau von Fachkräften
Office Skills (Word, PowerPoint, Excel usw.) werden automatisch geladen, um die Dokumentenqualität zu verbessern
Nutzer können Office Skills mit branchenspezifischem Fachwissen kombinieren, um maßgeschneiderte Experts zu erstellen
- Beispiele: automatische Erstellung von Forschungsberichten, automatische Generierung und Validierung von Finanzmodellen
Derzeit wurden mehr als 10.000 Experts aufgebaut, Tendenz schnell steigend
Innerhalb von MiniMax übernimmt M2.5 automatisch 30 % der gesamten Arbeit
- Einsatz in allen Bereichen wie R&D, Produkt, Vertrieb, HR und Finanzen
- 80 % des neu committeten Codes stammen von M2.5-generiertem Code

Anhang: Zusammenfassung der Bewertungsmethoden

Verwendung verschiedener interner und externer Benchmarks wie SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC und Finance Modeling
Alle Tests wurden auf Basis einer einheitlichen Pipeline und der Durchschnittswerte mehrerer Wiederholungen berechnet
Die Evaluierungsumgebung umfasste 8-Core-CPU, 16 GB Arbeitsspeicher, 7200-Sekunden-Limit und ein standardisiertes Tool-Set

1 Kommentare

GN⁺ 2026-02-13

Hacker-News-Kommentare

Hoffentlich kommen noch viele bessere und günstigere Modelle heraus
Nur bei lebhaftem Wettbewerb bleibt der Markt gesund
Benchmark-Ergebnisse sollte man aber mit Vorsicht betrachten
MiniMax 2.1 ist okay, aber schwer als wirklich „intelligent“ zu bezeichnen
Besonders auffällig ist die Tendenz, die Codebasis zu manipulieren, um Tests zu bestehen
Teilweise werden Berichte sogar so geschönt, als seien fehlgeschlagene Tests erfolgreich gewesen
Laut den Metriken von Artificial Analysis liegt der Coding-Score von MiniMax 2.1 bei 33 und damit weit hinter den Spitzenmodellen
- Ich habe bei mehreren LLMs ähnliche Probleme gesehen
  Gibt man ihnen algorithmische Aufgaben, hardcoden sie Testfälle, wenn sie die Aufgabe nicht lösen können
  DeepSeek hat zeitweise ebenfalls so gearbeitet
- MiniMax habe ich nicht benutzt, aber bei GPT-5.2-Codex dasselbe Problem gesehen
  Statt einen simplen Type Error zu beheben, werden cast oder Any exzessiv eingesetzt, um das Problem zu verdecken
  Es war also eher ein Umgehen der Typprüfung als ein echter Fix
- MiniMax 2.1 hatte bei meinen Data-Parsing-Aufgaben viel zu viele Fehler
  Stattdessen war MiMo v2 Flash beim Preis-Leistungs-Verhältnis deutlich besser
Das Pelican-Bild ist zwar erkennbar, aber qualitativ schwach
Besonders auffällig ist, dass eine Strebe des Fahrradrahmens fehlt
Zugehöriges Bild
- Vielleicht ist es sogar besser, dass die Vorderradgabel fehlt
  Die meisten Modelle erzeugen eine Konstruktion des Vorderrads, mit der man nicht lenken kann; hier wirkt es eher wie eine ehrliche Markierung eines „ungelösten Problems“
  Fast wie ein „TODO“-Kommentar im Code
  Wenn man die Beinlänge eines Pelikans bedenkt, wirkt die Haltung anatomisch überraschend natürlich
- Statt eines Pelikans wäre ein Oktopus auf einem Fahrrad vermutlich viel schwieriger
MiniMax M2.1 ist das Modell, das ich am häufigsten nutze
Es ist schnell, günstig und stark bei Tool-Calls
Für Entwicklung nutze ich Antigravity + Claude, aber im Workflow greife ich zuerst zu MiniMax
Für Code verwende ich GLM, für englische Analysen Kimi K2.5
Ich betreibe noch kein Self-Hosting, bevorzuge aber chinesische OSS-Modelle
Weil damit künftig die Möglichkeit besteht, selbst zu hosten
Auch mein openclaw assistant läuft mit MiniMax, und die Balance aus Geschwindigkeit, Qualität und Kosten ist dort am besten
Bei 100 tokens/sec kostet eine Stunde etwa $1, bei 50 tokens/sec rund $0.30
- Solche Modelle sind gut, weil sie das Monopol der großen Labs in Schach halten
  Mich würde interessieren, ob du es per API nutzt oder als Monatsabo
  Und ob es bei Monatsplänen Geschwindigkeitslimits oder Resets gibt
  Ich finde ebenfalls, dass MM2.1 am wirtschaftlichsten ist und K2.5 insgesamt am stärksten
- Erstaunlich, wie günstig das ist
  Ich sollte direkt mal bei OpenRouter nachsehen
Die Benchmarks sehen fast zu gut aus, um glaubwürdig zu sein
Der Trainingsansatz ist zwar interessant, aber ob er wirklich innovativ ist, bleibt unklar
Ich beurteile die Glaubwürdigkeit von Benchmarks anhand objektiver Modelleigenschaften und früherer Erfahrungen
Kimi K2.5 etwa wirkt in der Praxis tatsächlich ausgewogen und intelligent, daher erscheinen mir auch die Zahlen plausibel
GLM 5 hatte früher übertriebene Benchmarks, aber diesmal wurden Modellgröße und Architektur stark verbessert, also ist es denkbar
MiniMax dagegen war bisher immer ein fragiles Modell, das leicht in Fehlerloops gerät
Es hat sogar einfachen JavaScript-Code oft beschädigt, und wegen der zu kleinen Modellgröße sind die aktuellen Leistungsbehauptungen schwer zu glauben
M2 war ein Paradebeispiel für aufgeblähte Benchmark-Werte
Die Lücke zwischen den SWE-B-Ergebnissen und realen, nicht trainierten Aufgaben war groß
Version 2.5 soll in das Power Ranking von brokk.ai aufgenommen werden
Unsere Firma erlaubt in GitHub Copilot nur LLMs von OpenAI, Anthropic und Google
Deshalb sind die Credits schon nach einer Woche aufgebraucht
Es wäre schön, wenn mehr verschiedene LLMs nutzbar wären
Ich habe M2.5 in OpenCode für einfache Aufgaben ausprobiert, und die Ergebnisse waren miserabel
Es ging nur um ein eigenständiges Skript mit 250 Zeilen, aber etwas, das Opus 4.6 schon mit einem Hinweis lösen kann, bekam M2.5 ohne sehr detaillierten Prompt nicht hin
Link zum getesteten Code
Interessant ist, dass mittelgroße Unternehmen (Tier 2) kaum konkurrierende Modelle herausbringen
Am Ende läuft es auf einen Zweikampf zwischen den Big Four der Labs und den chinesischen Labs hinaus
- Mistral kann man dabei aber wohl als Ausnahme sehen
Es wäre gut, wenn sprachspezifische LLMs auch auf normalen Computern laufen würden
Zum Beispiel Modelle, die nur auf Python 3+ und einem bestimmten Framework oder Code-Repository trainiert wurden
So könnte man sie getrennt von Modellen für Internetsuche einsetzen und dadurch Kosten sparen
- Eine solche Distillation wäre wohl möglich, aber ich denke, dass mehrsprachiges Training stark zur Leistung von LLMs beiträgt
Dieses Modell soll $1 pro Stunde kosten, also ungefähr auf dem Niveau meines Claude-Code-Plans für $200/Monat liegen
Tatsächlich lasse ich meist etwa drei Instanzen parallel laufen und nutze das rund 60 Stunden pro Woche
Wenn es dafür einen Anwendungsfall für einen 24/7-Dauerbetrieb gäbe, wäre das interessant, aber im Moment sehe ich ihn nicht wirklich
Mich würde interessieren, ob jemand so etwas tatsächlich auf diese Weise nutzt

MiniMax M2.5 veröffentlicht – ein für echte Arbeitsproduktivität entwickeltes Modell

Überblick über M2.5 und wichtigste Leistungsdaten

Coding-Leistung

Suche und Tool-Aufrufe

Fähigkeiten bei Office-Arbeit

Effizienz und Geschwindigkeit

Kostenstruktur

Tempo der Modellverbesserung

Skalierung des Reinforcement Learning (RL Scaling)

Integration in MiniMax Agent

Anhang: Zusammenfassung der Bewertungsmethoden

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare