7 Punkte von GN⁺ 2026-02-13 | 1 Kommentare | Auf WhatsApp teilen
  • Ein Modell, das durch groß angelegtes Training auf Basis von Reinforcement Learning seine Fähigkeit verbessert, komplexe Aufgaben in realen Umgebungen auszuführen, und in wirtschaftlich besonders wertvollen Bereichen wie Coding, Suche und Office-Arbeit Spitzenleistungen erzielt
  • Erreicht 80,2 % auf SWE-Bench Verified, 51,3 % auf Multi-SWE-Bench und 76,3 % auf BrowseComp und ist dabei 37 % schneller als die vorherige Generation
  • Kann zu geringen Kosten von 1 US-Dollar pro Stunde (bei 100 TPS) betrieben werden, bei einer Leistung auf ähnlichem Niveau wie Claude Opus 4.6
  • Stärkt strukturierte Denkweise, effiziente Suche und Dokumentenerstellung auf Expertenniveau über Coding-, Such- und Office-Aufgaben hinweg
  • Übernimmt auch intern bei MiniMax 30 % der gesamten Arbeit automatisch, ist für 80 % der Codegenerierung verantwortlich und belegt damit echte Produktivitätssteigerungen

Überblick über M2.5 und wichtigste Leistungsdaten

  • M2.5 ist ein Modell, das mit Reinforcement Learning in Hunderttausenden komplexer realer Umgebungen trainiert wurde und bei Coding, Tool-Nutzung, Suche und Büroarbeit SOTA-Niveau erreicht
    • Erzielte 80,2 % auf SWE-Bench Verified, 51,3 % auf Multi-SWE-Bench und 76,3 % auf BrowseComp (einschließlich Kontextmanagement)
  • In der Bewertung auf SWE-Bench Verified schloss es Aufgaben 37 % schneller als M2.1 ab und erreichte dieselbe Verarbeitungsgeschwindigkeit wie Claude Opus 4.6
  • Betrieb möglich für 1 US-Dollar pro Stunde bei 100 TPS und 0,3 US-Dollar pro Stunde bei 50 TPS, mit maximaler Kosteneffizienz

Coding-Leistung

  • Erreicht SOTA-Niveau bei mehrsprachigen Coding-Aufgaben, insbesondere mit starker Leistung in mehr als 10 Sprachen (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)
  • Verfügt über eine architektenartige Denkstruktur, die vor dem Schreiben von Code Systemdesign, UI-Aufbau und Funktionszerlegung durchführt
  • Wurde in mehr als 200.000 realen Umgebungen trainiert und unterstützt nicht nur Bugfixes, sondern den gesamten Entwicklungslebenszyklus (Design → Entwicklung → Funktionsiteration → Test)
  • Im VIBE-Pro-Benchmark liegt die Leistung auf ähnlichem Niveau wie Opus 4.5, auf SWE-Bench Verified gilt
    • Droid: 79.7(M2.5) > 78.9(Opus 4.6)
    • OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)

Suche und Tool-Aufrufe

  • Erreicht branchenführende Leistung bei BrowseComp, Wide Search und weiteren Benchmarks
  • Über RISE (Realistic Interactive Search Evaluation) wurde die Suchfähigkeit auf tatsächlichem Expertenniveau verifiziert
  • Liefert im Vergleich zur vorherigen Generation mit 20 % weniger Suchrunden dieselben Ergebnisse und verbessert so die Token-Effizienz
  • Erzielt Ergebnisse bei komplexen Agent-Aufgaben durch präzise Suchpfade und effiziente Schlussfolgerungsprozesse

Fähigkeiten bei Office-Arbeit

  • Aufbau von Daten und Einbeziehung von Feedback in Zusammenarbeit mit Experten aus Finanzen, Recht und Sozialwissenschaften
  • Verbesserte Fähigkeit zur Erstellung von professionellen Dokumenten und Finanzmodellierung in Word, PowerPoint, Excel usw.
  • Erzielte im internen Evaluierungs-Framework GDPval-MM eine durchschnittliche Siegquote von 59,0 %
  • Die Produktivitätssteigerung im Verhältnis zu den Token-Kosten wurde direkt gemessen und bestätigt so die Effizienz in realer Arbeit

Effizienz und Geschwindigkeit

  • Grundlegende Verarbeitungsgeschwindigkeit von 100 TPS, etwa doppelt so schnell wie andere Modelle
  • Auf Basis von SWE-Bench Verified
    • M2.5: durchschnittlich 3.52M Tokens, 22,8 Minuten
    • M2.1: 3.72M Tokens, 31,3 Minuten
    • 37 % schneller, auf dem gleichen Niveau wie Claude Opus 4.6 (22,9 Minuten)
    • Kosten liegen bei 10 % von Opus 4.6

Kostenstruktur

  • Zwei Versionen verfügbar: M2.5-Lightning (100 TPS) und M2.5 (50 TPS)
    • Lightning: 0,3 US-Dollar pro 1 Million Input-Tokens, 2,4 US-Dollar pro 1 Million Output-Tokens
    • M2.5: die Hälfte dieser Preise
  • Die outputbasierenden Kosten liegen bei 1/10 bis 1/20 des Niveaus von Opus, Gemini 3 Pro und GPT-5
  • Bei kontinuierlichem Betrieb über 1 Stunde mit 100 TPS: 1 US-Dollar, mit 50 TPS: 0,3 US-Dollar
  • Mit 10.000 US-Dollar pro Jahr können 4 Instanzen dauerhaft betrieben werden, geeignet für den Betrieb großer Agent-Systeme

Tempo der Modellverbesserung

  • Innerhalb von dreieinhalb Monaten wurden M2 → M2.1 → M2.5 nacheinander veröffentlicht; das Verbesserungstempo ist höher als bei konkurrierenden Modellreihen (Claude, GPT, Gemini)
  • Verzeichnete auf SWE-Bench Verified eine steile Leistungssteigerung

Skalierung des Reinforcement Learning (RL Scaling)

  • Aufbau von Hunderttausenden RL-Umgebungen für das Modelltraining
  • Eigenentwicklung des agentenbasierten RL-Frameworks Forge
    • Vollständige Trennung von Trainings-/Inferenz-Engine und Agenten
    • Optimierung des asynchronen Schedulings und Tree-Merging-Strategie führten zu einer 40-fachen Beschleunigung des Trainings
  • Einsatz des CISPO-Algorithmus zur Sicherung der Stabilität großer MoE-Modelle
  • Process-Reward-Mechanismus zur Qualitätsüberwachung auch in langen Kontexten
  • Einführung eines Systems zur Bewertung der Aufgabenzeit für das Gleichgewicht zwischen Intelligenz und Antwortgeschwindigkeit

Integration in MiniMax Agent

  • M2.5 ist vollständig in MiniMax Agent integriert und bietet eine Agent-Erfahrung auf dem Niveau von Fachkräften
  • Office Skills (Word, PowerPoint, Excel usw.) werden automatisch geladen, um die Dokumentenqualität zu verbessern
  • Nutzer können Office Skills mit branchenspezifischem Fachwissen kombinieren, um maßgeschneiderte Experts zu erstellen
    • Beispiele: automatische Erstellung von Forschungsberichten, automatische Generierung und Validierung von Finanzmodellen
  • Derzeit wurden mehr als 10.000 Experts aufgebaut, Tendenz schnell steigend
  • Innerhalb von MiniMax übernimmt M2.5 automatisch 30 % der gesamten Arbeit
    • Einsatz in allen Bereichen wie R&D, Produkt, Vertrieb, HR und Finanzen
    • 80 % des neu committeten Codes stammen von M2.5-generiertem Code

Anhang: Zusammenfassung der Bewertungsmethoden

  • Verwendung verschiedener interner und externer Benchmarks wie SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC und Finance Modeling
  • Alle Tests wurden auf Basis einer einheitlichen Pipeline und der Durchschnittswerte mehrerer Wiederholungen berechnet
  • Die Evaluierungsumgebung umfasste 8-Core-CPU, 16 GB Arbeitsspeicher, 7200-Sekunden-Limit und ein standardisiertes Tool-Set

1 Kommentare

 
GN⁺ 2026-02-13
Hacker-News-Kommentare
  • Hoffentlich kommen noch viele bessere und günstigere Modelle heraus
    Nur bei lebhaftem Wettbewerb bleibt der Markt gesund
    Benchmark-Ergebnisse sollte man aber mit Vorsicht betrachten
    MiniMax 2.1 ist okay, aber schwer als wirklich „intelligent“ zu bezeichnen
    Besonders auffällig ist die Tendenz, die Codebasis zu manipulieren, um Tests zu bestehen
    Teilweise werden Berichte sogar so geschönt, als seien fehlgeschlagene Tests erfolgreich gewesen
    Laut den Metriken von Artificial Analysis liegt der Coding-Score von MiniMax 2.1 bei 33 und damit weit hinter den Spitzenmodellen

    • Ich habe bei mehreren LLMs ähnliche Probleme gesehen
      Gibt man ihnen algorithmische Aufgaben, hardcoden sie Testfälle, wenn sie die Aufgabe nicht lösen können
      DeepSeek hat zeitweise ebenfalls so gearbeitet
    • MiniMax habe ich nicht benutzt, aber bei GPT-5.2-Codex dasselbe Problem gesehen
      Statt einen simplen Type Error zu beheben, werden cast oder Any exzessiv eingesetzt, um das Problem zu verdecken
      Es war also eher ein Umgehen der Typprüfung als ein echter Fix
    • MiniMax 2.1 hatte bei meinen Data-Parsing-Aufgaben viel zu viele Fehler
      Stattdessen war MiMo v2 Flash beim Preis-Leistungs-Verhältnis deutlich besser
  • Das Pelican-Bild ist zwar erkennbar, aber qualitativ schwach
    Besonders auffällig ist, dass eine Strebe des Fahrradrahmens fehlt
    Zugehöriges Bild

    • Vielleicht ist es sogar besser, dass die Vorderradgabel fehlt
      Die meisten Modelle erzeugen eine Konstruktion des Vorderrads, mit der man nicht lenken kann; hier wirkt es eher wie eine ehrliche Markierung eines „ungelösten Problems“
      Fast wie ein „TODO“-Kommentar im Code
      Wenn man die Beinlänge eines Pelikans bedenkt, wirkt die Haltung anatomisch überraschend natürlich
    • Statt eines Pelikans wäre ein Oktopus auf einem Fahrrad vermutlich viel schwieriger
  • MiniMax M2.1 ist das Modell, das ich am häufigsten nutze
    Es ist schnell, günstig und stark bei Tool-Calls
    Für Entwicklung nutze ich Antigravity + Claude, aber im Workflow greife ich zuerst zu MiniMax
    Für Code verwende ich GLM, für englische Analysen Kimi K2.5
    Ich betreibe noch kein Self-Hosting, bevorzuge aber chinesische OSS-Modelle
    Weil damit künftig die Möglichkeit besteht, selbst zu hosten
    Auch mein openclaw assistant läuft mit MiniMax, und die Balance aus Geschwindigkeit, Qualität und Kosten ist dort am besten
    Bei 100 tokens/sec kostet eine Stunde etwa $1, bei 50 tokens/sec rund $0.30

    • Solche Modelle sind gut, weil sie das Monopol der großen Labs in Schach halten
      Mich würde interessieren, ob du es per API nutzt oder als Monatsabo
      Und ob es bei Monatsplänen Geschwindigkeitslimits oder Resets gibt
      Ich finde ebenfalls, dass MM2.1 am wirtschaftlichsten ist und K2.5 insgesamt am stärksten
    • Erstaunlich, wie günstig das ist
      Ich sollte direkt mal bei OpenRouter nachsehen
  • Die Benchmarks sehen fast zu gut aus, um glaubwürdig zu sein
    Der Trainingsansatz ist zwar interessant, aber ob er wirklich innovativ ist, bleibt unklar
    Ich beurteile die Glaubwürdigkeit von Benchmarks anhand objektiver Modelleigenschaften und früherer Erfahrungen
    Kimi K2.5 etwa wirkt in der Praxis tatsächlich ausgewogen und intelligent, daher erscheinen mir auch die Zahlen plausibel
    GLM 5 hatte früher übertriebene Benchmarks, aber diesmal wurden Modellgröße und Architektur stark verbessert, also ist es denkbar
    MiniMax dagegen war bisher immer ein fragiles Modell, das leicht in Fehlerloops gerät
    Es hat sogar einfachen JavaScript-Code oft beschädigt, und wegen der zu kleinen Modellgröße sind die aktuellen Leistungsbehauptungen schwer zu glauben

  • M2 war ein Paradebeispiel für aufgeblähte Benchmark-Werte
    Die Lücke zwischen den SWE-B-Ergebnissen und realen, nicht trainierten Aufgaben war groß
    Version 2.5 soll in das Power Ranking von brokk.ai aufgenommen werden

  • Unsere Firma erlaubt in GitHub Copilot nur LLMs von OpenAI, Anthropic und Google
    Deshalb sind die Credits schon nach einer Woche aufgebraucht
    Es wäre schön, wenn mehr verschiedene LLMs nutzbar wären

  • Ich habe M2.5 in OpenCode für einfache Aufgaben ausprobiert, und die Ergebnisse waren miserabel
    Es ging nur um ein eigenständiges Skript mit 250 Zeilen, aber etwas, das Opus 4.6 schon mit einem Hinweis lösen kann, bekam M2.5 ohne sehr detaillierten Prompt nicht hin
    Link zum getesteten Code

  • Interessant ist, dass mittelgroße Unternehmen (Tier 2) kaum konkurrierende Modelle herausbringen
    Am Ende läuft es auf einen Zweikampf zwischen den Big Four der Labs und den chinesischen Labs hinaus

    • Mistral kann man dabei aber wohl als Ausnahme sehen
  • Es wäre gut, wenn sprachspezifische LLMs auch auf normalen Computern laufen würden
    Zum Beispiel Modelle, die nur auf Python 3+ und einem bestimmten Framework oder Code-Repository trainiert wurden
    So könnte man sie getrennt von Modellen für Internetsuche einsetzen und dadurch Kosten sparen

    • Eine solche Distillation wäre wohl möglich, aber ich denke, dass mehrsprachiges Training stark zur Leistung von LLMs beiträgt
  • Dieses Modell soll $1 pro Stunde kosten, also ungefähr auf dem Niveau meines Claude-Code-Plans für $200/Monat liegen
    Tatsächlich lasse ich meist etwa drei Instanzen parallel laufen und nutze das rund 60 Stunden pro Woche
    Wenn es dafür einen Anwendungsfall für einen 24/7-Dauerbetrieb gäbe, wäre das interessant, aber im Moment sehe ich ihn nicht wirklich
    Mich würde interessieren, ob jemand so etwas tatsächlich auf diese Weise nutzt