5 Punkte von GN⁺ 2025-06-19 | 1 Kommentare | Auf WhatsApp teilen
  • MiniMax-M1 ist das weltweit erste großskalige Reasoning-Modell mit hybrider Attention und Open Weights
  • Die hybride MoE-Struktur mit 456 Milliarden Parametern und der Lightning-Attention-Mechanismus sind hervorragend für die Verarbeitung langer Kontexte geeignet
  • Durch RL-basiertes Training und die Einführung des CISPO-Algorithmus lassen sich verschiedenste Probleme effizient lösen
  • In Benchmarks zeigt es im Vergleich zu bestehenden Modellen wie DeepSeek-R1 und Qwen3-235B eine herausragende Leistung bei komplexem Software Engineering, Tool-Nutzung und langen Eingaben
  • Mit vielfältigen Inferenzumgebungen sowie unterstützenden Tools, API und Chatbot eignet es sich hervorragend als Grundlage für Language-Model-Agents der nächsten Generation

Überblick über das Open-Source-Projekt MiniMax-M1

  • MiniMax-M1 ist das weltweit erste großskalige Reasoning-Modell mit hybrider Attention und Open Weights und zeigt gegenüber bestehenden kommerziellen und offenen Modellen starke Vorteile und hohe Praxistauglichkeit
  • Es kombiniert eine großskalige hybride Mixture-of-Experts-(MoE)-Struktur mit dem Lightning-Attention-Mechanismus und ist für lange Kontexte, komplexes Reasoning und Problemlösungen in Software-Umgebungen optimiert
  • Es unterstützt lange Kontexte (bis zu 1 Million Token) effizient und reduziert den Rechenaufwand bei Tests deutlich (bei 100K nur 25 % der FLOPs von DeepSeek-R1)
  • Mit modernster RL-Technologie, dem neuartigen CISPO-Algorithmus und einem hybriden Attention-Design maximiert es sowohl Skalierbarkeit als auch Inferenz-Effizienz

1. Modellüberblick

  • MiniMax-M1 verfügt über eine hybride Mixture-of-Experts-(MoE)-Struktur und Lightning Attention
  • Es wurde auf Basis des Vorgängers MiniMax-Text-01 entwickelt (456 Milliarden Parameter, 45,9 Milliarden aktivierte Parameter pro Token)
  • Unterstützung für eine Kontextlänge von 1 Million Token (achtmal so viel Kontext wie DeepSeek R1)
  • Lightning Attention reduziert den Rechenaufwand bei Tests erheblich (25 % im Vergleich zu DeepSeek R1)
  • Geeignet für Aufgaben, die lange Eingaben und komplexes Reasoning erfordern
  • Trainiert mittels großskaligem RL für ein breites Spektrum an Problemen, darunter mathematisches Reasoning und praxisnahes Software Engineering
  • Präsentiert ein eigenes RL-Scaling-Framework für MiniMax-M1
    • CISPO-Methode: Einführung eines Importance-Sampling-Weight-Clipping-Algorithmus, der bestehenden RL-Verfahren überlegen ist
    • Verbesserung von RL-Effizienz und Skalierbarkeit auf Basis hybrider Attention
  • In zwei Varianten mit 40K- und 80K-Thinking-Budget trainiert und veröffentlicht
  • In Software Engineering, Tool-Nutzung und Long-Context-Aufgaben herausragende Leistung gegenüber leistungsstarken offenen Modellen wie DeepSeek-R1 und Qwen3-235B
  • Bietet eine Grundlage für den Aufbau von Language-Model-Agents der nächsten Generation zur Lösung realer Herausforderungen

2. Evaluation

Zentrale Benchmark-Ergebnisse

  • In den Bereichen Mathematik, Code, Software Engineering und lange Kontexte auf SOTA-Niveau
  • Insgesamt höhere Scores als andere offene Modelle, insbesondere mit differenzierender Wettbewerbsstärke bei SWE-bench und Long Context
  • Beispiele für besonders auffällige Werte
    • SWE-bench: 56.0 (M1-80k) / 34.4 (Qwen3) / 49.2 (DeepSeek R1)
    • OpenAI-MRCR (128k): 73.4 (M1-80k) / 27.7 (Qwen3) / 35.8 (DeepSeek R1)
    • Robust bei für die Softwareentwicklung relevanten Tasks wie LiveCodeBench und FullStackBench
  • Ausführungsumgebung: bewertet mit temperature 1.0 und top_p 0.95
  • Für Benchmarks wie SWE-bench und TAU-bench wurden Bewertungen auf Grundlage eigener Verfahren und Einstellungen durchgeführt (z. B. dateibasierte zweistufige Lokalisierung, ohne Nutzung von Embeddings)

3. Leitfaden zur Nutzung des MiniMax-M1-Modells

Empfohlene Einstellungen für optimale Leistung

3.1. Inferenzparameter

  • Temperature: 1.0
  • Top_p: 0.95
    Diese Kombination bietet eine Umgebung, die sowohl Textvielfalt als auch logische Konsistenz sicherstellt

3.2. System-Prompt

  • Allgemeine Aufgaben: "You are a helpful assistant."
  • Webentwicklung: spezialisierter Prompt für komplexe Webseitenerstellung, etwa für die Ausgabe vollständig integrierten UI-Codes
  • Mathematisches Reasoning: schrittweise Lösung und Eintragung der finalen Antwort in \boxed{}

4. Deployment-Leitfaden

  • Auf HuggingFace können die Modelle MiniMax-M1-40k und MiniMax-M1-80k heruntergeladen werden
  • Für produktive Services wird ein Deployment auf Basis von vLLM empfohlen
    • Geeignet für das Serving großer Modelle dank effizientem Speichermanagement, hervorragender Batch-Verarbeitung und Performance-Optimierung
  • Zusätzlich wird auch ein separates Deployment auf Transformers-Basis unterstützt

5. Function Calling (funktionale Schnittstelle)

  • MiniMax-M1 unterstützt Function Calling
    • Falls externe Funktionen erforderlich sind, werden Parameter automatisch in einem strukturierten Format ausgegeben
    • Ein Leitfaden zu Function Calling ist verfügbar

6. Chatbot & API

  • MiniMax Chatbot: bietet eine Chat-Oberfläche einschließlich Online-Suche
  • API: bietet eine Online-API für Entwickler sowie Entwicklertools wie den MiniMax MCP Server
    • Einschließlich KI-gestützter Video-, Bild- und Sprachsynthese sowie Voice Cloning

1 Kommentare

 
GN⁺ 2025-06-19
Hacker-News-Kommentare
  • Falls sich jemand fragt, womit man das ausführen soll: Man braucht 8× H200 141GB, und der Preis liegt bei etwa 250.000 US-Dollar
    GitHub-Diskussion / eBay-Produktpreisinfo

    • Ich frage mich, ob es nicht auf einem Mac Studio mit 512GB laufen könnte; etwa 8.500 US-Dollar sollten reichen
    • Das gilt nur bei vollständiger Quantisierung; mit Q4 oder Q8 sollte es auf Hardware für unter 10.000 US-Dollar laufen
    • Ich frage mich, wie viele Parameter dieses Modell hat
  • Diese Woche soll MiniMaxs „Launch Week“ sein
    Am Montag wurde M1 vorgestellt, am Dienstag Hailuo 2
    Neuigkeiten zu chinesischen Modellen
    Ob solche Ankündigungen die ganze Woche über weitergehen, ist noch unklar, und bislang ist das Unternehmen vor allem für LLMs und Videomodelle bekannt
    Offizielle Ankündigungen findet man auf MiniMaxs X (früher Twitter)
    Außerdem ist der technische Bericht zu MiniMax M1 nützlich
    Technischer Bericht PDF
    Es ist kein SOTA-Open-Weight-Modell, aber es macht sehr interessante und weitreichende Aussagen zu Lightning Attention und einer GRPO-Variante (CISPO)
    (Ich habe nichts mit dem Unternehmen zu tun und teile nur Informationen, die ich gefunden habe)

    • Wenn es am Montag M1 und am Dienstag Hailuo 2 gab, wäre es lustig gewesen, nach Art von Apple-Chips M1, M1 Pro und M1 Ultra als Namen zu verwenden
  • Als ich im arXiv-Paper die Formulierung "We publicly release MiniMax-M1 at this https url" sah, mochte ich die Firma, weil es eine echte Code-Veröffentlichung war und nicht nur ein tatsächlich leeres Repository

  • Meine Gedanken

    • Laut LinkedIn scheint es ein in Singapur ansässiges Unternehmen zu sein, und die Einstiegshürden für gute LLMs wirken gar nicht so hoch
    • Dank Open-Weight-Modellen und den Fortschritten bei Strix Halo / Ryzen AI Max bin ich optimistisch, dass man in ein paar Jahren gute LLMs lokal günstig betreiben kann
    • Es scheint unvermeidlich zu werden, lokale Modelle zu betreiben, und ich sehe dem mit Erwartung und Sorge zugleich entgegen
      Falls jemand vertrauenswürdige Expertinnen oder Experten oder interessante Diskussionspartner zu diesem Bereich kennt, würde ich mich über Empfehlungen freuen
    • Anders als auf LinkedIn angegeben, ist es in Wirklichkeit ein Unternehmen mit Sitz in Shanghai
    • Ich habe einen Twitter-Post gesehen, laut dem MiniMax das Modell mit einem Budget von etwa 500.000 US-Dollar trainiert hat

      RL (Reinforcement Learning) wurde für 534.700 US-Dollar trainiert
      Ich frage mich, wie das zu diesen Kosten möglich war

    • Das Unternehmen ist tatsächlich eine chinesische Firma mit Sitz in Shanghai
      Ein Börsengang an der Hongkonger Börse (HKEX) ist ebenfalls geplant
      Zugehöriger Artikel
  • Auf der offiziellen Seite steht es nicht ausdrücklich, aber MiniMax ist ein chinesisches Unternehmen
    Wikipedia als Referenz

    • Viele wissen, dass MiniMax ein chinesisches Unternehmen ist, weil ihr Videogenerator wegen des stark chinesisch wirkenden Namens „Hailuo“ bekannt wurde und bis heute dafür bekannt ist
    • Ich frage mich, ob es überhaupt einen Grund gibt, auf der eigenen Projektseite zu erwähnen, dass man ein chinesisches Unternehmen ist
  • Solche Modellnamen hätten besser gewählt werden können
    Klingt wie ein Mac-Studio-Prozessor

    • Ich kenne den Minimax-Algorithmus
      Der Name ist von diesem berühmten klassischen KI-Algorithmus abgeleitet
    • Dein Mac wird von „Apple“ hergestellt, und das stammt tatsächlich vom Namen einer Apfelsorte ab
    • Es erinnert mich an meinen alten, verlorenen Hund namens Max; ich finde den Namen wirklich so schlecht, dass er fast schon kriminell ist
  • Im Paper steht: "In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention"
    Das heißt, 87,5 % des Ganzen sind Linear Attention und 12,5 % Full Attention
    Tatsächlich ist der Begriff „Linear Attention“ verwirrend
    Softmax Attention ist eine Methode des Information Routing, und bei der Berechnung von Token k nimmt sie Informationen aus 1 bis k auf, muss dabei aber durch Kanäle fester Größe gehen
    Bei Linear Attention gibt es dagegen pro Layer nur eine „Registerbank“ fester Größe
    Außer dass sie mit einer Layer-at-once-Berechnung kompatibel ist, ist daran kaum etwas bemerkenswert; echte Attention ist es nicht wirklich

  • Es heißt, MiniMax streue Gerüchte über einen IPO
    Zugehöriger Artikel

  • Falls ein Training in dieser Größenordnung ohne westliche Cloud-Infrastruktur stattgefunden hat, frage ich mich, wie die Token-Verarbeitung strukturiert ist

    • Es wurde 3 Wochen lang mit 512 H800-GPUs trainiert und kostete etwa 500.000 US-Dollar
      xcancel als Referenz
    • Mit Sneakernet (physischer Transport)