3 Punkte von GN⁺ 2025-06-11 | 1 Kommentare | Auf WhatsApp teilen
  • Magistral ist das erste von Mistral AI veröffentlichte Reasoning-Modell, das auf domänenspezifisches, transparentes und mehrsprachiges Schlussfolgern spezialisiert ist
  • Erscheint in zwei Varianten: als Open-Source-Modell Magistral Small (24B Parameter) und als Enterprise-Version Magistral Medium
  • Bietet mehrsprachiges Schlussfolgern auf Basis von Chain of Thought und stellt den schrittweisen logischen Prozess transparent in der Sprache der Nutzer bereit
  • Zeigt bei AIME2024 eine Leistung von 73,6 % für Magistral Medium (Bestwert 90 %) und 70,7 % für Small (Bestwert 83,3 %)
  • Unterstützt präzise schrittweise logische Herleitungen und 10-mal schnellere Antwortgeschwindigkeiten für verschiedene Sprachen und Branchen wie regulierte Industrien, Recht, Finanzen, Gesundheitswesen, Data Engineering, Softwareentwicklung und kreative Inhalte

Magistral — Mistral AI stellt sein erstes Reasoning-Modell vor

  • Magistral ist ein Reasoning-Modell mit Fokus auf praktische Problemlösung und feedbackbasierte Verbesserung
  • Magistral Small ist die Open-Source-Version mit 24B Parametern, Magistral Medium die leistungsstärkere Enterprise-Version
  • Leistungskennzahlen:
    • Magistral Medium: 73,6 % bei AIME2024, 90 % mit Majority Voting
    • Magistral Small: 70,7 % bzw. 83,3 %
  • Nutzt Chain-of-Thought-Argumentation auf Basis globaler Sprachen und Schriftsysteme, wodurch Denkprozesse auf muttersprachlichem Niveau möglich werden
  • Geeignet für strukturierte Berechnungen, Programmierlogik, Entscheidungsbäume und regelbasierte Systeme
  • Mit Think mode und Flash Answers in Le Chat werden Antwortgeschwindigkeiten gegenüber Wettbewerbern um das 10-Fache verbessert
  • Das offizielle Paper enthält eine Bewertung von Algorithmen, Trainingsinfrastruktur, Reinforcement-Learning-Methoden und Trainingserkenntnissen

Modell- und Technikdetails

  • Transparenter Reasoning-Prozess:
    • Magistral ist auf mehrstufige Logik optimiert, sodass Nutzer den Schlussfolgerungsprozess in ihrer eigenen Sprache prüfen und nachverfolgen können
    • Im Unterschied zu allgemeinen Modellen sind Interpretierbarkeit und Verifizierbarkeit stärker ausgebaut
    • Ziel sind kontinuierliche Modell-Updates und schnelle Verbesserungen
  • Mehrsprachiges Schlussfolgern: hohe Genauigkeit und stabile Logik in Englisch, Französisch, Spanisch, Deutsch, Italienisch, Arabisch, Russisch, Chinesisch und weiteren Sprachen
  • Antwortgeschwindigkeit:
    • Magistral Medium unterstützt über Flash Answers in Le Chat Echtzeit-Reasoning und Feedback mit einer 10-mal höheren Token-Verarbeitungsgeschwindigkeit als Wettbewerber
    • Zeigt eine überlegene Geschwindigkeit gegenüber führenden Konkurrenzmodellen wie ChatGPT

Open Source und Community-Beteiligung

  • Magistral Small wird unter der Apache-2.0-Lizenz veröffentlicht
  • Nutzer können Struktur und Reasoning-Ansatz direkt analysieren, modifizieren und neu zusammensetzen
  • Frühere Open-Source-Modelle wurden in innovativen Forschungsprojekten wie ether0 und DeepHermes 3 eingesetzt

Breite Einsatzmöglichkeiten

  • Magistral ist für Bereiche optimiert, in denen präzises schrittweises Schlussfolgern und Transparenz wichtig sind, etwa Recht, Finanzen, Softwareentwicklung und Storytelling
  • Geschäftsstrategie und Betrieb

    • Kann für strategische Planung, Risikobewertung, datenbasierte Entscheidungen und die Berechnung optimaler Lösungen unter komplexen Nebenbedingungen eingesetzt werden
  • Regulierte Industrien und öffentlicher Sektor

    • Fachleute aus Recht, Finanzen, Gesundheitswesen und Behörden können logische Schlussfolgerungspfade nachverfolgen und Auditierbarkeit sicherstellen
    • Unterstützt die Prüfbarkeit von Ergebnissen und die Einhaltung regulatorischer Vorgaben
  • Systeme, Software und Data Engineering

    • Verbessert gegenüber nicht auf Reasoning ausgelegten LLMs die Qualität der Unterstützung in Programmierung, Projektdesign, Backend-Architektur und Data Engineering
    • Besonders wirksam bei mehrstufigen Aufgaben wie der Anbindung externer Tools und APIs
  • Content-Erstellung und Kommunikation

    • Magistral liefert auch bei kreativem Schreiben und Storytelling starke Ergebnisse
    • Kann nicht nur konsistente Texte erzeugen, sondern auch originelle und ungewöhnliche Ideen entwickeln

Nutzung und Bereitstellungswege

  • Die Small-Version kann heruntergeladen und selbst bereitgestellt werden
  • Die Medium-Version ist sofort über Le Chat (Web), API und Amazon SageMaker nutzbar
  • Zusätzliche Unterstützung für IBM WatsonX, Azure AI und Google Cloud Marketplace ist in Kürze geplant
  • Unternehmensspezifische On-Premises-Einführungen sind auf Anfrage möglich

1 Kommentare

 
GN⁺ 2025-06-11
Hacker-News-Kommentare
  • Ich teile meine Erfahrung damit, selbst eine GGUF-Version des Modells Magistral Small erstellt und auf HuggingFace hochgeladen zu haben. In ollama lässt es sich mit dem Befehl ollama run hf.co/unsloth/Magistral-Small-2506-GGUF:UD-Q4_K_XL ausführen, und für llama.cpp wird dringend empfohlen, Optionen wie --jinja, --temp 0.7 und --top-p 0.95 zu verwenden. Es wird außerdem empfohlen, die Kontextlänge in Ollama auf mehr als 8192 zu erhöhen; weitere Hinweise gibt es in der offiziellen Dokumentation
    • Der Benchmark-Vergleich mit DeepSeek ist ein interessanter Punkt. Das ursprüngliche Magistral-Paper vergleicht mit den Versionen DeepSeek-V3 (Dezember 2023) und DeepSeek-R1 (Januar 2024), aber eigentlich wäre die neueste Version DeepSeek-R1-0528 der fairere Vergleich. Als Beispiel werden genannt: R1 erreicht bei AIME 2024 79,8 Punkte, R1-0528 dagegen 91,4; bei AIME 2025 liegen die Werte bei 70 bzw. 87,5. Den aktuellen DeepSeek-Benchmark findet man hier
    • Das Magistral-Paper (PDF) wird als wirklich beeindruckend bewertet. Es behandelt GRPO und stellt verschiedene Verbesserungen vor, darunter 1) das Entfernen der KL Divergence, 2) die Normalisierung über die Gesamtlänge, 3) die Normalisierung von Advantage-Minibatches und 4) eine Lockerung der Trust Region
    • Trotz der Risiken einer Altersverifikation gibt es großes Lob dafür, dass die Unsloth-Modelle wirklich „der Hammer“ seien. Es wird Zufriedenheit darüber geäußert, dass das Modell immer gut funktioniert, und die Frage aufgeworfen, was llama.cpp standardmäßig verwendet, wenn „jinja“ nicht gesetzt ist
    • Mit dem Unterton, man solle nicht zu viel darüber nachdenken, wird als Referenz ein gist-Link geteilt
  • Wenn man nur auf die Benchmark-Ergebnisse schaut, liegen Magistral Small und Medium im Vergleich zur neuesten DeepSeek-R1-Version bei allen One-Shot-Tests zurück. Im Artikel wird das neueste DeepSeek-R1 nicht einmal erwähnt, und dazu kommt ein mehr als doppelt so hoher Preis, was die Realität erkennen lässt, dass selbst das als bestes KI-Unternehmen Europas bekannte Unternehmen Mühe hat, mit dem aktuellen Technologietrend Schritt zu halten
    • Weil das frühe DeepSeek R1 mit sehr wenig Compute eine enorme Leistung geliefert hat, ist es erstaunlich, dass das neue R1 in allen Benchmarks nicht o3, 2.5 Pro und andere Modelle klar übertrifft. Magistral Small (24B) erreicht bei AIME 2024 70,7 %, R1 Distill (32B) 72,6 %. Mit Majority voting@64 steigt Magistral Small auf 83,3 % und erreicht damit eine bessere Leistung als das vollständige R1. Außerdem lässt sich ein 24B-Modell auf gewöhnlichen Gaming-GPUs betreiben, was als deutlich besserer Zugänglichkeitsvorteil erklärt wird. Ein passender Distill-Modell-Link wird ergänzt
    • Im harten Wettbewerb der KI-Modelle hat es aus Engineering-Sicht auch großen Wert, nicht astronomische Kosten zu verursachen, selbst wenn man 6 bis 12 Monate später als die neuesten Modelle erscheint. Aus Sicht von Marktanteilen ist die Logik von Kunden, nur das „Beste“ zu verwenden, zwar nachvollziehbar, aber es wird infrage gestellt, wie wichtig der Marktanteil eines Geschäfts ist, das auf ewig nur Geld verliert
    • Ein Blick auf die Investorenstruktur von Mistral zeige, dass es faktisch kein europäisches Unternehmen sei, da US-Kapital die Haupteigentümer stelle. Details finden sich unter diesem Investor-Informationslink
    • Auch wenn die Wettbewerbsfähigkeit etwas schwächer sein mag, sei es strategisch unverzichtbar, dass jede Region eigene Modelle besitzt, deren Training kontrollierbar ist. Wenn die technologische Lücke jedoch zu groß wird, besteht das Risiko, dass Nutzer sie als unbrauchbar ansehen
    • Es wird darauf hingewiesen, dass Mistral eine vollständig „eigenständige“ Training-Pipeline aufgebaut hat. Konkurrenten wie DeepSeek hätten vermutlich mit Daten von GPT-4, o1 usw. trainiert
  • Notizen zur direkten Nutzung des Magistral-Modells über Ollama, API und das llm-mistral-Plugin sind in diesem Berichtslink zusammengefasst
    • Jemand fragt Simon, worin der konkrete Unterschied zwischen den „zwei Pelikanen auf dem Fahrrad“ besteht. Die Vermutung ist, dass die kleine Version lokal lief und die leistungsstärkere große Version über die API
  • Ein Erfahrungsbericht aus der Praxis: Als das Mistral-OCR-Modell stark beworben wurde, musste jemand ein 600-seitiges PDF per OCR verarbeiten. Obwohl es ausschließlich aus Monospace-Text bestand, wurden 80 % des OCR-Ergebnisses als Bild erkannt und fast nur Leerraum ausgegeben, also deutlich schlechter als tesseract. Einen Monat später blieb trotz des miserablen Resultats die Rechnung bestehen, woraufhin das Konto gelöscht wurde. Das neue Produkt könnte besser sein als die vorherigen, aber die übertriebene Vermarktung von Mistral hat die Erwartungen stark gedämpft
  • Es herrscht Verwirrung darüber, dass die Auswahl der Benchmark-Stichproben zu verstreut und begrenzt ist. Es ist unverständlich, warum Magistral Medium nur mit Deepseek V3, R1 und Mistral Medium 3 verglichen wird, während Magistral Small, Alibaba Qwen oder die Mini-Versionen von o3/o4 fehlen
  • Für einen Test zu logischem Schlussfolgern und Wikipedia-Niveau-Allgemeinwissen wurde Mistral AI gefragt, „wo ein brasilianischer Staatsbürger auf dem Weg von São Paulo nach Paris mit Zwischenstopp in Lissabon die Ein- und Ausreisekontrolle durchläuft“. Mistral AI antwortete „erst in Paris“, korrigierte dies nach Verweis auf den Wikipedia-Artikel jedoch zu „in Lissabon“. Meta AI (Llama 4) antwortete sogar, dass beides nicht nötig sei, was als ungenau bewertet wurde. Man ist neugierig auf die Antworten anderer LLMs
    • Es wird angemerkt, dass die Frage selbst praktisch eine Trickfrage sei. Tatsächlich sei nicht nur in Lissabon als Schengen-Einreisepunkt eine Kontrolle nötig, sondern wohl auch in São Paulo als Ausreisepunkt aus Brasilien/Mercosur
    • Die Antwort von Gemini (2.5 Flash) wird als beeindruckend beschrieben. Der Kern: Für brasilianische Staatsbürger gilt bis zu 90 Tage Schengen-Visumbefreiung. Die Einreisekontrolle erfolgt in Lissabon, und der Weiterflug nach Paris gilt als Inlandsflug innerhalb des Schengen-Raums, daher gibt es in Paris keine zusätzliche Kontrolle. Ab 2026 soll ETIAS eingeführt werden, doch das ist eine vorherige Reisegenehmigung und hat keinen Einfluss auf den Ort der Kontrolle
    • Es wird darauf hingewiesen, dass selbst die fragende Person über die richtige Antwort unsicher ist, und dass solche Tests interessant seien, weil sich leicht vergleichen lässt, wie überzeugend ein LLM antwortet
    • Es bleibt ein vorläufiger Spielraum dafür, dass Llama 4 doch recht haben könnte, da es zwischen Brasilien und Portugal ein besonderes Abkommen zur Visumbefreiung geben könnte
  • Der Wunsch wird geäußert, Qwen3 in die Benchmark-Charts aufzunehmen. Schon Qwen3-4B komme leistungsmäßig fast an Magistral-22B heran, und Qwen3-30B-A3B liefere deutlich bessere Ergebnisse
    • Das 30-A3B-Modell wird als wirklich beeindruckend bewertet. Lokal betrieben und ohne API-Kosten sei es selbst im Vergleich zu geschlossenen Modellen von vor 1 bis 2 Jahren überlegen. Besonders bei Programmieraufgaben werde es höher eingeschätzt als gpt-4o
    • Es wird gefragt, ob es eine automatisierte Website für Benchmarks verschiedener Modelle gibt. Nach eigenen Tests sei Qwen3-30B-A3B unter ähnlichen Parameter- und Speicherbedingungen weiterhin das leistungsstärkste Modell
    • Qwen3 sei bisher das beeindruckendste Reasoning-Modell, das man bewertet habe
    • Mistral sei immer wenig praktisch gewesen, weil andere Modelle stets besser gewesen seien. Nur der Aspekt „aus Europa“ verleihe ihm Bedeutung. Unabhängig von der Leistung werde der Name Mistral wohl weiterhin im Gespräch bleiben
  • Eine interessante Geschichte zur Etymologie: „mistral“ und „magistral“ leiten sich beide von „masterly“ ab. „mistral“ stammt ursprünglich aus dem Okzitanischen und wird im Englischen heute vor allem für einen Mittelmeerwind verwendet. „magistral“ ist die Adjektivform von „magister“. Wenn man noch mehr verwandte Begriffe findet und die Domains sichert, könnte das sogar eine Geschäftschance sein
  • Es wird gefragt, wie viele Open-Weight-Reasoning-Modelle es noch gibt. Man stellt sich vor, mehrere Modelle gleichzeitig auf dasselbe Problem anzusetzen. Interessant sei auch, dass das Small-Modell veröffentlicht wurde, Medium aber ein kostenpflichtiger Dienst bleibt. Es wird gefragt, ob sich Medium vielleicht wie eine Kette aus mehreren Small-Durchläufen verwenden ließe
    • Qwen 3, DeepSeek R1 und Phi-4 Reasoning seien derzeit wohl die besten Open-Weight-Reasoning-Modelle
    • Tatsächlich gebe es im Grunde nur die DeepSeek-Familie, und mit Distill-Modellen lasse sie sich auch auf Consumer-Hardware betreiben
  • Es wird gefragt, ob die ungewöhnlich häufige Verwendung von Gedankenstrichen in den Marketingtexten auch den Stil von Modell-Ausgaben widerspiegelt. Falls ja, sollte das verbessert werden
    • In einem der Texte heißt es tatsächlich, Magistral sei ein hervorragender Begleiter für kreative Arbeit und könne bei Bedarf sogar „merkwürdig eigenartige“ Texte erzeugen
    • Es werden 49 Gedankenstriche und 59 Kommas gezählt, was ein auffällig hohes Verhältnis sei
    • Die Analyse lautet, dass dies nur Mistrals Marketingstil sei; in echten Modell-Ausgaben sei eine ähnlich hohe Verwendung von Gedankenstrichen nicht beobachtet worden
    • Jemand berichtet, dass LibreOffice ein „-“ nach einem Leerzeichen oft in einen Gedankenstrich umwandelt, weshalb man es absichtlich zurückändert, um nicht missverstanden zu werden
    • Mit einem scherzhaften Unterton wird erwähnt, dass im juristischen Bereich Gedankenstriche eher geliebt werden