Veröffentlichung der Mistral-3-Modellfamilie
(mistral.ai)- Mistral 3 besteht aus den kleinen Modellen mit 3B, 8B und 14B sowie Mistral Large 3 mit 41B aktiven und 675B Gesamtparametern und bildet eine neue Open-Source-KI-Modellfamilie
- Alle Modelle sind unter der Apache 2.0-Lizenz veröffentlicht, sodass Entwickler und Unternehmen sie frei nutzen und anpassen können
- Mistral Large 3 nutzt eine Mixture-of-Experts-Architektur, wurde mit 3.000 NVIDIA H200-GPUs trainiert und erreicht Spitzenleistungen bei mehrsprachiger Konversation und Bildverständnis
- Ministral 3 ist für Edge-Umgebungen ausgelegt, bietet ein starkes Kosten-Leistungs-Verhältnis und die Reasoning-Variante erreichte bei AIME '25 eine Genauigkeit von 85 %
- Mistral 3 ist auf wichtigen Plattformen wie Mistral AI Studio, Hugging Face, AWS und Azure sofort verfügbar und soll das offene KI-Ökosystem erweitern
Mistral 3-Überblick
- Mistral 3 ist die neue Modellfamilie von Mistral AI mit den kompakten Modellen 3B, 8B und 14B sowie dem großen sparsamen Modell Mistral Large 3
- Mistral Large 3 ist eine Mixture-of-Experts (MoE)-Struktur mit 41B aktiven und 675B Gesamtparametern
- Alle Modelle werden unter der Apache 2.0-Lizenz veröffentlicht und sind der Open-Source-Community zugänglich
- Die Modelle werden in verschiedenen Komprimierungsformaten bereitgestellt, um die Zugänglichkeit zu verbessern
- Die Ministral-Modellfamilie gilt als OSS-Modell mit dem besten Verhältnis von Leistung zu Kosten
Mistral Large 3: Spitzenmodell auf Open-Weight-Basis
- Mistral Large 3 ist ein Open-Weight-Modell, das mit 3.000 NVIDIA H200-GPUs von Grund auf trainiert wurde
- Das erste Mixture-of-Experts-Modell seit der Mixtral-Reihe, das die Weiterentwicklung der Mistral-Prätrainingstechnologie widerspiegelt
- Nach dem Training erreicht es bei allgemeiner Prompt-Performance eine Leistung auf Augenhöhe mit den besten Open-Weight-Modellen; in der Bildverständnis und in mehrsprachiger Konversation außerhalb des Englischen sind ebenfalls starke Ergebnisse erzielt worden
- Im LMArena-Leaderboard liegt es bei OSS Non-Reasoning-Modellen auf Platz 2 und bei allen OSS-Modellen auf Platz 6
- Die Base- und Instruct-Fine-Tuning-Versionen wurden veröffentlicht; die Reasoning-Version soll bald folgen
Zusammenarbeit mit NVIDIA, vLLM und Red Hat
- Mistral Large 3 ist durch die Zusammenarbeit mit vLLM und Red Hat für die Open-Source-Community leicht zugänglich
- Bereitstellung von NVFP4-Format-Checkpoints, die mit llm-compressor erstellt wurden
- Über vLLM ist eine effiziente Ausführung auf Blackwell NVL72-, 8×A100- und 8×H100-Systemen möglich
- Mit NVIDIA wurden TensorRT-LLM, SGLang und weitere Frameworks für Low-Precision-Inferenz unterstützt
- Integration der Blackwell-Attention- und MoE-Kernel, der geteilten prefill/decode-Serving-Pfade und der spekulativen Decodierung
- Optimierte Bereitstellung wird auch für Edge-Umgebungen wie DGX Spark, RTX PC und Jetson-Geräte unterstützt
Ministral 3: Intelligente Modelle für Edge-Umgebungen
- Die Ministral-3-Reihe für Edge- und lokale Umgebungen wird in drei Größen (3B, 8B, 14B) bereitgestellt
- Jedes Modell wurde in den drei Varianten Base, Instruct und Reasoning veröffentlicht
- Alle Varianten enthalten Bildverständnis und mehrsprachige Verarbeitung
- Sie gilt als OSS-Modell mit dem besten Verhältnis von Kosten zu Leistung; das Instruct-Modell zeigt eine vergleichbare oder bessere Leistung als Konkurrenzmodelle bei etwa zehnfach weniger Token
- Die Reasoning-Variante ist in präzisionszentrierten Umgebungen stark, und das 14B-Modell erreichte bei AIME '25 eine Genauigkeit von 85 %
Bereitstellung und Zugänglichkeit
- Mistral 3 ist auf folgenden Plattformen sofort nutzbar
- Mistral AI Studio, Amazon Bedrock, Azure Foundry, Hugging Face, Modal, IBM WatsonX, OpenRouter, Fireworks, Unsloth AI, Together AI
- Bald auch auf NVIDIA NIM und AWS SageMaker verfügbar
- Bereitstellung eines kundenspezifischen Modelltrainingsservices für Unternehmen
- Unterstützung für domänenspezifische Workloads, Leistungssteigerung bei eigenen Datensätzen, Bereitstellung in Spezialumgebungen
Kernwerte von Mistral 3
- Frontier-Leistung und offene Zugänglichkeit: Bereitstellung von Leistung auf Niveau geschlossener Modelle als Open Source
- Multimodale und mehrsprachige Unterstützung: Text-, Bild- und logisches Verständnis in über 40 Sprachen
- Skalierbare Effizienz: Parameterumfang von 3B bis 675B, passend von Edge bis Enterprise
- Adaptive Nutzbarkeit: Einsatz in verschiedenen Workflows wie Coding, Dokumentenanalyse und Tool-Nutzung
Nächste Schritte
- Modell-Dokumentation und technische Ressourcen sind in Mistral Docs und dem AI Governance Hub verfügbar
- Sofortiger API-Zugriff über Hugging Face und die Mistral AI-Plattform
- Ein Anfragekanal für unternehmensspezifisches Training und Fine-Tuning wird angeboten
- Community-Beteiligung ist über Twitter/X, Discord, GitHub möglich
Fazit
- Mistral 3 zielt darauf, das offene KI-Ökosystem auf Basis von Transparenz, Zugänglichkeit und gemeinsamer Weiterentwicklung auszubauen
- Es eröffnet neue Möglichkeiten in Reasoning, Effizienz und realen Anwendungen und etabliert sich als nächste Open-Source-Modellgeneration, die „Verstehen in Handeln überführt“
1 Kommentare
Hacker-News-Kommentare
Ich nutze bei phrasing.app große Sprachmodelle (LLMs), um Daten in ein konsistentes Format zu bringen
Vor ein paar Monaten bin ich auf mistral-3-medium-0525 umgestiegen, weil gpt-5 häufig seltsame Ausgaben erzeugt hat und mir Probleme machte
Mistral ist schnell, günstig und befolgt Formatvorgaben präzise. Im praktischen Einsatz ist es deutlich besser als die Benchmarks vermuten lassen
Sehr selten (0,1 %) liefert es merkwürdige Ergebnisse, ist aber im Vergleich zur Ausfallquote von 15 % bei gpt-5 viel stabiler
Ich werde die neuen Modelle bald ebenfalls testen und die Ergebnisse teilen
Bei APIs ist für mich der größte Vorteil, dass ein Modell wie erwartet funktioniert
Inzwischen wähle ich über Openrouter einfach das Modell aus, das ich gerade brauche
Ich glaube, dass der jüngste Anstieg werbefinanzierter Chatbots daher kommt, dass echte Nutzer im Gegensatz zu Benchmarks kaum Unterschiede bemerken und deshalb ihre Bezahl-Abos kündigen
Heute hat mir OpenAI schon wieder einen Monat gratis angeboten, als hätte man vergessen, dass ich das vor zwei Monaten bereits genutzt habe
Vor allem mistral-small bietet über die Batch-API ein sehr gutes Preis-Leistungs-Verhältnis
Überanpassung kann die Nutzbarkeit in der Praxis verschlechtern, und auch Chatbot Arena ist ja genau aus diesem Bedürfnis nach Bewertung im realen Einsatz entstanden
Aber selbst dort gibt es Kritik, dass Dinge wie Formatierung oder Schmeichelei übergewichtet werden
Letztlich brauchen wir wohl mehr auf einzelne Aufgaben spezialisierte Modelle
Allerdings wirkte der Slogan „Hand-crafted by humans“ bei phrasing.app auf mich etwas ironisch, wenn im Hintergrund tatsächlich fortgeschrittene LLMs laufen
Hast du die Fehlerrate von Mistral vielleicht mit der Ausfallquote von gpt-5.1 bei komplexen Aufgaben verglichen?
Und ich frage mich auch, ob es bei Mistral ein Tool-Use-Modell gibt. Über ein neues Modell fürs Coding würde ich mich freuen
Interessant ist, dass das neue große Modell die DeepseekV2-Architektur verwendet
Auf der offiziellen Seite wird das nicht erwähnt, aber ich finde es positiv, wenn Open-Source-Modelle aktuelle Architekturen übernehmen
K2 ist ähnlich vorgegangen, und wenn man in den tatsächlichen Code (
mistral_large_3.py) schaut, basiert es auf DeepseekV3Wie es so schön heißt: „Wissenschaft entwickelt sich immer auf der Grundlage von Offenheit und Austausch“ — deshalb ist diese Transparenz erfreulich
Jetzt werde ich das 14B-Modell zu Hause testen, und ich freue mich auch darauf, dass Vision-Funktionen hinzugekommen sind
Auf der Hugging-Face-Seite steht ebenfalls ausdrücklich, dass Mistral Large 3 bei multimodalen Aufgaben hinter spezialisierten Vision-Modellen zurückliegt
Erstaunlich, dass das 3B-Vision-Modell direkt im Browser läuft
Man kann das 3-GB-Modell herunterladen und sofort ausführen, und es gibt eine Hugging-Face-Demo
Auch der Beitrag von Simon Willison ist lesenswert
Ich stelle mir Funktionen vor, die nicht nur Sprache, sondern auch Handlungen im Video beschreiben
Schön, dass Europas Mistral nach längerer Zeit wieder da ist
Positiv ist auch die Rückkehr zu Open Source unter der Apache-2.0-Lizenz
Eine Zeit lang war Mistral bei kleinen Modellen für Consumer-GPUs ganz vorne, und ich hoffe, dass auch dieses Ministral 14B so gut performt, wie es die Benchmarks versprechen
Innerhalb Europas wäre es vermutlich schwer gewesen, Mittel in dieser Größenordnung für AI-Training zu bekommen
Die neuen Modelle sehen gut aus, aber es ist schade, dass Vergleiche mit SOTA-Modellen wie OpenAI, Google und Anthropic fehlen
Dadurch ist ihre Einordnung insgesamt schwierig
Das Topmodell hat 1491 Punkte, Mistral 1418 — der Leistungsabstand ist also klein
Dass es nicht einmal mit GPT-OSS verglichen wird, wirkt etwas vorsichtig
Ich unterstütze Europas Bemühungen
Ehrlich gesagt hatte ich den Eindruck, dass Deepseek 3.2 gestern die ganze Aufmerksamkeit auf sich gezogen hat
Schade, dass der Vergleich hier noch auf Deepseek 3.1 basiert
Laut offizieller Meldung hat 3.2 deutliche Verbesserungen gebracht
Ich verstehe weiterhin nicht, wo der Anreiz liegt, gute Modellgewichte zu veröffentlichen
Wenn OpenAI wie bei gpt-oss ein Modell für Benchmarks herausbringt, könnte das PR-Zwecken dienen,
und chinesische Unternehmen scheinen eine ähnliche Strategie zu verfolgen, um die Position von US-Big-Tech zu schwächen
Ich frage mich, ob auch künftig noch brauchbare Open-Weight-Modelle erscheinen werden
Offene Gewichte eröffnen sekundäre Erlösquellen wie Fine-Tuning-Services für Unternehmen
Transparenz, Kontrolle, Datenschutz und Kostensenkung sind für Unternehmen wichtig
Deshalb könnte dieses offene Ökosystem langfristig geschlossene Modelle verdrängen
Siehe dazu Mistral Custom Model Training
Es hält sich auch im AIME3-Wettbewerb auf Kaggle weiterhin im Spitzenfeld
Wenn sie offene Modelle veröffentlichen, steigt ihre Bewertung stark, was bei der Beschaffung von GPUs hilft
Falls am Ende jedoch kein tragfähiges Geschäftsmodell entsteht, wäre das ein großes Problem
Gemini liegt in Benchmarks vorn, ist in der Praxis aber weniger überzeugend
Ich habe die aggregierten Benchmark-Werte mehrerer Modelle verglichen
Gemini 3.0 Pro liegt mit 84,8 auf Platz 1, DeepSeek 3.2 bei 83,6 und GPT-5.1 bei 69,2
Mistral Large 3 liegt mit 41,9 deutlich niedriger, aber die 14B-, 8B- und 3B-Modelle sind auf SOTA-Niveau
und haben im Gegensatz zu Qwen3 keine Zensurprobleme
Ich würde gern wissen, in welchen Bereichen Gemini so stark ist
In Benchmarks ist Gemini zwar ganz vorne, aber in der Praxis wirkt es auf mich schwächer als ChatGPT oder Claude
Es erzählt häufiger Unsinn, und Google scheint nur die Benchmark-Werte hochzutreiben
Ich hoffe, dass Open Source wie Mistral diesen Markt nach und nach verdrängt
Sie dienen eher als Gegengewicht im Ökosystem und helfen, Monopole zu verhindern
Vermutlich liegt das daran, dass dieser Bereich gut in den Trainingsdaten vertreten ist