4 Punkte von GN⁺ 2025-12-03 | 1 Kommentare | Auf WhatsApp teilen
  • Mistral 3 besteht aus den kleinen Modellen mit 3B, 8B und 14B sowie Mistral Large 3 mit 41B aktiven und 675B Gesamtparametern und bildet eine neue Open-Source-KI-Modellfamilie
  • Alle Modelle sind unter der Apache 2.0-Lizenz veröffentlicht, sodass Entwickler und Unternehmen sie frei nutzen und anpassen können
  • Mistral Large 3 nutzt eine Mixture-of-Experts-Architektur, wurde mit 3.000 NVIDIA H200-GPUs trainiert und erreicht Spitzenleistungen bei mehrsprachiger Konversation und Bildverständnis
  • Ministral 3 ist für Edge-Umgebungen ausgelegt, bietet ein starkes Kosten-Leistungs-Verhältnis und die Reasoning-Variante erreichte bei AIME '25 eine Genauigkeit von 85 %
  • Mistral 3 ist auf wichtigen Plattformen wie Mistral AI Studio, Hugging Face, AWS und Azure sofort verfügbar und soll das offene KI-Ökosystem erweitern

Mistral 3-Überblick

  • Mistral 3 ist die neue Modellfamilie von Mistral AI mit den kompakten Modellen 3B, 8B und 14B sowie dem großen sparsamen Modell Mistral Large 3
    • Mistral Large 3 ist eine Mixture-of-Experts (MoE)-Struktur mit 41B aktiven und 675B Gesamtparametern
    • Alle Modelle werden unter der Apache 2.0-Lizenz veröffentlicht und sind der Open-Source-Community zugänglich
  • Die Modelle werden in verschiedenen Komprimierungsformaten bereitgestellt, um die Zugänglichkeit zu verbessern
  • Die Ministral-Modellfamilie gilt als OSS-Modell mit dem besten Verhältnis von Leistung zu Kosten

Mistral Large 3: Spitzenmodell auf Open-Weight-Basis

  • Mistral Large 3 ist ein Open-Weight-Modell, das mit 3.000 NVIDIA H200-GPUs von Grund auf trainiert wurde
    • Das erste Mixture-of-Experts-Modell seit der Mixtral-Reihe, das die Weiterentwicklung der Mistral-Prätrainingstechnologie widerspiegelt
  • Nach dem Training erreicht es bei allgemeiner Prompt-Performance eine Leistung auf Augenhöhe mit den besten Open-Weight-Modellen; in der Bildverständnis und in mehrsprachiger Konversation außerhalb des Englischen sind ebenfalls starke Ergebnisse erzielt worden
  • Im LMArena-Leaderboard liegt es bei OSS Non-Reasoning-Modellen auf Platz 2 und bei allen OSS-Modellen auf Platz 6
  • Die Base- und Instruct-Fine-Tuning-Versionen wurden veröffentlicht; die Reasoning-Version soll bald folgen

Zusammenarbeit mit NVIDIA, vLLM und Red Hat

  • Mistral Large 3 ist durch die Zusammenarbeit mit vLLM und Red Hat für die Open-Source-Community leicht zugänglich
    • Bereitstellung von NVFP4-Format-Checkpoints, die mit llm-compressor erstellt wurden
    • Über vLLM ist eine effiziente Ausführung auf Blackwell NVL72-, 8×A100- und 8×H100-Systemen möglich
  • Mit NVIDIA wurden TensorRT-LLM, SGLang und weitere Frameworks für Low-Precision-Inferenz unterstützt
    • Integration der Blackwell-Attention- und MoE-Kernel, der geteilten prefill/decode-Serving-Pfade und der spekulativen Decodierung
  • Optimierte Bereitstellung wird auch für Edge-Umgebungen wie DGX Spark, RTX PC und Jetson-Geräte unterstützt

Ministral 3: Intelligente Modelle für Edge-Umgebungen

  • Die Ministral-3-Reihe für Edge- und lokale Umgebungen wird in drei Größen (3B, 8B, 14B) bereitgestellt
    • Jedes Modell wurde in den drei Varianten Base, Instruct und Reasoning veröffentlicht
    • Alle Varianten enthalten Bildverständnis und mehrsprachige Verarbeitung
  • Sie gilt als OSS-Modell mit dem besten Verhältnis von Kosten zu Leistung; das Instruct-Modell zeigt eine vergleichbare oder bessere Leistung als Konkurrenzmodelle bei etwa zehnfach weniger Token
  • Die Reasoning-Variante ist in präzisionszentrierten Umgebungen stark, und das 14B-Modell erreichte bei AIME '25 eine Genauigkeit von 85 %

Bereitstellung und Zugänglichkeit

  • Mistral 3 ist auf folgenden Plattformen sofort nutzbar
    • Mistral AI Studio, Amazon Bedrock, Azure Foundry, Hugging Face, Modal, IBM WatsonX, OpenRouter, Fireworks, Unsloth AI, Together AI
    • Bald auch auf NVIDIA NIM und AWS SageMaker verfügbar
  • Bereitstellung eines kundenspezifischen Modelltrainingsservices für Unternehmen
    • Unterstützung für domänenspezifische Workloads, Leistungssteigerung bei eigenen Datensätzen, Bereitstellung in Spezialumgebungen

Kernwerte von Mistral 3

  • Frontier-Leistung und offene Zugänglichkeit: Bereitstellung von Leistung auf Niveau geschlossener Modelle als Open Source
  • Multimodale und mehrsprachige Unterstützung: Text-, Bild- und logisches Verständnis in über 40 Sprachen
  • Skalierbare Effizienz: Parameterumfang von 3B bis 675B, passend von Edge bis Enterprise
  • Adaptive Nutzbarkeit: Einsatz in verschiedenen Workflows wie Coding, Dokumentenanalyse und Tool-Nutzung

Nächste Schritte

  • Modell-Dokumentation und technische Ressourcen sind in Mistral Docs und dem AI Governance Hub verfügbar
  • Sofortiger API-Zugriff über Hugging Face und die Mistral AI-Plattform
  • Ein Anfragekanal für unternehmensspezifisches Training und Fine-Tuning wird angeboten
  • Community-Beteiligung ist über Twitter/X, Discord, GitHub möglich

Fazit

  • Mistral 3 zielt darauf, das offene KI-Ökosystem auf Basis von Transparenz, Zugänglichkeit und gemeinsamer Weiterentwicklung auszubauen
  • Es eröffnet neue Möglichkeiten in Reasoning, Effizienz und realen Anwendungen und etabliert sich als nächste Open-Source-Modellgeneration, die „Verstehen in Handeln überführt“

1 Kommentare

 
GN⁺ 2025-12-03
Hacker-News-Kommentare
  • Ich nutze bei phrasing.app große Sprachmodelle (LLMs), um Daten in ein konsistentes Format zu bringen
    Vor ein paar Monaten bin ich auf mistral-3-medium-0525 umgestiegen, weil gpt-5 häufig seltsame Ausgaben erzeugt hat und mir Probleme machte
    Mistral ist schnell, günstig und befolgt Formatvorgaben präzise. Im praktischen Einsatz ist es deutlich besser als die Benchmarks vermuten lassen
    Sehr selten (0,1 %) liefert es merkwürdige Ergebnisse, ist aber im Vergleich zur Ausfallquote von 15 % bei gpt-5 viel stabiler
    Ich werde die neuen Modelle bald ebenfalls testen und die Ergebnisse teilen

    • Früher hatte ich mehrere Chatbot-Abos, aber inzwischen wechsle ich zwischen Grok, ChatGPT, Gemini, Deepseek und Mistral
      Bei APIs ist für mich der größte Vorteil, dass ein Modell wie erwartet funktioniert
      Inzwischen wähle ich über Openrouter einfach das Modell aus, das ich gerade brauche
      Ich glaube, dass der jüngste Anstieg werbefinanzierter Chatbots daher kommt, dass echte Nutzer im Gegensatz zu Benchmarks kaum Unterschiede bemerken und deshalb ihre Bezahl-Abos kündigen
      Heute hat mir OpenAI schon wieder einen Monat gratis angeboten, als hätte man vergessen, dass ich das vor zwei Monaten bereits genutzt habe
    • Ich habe sehr ähnliche Erfahrungen gemacht. Mistral-Modelle sind in Benchmarks zwar nicht die Besten, aber für einfache Aufgaben wie Klassifizierung oder Zusammenfassung am effizientesten
      Vor allem mistral-small bietet über die Batch-API ein sehr gutes Preis-Leistungs-Verhältnis
    • Ich habe das Gefühl, dass die Bewertung von LLMs über Benchmarks Grenzen hat
      Überanpassung kann die Nutzbarkeit in der Praxis verschlechtern, und auch Chatbot Arena ist ja genau aus diesem Bedürfnis nach Bewertung im realen Einsatz entstanden
      Aber selbst dort gibt es Kritik, dass Dinge wie Formatierung oder Schmeichelei übergewichtet werden
      Letztlich brauchen wir wohl mehr auf einzelne Aufgaben spezialisierte Modelle
    • Danke, dass du den Anwendungsfall für Mistral-Modelle geteilt hast
      Allerdings wirkte der Slogan „Hand-crafted by humans“ bei phrasing.app auf mich etwas ironisch, wenn im Hintergrund tatsächlich fortgeschrittene LLMs laufen
    • Meinst du, dass gpt-5 mit 15 % Wahrscheinlichkeit seltsame Ausgaben erzeugt?
      Hast du die Fehlerrate von Mistral vielleicht mit der Ausfallquote von gpt-5.1 bei komplexen Aufgaben verglichen?
      Und ich frage mich auch, ob es bei Mistral ein Tool-Use-Modell gibt. Über ein neues Modell fürs Coding würde ich mich freuen
  • Interessant ist, dass das neue große Modell die DeepseekV2-Architektur verwendet
    Auf der offiziellen Seite wird das nicht erwähnt, aber ich finde es positiv, wenn Open-Source-Modelle aktuelle Architekturen übernehmen
    K2 ist ähnlich vorgegangen, und wenn man in den tatsächlichen Code (mistral_large_3.py) schaut, basiert es auf DeepseekV3
    Wie es so schön heißt: „Wissenschaft entwickelt sich immer auf der Grundlage von Offenheit und Austausch“ — deshalb ist diese Transparenz erfreulich
    Jetzt werde ich das 14B-Modell zu Hause testen, und ich freue mich auch darauf, dass Vision-Funktionen hinzugekommen sind

    • Letztlich wirkt es so, als habe man die R&D in eine Deepseek-Kopie gesteckt und der einzigen zusätzlichen Funktion, nämlich Vision, weniger Aufmerksamkeit geschenkt
      Auf der Hugging-Face-Seite steht ebenfalls ausdrücklich, dass Mistral Large 3 bei multimodalen Aufgaben hinter spezialisierten Vision-Modellen zurückliegt
    • Ehrlich gesagt glaube ich inzwischen, dass heute weniger Architekturunterschiede entscheidend sind als Daten, Tuning und Pipeline
    • Von allen zu verlangen, alles offenzulegen, und dann diejenigen zu kritisieren, die tatsächlich Offenheit leben, wirkt auf mich wie ein doppelter Maßstab
  • Erstaunlich, dass das 3B-Vision-Modell direkt im Browser läuft
    Man kann das 3-GB-Modell herunterladen und sofort ausführen, und es gibt eine Hugging-Face-Demo
    Auch der Beitrag von Simon Willison ist lesenswert

    • Mit solcher Technik könnte man Barrierefreiheits-Tools wie Echtzeit-Videobeschreibung für sehbehinderte Menschen bauen
      Ich stelle mir Funktionen vor, die nicht nur Sprache, sondern auch Handlungen im Video beschreiben
  • Schön, dass Europas Mistral nach längerer Zeit wieder da ist
    Positiv ist auch die Rückkehr zu Open Source unter der Apache-2.0-Lizenz
    Eine Zeit lang war Mistral bei kleinen Modellen für Consumer-GPUs ganz vorne, und ich hoffe, dass auch dieses Ministral 14B so gut performt, wie es die Benchmarks versprechen

    • Ich denke allerdings, dass solche Erfolge letztlich US-VC-Geldern zu verdanken sind
      Innerhalb Europas wäre es vermutlich schwer gewesen, Mittel in dieser Größenordnung für AI-Training zu bekommen
  • Die neuen Modelle sehen gut aus, aber es ist schade, dass Vergleiche mit SOTA-Modellen wie OpenAI, Google und Anthropic fehlen
    Dadurch ist ihre Einordnung insgesamt schwierig

    • Wenn man sich die Ergebnisse auf LMArena ansieht, liegt Mistral Large 3 auf Platz 28, und der Abstand zu den Spitzenmodellen ist gar nicht so groß
      Das Topmodell hat 1491 Punkte, Mistral 1418 — der Leistungsabstand ist also klein
    • Solche Vergleiche könnten aber unter Werberegulierung fallen, deshalb vermeiden Unternehmen sie offenbar
    • Mistral weiß wahrscheinlich ohnehin, dass es mit geschlossenen Modellen schwer konkurrieren kann
      Dass es nicht einmal mit GPT-OSS verglichen wird, wirkt etwas vorsichtig
    • Allein die Tatsache, dass keine Vergleichsergebnisse veröffentlicht wurden, sagt meiner Meinung nach schon viel aus
  • Ich unterstütze Europas Bemühungen

    • Man sollte aber nicht vergessen, dass es auch innerhalb Europas viel aktive AI-Forschung gibt, etwa bei DeepMind in London
    • Ich wollte das mit dem Witz ausbalancieren, dass „Windows 11 das größte Meisterwerk der USA“ sei
  • Ehrlich gesagt hatte ich den Eindruck, dass Deepseek 3.2 gestern die ganze Aufmerksamkeit auf sich gezogen hat
    Schade, dass der Vergleich hier noch auf Deepseek 3.1 basiert
    Laut offizieller Meldung hat 3.2 deutliche Verbesserungen gebracht

  • Ich verstehe weiterhin nicht, wo der Anreiz liegt, gute Modellgewichte zu veröffentlichen
    Wenn OpenAI wie bei gpt-oss ein Modell für Benchmarks herausbringt, könnte das PR-Zwecken dienen,
    und chinesische Unternehmen scheinen eine ähnliche Strategie zu verfolgen, um die Position von US-Big-Tech zu schwächen
    Ich frage mich, ob auch künftig noch brauchbare Open-Weight-Modelle erscheinen werden

    • Weil es mit geschlossenen Modellen schwer ist, Geld zu verdienen
      Offene Gewichte eröffnen sekundäre Erlösquellen wie Fine-Tuning-Services für Unternehmen
      Transparenz, Kontrolle, Datenschutz und Kostensenkung sind für Unternehmen wichtig
      Deshalb könnte dieses offene Ökosystem langfristig geschlossene Modelle verdrängen
      Siehe dazu Mistral Custom Model Training
    • gpt-oss ist kein reines Benchmark-Modell, sondern in der Praxis bei mathematischer Problemlösung sehr stark
      Es hält sich auch im AIME3-Wettbewerb auf Kaggle weiterhin im Spitzenfeld
    • Weil das Erlösmodell derzeit unklar ist, konzentrieren sich AI-Unternehmen eher auf die Sicherung von VC-Finanzierung als auf den Bau des besten Modells
      Wenn sie offene Modelle veröffentlichen, steigt ihre Bewertung stark, was bei der Beschaffung von GPUs hilft
      Falls am Ende jedoch kein tragfähiges Geschäftsmodell entsteht, wäre das ein großes Problem
    • gpt-oss ist bei Tool-Calling hervorragend und insgesamt sehr stabil
    • Bei Google entsteht stark der Eindruck, dass Benchmarks manipuliert werden
      Gemini liegt in Benchmarks vorn, ist in der Praxis aber weniger überzeugend
  • Ich habe die aggregierten Benchmark-Werte mehrerer Modelle verglichen
    Gemini 3.0 Pro liegt mit 84,8 auf Platz 1, DeepSeek 3.2 bei 83,6 und GPT-5.1 bei 69,2
    Mistral Large 3 liegt mit 41,9 deutlich niedriger, aber die 14B-, 8B- und 3B-Modelle sind auf SOTA-Niveau
    und haben im Gegensatz zu Qwen3 keine Zensurprobleme

    • Ich frage mich, woher der große Abstand zwischen Gemini 3 und GPT-5.1/Opus 4.5 kommt
      Ich würde gern wissen, in welchen Bereichen Gemini so stark ist
  • In Benchmarks ist Gemini zwar ganz vorne, aber in der Praxis wirkt es auf mich schwächer als ChatGPT oder Claude
    Es erzählt häufiger Unsinn, und Google scheint nur die Benchmark-Werte hochzutreiben
    Ich hoffe, dass Open Source wie Mistral diesen Markt nach und nach verdrängt

    • Das Ziel von Open-Weight-LLMs ist nicht, geschlossene Modelle direkt zu schlagen
      Sie dienen eher als Gegengewicht im Ökosystem und helfen, Monopole zu verhindern
    • Ich habe Gemini beim Lernen für den Aufbau eines on-prem-k8s-Clusters verwendet, und in diesem Thema war es sehr präzise
      Vermutlich liegt das daran, dass dieser Bereich gut in den Trainingsdaten vertreten ist
    • Gemessen an meinen Fragen hatte Gemini 3 weniger Halluzinationen als GPT-5.1
    • Für mich persönlich war Gemini am enttäuschendsten, und die übertriebene Werbung wirkt auf mich unnatürlich
    • Außerhalb von Coding-Aufgaben kann Gemini dank der Google-Search-Integration leichter Belege liefern