2 Punkte von GN⁺ 2026-04-30 | 1 Kommentare | Auf WhatsApp teilen
  • 128B-Dense-Modell, das Befehlsausführung, Schlussfolgern und Coding in einem einzigen Gewichtssatz vereint und ein 256k-Kontextfenster unterstützt
  • Der Reasoning-Aufwand pro Anfrage lässt sich steuern, sodass ein einziges Modell von einfachem Chat bis zu komplexen agentischen Aufgaben eingesetzt werden kann
  • SWE-Bench Verified 77,6 %, τ³-Telecom 91,4 Punkte und damit besser als Devstral 2 sowie Qwen3.5 397B A17B
  • Neu trainierter Vision-Encoder, der variable Bildgrößen und Seitenverhältnisse verarbeiten kann
  • Mit dem Vibe Remote Agent lassen sich Coding-Sessions asynchron in der Cloud ausführen, mehrere Sessions parallel betreiben und nach Abschluss Benachrichtigungen erhalten
  • Start per CLI oder Le Chat möglich; beim Teleportieren einer lokalen Session in die Cloud werden Verlauf, Status und Genehmigungsverlauf unverändert übernommen
  • Jede Session läuft in einer isolierten Sandbox, und nach Abschluss wird automatisch ein GitHub-PR erstellt
  • Integration mit bestehenden Entwicklungstools wie GitHub, Linear, Jira, Sentry, Slack und Teams
  • Geeignet für wiederkehrende und klar definierte Aufgaben wie Modul-Refactoring, Testgenerierung, Dependency-Upgrades, CI-Untersuchungen und Bugfixes
  • Der Work-Modus von Le Chat (Preview) nutzt mehrere Tools gleichzeitig, etwa E-Mail, Kalender und Nachrichten, um Multi-Step-Aufgaben bis zum Abschluss automatisch auszuführen
    • Connectoren sind standardmäßig aktiviert, alle Tool-Aufrufe und Begründungen für den Denkprozess werden angezeigt, bei sensiblen Aufgaben wird eine ausdrückliche Genehmigung angefordert
  • API-Preis: 1,5 $ pro Million Eingabetoken, 7,5 $ pro Million Ausgabetoken
  • Open Weights werden unter einer modifizierten MIT-Lizenz veröffentlicht; Self-Hosting ist mit mindestens 4 GPUs möglich

1 Kommentare

 
GN⁺ 2026-04-30
Hacker-News-Kommentare
  • Ich verstehe nicht, worauf alle in den Kommentaren schauen. Dieses Modell schlägt andere Modelle zwar nicht, aber im Verhältnis zur Größe ist es eindeutig konkurrenzfähig.
    GLM 5.1 ist großartig, braucht aber selbst in Q4 etwa 400 GB, und Kimi K2.5 ist ebenfalls gut, benötigt bei Q4-Quantisierung aber fast 600 GB.
    Dieses Modell kann in Q4 mit 70 GB VRAM laufen und rückt damit näher an den Consumer-Bereich. Ein Mac Studio mit 128 GB RAM ist für rund 3500 Dollar zu haben.
    Ich weiß nicht, ob die Leute, die auf Claude eingeschworen sind, nur Opus verwenden, aber Sonnet war im Pro-Plan schon sehr leistungsfähig. Dieses Modell läuft lokal, schlägt das aktuelle Sonnet und verlangt keine Zusatzgebühren oder sperrt willkürlich Konten, nur weil im Repo eine HERMES.md liegt.
    Mistral war an der Frontier nie wirklich konkurrenzfähig, aber vielleicht ist das auch nicht die Rolle, die wir von Mistral erwarten sollten. Wenn es ein Pareto-Modell ist, das für 20 % der Kosten/Größe 80 % der Frontier-Leistung liefert, klingt das gut genug.

    • Wer sich für lokale LLMs interessiert, sollte wissen, dass ein Modell „zum Laufen bringen“ und „schnell laufen lassen“ völlig unterschiedliche Maßstäbe sind.
      Auf einem Mac mit 128 GB kann man solche Modelle zwar ausführen, aber zuerst muss man sehen, ob Q4 die Qualität ausreichend erhält. Jedes Modell hat eine andere Quantisierungsempfindlichkeit, und auch die reale Geschwindigkeit ist wichtig.
      Bei asynchronen oder Hintergrund-Workloads sind Prompt-Verarbeitung und Token-Generierung weniger wichtig, aber viele Käufer eines Mac Studio mussten auf die harte Tour lernen, dass die Reaktionsfähigkeit nicht an Modelle heranreicht, die in der Cloud auf ordentlicher Hardware gehostet werden.
      Für die meisten ohne starke Anforderungen an On-Premises-Verarbeitung ist der beste Einsatzzweck dieses Modells vielleicht, einen der gehosteten Anbieter auf OpenRouter zu nutzen und pro Token zu zahlen.
      Über fast alle Open-Weights-Modelle dieses Jahres wurde gesagt, sie seien auf dem Niveau von Sonnet oder besser, aber selbst wenn sie in Benchmarks klar vorne liegen, hat es sich für mich in der Praxis noch nie so angefühlt.
    • Ich kannte HERMES.md nicht, aber wer neugierig ist, findet hier Informationen dazu https://github.com/anthropics/claude-code/issues/53262
    • Vor Februar konnte ich im Max-Plan problemlos weiter Opus High nutzen, jetzt verwende ich nur noch Sonnet High, und das ist ziemlich leistungsfähig.
      Der Ausdruck Claude Pilled gefällt mir.
    • Dass es „lokal läuft und das aktuelle Sonnet schlägt“, stimmt so nicht.
      Die Benchmarks basieren auf F8_E4M3, und das kann man auf keinem Mac laufen lassen.
      Sonnet hat ein 1M-Token-Kontextfenster, dieses Modell aber 256k, und lokal kann man wahrscheinlich nicht einmal das richtig nutzen.
      Sonnet ist selbst über das Netzwerk schnell, dieses Modell wird aber deutlich langsamer sein.
    • Man sollte auch Qwen 35B A3B MoE nicht vergessen. Dieses Modell liefert in allen Metriken bessere Leistung als dieses hier und hat dabei viel geringere Speicher- und Rechenkosten.
      Schade, dass Open-Source-Modelle außerhalb Chinas mindestens eine Generation zurückzuhängen scheinen.
  • Ich drücke Mistral immer die Daumen. Vielfalt bei Modellen und Ländern ist wichtig.
    Dieses Modell wirkt wie eine solide Basis, auf der man gut aufbauen kann, und ich hoffe, dass für 3.6/3.7 noch mehr Verbesserungen geplant sind. Wenn man sich die Computer-Use-Benchmarks ansieht, scheint in der Vision-Pipeline noch Luft nach oben zu sein, aber das ist nur Spekulation.
    Dass einige Benchmark-Ergebnisse anders ausfallen, vermittelt den Eindruck, dass es kein aus Frontier-Logs destilliertes Modell ist, sondern wirklich unabhängig trainiert wurde. Auch das ist sehr wichtig.
    Dass innerhalb eines bestimmten Modells eine andere Weight-Architektur existiert, wirkt aus Sicht der globalen Systemarchitektur an sich wie ein Vorteil.

  • Dass Mistral weiterhin vertrauenswürdige Modelle liefert, ist gut für den Markt.
    Käufer müssen über eine Struktur hinauskommen, in der sie nur zwischen zwei Unternehmen wählen, damit sie Verhandlungsmacht bei Preis und Deployment haben.

  • Im Vergleich zu anderen gehosteten LLMs, die ich getestet habe, scheint nur Mistral ziemlich strenge CSP-Header zu verwenden.
    Wenn man darum bittet, eine Website mit einer JavaScript-Bibliothek zu erstellen, gibt es in Le Chat zwar einen Canvas-Modus, aber keine Vorschau.
    Ich möchte bei neuen Releases gelegentlich einfach nur kurz im Web etwas testen, aber ohne zu zahlen oder ein Agent-Harness zu verwenden, ist das schwierig.
    SVG zeichnen kann es wirklich nicht https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...

    • SVG ist vielleicht nicht der beste Benchmark, aber es passt zu meinen Erfahrungen mit früheren Mistral-Modellen in Mistral Vibe.
      Ich bat Vibe darum, mir bei der Einrichtung eines MCP-Servers zu helfen, woraufhin es selbstsicher erklärte, MCP stehe für MineCraft Protocol, und dann anfing, auf meinem Rechner nach Minecraft-Binaries zu suchen.
    • Ich wollte mit einem LLM noch nie SVG zeichnen lassen, brauchte das nicht und habe es auch nicht erwartet.
      Alle Modelle können das nicht, manche scheitern dabei nur unterhaltsamer.
  • Ich nutze mistral-medium-2508 für Texttransformationsaufgaben, und für meinen Anwendungsfall liefert es bessere Ergebnisse als mistral-large.
    Ich würde das neue Modell gern testen, aber es ist viel teurer und wird als Coding-/agentisches Modell positioniert, daher bin ich unsicher, ob es das frühere Medium-Modell überhaupt ersetzen soll.
    mistral-medium-2508 kostete $0.4/$2 pro 1M Token, mistral-medium-3.5 dagegen $1.5/$7.5.

    • Ich verwende in Produktion Mistral Large, um große Textblöcke zu verarbeiten.
      Es liefert Ergebnisse fast auf Sonnet-Niveau und ist dabei 90 % günstiger. Zum Coden würde ich es nie verwenden, aber für diese Textanalyseaufgabe war es sehr gut. Es war sogar deutlich besser als die neuesten chinesischen Modelle.
      Deshalb habe ich auf dieses Release gewartet, aber es ist 5-mal teurer als das aktuelle Mistral Large. Ich fürchte jetzt, dass das günstige Large mit dem Release-Wechsel eingestellt wird.
  • Das Problem dieses Modells ist, dass DeepSeek v4 Flash mit 2-Bit-Quantisierung ziemlich gut läuft https://github.com/antirez/llama.cpp-deepseek-v4-flash
    Auf einem M3 Ultra erreicht es 30 t/s bei der Generierung und 400 t/s beim Prefill, und selbst auf einem MacBook Pro M3 Max mit 128 GB ist es nicht viel langsamer.
    Zusammen mit opencode/pi funktioniert es als guter Coding-Agent, und auch Tool Calling ist sehr stabil. Diese Geschwindigkeit kann ein dichtes 120B-Modell niemals erreichen.
    Deshalb muss es nicht nur mit gleich großen 4-Bit-quantisierten Modellen konkurrieren, sondern auch mit DeepSeek v4 Flash als 86-GB-GGUF-Datei, und aus praktischer Sicht lokaler Inferenz wird es da nicht leicht haben.
    Es gibt noch nicht eingecheckte Geschwindigkeitsverbesserungen, die ich bald pushen werde. Der aktuelle Tree mag etwas langsam sein, ist aber immer noch sehr brauchbar.
    Ich bin in Europa und ein Mistral-Fan, aber etwas verstehe ich nicht. Mistral hat mit Mixtral den Open-Weights-MoE-Trend eröffnet, warum bringen sie jetzt also ein recht großes Dense-Modell heraus?
    Auf diese Weise dürfte es weder bei lokaler noch bei Remote-Inferenz zuverlässig konkurrenzfähig sein. Das Modell ist nicht nahe am SOTA, und die Serving-Kosten sind auch nicht billig.
    Dense-Modelle haben im Bereich von einigen zig Milliarden Parametern, etwa wie Qwen 3.6 27B, ihren Platz, aber wenn man auf das Fünffache geht, passt es nicht mehr, sofern es andere Modelle mit demselben VRAM-Bedarf nicht bei den Fähigkeiten klar übertrifft.

    • Im GitHub-Link steht nur: „Auf diese Weise quantisierte Modelle funktionieren im Chat sehr gut und haben Frontier-Model-Vibes, wurden aber nicht breit getestet.“
      Das hat fast nichts damit zu tun, wie es sich in einem agentischen Workflow verhält. Wir wissen bereits, dass die Qualität bei Q2-Quantisierung oft stark nachlässt.
      Wenn dieses quantisierte Flash auch bei größeren Kontextlängen angemessene Qualität und Leistung hält und dabei die Teile bewahrt, die wie die Kernfunktionen der V4-Serie wirken, könnte es ein ziemlich vernünftiger Konkurrent zu Modellen derselben Weight-Klasse wie Qwen 3 Coder-Next 80B sein.
  • Dieses Mistral-Release lässt mich erneut die Lücke zwischen Frontier-Labs und allen anderen spüren.
    Vor dem Agenten-Zeitalter waren die Unterschiede zwischen Modellen nicht immer klar, und jedes Modell hatte irgendwie seinen eigenen Reiz.
    Jetzt möchte ich nichts mehr verwenden, das schlechter ist als ein Frontier-Modell. Der Fähigkeitsunterschied ist enorm, und wenn man ein schwächeres Modell wählt, kostet das real Produktivität.
    Ich mochte kleinere Labs wie Mistral oder besonders Cohere immer, aber dass ich von Releases dieser beiden Firmen begeistert war, ist schon eine Weile her.
    Trotzdem benutze ich mistral voxtral realtime täglich, und es ist großartig.

    • Dem kann ich überhaupt nicht zustimmen. Noch vor einem Jahr war die Produktivitätslücke zwischen Frontier- und Non-Frontier-Modellen viel größer.
      Von vor zwei Jahren ganz zu schweigen.
    • Bei nicht-agentischen Aufgaben gibt es insgesamt keinen klaren Sieger zwischen Gemini, ChatGPT und Claude. Schon bei einer einfachen Chatbot-Oberfläche vergleicht man apples to oranges.
      Aber Claude Code ist deutlich besser als Codex, und Codex ist klar besser als Gemini-cli.
      In diesem Kontext ist es nicht überraschend, dass Claude Code bei agentischem Coding viel besser ist als Non-Frontier-Modelle. Bei spezialisierten agentischen Aufgaben ist es sogar deutlich besser als andere Frontier-Modelle.
    • Zu sagen, man wolle nichts verwenden, das schlechter sei als ein Frontier-Modell, ist ziemlich naiv und ein Fehlurteil.
      Bei den meisten Aufgaben, auch bei komplexer Coding-Arbeit, ist der Unterschied zwischen Frontier-Modellen und Modellen wie GPT-4.1 kaum zu erkennen.
      Um Unterschiede zu sehen, muss man sich wirklich auf Bereiche wie Kontextfenster, Tool Calling oder bestimmte Aspekte von Reasoning Steps konzentrieren.
      Außerdem gehen Frontier-Modelle oft mit einem Brute-Force-Ansatz an Ergebnisse heran, was die Ausführung viel teurer macht. Nicht nur die Kosten auf der Rechnung steigen, sondern auch die Wartezeit, bis überhaupt irgendeine Ausgabe kommt.
      Von lokalen Modellen will ich gar nicht erst anfangen.
  • Mistral scheint hier auf lange Sicht zu spielen: kleinere Modelle, niedrigere Kosten und insgesamt ausreichend gute Leistung.

  • Ganz okay, aber nichts Besonderes. Trotzdem sind Modell-News, die weder aus den USA noch aus China kommen, weiterhin gute Nachrichten.

    • Das ist wohl die europäische Baseline.
  • Es ist lustig, dass 128B inzwischen als Medium gilt.
    Früher gab es Zeiten, in denen GPT-2 mit 355M Parametern als medium galt.

    • GPT-2 1.5B galt als zu gefährlich, um veröffentlicht zu werden.
      Vielleicht war diese Einschätzung ja richtig.