Mistral veröffentlicht das Open-Source-Coding-Modell Devstral 2 und die Vibe CLI

(mistral.ai)

9 Punkte von GN⁺ 2025-12-10 | 1 Kommentare | Auf WhatsApp teilen

Devstral 2 ist ein Open-Source-Coding-Modell der nächsten Generation mit 123B Parametern, das auf SWE-bench Verified eine Leistung von 72,2 % erreicht und dabei gegenüber Wettbewerbsmodellen eine hohe Effizienz erzielt
Devstral Small 2 läuft mit 24B Parametern auch auf Consumer-Hardware und wird unter der Apache 2.0-Lizenz veröffentlicht
Mistral Vibe CLI ist ein Open-Source-Terminal-Agent auf Basis von Devstral, der Code-Exploration, -Bearbeitung und -Ausführung per natürlicher Sprache ermöglicht
Devstral 2 ist bis zu 7-mal kosteneffizienter als Claude Sonnet und liefert trotz einer fünfmal kleineren Größe als DeepSeek V3.2 weiterhin hohe Leistung
In der Open-Source-Community wird es als zentrales Werkzeug für großskalige Codeautomatisierung und die Beschleunigung verteilter Intelligenz eingestuft

Überblick über Devstral 2

Devstral 2 ist ein 123B-Parameter-Dichtetransformer-Modell, das ein 256K-Kontextfenster unterstützt
- Es erreicht auf SWE-bench Verified eine Leistung von 72,2 % und zählt damit zu den Modellen mit offenen Gewichten mit Spitzenwerten
- Es wird unter einer modifizierten MIT-Lizenz veröffentlicht und setzt damit einen neuen Standard für Open-Source-Code-Agenten
Devstral Small 2 erreicht 68,0 % auf SWE-bench Verified und hält ein ähnliches Niveau wie Modelle, die bis zu fünfmal so groß sind
- Lokale Ausführung auf Consumer-Hardware möglich, mit schneller Inferenz und personalisierten Feedback-Loops
- Es unterstützt Bildeingaben und ermöglicht den Betrieb von multimodalen Agenten
Devstral 2 (123B) und Small 2 (24B) sind gegenüber DeepSeek V3.2 um das 5-fache bzw. 28-fache kleiner und gegenüber Kimi K2 um das 8-fache bzw. 41-fache
- Durch die komprimierte Modellarchitektur lassen sie sich auch auf begrenzter Hardware leichter bereitstellen

Unterstützung produktionsreifer Workflows

Devstral 2 unterstützt Codebase-Exploration und die Verwaltung von Änderungen über mehrere Dateien und behält den Architekturkontext aufrecht
- Dazu gehören Framework-Abhängigkeitsverfolgung, Fehlererkennung und automatischer Retry
- Es kann Bugfixes und die Modernisierung von Legacy-Systemen durchführen
Fine-Tuning-Support für spezifische Sprachen und große Enterprise-Codebasen
In einem menschlichen Evaluierungsvergleich mit DeepSeek V3.2 und Claude Sonnet 4.5 liegt Devstral 2 deutlich vor DeepSeek (42,8 % Gewinnrate)
- Zwischenzeitlich besteht jedoch weiterhin eine Leistungsdifferenz zu Claude Sonnet 4.5
Cline bezeichnet Devstral 2 als „eines der besten Open-Source-Coding-Modelle“ und sagt, dass die Tool-Call-Erfolgsquote ähnlich mit Closed-Source-Modellen ist
Kilo Code berichtet, dass in den ersten 24 Stunden nach dem Launch 17B Tokens genutzt wurden

Mistral Vibe CLI

Ein Open-Source-CLI-Coding-Assistent auf Devstral-Basis, der über natürliche Sprache Code-Exploration, -Änderung und -Ausführung ermöglicht
- Wird unter der Apache 2.0-Lizenz veröffentlicht
- Nutzbar im Terminal oder in der IDE (in Verbindung mit dem Agent Communication Protocol)
Hauptfunktionen
- Projektbewusster Kontext: Automatisches Scannen von Dateistruktur und Git-Status
- Intelligente Referenzen: @-Autovervollständigung, Ausführung von !-Kommandos, Slash-Kommandos zum Ändern von Einstellungen
- Multi-File-Orchestrierung: Architekturbezogenes Schlussfolgern durch Verständnis der gesamten Codebasis
- Unterstützung für kontinuierliche Historie, Autovervollständigung und Theme-Anpassung
Skript-Ausführung, automatischer Freigabe-Toggle, lokale Modelleinstellungen und Berechtigungssteuerung ermöglichen eine an den Workflow angepasste Konfiguration

Bereitstellung und Nutzung

Devstral 2 wird aktuell als kostenlose API angeboten; anschließend sind Preise von $0.40/$2.00 pro Ein- und Ausgabe geplant
- Devstral Small 2 kostet $0.10/$0.30
Es lässt sich mit Open-Agent-Tools wie Kilo Code und Cline integrieren
Mit der Zed IDE-Erweiterung ist eine direkte Nutzung der Vibe CLI möglich
Devstral 2 erfordert Datacenter-GPU-Kapazität (mindestens 4×H100) und kann auf build.nvidia.com getestet werden
- Devstral Small 2 kann auch in Einzel-GPU- oder CPU-Umgebungen ausgeführt werden
- NVIDIA NIM-Unterstützung ist geplant
Für optimale Leistung wird die Einstellung der Temperatur auf 0.2 sowie die Best Practices der Vibe CLI empfohlen

Community und Recruiting

Mistral fördert die Freigabe von Projekten und die Teilnahme am Feedback mit Devstral 2, Small 2 und Vibe CLI
- Austausch ist über X/Twitter, Discord und GitHub möglich
Personal für Open-Source-Forschung und Interface-Entwicklung wird gesucht; die Bewerbung ist über die offizielle Karriereseite von Mistral möglich

1 Kommentare

GN⁺ 2025-12-10

Hacker-News-Kommentar

Mit dem Befehl llm install llm-mistral wurde das Mistral-Modell installiert, danach mit llm mistral refresh aktualisiert und anschließend mit llm -m mistral/devstral-2512 "Generate an SVG of a pelican riding a bicycle" ein SVG-Bild erzeugt
Das Ergebnis ist unter diesem Link zu sehen. Für ein 123B-Modell ist das ziemlich ordentlich
Die Modell-ID ist möglicherweise nicht ganz korrekt, daher wurde Mistral direkt danach gefragt
- Inzwischen besteht auch die Möglichkeit, dass Prompts wie „Erzeuge ein SVG eines Pelikans auf einem Fahrrad“ im Trainingsdatensatz enthalten sind. Als Benchmark ist das nützlich, aber um benchmaxxing zu vermeiden, braucht man meiner Meinung nach auch Zufallstests
- Es stellt sich die Frage, ob dieses Modell vielleicht auch die Space-Jam-Website von 1996 nachbilden könnte
- SVG ist zwar Code, aber kein ausführbarer Code, daher könnte das für die Bewertung von Coding-Modellen etwas irreführend sein. Das Ergebnis ist trotzdem beeindruckend
- Es würde mich interessieren, woher das Tool llm stammt
- Es scheint das Fahrrad übersprungen und direkt auf ein cooles Motorrad upgegradet zu haben
Mistral liegt gegenüber dem SOTA etwa ein Jahr zurück, wird aber bei Geschwindigkeit und Preis-Leistung zunehmend konkurrenzfähig. Für meinen Einsatz reicht es noch nicht, aber es holt schnell auf. Als Konkurrenz sehe ich Haiku 4.5, Gemini 3 Pro Fast und das neue leichte Modell von OpenAI (GPT 5.1 Codex Max Extra High Fast?)
- Das neue Modell von OpenAI soll angeblich Garlic heißen, aber so werden sie es doch wohl kaum wirklich veröffentlichen?
- Im Vergleich zu Deepseek-v3.2 ist die allgemeine Leistungsfähigkeit deutlich schwächer, und der Preis ist fünfmal höher
Devstral 2 wurde in der CLI ausgeführt, um ein persönliches Projekt mit 500 KB zu reviewen
Das Programm hat die Funktionalität korrekt verstanden, zwei Bugs behoben, den Code verbessert und zwei kleine Features ergänzt.
Es hat zwar einen neuen Bug erzeugt, ihn aber sofort behoben, nachdem darauf hingewiesen wurde.
Die Codeänderungen waren minimal, unnötige Neuschreibungen gab es nicht.
Für ein endgültiges Urteil ist es noch zu früh, aber es wirkt wie ein ziemlich fähiges Modell
- Ich frage mich, auf welcher Hardware es ausgeführt wurde
Ich werde Devstral selbst ausprobieren. Das frühere Modell war für lokales agentisches Coding schon ganz brauchbar.
Aber der Name „Vibe CLI“ wirkt zu leichtgewichtig.
„Vibe-coding“ macht Spaß, wenn man die Grenzen eines Modells austesten will, passt aber nicht zu professioneller Arbeit, bei der Qualitätskontrolle nötig ist.
Momentan scheinen alle auf vibe-coding fixiert zu sein, aber wo sind die professionellen LLM-Tools, die die menschliche Intelligenz unterstützen?
- Der neue CLI-Agent mistral-vibe ist in Python geschrieben und unterstützt Zeds ACP-Protokoll
- Viele Apps werden als provisorische Services für kurzfristige Geschäftsziele gebaut, deshalb ist agentic coding für solche „Pappkarton-Services“ durchaus nützlich. Für industrielle Dateninfrastruktur ist es jedoch ungeeignet
- Genau so ein professionelles Tool ist Brokk, das wir bauen. Eine Einführung gibt es in diesem Blogbeitrag
- Es gab auch die Reaktion: „Heißt das, Claude Code reicht nicht aus?“
- Manche meinen inzwischen, wichtiger als Codequalität sei die Qualität von Spezifikationen und Tests
Ich überlege gerade eine 5.000-Dollar-Hardwarekonfiguration für Devstral Small 2.
Mich interessieren die Token-Durchsatzraten auf Mac 32GB, RTX 4090, DGX Spark, RTX 5090 und externer GPU über Oculink
- 5.000 Dollar sind ein etwas unglückliches Budget, daher würde ich zum Mieten von Cloud-GPUs raten.
  Wenn hohe Leistung gewünscht ist, ist eine RTX 5090 sinnvoll, für CUDA-Kompatibilität ein DGX Spark und für große Modelle Strix Halo 128GB oder M3 Ultra.
  Echte Benchmarks findet man am besten auf r/LocalLLaMA
- Ein Setup mit zwei 3090ern (24GB×2) bietet aktuell das beste Preis-Leistungs-Verhältnis.
  Darüber hinaus gibt es auch 8×V100-Server (32GB×8, 512GB RAM, NVLink). Dafür ist allerdings 240V-Strom erforderlich
- Ich nutze eine Kombination aus 7900XTX + 128GB DDR4. Und ich mag NVIDIA nicht
Der Name „Vibe CLI“ klingt nach einem zu leichtgewichtigen Tool.
Ich nutze Claude Code oft, würde das aber nicht vibe-coding nennen
- Solche Namen sind wahrscheinlich ein Marketing-Meme. Offenbar soll damit Aufmerksamkeit für Artikel nach dem Muster „Eine französische Firma hat ein Tool zum Coden per Vibe veröffentlicht!“ erzeugt werden
- Ich denke, Code mit LLMs zu schreiben eignet sich grundsätzlich eher für leichtgewichtige Aufgaben
- Wenn man Claude den Code schreiben lässt, ist das ohnehin schon vibe-coding
- Vielleicht ist es auch einfach nur humorvolles Naming
Schön, eine CLI zu sehen, die nicht React verwendet.
Vibe-cli wurde mit dem Textual-Framework gebaut
- Da es aber auf Python basiert, mache ich mir Sorgen, dass die Ausgabegeschwindigkeit langsam sein könnte. Ein ähnliches Problem hatte ich früher schon bei Aider
Wenn Mistral pro Token zehnmal günstiger als Claude ist, ist das ziemlich attraktiv.
Solange die Leistung nicht zehnmal schlechter ist, ist das ein guter Punkt
- GPT 5-mini ist ebenfalls viel günstiger als Haiku, war in der Praxis aber eher eine Zeitverschwendung.
  Im Unternehmen nutzen wir Haiku, Sonnet und Opus, aber im privaten Budget verwende ich minimax m2
- Wenn es zehnmal günstiger und doppelt so langsam ist, kann es am Ende durch Tokenverschwendung sogar teurer werden
- Auch die aktuellen SOTA-Modelle sind beim Coding nicht perfekt, deshalb sehe ich keinen großen Grund, sich unbedingt auf Preisoptimierung zu konzentrieren
Ich habe ein AUR-Paket für Mistral-vibe erstellt
Paket-Link
Für Nix-Nutzer lässt sich das direkt mit folgendem Befehl ausführen
```
nix run github:numtide/llm-agents.nix#mistral-vibe
```
Das Repository wird täglich aktualisiert
- Ich halte das für ein wirklich tolles Projekt. Danke fürs Teilen

Mistral veröffentlicht das Open-Source-Coding-Modell Devstral 2 und die Vibe CLI

Überblick über Devstral 2

Unterstützung produktionsreifer Workflows

Mistral Vibe CLI

Bereitstellung und Nutzung

Community und Recruiting

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentar