4 Punkte von GN⁺ 2025-05-22 | 1 Kommentare | Auf WhatsApp teilen
  • Devstral ist ein agentisches LLM für Software-Engineering-Aufgaben und wurde in Zusammenarbeit von Mistral AI und All Hands AI entwickelt
  • Im Benchmark SWE-Bench Verified erreicht es 46,8 % Leistung und damit mehr als 6 %punkte besser als bisherige Open-Source-Modelle
  • Es zeigt bessere Leistung als konkurrierende Modelle (Deepseek-V3, Qwen3 usw.) sowie einige Closed-Source-Modelle (GPT-4.1-mini usw.)
  • Es kann lokal auf einer RTX 4090 oder einem Mac mit 32 GB RAM genutzt werden und eignet sich damit auch für Enterprise-Umgebungen oder Copilots
  • Es wird kostenlos unter der Apache-2.0-Lizenz verteilt und kann auf verschiedenen Plattformen sofort genutzt und angepasst werden

Einführung in Devstral

  • Devstral ist ein agentisches LLM (Agentic Large Language Model) für Software-Engineering-Aufgaben wie das Schreiben und Ändern von Code sowie das Lösen von Issues
  • Es wurde im Rahmen einer Partnerschaft zwischen Mistral AI und All Hands AI entwickelt
  • Devstral wurde darauf trainiert, reale GitHub-Issues tatsächlich zu lösen, und arbeitet auf Basis von Code-Agent-Scaffolds wie OpenHands oder SWE-Agent

Leistung von Devstral im SWE-Bench-Verified-Benchmark

  • Devstral erzielt in SWE-Bench Verified einen Wert von 46,8 % und übertrifft damit das beste Open-Source-Modell um mehr als 6 Prozentpunkte
  • Auf Grundlage desselben Test-Scaffolds (OpenHands) zeigt es Ergebnisse, die sogar größere Modelle wie Deepseek-V3-0324 (671B) und Qwen3 232B-A22B übertreffen
  • Auch in benutzerdefinierten Testumgebungen erreicht Devstral bessere Leistung als mehrere Closed-Source-Alternativen
    • Zum Beispiel zeigt es eine mehr als 20 % höhere Genauigkeit als das aktuelle GPT-4.1-mini

Vielseitigkeit und Einsatzmöglichkeiten

  • Devstral läuft auch auf einer RTX 4090 oder einem Mac mit 32 GB RAM flüssig und ist daher vorteilhaft für lokale Bereitstellung und den Einsatz On-Device
  • Auf Plattformen wie OpenHands kann es mit lokalen Codebasen verbunden werden, um Issues schnell zu lösen
  • Es eignet sich auch für Code-Repositories in Enterprise-Umgebungen, in denen Datenschutz erforderlich ist
  • Es kann in verschiedenen Entwicklungsumgebungen wie Copilots oder agentischen IDE-Plugins eingesetzt werden

Bereitstellung und Nutzung

  • Devstral steht unter der Apache-2.0-Lizenz, sodass es von allen kostenlos genutzt, angepasst und weiterverbreitet werden kann
  • Anleitungen zur Modellnutzung und Tutorials werden bereitgestellt, und das Modell kann über verschiedene Plattformen wie HuggingFace, Ollama, Kaggle, Unsloth und LM Studio heruntergeladen werden
  • Über die offizielle API von Mistral ist es auch unter dem Namen devstral-small-2505 verfügbar und verwendet dasselbe Preismodell wie Mistral Small 3.1
  • Falls in Enterprise-Umgebungen erweiterte Anpassungen wie Fine-Tuning speziell für private Codebasen benötigt werden, ist eine Kontaktaufnahme möglich

Weitere Pläne

  • Devstral befindet sich derzeit in der Phase einer Research Preview
  • Künftig sollen auch größere agentische Coding-Modelle veröffentlicht werden
  • Wer sich für den Einsatz von Devstral oder die verschiedenen Modelle und Lösungen von Mistral interessiert, kann über die offiziellen Kontaktwege eine Beratung anfragen

1 Kommentare

 
GN⁺ 2025-05-22
Hacker-News-Kommentare
  • In letzter Zeit prüfe ich mit Ollama zuerst die Dateigröße, und bei diesem Modell habe ich gesehen, dass es bei etwa 14 GB liegt, siehe https://ollama.com/library/devstral/tags. Auf einem M2 Mac braucht man in der Regel zusätzlich etwa 10 % mehr Speicher als die Modell-Dateigröße, was mir hilft abzuschätzen, wie viel RAM frei bleibt und welche Apps ich parallel laufen lassen kann. Modelle unter 20 GB beeinträchtigen die Nutzung anderer Programme meist nicht stark. Auf dieses Modell bin ich ziemlich gespannt

    • Ich bräuchte Empfehlungen für agentische Entwicklungssoftware, die gut mit lokalen Modellen funktioniert. Cursor habe ich ausprobiert, war aber weniger zufrieden als erwartet; gefühlt ist es besser, einfach zwischen Editor und ChatGPT zu wechseln. Localforge und aider habe ich ebenfalls versucht, aber mit lokalen Modellen sind sie etwas langsam

    • Sehe ich genauso. Ich habe das Modell selbst lokal gestartet und war positiv beeindruckt. Es kommt auch mit kniffligem Ruby- oder rspec-Code gut klar. Ich plane, es mit aider auch in Situationen mit großem Kontext zu testen

  • Der SWE-Bench-Score ist für die Größe eines Open-Source-Modells extrem hoch. 46,8 % liegen über o3-mini (mit Agentless-lite) und Claude 3.6 (mit AutoCodeRover) und nur leicht unter Claude 3.6 mit dem proprietären Scaffold von Anthropic. Wenn man dann noch bedenkt, dass es sich fast kostenlos betreiben lässt, ist das ein ziemlich erstaunliches Modell

    • Entweder ist es „erstaunlich“ oder man muss vermuten, dass der Benchmark seine Aufgabe nicht richtig erfüllt

    • Müsste man vielleicht prüfen, ob eigentlich Claude 3.7 gemeint ist

  • Als Hinweis für Nutzer ohne Grafikkarte mit 24 GB RAM: Ich verwende dieses Modell mit Ollama für einfache Aufgaben in einer 8-GB-RAM-Umgebung. Für große Kontextfenster und zeitkritische Aufgaben würde ich eher die kostenpflichtige API empfehlen.

    • Geteilte Detailwerte zu Gesamtlaufzeit, Laden und Token-Auswertungsrate:
      • Beispiel 1: 35 Sekunden, 6,27 Token pro Sekunde
      • Beispiel 2: 4 Minuten 44 Sekunden, 5,79 Token pro Sekunde
    • Gefühlt etwa 20 % langsamer als ein API-Aufruf. Das liegt wohl daran, dass die empfohlene Grafikkarte fehlt.
    • Die Benchmark-Leistung wirkt für die Größe ungewöhnlich gut abgestimmt; ich vermute, dass im Entwicklungsprozess wiederholt auf Benchmark-Optimierung getestet wurde. Das ist aus meiner Sicht ohnehin die gleiche Strategie wie bei den meisten im IT-Bereich vermarkteten LLMs. Letztlich ist es kein schlechter Kompromiss, wenn man damit „ohne Zeit für eigene Tests zu verschwenden verifizieren kann, dass es brauchbar ist“
  • Ich traue den angegebenen Benchmarks nicht. Ich habe es zwar nicht selbst benutzt, aber bei Mistral-Modellen lagen die Benchmark-Ergebnisse in meinen Resultaten ähnlich weit unten wie bei Llama. Ich erwarte nicht, dass die reale Leistung wirklich so hoch ausfällt

    • Ich habe mich kürzlich mit dem All Hands-Modell beschäftigt, das vermutlich ebenfalls auf Mistral basiert. Mein Eindruck: nicht auf dem Niveau von Claude 3.7 Sonnet, aber ziemlich stabil. Als „AI-Pair-Programming-Assistent“ ist es absolut brauchbar, und auch größere Strukturarbeiten sind möglich, wenn man die Arbeitsschritte fein genug unterteilt

    • Ich glaube das ebenfalls nicht einfach so. Solche Dinge muss man selbst testen. Bei mir war Qwen3 zum Beispiel eher ein Rückschritt, und GLM4 ist derzeit mein Standard. Das 70b-cogito-Modell ist auch wirklich gut, wird aber kaum erwähnt. Ich denke, die Unterschiede je nach Projekt, Sprache und Einsatzzweck sind groß. Dieses Modell will ich trotzdem unbedingt ausprobieren

  • Die Apache-2.0-Lizenz ist ein klarer Pluspunkt. Keine komplizierte Lizenz mit „Open-Weights“-Bedingungen, sondern eindeutige Nutzungsbedingungen. Das ist ein Vorteil

    • Genau das halte ich für eine strategische Stärke von Mistral. Für moralisch akzeptable Aufgaben würde ich Gemma 3 empfehlen. Für andere Einsätze besteht dann die Möglichkeit, ein Apache-lizenziertes LLM zu wählen
  • Die Idee, dass die EU die Kosten für die Entwicklung dieses Agenten bzw. Modells tragen sollte, gefällt mir. Wenn die Leistung wirklich so gut ist wie erhofft, könnte Mistral sich weiter auf seine Arbeit konzentrieren, und für uns in Europa wäre das eine kluge Verwendung des Budgets

    • Wenn meine Steuern in Modelle unter Apache-/MIT-Lizenz fließen, bin ich dafür. Das dient zumindest einem positiven Ziel: Alternativen zu erhalten und Monopole großer Konzerne zu begrenzen. Es ist letztlich wichtig, den Alleingang einiger weniger Großunternehmen zu verhindern

    • Tatsächlich hat die EU bereits Geld in den Aufbau von Supercomputern investiert, die AI-Startups nutzen können, und Mistral ist Partner in diesem Programm

  • Ich habe dieses Modell zufällig entdeckt, als ich die Tool-Unterstützung von LLamaIndex getestet habe. Ich experimentiere gerade damit, verschiedene Modelle an meine eigene agentische Coding-Lösung anzubinden, und genau als ich einen ReAct-Ansatz umsetzen wollte, tauchte dieses Modell auf.

    • Allerdings gibt mein Agentensystem mit diesem Modell nur „keine Tools“ zurück. Ich habe in mehreren Agenten-Prompts sogar explizite Anweisungen wie „erledige bar mit dem Tool foo“ ausprobiert, aber es funktioniert weiterhin nicht. Die ToolSpec ist ein standardmäßiges Pydantic-Objekt mit Annotationen und Ähnlichem, und bei anderen Modellen habe ich erlebt, dass sie die Tool-Nutzung von selbst gut erkennen

    • Man kann das Tool-Schema erzwingen, indem man die Ausgabe beschränkt. Mit etwas Hilfe lässt sich das bei praktisch jedem Modell anwenden

  • Es ist schön zu sehen, dass Mistral wieder ein wirklich Open-Source-Modell herausbringt. Ich finde weiterhin, dass Europa wettbewerbsfähige AI-Unternehmen braucht.

    • Die neuen Mistral-Modelle der letzten Zeit sind beeindruckend. Ich nutze Le Chat Pro im Abo. Auch Mistral Small ist wirklich brauchbar. Außerdem entwickle ich ein Startup mit Mistral-Integration
  • Ich hätte gern Empfehlungen für aktuelle lokal laufende Modelle oder dazugehörige Informationen, die auch auf schwächerer Hardware laufen, etwa auf einem MacBook Air. Ich würde gern schon vorab wissen, welche Modelle auf welcher Hardware „tatsächlich brauchbar“ sind, ohne alles selbst testen zu müssen. Außerdem muss ich einschätzen, ob ich mit Ollama für jede Aufgabe dauerhaft 2 bis 3 Modelle vorhalten sollte. Apple Intelligence ist noch keine Antwort

    • Als allgemeine, für lokale Ausführung optimierte Modelle würde ich Gemma 3 oder das aktuelle Mistral Small empfehlen. Unter Windows ist VRAM der Geschwindigkeitsengpass, aber Macs der M-Serie können wegen ihres On-Chip-Speichers schnell damit arbeiten. Welche Modellgröße lauffähig ist, hängt davon ab, was vom realen RAM übrig bleibt, nachdem man den Speicherbedarf von macOS und anderen Anwendungen abgezogen hat.

      • Für die Speicherkalkulation pro Modell kann man sich an den quantisierten Modellen mit reduzierter Präzision orientieren, die etwa auf HuggingFace angeboten werden. Q4_K_M ist ein brauchbarer Standardwert.
      • Bei Devstral sind es 14,3 GB, dazu braucht man noch 1 bis 8 GB zusätzlich für das Speichern des Kontexts.
      • Beispiele:
        • 32 GB MacBook Air → Devstral (14,3 GB) + 4 GB, etwa 14 GB bleiben für System und andere Apps
        • 16 GB MacBook Air → Gemma 3 12B (7,3 GB) + 2 GB, etwa 7 GB frei
        • 8 GB MacBook → Gemma 3 4B (2,5 GB) + 1 GB, für die Praxis eigentlich nicht zu empfehlen
    • Es am Ende selbst auszuprobieren ist am effektivsten. Wenn man nur genug Speicher für die Modellgröße hat, lässt sich llama.cpp (https://github.com/ggml-org/llama.cpp) leicht installieren und bauen, und es unterstützt MacBook Airs der M-Serie sehr gut. Ich persönlich nutze meist LMStudio (https://lmstudio.ai/). Es bietet eine einfache Oberfläche im Stil von ChatGPT oder Claude und erlaubt direkt im Programm das Suchen und Herunterladen von Modellen. Für Einsteiger ist LMStudio allein schon völlig ausreichend; ich nutze es oft auf einem M2 MacBook Air

  • Ich frage mich, wie sich die Leistung dieses Modells in der Praxis mit gehosteten LLMs wie Claude 3.7 vergleichen lässt

    • Eigentlich sind die Einsatzbereiche völlig unterschiedlich, daher ist ein direkter Vergleich nicht wirklich sinnvoll