MAI-Code-1-Flash
(microsoft.ai)- MAI-Code-1-Flash ist Microsofts neues Coding-Modell mit dem Ziel, schnelle und effiziente Unterstützung in alltäglichen Entwickler-Workflows zu bieten, und wird derzeit an persönliche Nutzer von GitHub Copilot in VS Code ausgerollt
- Microsoft hat dieses Modell direkt im GitHub-Copilot-Harness trainiert, damit es besser mit den Tools und Systemen realer Entwicklungsumgebungen interagiert
- Mit adaptiver Steuerung der Antwortlänge antwortet es auf einfache Anfragen knapp und verwendet für komplexe Aufgaben mehr Inferenzbudget; dadurch löst es schwierigere Probleme mit bis zu 60 % weniger Tokens {p:60}
- In Microsofts Bewertung mit dem Produktions-Harness zeigte es in allen vier zentralen Coding-Benchmarks eine höhere Erfolgsquote als Claude Haiku 4.5 und lag bei SWE-Bench Pro mit 51,2 % zu 35,2 % um 16 Punkte vorn
- In einem separaten adversarialen Inferenz-Benchmark erzielte es bei 186 Fragen in 34 Kategorien 85,8 % bereinigte Genauigkeit; in zentralen adversarialen Kategorien wie der Einstellung Trap lag die Genauigkeit jedoch unter 50 %, sodass noch Verbesserungspotenzial besteht
Veröffentlichung und Rollout
- MAI-Code-1-Flash ist Microsofts neues Coding-Modell für schnelle und effiziente Unterstützung im Entwickleralltag
- Es wurde von Microsoft vollständig selbst entwickelt und nutzt saubere, angemessen lizenzierte Daten
- Es wird an persönliche GitHub-Copilot-Nutzer in VS Code ausgerollt und ist im Modellwähler sowie unter dem Standard-"Auto picker" verfügbar
- Zusätzliche Einstellungen sind nicht erforderlich; sobald der Rollout aktiv ist, leitet GitHub Copilot Aufgaben über den Auto picker an MAI-Code-1-Flash weiter oder zeigt es direkt im Modellwähler an
- Feedback soll über die GitHub Community gesammelt werden
Entwicklung rund um Entwickler-Workflows
- MAI-Code-1-Flash wurde nicht nur für Benchmark-Optimierung entwickelt, sondern mit produktiven Workflows, die Entwickler täglich nutzen, als zentralem Fokus
- Es wurde direkt mit dem GitHub-Copilot-Harness für Produktionsumgebungen trainiert, damit es für agentische Coding-Aufgaben lernt, mit umgebenden Tools und Systemen umzugehen
- Während des Trainings wurden Checkpoints anhand zentraler Software-Engineering-Aufgaben, Repository-Frageantworten, Refactoring und auf Telemetrie basierenden Aufgaben bewertet, die aus der realen Nutzung von GitHub Copilot adaptiert wurden
- Das Designziel besteht darin, Trainings-, Evaluierungs- und Produktionsumgebungen aufeinander abzustimmen, damit Offline-Verbesserungen zu tatsächlicher Qualität für Entwickler führen
Token-Effizienz und Antwortverhalten
- Es lernt eine adaptive Steuerung der Lösungslänge und passt die Antworttiefe an die Schwierigkeit der Aufgabe an
- Auf einfache Anfragen antwortet es knapp; bei Problemen, die tiefere Analyse oder umfassendere Codeänderungen erfordern, verwendet es mehr Inferenzbudget
- Entwickler können nützliche Ausgaben dadurch schneller sehen
- MAI-Code-1-Flash löst schwierigere Probleme mit bis zu 60 % weniger Tokens und zielt auf geringere Latenz, niedrigere Kosten, bessere Erträge pro Token und flüssigere interaktive Workflows
Ergebnisse in Coding-Benchmarks
- Microsoft bewertete MAI-Code-1-Flash und Claude Haiku 4.5 mit demselben Produktions-Harness auf SWE-Bench Verified, SWE-Bench Pro, SWE-Bench Multilingual und Terminal Bench 2
- Die Bewertung misst die Erfolgsquote pro Aufgabe sowie die durchschnittliche Zahl an Lösungs-Tokens, die für den Abschluss jeder Aufgabe erforderlich sind
- MAI-Code-1-Flash erzielte in allen vier getesteten zentralen Coding-Benchmarks eine höhere Bestehensquote als Claude Haiku 4.5
- Bei den vielfältigen realen Aufgaben von SWE-Bench Pro lag es mit 51,2 % zu 35,2 % um 16 Punkte vorn
- In SWE-Bench Verified löste es schwierigere Probleme mit bis zu 60 % weniger Tokens und zeigte damit, dass sich Genauigkeit und Effizienz gleichzeitig verbessern können
Befolgen von Anweisungen, Inferenz und Grenzen
- MAI-Code-1-Flash lag in allen in der Tabelle gezeigten Benchmarks vor Claude Haiku 4.5; beim präzisen Befolgen von Anweisungen in IF Bench zeigte es mit +28,9 den größten Abstand
- In der rubrikbasierten Bewertung von Advanced IF war der Abstand mit +14,5 am kleinsten
- Die starke Leistung beim Befolgen von Anweisungen überträgt sich auch auf agentische Tool-Nutzung
- Auch bei zentralen Inferenzfähigkeiten in Mathematik, Wissenschaft und visuell erzeugendem Coding lag es vor Claude Haiku 4.5
- Standard-Benchmarks können neben Inferenz auch Auswendiglernen belohnen; ein Modell, das das Monty-Hall-Problem kennt, kann die richtige Antwort geben, scheitert aber möglicherweise, wenn der Preis vertauscht wird
- Microsoft hat einen Benchmark mit 186 Fragen in 34 Kategorien erstellt, der sich auf adversariale Fallen wie inverted classics, impossible tasks und underdetermined scenarios konzentriert
- MAI-Code-1-Flash übertraf Claude Haiku 4.5 in diesem adversarialen Benchmark insgesamt und erreichte 85,8 % bereinigte Genauigkeit
- Es zeigte besonders starke Leistung bei Inferenz, dem Befolgen von Anweisungen und dem Erkennen unlösbarer Aufgaben; in zentralen adversarialen Kategorien wie der Einstellung Trap blieb die Genauigkeit jedoch unter 50 %, sodass noch Raum für Verbesserungen besteht
1 Kommentare
Hacker-News-Kommentare
Laut Model Card handelt es sich insgesamt um ein Modell mit 137B Parametern
Die Leistung wirkt nicht besonders gut: MAI-Code-1-Flash (137B-A5B) erreicht bei SWE-bench pro 51 %, Qwen3.6-35B-A3B kommt bei SWE-bench pro auf 49,5 %(https://huggingface.co/Qwen/Qwen3.6-35B-A3B)
Es wird zwar mit Claude Haiku verglichen, aber Haiku ist kein gutes Modell und unterliegt sogar kleinen offenen Modellen, die man lokal oder per API für etwa 10 % der Kosten betreiben kann
Ich habe mich gefragt, warum Microsoft bei Copilot so lange damit gewartet hat, ein eigenes Modell anzubieten; möglicherweise war das Teil des Vertrags mit OpenAI
Für den Anfang ist es gut, und Konkurrenz ist willkommen, aber ein kleines Cloud-Modell wie Haiku 4.5 habe ich fürs Programmieren fast nie benutzt
Ganz nett, aber bei ernsthaftem Coding verschwendet es oft meine teure Zeit und bringt mich auch nicht dazu, zu GitHub Copilot zurückzukehren, das ich gestern gekündigt habe
GitHub Copilot war bis gestern preislich konkurrenzfähig, ist aber von einem fairen Preis zu einem Kontingentmodell pro Token in der teuersten Kategorie pro Anfrage gewechselt. Wer lachen will, kann sich das brennende Subreddit ansehen: https://www.reddit.com/r/GithubCopilot
Danach bin ich zu DeepSeek Flash high gewechselt, das fast kostenlos ist und Sonnet+-Niveau hat; wenn ich ein intelligenteres Modell brauche, würde ich wohl für 20 $ im Monat Codex abonnieren und GPT 5.5 nutzen, das ich aktuell für das Beste halte, was zugänglich ist
In diesem Ansatz nutze ich Haiku für alltägliche Aufgaben recht häufig, und auch hochkomplexe Aufgaben, die mehrere Stunden dauern, lassen sich mit besseren Ergebnissen und deutlich geringeren Kosten bearbeiten. Der übergeordnete Orchestrator strukturiert die Aufgaben effektiv, prüft die Qualität und integriert bei Bedarf an den richtigen Stellen, wodurch innerhalb eines einzigen Kontextfensters enorme Arbeit geleistet wird
Ich nutze Haiku nicht direkt, aber bei großen Aufgaben macht es oft 30–40 % des Tokenverbrauchs aus. Sowohl Abschlusszeit als auch Kosten verbessern sich, und Haiku ist besser darin, wörtliche Anweisungen und Pläne zu befolgen, ohne sie „neu zu interpretieren“, während Modelle auf Opus-Niveau im Denkprozess ständig zweifeln und nachfragen
Deshalb ist Haiku keine Zeitverschwendung, sondern spart enorm viel Zeit. Allerdings habe ich viel Zeit investiert, um zuerst das Orchestrierungssystem zu bauen und es dann fortlaufend iterativ zu verbessern. Interessanterweise hat mir meine Erfahrung als Director und später als Distinguished Engineer die Werkzeuge gegeben, um das am Ende stabil zu betreiben, und Multi-Agenten-Abläufe mit unterschiedlichen Fähigkeiten unterscheiden sich nicht wesentlich von der Dynamik einer Engineering-Organisation mit 1000 Leuten
Selbstgehostetes Qwen 3.6 27B war bei der Erkennung von Sicherheitslücken durchgehend besser als beide, was ein ziemlich schockierendes Ergebnis war. Ich hatte erwartet, dass Qwen auf Haiku-Niveau oder etwas darunter liegt und klar unter Sonnet bleibt
DeepSeek und MiMo sind deutlich besser als Haiku und Sonnet, kosten aber nur einen Bruchteil und liegen näher an Opus/GPT 5.5
Wenn man sie nicht kostenlos bekommt oder in einem Abo enthalten hat, das man ohnehin nicht ausschöpft, gibt es kaum einen Grund, Haiku oder Sonnet zu verwenden
Selbst wenn Copilot den Preis um 90 % senken würde, würde ich wohl nicht zurückgehen
Es gibt viele Modelle, die ähnlich konkurrenzfähig wie Haiku sind, darunter deutlich kleinere und günstigere wie Qwen 3.6 35B-A3B. Solche Modelle kann man auf einem Laptop laufen lassen, man muss sie also nicht bei Microsoft mieten
Die neue Copilot-Abrechnung hat mich überrascht, aber für Leute, die im Ökosystem bleiben wollen, mag es eine nutzbare Option sein; für die meisten gibt es jedoch reichlich bessere Alternativen
Selbst nur mit Premium-ChatGPT kommt man gut zurecht, und obwohl man regelmäßig an Nutzungslimits stößt, kann man damit die meisten Dinge erledigen
Gibt es tatsächlich Leute, die solche kleinen Modelle zum Coden benutzen? Falls ja, würde mich interessieren, wie genau.
Normalerweise mache ich alles mit Opus. Ich würde gern die Einschätzung von Leuten hören, die beides ausprobiert und getestet haben: Nutzt man ein schwereres Modell für Planung/Design/Architektur und delegiert dann strukturierte Aufgaben an so ein kleines Modell?
Leider ist das im Moment noch kein wirklicher Vergleich.
Mit Opus kann man selbst in komplexen Codebasen Design, Architekturvorschläge und Codeänderungen vertrauensvoll bearbeiten.
Bei kleinen Modellen hat man eher das Gefühl, dass sie es „versuchen“. Für kleine Aufgaben reicht es, aber bei komplexeren Aufgaben führt es oft zu mehr Arbeit, als es einfach selbst zu machen.
Ich wünschte, es wäre anders, und vielleicht ist es in 1–2 Jahren auch anders.
In claude code gibt es
opusplan: Im Planungsmodus wird Opus verwendet, für die Ausführung dann Sonnet.https://code.claude.com/docs/en/model-config#opusplan-model-...
Korrektur: Man kann Planung auch mit Sonnet und Ausführung mit Haiku machen oder jede andere gewünschte Kombination konfigurieren.
https://code.claude.com/docs/en/model-config#control-the-mod...
Für einfache Features erstelle ich keinen vollständigen Plan. Ich schreibe etwas Code und sage dem Modell in einer kurzen Prompt-Zeile, was es tun soll. Manchmal füge ich temporäre Kommentare in den Code ein, um die Richtung vorzugeben.
Solange Codeänderungen meist innerhalb einer Datei oder eines Pakets bleiben, kann Haiku Anforderungen in der Regel verfolgen und es zumindest vermeiden, zu viel kaputtzumachen. Mit der Zeit habe ich auch Fähigkeiten entwickelt, um gut Richtung vorzugeben. In den Monaten mit GitHub Copilot habe ich am Monatsende manchmal sogar hektisch restliche Credits verbraucht.
Schon reine AI-Codevervollständigung kann ziemlich gut sein. Man schreibt in temporären Kommentaren, was der Code tun soll, drückt einfach Tab-Tab-Tab, und mitunter ist die ganze Funktion fertig.
Leute tendieren zu stärkeren Modellen, weil sie erwarten, dass diese weniger kaputtmachen, aber wenn man den Code wirklich versteht, ist interaktives Arbeiten mit einem kleineren Modell oft einfacher.
Den Hauptchat setze ich auf Opus als „Orchestrator“, definiere das Ziel und lasse dann die folgenden Sub-Agenten der Reihe nach so lange arbeiten, bis es erreicht ist:
Wiederholen: Das läuft, bis das Session-Token-Budget des Orchestrators aufgebraucht ist. Man kann z. B. 1M setzen.
Die Grundlogik ist, jeden Schritt auf eine handhabbare Größe zu begrenzen, um die Befolgung von Anweisungen zu verbessern und Kosten zu senken. Auch gecachte Token kosten Geld. Prompt-Token sind viel günstiger als generierte Token, daher spart man viel, wenn Opus hauptsächlich reviewt statt selbst den Großteil auszuführen.
Der Schritt zur Selbstverbesserung ist sehr teuer, aber die Verbesserungen summieren sich. Wenn man Jobs über Tage oder Wochen laufen lässt, ist es am Ende viel teurer, darauf zu verzichten.
Korrektur: Das mache ich in Claude Code sowohl mit Anthropic-Modellen als auch für Offline-Nutzung mit Modellen der Qwen-Familie.
Dieses Modell hat eine niedrige Halluzinationsrate und eignet sich daher gut für Explorationsaufgaben; ich vermute, das hier vorgestellte Modell wäre für einen ähnlichen Zweck am besten geeignet. Viele Aufgaben starten mehrere Explorations-Agenten vor Planung oder Änderungen und enden danach mit nur wenigen Tool-Aufrufen, daher ist der Tokenverbrauch hoch.
Hier wird dieses Modell mit Haiku 4.5 verglichen.
Also weder mit Opus noch mit Sonnet, sondern mit Haiku, dem kleinsten Modell von Anthropic — und dann auch noch mit einer Version, die drei Generationen alt ist.
Warum reimplementieren eigentlich alle Window-Scrolling immer auf so eine chaotische Weise?
Es ist schon seltsam, dass Benchmarks immer noch auf diesem niedrigen Niveau liegen und das Modell trotzdem wie etwas Revolutionäres vermarktet wird.
Wenn geringe Coding-Fähigkeiten angeblich kein Problem sind, muss man sich auch die Erhöhung der Tokenpreise und die Positionierung als „Allzweck“-Modell ansehen.
Warum verkauft man es nicht als Mathe-Agenten? Warum muss ich vier Agenten konfigurieren, damit sie gegenseitig ihre Arbeit überprüfen?
Für 5B Parameter sind solche Werte ziemlich gut, und bis vor Kurzem wäre das fast unglaublich gewesen.
Kleine Modelle werden immer besser, und auch hochmoderne Cloud-Modelle werden meiner Ansicht nach kleiner werden.
Das ist ein weiterer Grund, warum sich der aktuelle massive Infrastrukturausbau irgendwann wie Eisenbahnen anfühlen wird.
Im einführenden Blogpost stehen deutlich mehr Informationen.
https://microsoft.ai/news/introducingmai-code-1-flash/
Und es gibt auch eine Model Card.
https://microsoft.ai/pdf/MAI-Code-1-Flash-Model-Card.PDF
Die aktiven 5B im Titel scheinen aus der umfassenderen Ankündigung zu den sieben MAI-Modellen zu stammen.
https://microsoft.ai/news/building-a-hillclimbing-machine-la...
Man musste sich erst wieder vor Augen führen, wofür Haiku ursprünglich gedacht ist
Anthropic hat zuletzt nicht besonders viel Energie ins Marketing für Haiku gesteckt
Wenn man ein leichtgewichtiges Modell braucht, nimmt man Sonnet. Im Max-Plan ist es fast kostenlos und ziemlich schnell. Für allgemeines Coding ist schwer zu erkennen, wo Haiku überhaupt noch seinen Platz hat
Haiku scheint ein Modell für groß angelegte Zusammenfassung/Klassifizierung zu sein
Dass Microsoft Haiku als Benchmark gewählt hat, setzt die Messlatte niedrig
Ich wünschte, die Website wäre auch in Safari getestet worden
iOS-Nutzer verwenden fast alle standardmäßig Safari, und das Desktop-Erlebnis ist dem auf Mobilgeräten recht ähnlich, also wäre das Testen einfach
Dieser Scroll-Effekt ruckelt in meiner Umgebung komplett. Dass es in Chrome/Edge gut läuft, verstehe ich ja
Wäre es schon gestern erschienen, hätte man vielleicht vermeiden können, dass die automatische Modellauswahl von Copilot ein 9x-Modell verwendet und in einem einzigen Nachmittag stillschweigend das Monatskontingent verheizt