MAI-Code-1-Flash

(microsoft.ai)

3 Punkte von GN⁺ 2026-06-03 | 1 Kommentare | Auf WhatsApp teilen

MAI-Code-1-Flash ist Microsofts neues Coding-Modell mit dem Ziel, schnelle und effiziente Unterstützung in alltäglichen Entwickler-Workflows zu bieten, und wird derzeit an persönliche Nutzer von GitHub Copilot in VS Code ausgerollt
Microsoft hat dieses Modell direkt im GitHub-Copilot-Harness trainiert, damit es besser mit den Tools und Systemen realer Entwicklungsumgebungen interagiert
Mit adaptiver Steuerung der Antwortlänge antwortet es auf einfache Anfragen knapp und verwendet für komplexe Aufgaben mehr Inferenzbudget; dadurch löst es schwierigere Probleme mit bis zu 60 % weniger Tokens {p:60}
In Microsofts Bewertung mit dem Produktions-Harness zeigte es in allen vier zentralen Coding-Benchmarks eine höhere Erfolgsquote als Claude Haiku 4.5 und lag bei SWE-Bench Pro mit 51,2 % zu 35,2 % um 16 Punkte vorn
In einem separaten adversarialen Inferenz-Benchmark erzielte es bei 186 Fragen in 34 Kategorien 85,8 % bereinigte Genauigkeit; in zentralen adversarialen Kategorien wie der Einstellung Trap lag die Genauigkeit jedoch unter 50 %, sodass noch Verbesserungspotenzial besteht

Veröffentlichung und Rollout

MAI-Code-1-Flash ist Microsofts neues Coding-Modell für schnelle und effiziente Unterstützung im Entwickleralltag
Es wurde von Microsoft vollständig selbst entwickelt und nutzt saubere, angemessen lizenzierte Daten
Es wird an persönliche GitHub-Copilot-Nutzer in VS Code ausgerollt und ist im Modellwähler sowie unter dem Standard-"Auto picker" verfügbar
Zusätzliche Einstellungen sind nicht erforderlich; sobald der Rollout aktiv ist, leitet GitHub Copilot Aufgaben über den Auto picker an MAI-Code-1-Flash weiter oder zeigt es direkt im Modellwähler an
Feedback soll über die GitHub Community gesammelt werden

Entwicklung rund um Entwickler-Workflows

MAI-Code-1-Flash wurde nicht nur für Benchmark-Optimierung entwickelt, sondern mit produktiven Workflows, die Entwickler täglich nutzen, als zentralem Fokus
Es wurde direkt mit dem GitHub-Copilot-Harness für Produktionsumgebungen trainiert, damit es für agentische Coding-Aufgaben lernt, mit umgebenden Tools und Systemen umzugehen
Während des Trainings wurden Checkpoints anhand zentraler Software-Engineering-Aufgaben, Repository-Frageantworten, Refactoring und auf Telemetrie basierenden Aufgaben bewertet, die aus der realen Nutzung von GitHub Copilot adaptiert wurden
Das Designziel besteht darin, Trainings-, Evaluierungs- und Produktionsumgebungen aufeinander abzustimmen, damit Offline-Verbesserungen zu tatsächlicher Qualität für Entwickler führen

Token-Effizienz und Antwortverhalten

Es lernt eine adaptive Steuerung der Lösungslänge und passt die Antworttiefe an die Schwierigkeit der Aufgabe an
Auf einfache Anfragen antwortet es knapp; bei Problemen, die tiefere Analyse oder umfassendere Codeänderungen erfordern, verwendet es mehr Inferenzbudget
Entwickler können nützliche Ausgaben dadurch schneller sehen
MAI-Code-1-Flash löst schwierigere Probleme mit bis zu 60 % weniger Tokens und zielt auf geringere Latenz, niedrigere Kosten, bessere Erträge pro Token und flüssigere interaktive Workflows

Ergebnisse in Coding-Benchmarks

Microsoft bewertete MAI-Code-1-Flash und Claude Haiku 4.5 mit demselben Produktions-Harness auf SWE-Bench Verified, SWE-Bench Pro, SWE-Bench Multilingual und Terminal Bench 2
Die Bewertung misst die Erfolgsquote pro Aufgabe sowie die durchschnittliche Zahl an Lösungs-Tokens, die für den Abschluss jeder Aufgabe erforderlich sind
MAI-Code-1-Flash erzielte in allen vier getesteten zentralen Coding-Benchmarks eine höhere Bestehensquote als Claude Haiku 4.5
Bei den vielfältigen realen Aufgaben von SWE-Bench Pro lag es mit 51,2 % zu 35,2 % um 16 Punkte vorn
In SWE-Bench Verified löste es schwierigere Probleme mit bis zu 60 % weniger Tokens und zeigte damit, dass sich Genauigkeit und Effizienz gleichzeitig verbessern können

Befolgen von Anweisungen, Inferenz und Grenzen

MAI-Code-1-Flash lag in allen in der Tabelle gezeigten Benchmarks vor Claude Haiku 4.5; beim präzisen Befolgen von Anweisungen in IF Bench zeigte es mit +28,9 den größten Abstand
In der rubrikbasierten Bewertung von Advanced IF war der Abstand mit +14,5 am kleinsten
Die starke Leistung beim Befolgen von Anweisungen überträgt sich auch auf agentische Tool-Nutzung
Auch bei zentralen Inferenzfähigkeiten in Mathematik, Wissenschaft und visuell erzeugendem Coding lag es vor Claude Haiku 4.5
Standard-Benchmarks können neben Inferenz auch Auswendiglernen belohnen; ein Modell, das das Monty-Hall-Problem kennt, kann die richtige Antwort geben, scheitert aber möglicherweise, wenn der Preis vertauscht wird
Microsoft hat einen Benchmark mit 186 Fragen in 34 Kategorien erstellt, der sich auf adversariale Fallen wie inverted classics, impossible tasks und underdetermined scenarios konzentriert
MAI-Code-1-Flash übertraf Claude Haiku 4.5 in diesem adversarialen Benchmark insgesamt und erreichte 85,8 % bereinigte Genauigkeit
Es zeigte besonders starke Leistung bei Inferenz, dem Befolgen von Anweisungen und dem Erkennen unlösbarer Aufgaben; in zentralen adversarialen Kategorien wie der Einstellung Trap blieb die Genauigkeit jedoch unter 50 %, sodass noch Raum für Verbesserungen besteht

1 Kommentare

GN⁺ 2026-06-03

Hacker-News-Kommentare

Laut Model Card handelt es sich insgesamt um ein Modell mit 137B Parametern
Die Leistung wirkt nicht besonders gut: MAI-Code-1-Flash (137B-A5B) erreicht bei SWE-bench pro 51 %, Qwen3.6-35B-A3B kommt bei SWE-bench pro auf 49,5 %(https://huggingface.co/Qwen/Qwen3.6-35B-A3B)
Es wird zwar mit Claude Haiku verglichen, aber Haiku ist kein gutes Modell und unterliegt sogar kleinen offenen Modellen, die man lokal oder per API für etwa 10 % der Kosten betreiben kann
- Der Kern scheint zu sein, dass dieses Modell ein kleines Modell ist, das mit Haiku konkurriert; als Nächstes hofft man wohl auf ein Konkurrenzmodell auf „Sonnet“-Niveau und danach auf Opus-Niveau
  Ich habe mich gefragt, warum Microsoft bei Copilot so lange damit gewartet hat, ein eigenes Modell anzubieten; möglicherweise war das Teil des Vertrags mit OpenAI
- 137B-A5B bedeutet jedenfalls, dass es kein 5B-Parameter-Modell ist, wie die frühere Überschrift nahelegte
Für den Anfang ist es gut, und Konkurrenz ist willkommen, aber ein kleines Cloud-Modell wie Haiku 4.5 habe ich fürs Programmieren fast nie benutzt
Ganz nett, aber bei ernsthaftem Coding verschwendet es oft meine teure Zeit und bringt mich auch nicht dazu, zu GitHub Copilot zurückzukehren, das ich gestern gekündigt habe
GitHub Copilot war bis gestern preislich konkurrenzfähig, ist aber von einem fairen Preis zu einem Kontingentmodell pro Token in der teuersten Kategorie pro Anfrage gewechselt. Wer lachen will, kann sich das brennende Subreddit ansehen: https://www.reddit.com/r/GithubCopilot
Danach bin ich zu DeepSeek Flash high gewechselt, das fast kostenlos ist und Sonnet+-Niveau hat; wenn ich ein intelligenteres Modell brauche, würde ich wohl für 20 $ im Monat Codex abonnieren und GPT 5.5 nutzen, das ich aktuell für das Beste halte, was zugänglich ist
- Ich organisiere die Arbeit mit einem großen Modell als topologisch sortierten Aufgabengraphen, hänge je nach Komplexität kleinere Modelle an die einzelnen Aufgaben und lasse das große Modell anschließend bewerten und dort nachbessern, wo es nötig ist
  In diesem Ansatz nutze ich Haiku für alltägliche Aufgaben recht häufig, und auch hochkomplexe Aufgaben, die mehrere Stunden dauern, lassen sich mit besseren Ergebnissen und deutlich geringeren Kosten bearbeiten. Der übergeordnete Orchestrator strukturiert die Aufgaben effektiv, prüft die Qualität und integriert bei Bedarf an den richtigen Stellen, wodurch innerhalb eines einzigen Kontextfensters enorme Arbeit geleistet wird
  Ich nutze Haiku nicht direkt, aber bei großen Aufgaben macht es oft 30–40 % des Tokenverbrauchs aus. Sowohl Abschlusszeit als auch Kosten verbessern sich, und Haiku ist besser darin, wörtliche Anweisungen und Pläne zu befolgen, ohne sie „neu zu interpretieren“, während Modelle auf Opus-Niveau im Denkprozess ständig zweifeln und nachfragen
  Deshalb ist Haiku keine Zeitverschwendung, sondern spart enorm viel Zeit. Allerdings habe ich viel Zeit investiert, um zuerst das Orchestrierungssystem zu bauen und es dann fortlaufend iterativ zu verbessern. Interessanterweise hat mir meine Erfahrung als Director und später als Distinguished Engineer die Werkzeuge gegeben, um das am Ende stabil zu betreiben, und Multi-Agenten-Abläufe mit unterschiedlichen Fähigkeiten unterscheiden sich nicht wesentlich von der Dynamik einer Engineering-Organisation mit 1000 Leuten
- Ich habe mehrere Modelle dafür benchmarked, schwierige Sicherheitslücken zu finden, und dabei ist mein Vertrauen in Haiku und Sonnet stark gesunken
  Selbstgehostetes Qwen 3.6 27B war bei der Erkennung von Sicherheitslücken durchgehend besser als beide, was ein ziemlich schockierendes Ergebnis war. Ich hatte erwartet, dass Qwen auf Haiku-Niveau oder etwas darunter liegt und klar unter Sonnet bleibt
  DeepSeek und MiMo sind deutlich besser als Haiku und Sonnet, kosten aber nur einen Bruchteil und liegen näher an Opus/GPT 5.5
  Wenn man sie nicht kostenlos bekommt oder in einem Abo enthalten hat, das man ohnehin nicht ausschöpft, gibt es kaum einen Grund, Haiku oder Sonnet zu verwenden
- Bei mir fast genau das Gleiche. DeepSeek hat kaum etwas abgelehnt und dank chinesischer Wertvorstellungen gab es bei Reverse Engineering, der Suche nach urheberrechtlich geschützten Dateien oder der Arbeit mit Quellcode fragwürdiger Herkunft deutlich weniger Reibung
  Selbst wenn Copilot den Preis um 90 % senken würde, würde ich wohl nicht zurückgehen
- Das wirkt wie die Kategorie von Qwen 3.6, Gemma 4 und Nemotron 3 Super
  Es gibt viele Modelle, die ähnlich konkurrenzfähig wie Haiku sind, darunter deutlich kleinere und günstigere wie Qwen 3.6 35B-A3B. Solche Modelle kann man auf einem Laptop laufen lassen, man muss sie also nicht bei Microsoft mieten
  Die neue Copilot-Abrechnung hat mich überrascht, aber für Leute, die im Ökosystem bleiben wollen, mag es eine nutzbare Option sein; für die meisten gibt es jedoch reichlich bessere Alternativen
- Der ChatGPT-Plan für 20 $ im Monat mit enthaltenem Codex bietet ein gutes Preis-Leistungs-Verhältnis
  Selbst nur mit Premium-ChatGPT kommt man gut zurecht, und obwohl man regelmäßig an Nutzungslimits stößt, kann man damit die meisten Dinge erledigen
Gibt es tatsächlich Leute, die solche kleinen Modelle zum Coden benutzen? Falls ja, würde mich interessieren, wie genau.
Normalerweise mache ich alles mit Opus. Ich würde gern die Einschätzung von Leuten hören, die beides ausprobiert und getestet haben: Nutzt man ein schwereres Modell für Planung/Design/Architektur und delegiert dann strukturierte Aufgaben an so ein kleines Modell?
- Bei der Arbeit nutze ich Opus 4.x, zu Hause diese „kleinen“ Modelle (20–80B, aktiv 3–4B).
  Leider ist das im Moment noch kein wirklicher Vergleich.
  Mit Opus kann man selbst in komplexen Codebasen Design, Architekturvorschläge und Codeänderungen vertrauensvoll bearbeiten.
  Bei kleinen Modellen hat man eher das Gefühl, dass sie es „versuchen“. Für kleine Aufgaben reicht es, aber bei komplexeren Aufgaben führt es oft zu mehr Arbeit, als es einfach selbst zu machen.
  Ich wünschte, es wäre anders, und vielleicht ist es in 1–2 Jahren auch anders.
- Schwerere Modelle für Planung/Design/Architektur zu verwenden und strukturierte Aufgaben kleinen Modellen zu überlassen, war schon immer genau so.
  In claude code gibt es opusplan: Im Planungsmodus wird Opus verwendet, für die Ausführung dann Sonnet.
  https://code.claude.com/docs/en/model-config#opusplan-model-...
  Korrektur: Man kann Planung auch mit Sonnet und Ausführung mit Haiku machen oder jede andere gewünschte Kombination konfigurieren.
  https://code.claude.com/docs/en/model-config#control-the-mod...
- Haiku ist ziemlich günstig und vermurkst es trotzdem nicht allzu sehr, deshalb habe ich es im alten Copilot-Plan für interaktives Coden in bestehenden Projekten genutzt.
  Für einfache Features erstelle ich keinen vollständigen Plan. Ich schreibe etwas Code und sage dem Modell in einer kurzen Prompt-Zeile, was es tun soll. Manchmal füge ich temporäre Kommentare in den Code ein, um die Richtung vorzugeben.
  Solange Codeänderungen meist innerhalb einer Datei oder eines Pakets bleiben, kann Haiku Anforderungen in der Regel verfolgen und es zumindest vermeiden, zu viel kaputtzumachen. Mit der Zeit habe ich auch Fähigkeiten entwickelt, um gut Richtung vorzugeben. In den Monaten mit GitHub Copilot habe ich am Monatsende manchmal sogar hektisch restliche Credits verbraucht.
  Schon reine AI-Codevervollständigung kann ziemlich gut sein. Man schreibt in temporären Kommentaren, was der Code tun soll, drückt einfach Tab-Tab-Tab, und mitunter ist die ganze Funktion fertig.
  Leute tendieren zu stärkeren Modellen, weil sie erwarten, dass diese weniger kaputtmachen, aber wenn man den Code wirklich versteht, ist interaktives Arbeiten mit einem kleineren Modell oft einfacher.
- Ich trenne die Ausführung von Änderungsarbeit als eigene Verantwortung.
  Den Hauptchat setze ich auf Opus als „Orchestrator“, definiere das Ziel und lasse dann die folgenden Sub-Agenten der Reihe nach so lange arbeiten, bis es erreicht ist:
  1. Schritt ausführen (Sonnet): Arbeitet 30 Minuten/100k Token gemäß den Anweisungen des Orchestrators
  2. Review (Opus): Prüft die Arbeit des vorherigen Schritts sorgfältig auf Fehler und Instruktionstreue, behebt sie und dokumentiert in einer Datei Möglichkeiten zur Verbesserung von Agent-Setup + Tools, um Fehler und Tokenverbrauch zu senken
  3. Selbstverbesserung (Opus): Implementiert Selbstverbesserungen mit hoher Wirkung, die keine Nutzerinteraktion erfordern
    Wiederholen: Das läuft, bis das Session-Token-Budget des Orchestrators aufgebraucht ist. Man kann z. B. 1M setzen.
    Die Grundlogik ist, jeden Schritt auf eine handhabbare Größe zu begrenzen, um die Befolgung von Anweisungen zu verbessern und Kosten zu senken. Auch gecachte Token kosten Geld. Prompt-Token sind viel günstiger als generierte Token, daher spart man viel, wenn Opus hauptsächlich reviewt statt selbst den Großteil auszuführen.
    Der Schritt zur Selbstverbesserung ist sehr teuer, aber die Verbesserungen summieren sich. Wenn man Jobs über Tage oder Wochen laufen lässt, ist es am Ende viel teurer, darauf zu verzichten.
    Korrektur: Das mache ich in Claude Code sowohl mit Anthropic-Modellen als auch für Offline-Nutzung mit Modellen der Qwen-Familie.
- Claude Code selbst startet viele Sub-Agenten mit Haiku.
  Dieses Modell hat eine niedrige Halluzinationsrate und eignet sich daher gut für Explorationsaufgaben; ich vermute, das hier vorgestellte Modell wäre für einen ähnlichen Zweck am besten geeignet. Viele Aufgaben starten mehrere Explorations-Agenten vor Planung oder Änderungen und enden danach mit nur wenigen Tool-Aufrufen, daher ist der Tokenverbrauch hoch.
Hier wird dieses Modell mit Haiku 4.5 verglichen.
Also weder mit Opus noch mit Sonnet, sondern mit Haiku, dem kleinsten Modell von Anthropic — und dann auch noch mit einer Version, die drei Generationen alt ist.
- 4.5 ist immer noch das aktuelle Haiku-Modell.
Warum reimplementieren eigentlich alle Window-Scrolling immer auf so eine chaotische Weise?
- Vermutlich mit Vibe Coding gebaut. Ich blocke so etwas mit StopTheMadness.
- Das ist mir sofort aufgefallen, deshalb habe ich es direkt wieder geschlossen.
Es ist schon seltsam, dass Benchmarks immer noch auf diesem niedrigen Niveau liegen und das Modell trotzdem wie etwas Revolutionäres vermarktet wird.
Wenn geringe Coding-Fähigkeiten angeblich kein Problem sind, muss man sich auch die Erhöhung der Tokenpreise und die Positionierung als „Allzweck“-Modell ansehen.
Warum verkauft man es nicht als Mathe-Agenten? Warum muss ich vier Agenten konfigurieren, damit sie gegenseitig ihre Arbeit überprüfen?
- So wie ich es verstehe, wurden MAI-Modelle im Gegensatz zu anderen Modellen noch nicht auf synthetischen Datensätzen feinabgestimmt, die speziell dafür gemacht sind, Benchmark-Scores nach oben zu treiben.
- Entscheidend ist Preis-Leistung.
  Für 5B Parameter sind solche Werte ziemlich gut, und bis vor Kurzem wäre das fast unglaublich gewesen.
  Kleine Modelle werden immer besser, und auch hochmoderne Cloud-Modelle werden meiner Ansicht nach kleiner werden.
  Das ist ein weiterer Grund, warum sich der aktuelle massive Infrastrukturausbau irgendwann wie Eisenbahnen anfühlen wird.
Im einführenden Blogpost stehen deutlich mehr Informationen.
https://microsoft.ai/news/introducingmai-code-1-flash/
Und es gibt auch eine Model Card.
https://microsoft.ai/pdf/MAI-Code-1-Flash-Model-Card.PDF
Die aktiven 5B im Titel scheinen aus der umfassenderen Ankündigung zu den sieben MAI-Modellen zu stammen.
https://microsoft.ai/news/building-a-hillclimbing-machine-la...
Man musste sich erst wieder vor Augen führen, wofür Haiku ursprünglich gedacht ist
Anthropic hat zuletzt nicht besonders viel Energie ins Marketing für Haiku gesteckt
Wenn man ein leichtgewichtiges Modell braucht, nimmt man Sonnet. Im Max-Plan ist es fast kostenlos und ziemlich schnell. Für allgemeines Coding ist schwer zu erkennen, wo Haiku überhaupt noch seinen Platz hat
Haiku scheint ein Modell für groß angelegte Zusammenfassung/Klassifizierung zu sein
Dass Microsoft Haiku als Benchmark gewählt hat, setzt die Messlatte niedrig
- „Im Max-Plan fast kostenlos“ ist ein lustiger Widerspruch
Ich wünschte, die Website wäre auch in Safari getestet worden
iOS-Nutzer verwenden fast alle standardmäßig Safari, und das Desktop-Erlebnis ist dem auf Mobilgeräten recht ähnlich, also wäre das Testen einfach
Dieser Scroll-Effekt ruckelt in meiner Umgebung komplett. Dass es in Chrome/Edge gut läuft, verstehe ich ja
- Auch unter Firefox+macOS gibt es definitiv so etwas wie Scroll-Hijacking, und es fühlt sich furchtbar an
Wäre es schon gestern erschienen, hätte man vielleicht vermeiden können, dass die automatische Modellauswahl von Copilot ein 9x-Modell verwendet und in einem einzigen Nachmittag stillschweigend das Monatskontingent verheizt

MAI-Code-1-Flash

Veröffentlichung und Rollout

Entwicklung rund um Entwickler-Workflows

Token-Effizienz und Antwortverhalten

Ergebnisse in Coding-Benchmarks

Befolgen von Anweisungen, Inferenz und Grenzen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare