2 Punkte von GN⁺ 2 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • MAI-Code-1-Flash ist Microsofts neues Coding-Modell mit dem Ziel, schnelle und effiziente Unterstützung in alltäglichen Entwickler-Workflows zu bieten, und wird derzeit an persönliche Nutzer von GitHub Copilot in VS Code ausgerollt
  • Microsoft hat dieses Modell direkt im GitHub-Copilot-Harness trainiert, damit es besser mit den Tools und Systemen realer Entwicklungsumgebungen interagiert
  • Mit adaptiver Steuerung der Antwortlänge antwortet es auf einfache Anfragen knapp und verwendet für komplexe Aufgaben mehr Inferenzbudget; dadurch löst es schwierigere Probleme mit bis zu 60 % weniger Tokens {p:60}
  • In Microsofts Bewertung mit dem Produktions-Harness zeigte es in allen vier zentralen Coding-Benchmarks eine höhere Erfolgsquote als Claude Haiku 4.5 und lag bei SWE-Bench Pro mit 51,2 % zu 35,2 % um 16 Punkte vorn
  • In einem separaten adversarialen Inferenz-Benchmark erzielte es bei 186 Fragen in 34 Kategorien 85,8 % bereinigte Genauigkeit; in zentralen adversarialen Kategorien wie der Einstellung Trap lag die Genauigkeit jedoch unter 50 %, sodass noch Verbesserungspotenzial besteht

Veröffentlichung und Rollout

  • MAI-Code-1-Flash ist Microsofts neues Coding-Modell für schnelle und effiziente Unterstützung im Entwickleralltag
  • Es wurde von Microsoft vollständig selbst entwickelt und nutzt saubere, angemessen lizenzierte Daten
  • Es wird an persönliche GitHub-Copilot-Nutzer in VS Code ausgerollt und ist im Modellwähler sowie unter dem Standard-"Auto picker" verfügbar
  • Zusätzliche Einstellungen sind nicht erforderlich; sobald der Rollout aktiv ist, leitet GitHub Copilot Aufgaben über den Auto picker an MAI-Code-1-Flash weiter oder zeigt es direkt im Modellwähler an
  • Feedback soll über die GitHub Community gesammelt werden

Entwicklung rund um Entwickler-Workflows

  • MAI-Code-1-Flash wurde nicht nur für Benchmark-Optimierung entwickelt, sondern mit produktiven Workflows, die Entwickler täglich nutzen, als zentralem Fokus
  • Es wurde direkt mit dem GitHub-Copilot-Harness für Produktionsumgebungen trainiert, damit es für agentische Coding-Aufgaben lernt, mit umgebenden Tools und Systemen umzugehen
  • Während des Trainings wurden Checkpoints anhand zentraler Software-Engineering-Aufgaben, Repository-Frageantworten, Refactoring und auf Telemetrie basierenden Aufgaben bewertet, die aus der realen Nutzung von GitHub Copilot adaptiert wurden
  • Das Designziel besteht darin, Trainings-, Evaluierungs- und Produktionsumgebungen aufeinander abzustimmen, damit Offline-Verbesserungen zu tatsächlicher Qualität für Entwickler führen

Token-Effizienz und Antwortverhalten

  • Es lernt eine adaptive Steuerung der Lösungslänge und passt die Antworttiefe an die Schwierigkeit der Aufgabe an
  • Auf einfache Anfragen antwortet es knapp; bei Problemen, die tiefere Analyse oder umfassendere Codeänderungen erfordern, verwendet es mehr Inferenzbudget
  • Entwickler können nützliche Ausgaben dadurch schneller sehen
  • MAI-Code-1-Flash löst schwierigere Probleme mit bis zu 60 % weniger Tokens und zielt auf geringere Latenz, niedrigere Kosten, bessere Erträge pro Token und flüssigere interaktive Workflows

Ergebnisse in Coding-Benchmarks

  • Microsoft bewertete MAI-Code-1-Flash und Claude Haiku 4.5 mit demselben Produktions-Harness auf SWE-Bench Verified, SWE-Bench Pro, SWE-Bench Multilingual und Terminal Bench 2
  • Die Bewertung misst die Erfolgsquote pro Aufgabe sowie die durchschnittliche Zahl an Lösungs-Tokens, die für den Abschluss jeder Aufgabe erforderlich sind
  • MAI-Code-1-Flash erzielte in allen vier getesteten zentralen Coding-Benchmarks eine höhere Bestehensquote als Claude Haiku 4.5
  • Bei den vielfältigen realen Aufgaben von SWE-Bench Pro lag es mit 51,2 % zu 35,2 % um 16 Punkte vorn
  • In SWE-Bench Verified löste es schwierigere Probleme mit bis zu 60 % weniger Tokens und zeigte damit, dass sich Genauigkeit und Effizienz gleichzeitig verbessern können

Befolgen von Anweisungen, Inferenz und Grenzen

  • MAI-Code-1-Flash lag in allen in der Tabelle gezeigten Benchmarks vor Claude Haiku 4.5; beim präzisen Befolgen von Anweisungen in IF Bench zeigte es mit +28,9 den größten Abstand
  • In der rubrikbasierten Bewertung von Advanced IF war der Abstand mit +14,5 am kleinsten
  • Die starke Leistung beim Befolgen von Anweisungen überträgt sich auch auf agentische Tool-Nutzung
  • Auch bei zentralen Inferenzfähigkeiten in Mathematik, Wissenschaft und visuell erzeugendem Coding lag es vor Claude Haiku 4.5
  • Standard-Benchmarks können neben Inferenz auch Auswendiglernen belohnen; ein Modell, das das Monty-Hall-Problem kennt, kann die richtige Antwort geben, scheitert aber möglicherweise, wenn der Preis vertauscht wird
  • Microsoft hat einen Benchmark mit 186 Fragen in 34 Kategorien erstellt, der sich auf adversariale Fallen wie inverted classics, impossible tasks und underdetermined scenarios konzentriert
  • MAI-Code-1-Flash übertraf Claude Haiku 4.5 in diesem adversarialen Benchmark insgesamt und erreichte 85,8 % bereinigte Genauigkeit
  • Es zeigte besonders starke Leistung bei Inferenz, dem Befolgen von Anweisungen und dem Erkennen unlösbarer Aufgaben; in zentralen adversarialen Kategorien wie der Einstellung Trap blieb die Genauigkeit jedoch unter 50 %, sodass noch Raum für Verbesserungen besteht

1 Kommentare

 
GN⁺ 2 시간 전
Hacker-News-Kommentare
  • Laut Model Card handelt es sich insgesamt um ein Modell mit 137B Parametern
    Die Leistung wirkt nicht besonders gut: MAI-Code-1-Flash (137B-A5B) erreicht bei SWE-bench pro 51 %, Qwen3.6-35B-A3B kommt bei SWE-bench pro auf 49,5 %(https://huggingface.co/Qwen/Qwen3.6-35B-A3B)
    Es wird zwar mit Claude Haiku verglichen, aber Haiku ist kein gutes Modell und unterliegt sogar kleinen offenen Modellen, die man lokal oder per API für etwa 10 % der Kosten betreiben kann

    • Der Kern scheint zu sein, dass dieses Modell ein kleines Modell ist, das mit Haiku konkurriert; als Nächstes hofft man wohl auf ein Konkurrenzmodell auf „Sonnet“-Niveau und danach auf Opus-Niveau
      Ich habe mich gefragt, warum Microsoft bei Copilot so lange damit gewartet hat, ein eigenes Modell anzubieten; möglicherweise war das Teil des Vertrags mit OpenAI
    • 137B-A5B bedeutet jedenfalls, dass es kein 5B-Parameter-Modell ist, wie die frühere Überschrift nahelegte
  • Für den Anfang ist es gut, und Konkurrenz ist willkommen, aber ein kleines Cloud-Modell wie Haiku 4.5 habe ich fürs Programmieren fast nie benutzt
    Ganz nett, aber bei ernsthaftem Coding verschwendet es oft meine teure Zeit und bringt mich auch nicht dazu, zu GitHub Copilot zurückzukehren, das ich gestern gekündigt habe
    GitHub Copilot war bis gestern preislich konkurrenzfähig, ist aber von einem fairen Preis zu einem Kontingentmodell pro Token in der teuersten Kategorie pro Anfrage gewechselt. Wer lachen will, kann sich das brennende Subreddit ansehen: https://www.reddit.com/r/GithubCopilot
    Danach bin ich zu DeepSeek Flash high gewechselt, das fast kostenlos ist und Sonnet+-Niveau hat; wenn ich ein intelligenteres Modell brauche, würde ich wohl für 20 $ im Monat Codex abonnieren und GPT 5.5 nutzen, das ich aktuell für das Beste halte, was zugänglich ist

    • Ich organisiere die Arbeit mit einem großen Modell als topologisch sortierten Aufgabengraphen, hänge je nach Komplexität kleinere Modelle an die einzelnen Aufgaben und lasse das große Modell anschließend bewerten und dort nachbessern, wo es nötig ist
      In diesem Ansatz nutze ich Haiku für alltägliche Aufgaben recht häufig, und auch hochkomplexe Aufgaben, die mehrere Stunden dauern, lassen sich mit besseren Ergebnissen und deutlich geringeren Kosten bearbeiten. Der übergeordnete Orchestrator strukturiert die Aufgaben effektiv, prüft die Qualität und integriert bei Bedarf an den richtigen Stellen, wodurch innerhalb eines einzigen Kontextfensters enorme Arbeit geleistet wird
      Ich nutze Haiku nicht direkt, aber bei großen Aufgaben macht es oft 30–40 % des Tokenverbrauchs aus. Sowohl Abschlusszeit als auch Kosten verbessern sich, und Haiku ist besser darin, wörtliche Anweisungen und Pläne zu befolgen, ohne sie „neu zu interpretieren“, während Modelle auf Opus-Niveau im Denkprozess ständig zweifeln und nachfragen
      Deshalb ist Haiku keine Zeitverschwendung, sondern spart enorm viel Zeit. Allerdings habe ich viel Zeit investiert, um zuerst das Orchestrierungssystem zu bauen und es dann fortlaufend iterativ zu verbessern. Interessanterweise hat mir meine Erfahrung als Director und später als Distinguished Engineer die Werkzeuge gegeben, um das am Ende stabil zu betreiben, und Multi-Agenten-Abläufe mit unterschiedlichen Fähigkeiten unterscheiden sich nicht wesentlich von der Dynamik einer Engineering-Organisation mit 1000 Leuten
    • Ich habe mehrere Modelle dafür benchmarked, schwierige Sicherheitslücken zu finden, und dabei ist mein Vertrauen in Haiku und Sonnet stark gesunken
      Selbstgehostetes Qwen 3.6 27B war bei der Erkennung von Sicherheitslücken durchgehend besser als beide, was ein ziemlich schockierendes Ergebnis war. Ich hatte erwartet, dass Qwen auf Haiku-Niveau oder etwas darunter liegt und klar unter Sonnet bleibt
      DeepSeek und MiMo sind deutlich besser als Haiku und Sonnet, kosten aber nur einen Bruchteil und liegen näher an Opus/GPT 5.5
      Wenn man sie nicht kostenlos bekommt oder in einem Abo enthalten hat, das man ohnehin nicht ausschöpft, gibt es kaum einen Grund, Haiku oder Sonnet zu verwenden
    • Bei mir fast genau das Gleiche. DeepSeek hat kaum etwas abgelehnt und dank chinesischer Wertvorstellungen gab es bei Reverse Engineering, der Suche nach urheberrechtlich geschützten Dateien oder der Arbeit mit Quellcode fragwürdiger Herkunft deutlich weniger Reibung
      Selbst wenn Copilot den Preis um 90 % senken würde, würde ich wohl nicht zurückgehen
    • Das wirkt wie die Kategorie von Qwen 3.6, Gemma 4 und Nemotron 3 Super
      Es gibt viele Modelle, die ähnlich konkurrenzfähig wie Haiku sind, darunter deutlich kleinere und günstigere wie Qwen 3.6 35B-A3B. Solche Modelle kann man auf einem Laptop laufen lassen, man muss sie also nicht bei Microsoft mieten
      Die neue Copilot-Abrechnung hat mich überrascht, aber für Leute, die im Ökosystem bleiben wollen, mag es eine nutzbare Option sein; für die meisten gibt es jedoch reichlich bessere Alternativen
    • Der ChatGPT-Plan für 20 $ im Monat mit enthaltenem Codex bietet ein gutes Preis-Leistungs-Verhältnis
      Selbst nur mit Premium-ChatGPT kommt man gut zurecht, und obwohl man regelmäßig an Nutzungslimits stößt, kann man damit die meisten Dinge erledigen
  • Gibt es tatsächlich Leute, die solche kleinen Modelle zum Coden benutzen? Falls ja, würde mich interessieren, wie genau.
    Normalerweise mache ich alles mit Opus. Ich würde gern die Einschätzung von Leuten hören, die beides ausprobiert und getestet haben: Nutzt man ein schwereres Modell für Planung/Design/Architektur und delegiert dann strukturierte Aufgaben an so ein kleines Modell?

    • Bei der Arbeit nutze ich Opus 4.x, zu Hause diese „kleinen“ Modelle (20–80B, aktiv 3–4B).
      Leider ist das im Moment noch kein wirklicher Vergleich.
      Mit Opus kann man selbst in komplexen Codebasen Design, Architekturvorschläge und Codeänderungen vertrauensvoll bearbeiten.
      Bei kleinen Modellen hat man eher das Gefühl, dass sie es „versuchen“. Für kleine Aufgaben reicht es, aber bei komplexeren Aufgaben führt es oft zu mehr Arbeit, als es einfach selbst zu machen.
      Ich wünschte, es wäre anders, und vielleicht ist es in 1–2 Jahren auch anders.
    • Schwerere Modelle für Planung/Design/Architektur zu verwenden und strukturierte Aufgaben kleinen Modellen zu überlassen, war schon immer genau so.
      In claude code gibt es opusplan: Im Planungsmodus wird Opus verwendet, für die Ausführung dann Sonnet.
      https://code.claude.com/docs/en/model-config#opusplan-model-...
      Korrektur: Man kann Planung auch mit Sonnet und Ausführung mit Haiku machen oder jede andere gewünschte Kombination konfigurieren.
      https://code.claude.com/docs/en/model-config#control-the-mod...
    • Haiku ist ziemlich günstig und vermurkst es trotzdem nicht allzu sehr, deshalb habe ich es im alten Copilot-Plan für interaktives Coden in bestehenden Projekten genutzt.
      Für einfache Features erstelle ich keinen vollständigen Plan. Ich schreibe etwas Code und sage dem Modell in einer kurzen Prompt-Zeile, was es tun soll. Manchmal füge ich temporäre Kommentare in den Code ein, um die Richtung vorzugeben.
      Solange Codeänderungen meist innerhalb einer Datei oder eines Pakets bleiben, kann Haiku Anforderungen in der Regel verfolgen und es zumindest vermeiden, zu viel kaputtzumachen. Mit der Zeit habe ich auch Fähigkeiten entwickelt, um gut Richtung vorzugeben. In den Monaten mit GitHub Copilot habe ich am Monatsende manchmal sogar hektisch restliche Credits verbraucht.
      Schon reine AI-Codevervollständigung kann ziemlich gut sein. Man schreibt in temporären Kommentaren, was der Code tun soll, drückt einfach Tab-Tab-Tab, und mitunter ist die ganze Funktion fertig.
      Leute tendieren zu stärkeren Modellen, weil sie erwarten, dass diese weniger kaputtmachen, aber wenn man den Code wirklich versteht, ist interaktives Arbeiten mit einem kleineren Modell oft einfacher.
    • Ich trenne die Ausführung von Änderungsarbeit als eigene Verantwortung.
      Den Hauptchat setze ich auf Opus als „Orchestrator“, definiere das Ziel und lasse dann die folgenden Sub-Agenten der Reihe nach so lange arbeiten, bis es erreicht ist:
      1. Schritt ausführen (Sonnet): Arbeitet 30 Minuten/100k Token gemäß den Anweisungen des Orchestrators
      2. Review (Opus): Prüft die Arbeit des vorherigen Schritts sorgfältig auf Fehler und Instruktionstreue, behebt sie und dokumentiert in einer Datei Möglichkeiten zur Verbesserung von Agent-Setup + Tools, um Fehler und Tokenverbrauch zu senken
      3. Selbstverbesserung (Opus): Implementiert Selbstverbesserungen mit hoher Wirkung, die keine Nutzerinteraktion erfordern
        Wiederholen: Das läuft, bis das Session-Token-Budget des Orchestrators aufgebraucht ist. Man kann z. B. 1M setzen.
        Die Grundlogik ist, jeden Schritt auf eine handhabbare Größe zu begrenzen, um die Befolgung von Anweisungen zu verbessern und Kosten zu senken. Auch gecachte Token kosten Geld. Prompt-Token sind viel günstiger als generierte Token, daher spart man viel, wenn Opus hauptsächlich reviewt statt selbst den Großteil auszuführen.
        Der Schritt zur Selbstverbesserung ist sehr teuer, aber die Verbesserungen summieren sich. Wenn man Jobs über Tage oder Wochen laufen lässt, ist es am Ende viel teurer, darauf zu verzichten.
        Korrektur: Das mache ich in Claude Code sowohl mit Anthropic-Modellen als auch für Offline-Nutzung mit Modellen der Qwen-Familie.
    • Claude Code selbst startet viele Sub-Agenten mit Haiku.
      Dieses Modell hat eine niedrige Halluzinationsrate und eignet sich daher gut für Explorationsaufgaben; ich vermute, das hier vorgestellte Modell wäre für einen ähnlichen Zweck am besten geeignet. Viele Aufgaben starten mehrere Explorations-Agenten vor Planung oder Änderungen und enden danach mit nur wenigen Tool-Aufrufen, daher ist der Tokenverbrauch hoch.
  • Hier wird dieses Modell mit Haiku 4.5 verglichen.
    Also weder mit Opus noch mit Sonnet, sondern mit Haiku, dem kleinsten Modell von Anthropic — und dann auch noch mit einer Version, die drei Generationen alt ist.

    • 4.5 ist immer noch das aktuelle Haiku-Modell.
  • Warum reimplementieren eigentlich alle Window-Scrolling immer auf so eine chaotische Weise?

    • Vermutlich mit Vibe Coding gebaut. Ich blocke so etwas mit StopTheMadness.
    • Das ist mir sofort aufgefallen, deshalb habe ich es direkt wieder geschlossen.
  • Es ist schon seltsam, dass Benchmarks immer noch auf diesem niedrigen Niveau liegen und das Modell trotzdem wie etwas Revolutionäres vermarktet wird.
    Wenn geringe Coding-Fähigkeiten angeblich kein Problem sind, muss man sich auch die Erhöhung der Tokenpreise und die Positionierung als „Allzweck“-Modell ansehen.
    Warum verkauft man es nicht als Mathe-Agenten? Warum muss ich vier Agenten konfigurieren, damit sie gegenseitig ihre Arbeit überprüfen?

    • So wie ich es verstehe, wurden MAI-Modelle im Gegensatz zu anderen Modellen noch nicht auf synthetischen Datensätzen feinabgestimmt, die speziell dafür gemacht sind, Benchmark-Scores nach oben zu treiben.
    • Entscheidend ist Preis-Leistung.
      Für 5B Parameter sind solche Werte ziemlich gut, und bis vor Kurzem wäre das fast unglaublich gewesen.
      Kleine Modelle werden immer besser, und auch hochmoderne Cloud-Modelle werden meiner Ansicht nach kleiner werden.
      Das ist ein weiterer Grund, warum sich der aktuelle massive Infrastrukturausbau irgendwann wie Eisenbahnen anfühlen wird.
  • Im einführenden Blogpost stehen deutlich mehr Informationen.
    https://microsoft.ai/news/introducingmai-code-1-flash/
    Und es gibt auch eine Model Card.
    https://microsoft.ai/pdf/MAI-Code-1-Flash-Model-Card.PDF
    Die aktiven 5B im Titel scheinen aus der umfassenderen Ankündigung zu den sieben MAI-Modellen zu stammen.
    https://microsoft.ai/news/building-a-hillclimbing-machine-la...

  • Man musste sich erst wieder vor Augen führen, wofür Haiku ursprünglich gedacht ist
    Anthropic hat zuletzt nicht besonders viel Energie ins Marketing für Haiku gesteckt
    Wenn man ein leichtgewichtiges Modell braucht, nimmt man Sonnet. Im Max-Plan ist es fast kostenlos und ziemlich schnell. Für allgemeines Coding ist schwer zu erkennen, wo Haiku überhaupt noch seinen Platz hat
    Haiku scheint ein Modell für groß angelegte Zusammenfassung/Klassifizierung zu sein
    Dass Microsoft Haiku als Benchmark gewählt hat, setzt die Messlatte niedrig

    • „Im Max-Plan fast kostenlos“ ist ein lustiger Widerspruch
  • Ich wünschte, die Website wäre auch in Safari getestet worden
    iOS-Nutzer verwenden fast alle standardmäßig Safari, und das Desktop-Erlebnis ist dem auf Mobilgeräten recht ähnlich, also wäre das Testen einfach
    Dieser Scroll-Effekt ruckelt in meiner Umgebung komplett. Dass es in Chrome/Edge gut läuft, verstehe ich ja

    • Auch unter Firefox+macOS gibt es definitiv so etwas wie Scroll-Hijacking, und es fühlt sich furchtbar an
  • Wäre es schon gestern erschienen, hätte man vielleicht vermeiden können, dass die automatische Modellauswahl von Copilot ein 9x-Modell verwendet und in einem einzigen Nachmittag stillschweigend das Monatskontingent verheizt