- Das neu vorgestellte GPT‑5.1‑Codex‑Max von OpenAI ist das neueste agentische Coding-Modell, das für langfristige und komplexe Entwicklungsaufgaben entwickelt wurde und in der Codex-Umgebung verfügbar ist
- Mit der neuen „Compaction“-Technologie lassen sich Projekte im Umfang von Millionen von Token konsistent verarbeiten, auch über mehrere Kontextfenster hinweg
- Die Token-Effizienz wurde verbessert, sodass bei gleichem Inferenzniveau mit 30 % weniger Token eine bessere Leistung erreicht wird, was Kosteneinsparungen erwarten lässt
- Es kann über lange Zeiträume hinweg eigenständig arbeiten und Refactoring und Debugging über mehr als 24 Stunden hinweg durchführen
- Durch verstärkte Security-Sandboxing- und Cybersecurity-Monitoring-Systeme entwickelt es sich zu einem sicheren AI-Coding-Partner weiter
Einführung in GPT‑5.1‑Codex‑Max
- GPT‑5.1‑Codex‑Max ist OpenAIs neues agentisches Coding-Modell, eine aktualisierte reasoning-basierte Modellversion, die auf Aufgaben aus verschiedensten Bereichen wie Software Engineering, Mathematik und Forschung trainiert wurde
- Sofort nutzbar in Codex CLI, IDE-Erweiterungen, der Cloud und in Code-Review-Umgebungen
- API-Zugriff wird in Kürze bereitgestellt
- Das Modell bietet Verbesserungen bei Geschwindigkeit, Intelligenz und Token-Effizienz und dient dadurch als verlässlicherer Coding-Partner über den gesamten Entwicklungszyklus hinweg
- Durch den Compaction-Prozess kann es Aufgaben im Umfang von Millionen von Token konsistent bearbeiten, auch über mehrere Kontextfenster hinweg
Frontier-Coding-Leistung
- Trainiert auf realen Software-Engineering-Aufgaben (PR-Erstellung, Code Review, Frontend-Coding, Q&A), zeigt es in vielen Evaluierungen eine bessere Leistung als frühere Modelle
- Es ist das erste Codex-Modell, das in einer Windows-Umgebung läuft, und enthält zudem Arbeiten zur Verbesserung der Kollaborationsleistung in Codex CLI
- Die Verbesserungen zeigen sich nicht nur in Benchmarks, sondern auch in der tatsächlichen Nutzbarkeit
Geschwindigkeit und Kosteneffizienz
- Gemessen an SWE‑bench Verified erreicht es im Vergleich zu GPT‑5.1‑Codex bei gleichem Inferenzniveau mit 30 % weniger Tokenverbrauch eine höhere Leistung
- Der „xhigh“-Inferenzmodus bietet durch längere Denkzeit eine bessere Qualität; für allgemeine Aufgaben wird der Modus „medium“ empfohlen
- Die höhere Token-Effizienz dürfte zu niedrigeren Kosten für Entwickler führen
- Beispiel: GPT‑5.1‑Codex‑Max erzeugt Frontend-Designs mit ähnlicher Funktionalität und Ästhetik zu deutlich geringeren Kosten
Lang laufende Aufgaben
- Mit der Compaction-Funktion sind komplexes Refactoring und langfristige Agenten-Loops möglich, die über Kontextgrenzen hinausgehen
- Wenn eine Sitzung an ihre Grenze stößt, wird sie automatisch komprimiert (compact), sodass laufende Arbeit erhalten bleibt und neuer Kontext verfügbar wird
- In internen Evaluierungen wurden Beispiele für Arbeitsläufe von mehr als 24 Stunden bestätigt
- Durch das Beheben fehlgeschlagener Tests und iterative Implementierung wurden am Ende erfolgreiche Ergebnisse erzielt
- Die Fähigkeit, langfristige Konsistenz aufrechtzuerhalten, ist eine zentrale Grundlage auf dem Weg zu allgemeinen und verlässlichen AI-Systemen
Aufbau sicherer und verlässlicher AI-Agenten
- In Evaluierungen zu langfristigem Reasoning wurde die Leistung deutlich verbessert; bei Cybersecurity- und langfristigen Coding-Aufgaben liefert das Modell bessere Ergebnisse
- Nach dem Cybersecurity Preparedness Framework erreicht es zwar nicht das Niveau „High“, verfügt aber unter den bisher bereitgestellten Modellen über die stärkste Cybersecurity-Leistung
- Defensive Nutzung wird unter anderem über das Aardvark-Programm gestärkt
- Ein spezielles Cybersecurity-Monitoring erkennt und blockiert Missbrauchsversuche; verdächtige Aktivitäten werden an ein System zur Policy-Prüfung weitergeleitet
- Codex läuft standardmäßig in einer Security-Sandbox, wobei Dateizugriffe und Netzwerknutzung eingeschränkt sind
- Bei Internetzugriff besteht ein Prompt-Injection-Risiko
- Entwickler müssen die Arbeit des Agenten vor dem Deployment prüfen
- Codex protokolliert Terminal-Logs, Tool-Aufrufe und Testergebnisse und ersetzt keine menschliche Prüfung, sondern unterstützt sie
- Cybersecurity-Funktionen können sowohl defensiv als auch offensiv genutzt werden; daher werden schrittweises Deployment und verstärkte Schutzmaßnahmen parallel verfolgt
Verfügbarkeit und Rollout
- GPT‑5.1‑Codex‑Max ist in Codex für die Pläne ChatGPT Plus, Pro, Business, Edu und Enterprise verfügbar
- Es wird in Kürze auch für Entwickler bereitgestellt, die Codex CLI mit einem API-Schlüssel nutzen
- Ab heute ersetzt GPT‑5.1‑Codex‑Max innerhalb von Codex GPT‑5.1‑Codex als Standardmodell
- GPT‑5.1 ist ein Allzweckmodell; Codex‑Max wird speziell für agentische Coding-Aufgaben empfohlen
Fazit
- GPT‑5.1‑Codex‑Max stellt einen großen Fortschritt bei Ausdauer für langfristige Coding-Aufgaben, der Verwaltung komplexer Workflows und hochwertiger Implementierung dar
- In Kombination mit Verbesserungen bei CLI, IDE-Erweiterungen, Cloud-Integration und Code-Review-Tools führt es zu einer 70 % höheren Engineering-Produktivität
- 95 % der internen OpenAI-Ingenieure nutzen Codex wöchentlich
- Mit der Ausweitung agentischer Funktionen beginnt eine neue Phase der Entwicklerproduktivität
Anhang: Ergebnisse der Modellevaluierung
- SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
- SWE‑Lancer IC SWE: 66.3% → 79.9%
- Terminal‑Bench 2.0: 52.8% → 58.1%
2 Kommentare
Codex, lass uns bei MS AOIA treffen 😊
Hacker-News-Kommentar
Ich habe in letzter Zeit viel mit Claude und Codex gearbeitet.
Claude ignoriert Anweisungen (z. B. CLAUDE.md) fast vollständig, während Codex ihnen geradezu pedantisch folgt, als wolle es kein einziges Zeichen verpassen.
Wenn es zum Beispiel einen Tippfehler in Testcode gibt, korrigiert Claude ihn nach dem Motto „Das ist offensichtlich ein Tippfehler“, während Codex so extrem vorgeht, dass es gefühlt gleich die V8-Engine neu schreiben und dabei die Arithmetik kaputtmachen würde.
Deshalb wirkt Claude für schnelle Iterationen geeignet, Codex dagegen für langfristige Aufgaben, bei denen Genauigkeit entscheidend ist.
Ich habe nur eine Anweisung von etwa einem Absatz gegeben, und nach 45 Minuten war es nahezu perfekt erledigt. Als ich mir einen Zusammenfassungsbericht geben ließ, stellte sich heraus, dass wirklich jede Anweisung buchstabengetreu befolgt worden war.
Für Leute, die es als Black Box behandeln, ist das vielleicht gut, aber ich möchte lieber einen kollaborativen Partner mit gesundem Menschenverstand.
Das scheint den Unterschied darin zu zeigen, wie OpenAI und Anthropic die Zukunft von KI sehen.
GPT-Modelle sind schwächer beim improvisierten Coden, aber hervorragend bei Aufgaben mit klaren Anforderungen.
Sowohl in Python als auch in TypeScript gab es zu viel defensiven Code wie
.getattr()undtypeof.Wir sind gut darin, Modelle zu trainieren, aber schlecht im Benennen 😄
Die neue Version erreicht SOTA mit 77,9 % auf SWE-Bench-Verified, 79,9 % auf SWE-Lancer und 58,1 % auf TerminalBench 2.0.
Durch die Komprimierung mehrerer Kontextfenster sind lange Arbeitsläufe möglich, bei 30 % besserer Token-Effizienz.
Ich würde gern Meinungen dazu hören.
„Token-Einsparung“ klingt günstig, aber der Name „Max“ klingt teuer.
Bei 5.1 wurden zu viele Tokens verbraucht, deshalb war ich wieder auf 5.0 zurückgegangen.
Ich habe mir diese Beispiel-Agenten angesehen und würde mir so etwas auch für die Codex CLI wünschen.
Ich habe heute GPT‑5.1‑Codex‑Max und Gemini 3 Pro in der CLI verglichen.
Gemini ist schwer als kollaborativer Partner zu handhaben. Wenn man eine Frage stellt, errät es die Absicht und schreibt erst einmal Code.
Codex dagegen beantwortet Fragen direkt.
Die Codequalität bei Gemini hatte zwar einen für Menschen besser lesbaren Stil, aber bei Planung und Umsetzungsgenauigkeit war Codex deutlich überlegen.
Bei Gemini gab es Probleme wie halluzinierte DB-Spaltennamen, fehlende Funktionen und mangelnde Integration.
Insgesamt war Codex der klare Sieger.
Siehe offizielle Dokumentation.
OpenAI veröffentlicht seine Modelle oft direkt vor Ankündigungen der Konkurrenz.
GPT‑4o wurde ebenfalls einen Tag vor der Google I/O angekündigt. Auch dieses Codex ist wahrscheinlich eher ein inkrementelles Update.
Wenn man sich das SVG-Rendering-Beispiel ansieht,
ist das Medium-Niveau gut ausbalanciert und zeigt zwischen High und Low bewusste stilistische Unterschiede.
Solche Vergleiche helfen dabei, die kreative Konsistenz eines Modells einzuschätzen.
Ich wünschte, die Unternehmen würden auch nur 1 % der Energie, die sie ins Modelltraining stecken, in bessere Zahlungs- und Login-Erlebnisse investieren.
Claude hat praktisch kein richtiges Login-System, OpenAI sollte den Codex-CLI-Bug (#2798) beheben.
Bei Google sind Produkt- und Zahlungsstruktur viel zu komplex. Das sollte auf eine einzige Preisseite konsolidiert werden.
Selbst Workspace-Konten sind nicht sicher. Man muss die ToS wirklich genau lesen.
Im Moment wirkt OpenAI so, als würde es ein deutlich vertrauenswürdigeres Kundenerlebnis bieten.
Auch in Issue #12121 gibt es dazu Diskussionen.
Die Formulierungen „ein neuer Schritt hin zu einem vertrauenswürdigen Coding-Partner“ und „ein für lang andauernde Aufgaben optimiertes Modell“ klingen widersprüchlich.
Ein Partner sollte mit einem in kurzen Schleifen zusammenarbeiten; wenn er lange allein arbeitet, ist er kein Partner mehr.
Ein Blick auf das Token-Diagramm im offiziellen Blog zeigt diese Richtung.
Ich war von der Geschwindigkeit des Plan-Modus von Codex beeindruckt. Auch die Codequalität war ordentlich.
Aber als ich sagte: „Führe
npm run buildaus und behebe alle Probleme“, rastete es aus und installierte allerlei eslint-bezogene Pakete.Claude Code hatte dieselbe Aufgabe in weniger als einer Minute erledigt. Codex wirkt noch instabil.
Codex ist bei Backend- oder datenorientierten Aufgaben stark, neigt aber bei einfachen UI-Aufgaben zu merkwürdigen Ergebnissen.
Letztes Wochenende habe ich Claude und Codex zusammen verwendet, und Codex lieferte bei TypeScript-Physik-/Grafikcode deutlich bessere Ergebnisse.
Von mehreren tausend Zeilen hatte ich nur ein paar hundert selbst geschrieben.
Jetzt werde ich den neuen Codex die Arbeit des vorherigen Codex überprüfen lassen.