Mit GPT‑5.1‑Codex‑Max mehr bauen

(openai.com)

5 Punkte von GN⁺ 2025-11-20 | 2 Kommentare | Auf WhatsApp teilen

Das neu vorgestellte GPT‑5.1‑Codex‑Max von OpenAI ist das neueste agentische Coding-Modell, das für langfristige und komplexe Entwicklungsaufgaben entwickelt wurde und in der Codex-Umgebung verfügbar ist
Mit der neuen „Compaction“-Technologie lassen sich Projekte im Umfang von Millionen von Token konsistent verarbeiten, auch über mehrere Kontextfenster hinweg
Die Token-Effizienz wurde verbessert, sodass bei gleichem Inferenzniveau mit 30 % weniger Token eine bessere Leistung erreicht wird, was Kosteneinsparungen erwarten lässt
Es kann über lange Zeiträume hinweg eigenständig arbeiten und Refactoring und Debugging über mehr als 24 Stunden hinweg durchführen
Durch verstärkte Security-Sandboxing- und Cybersecurity-Monitoring-Systeme entwickelt es sich zu einem sicheren AI-Coding-Partner weiter

Einführung in GPT‑5.1‑Codex‑Max

GPT‑5.1‑Codex‑Max ist OpenAIs neues agentisches Coding-Modell, eine aktualisierte reasoning-basierte Modellversion, die auf Aufgaben aus verschiedensten Bereichen wie Software Engineering, Mathematik und Forschung trainiert wurde
- Sofort nutzbar in Codex CLI, IDE-Erweiterungen, der Cloud und in Code-Review-Umgebungen
- API-Zugriff wird in Kürze bereitgestellt
Das Modell bietet Verbesserungen bei Geschwindigkeit, Intelligenz und Token-Effizienz und dient dadurch als verlässlicherer Coding-Partner über den gesamten Entwicklungszyklus hinweg
Durch den Compaction-Prozess kann es Aufgaben im Umfang von Millionen von Token konsistent bearbeiten, auch über mehrere Kontextfenster hinweg

Frontier-Coding-Leistung

Trainiert auf realen Software-Engineering-Aufgaben (PR-Erstellung, Code Review, Frontend-Coding, Q&A), zeigt es in vielen Evaluierungen eine bessere Leistung als frühere Modelle
Es ist das erste Codex-Modell, das in einer Windows-Umgebung läuft, und enthält zudem Arbeiten zur Verbesserung der Kollaborationsleistung in Codex CLI
Die Verbesserungen zeigen sich nicht nur in Benchmarks, sondern auch in der tatsächlichen Nutzbarkeit

Geschwindigkeit und Kosteneffizienz

Gemessen an SWE‑bench Verified erreicht es im Vergleich zu GPT‑5.1‑Codex bei gleichem Inferenzniveau mit 30 % weniger Tokenverbrauch eine höhere Leistung
Der „xhigh“-Inferenzmodus bietet durch längere Denkzeit eine bessere Qualität; für allgemeine Aufgaben wird der Modus „medium“ empfohlen
Die höhere Token-Effizienz dürfte zu niedrigeren Kosten für Entwickler führen
- Beispiel: GPT‑5.1‑Codex‑Max erzeugt Frontend-Designs mit ähnlicher Funktionalität und Ästhetik zu deutlich geringeren Kosten

Lang laufende Aufgaben

Mit der Compaction-Funktion sind komplexes Refactoring und langfristige Agenten-Loops möglich, die über Kontextgrenzen hinausgehen
- Wenn eine Sitzung an ihre Grenze stößt, wird sie automatisch komprimiert (compact), sodass laufende Arbeit erhalten bleibt und neuer Kontext verfügbar wird
In internen Evaluierungen wurden Beispiele für Arbeitsläufe von mehr als 24 Stunden bestätigt
- Durch das Beheben fehlgeschlagener Tests und iterative Implementierung wurden am Ende erfolgreiche Ergebnisse erzielt
Die Fähigkeit, langfristige Konsistenz aufrechtzuerhalten, ist eine zentrale Grundlage auf dem Weg zu allgemeinen und verlässlichen AI-Systemen

Aufbau sicherer und verlässlicher AI-Agenten

In Evaluierungen zu langfristigem Reasoning wurde die Leistung deutlich verbessert; bei Cybersecurity- und langfristigen Coding-Aufgaben liefert das Modell bessere Ergebnisse
Nach dem Cybersecurity Preparedness Framework erreicht es zwar nicht das Niveau „High“, verfügt aber unter den bisher bereitgestellten Modellen über die stärkste Cybersecurity-Leistung
- Defensive Nutzung wird unter anderem über das Aardvark-Programm gestärkt
Ein spezielles Cybersecurity-Monitoring erkennt und blockiert Missbrauchsversuche; verdächtige Aktivitäten werden an ein System zur Policy-Prüfung weitergeleitet
Codex läuft standardmäßig in einer Security-Sandbox, wobei Dateizugriffe und Netzwerknutzung eingeschränkt sind
- Bei Internetzugriff besteht ein Prompt-Injection-Risiko
Entwickler müssen die Arbeit des Agenten vor dem Deployment prüfen
- Codex protokolliert Terminal-Logs, Tool-Aufrufe und Testergebnisse und ersetzt keine menschliche Prüfung, sondern unterstützt sie
Cybersecurity-Funktionen können sowohl defensiv als auch offensiv genutzt werden; daher werden schrittweises Deployment und verstärkte Schutzmaßnahmen parallel verfolgt

Verfügbarkeit und Rollout

GPT‑5.1‑Codex‑Max ist in Codex für die Pläne ChatGPT Plus, Pro, Business, Edu und Enterprise verfügbar
Es wird in Kürze auch für Entwickler bereitgestellt, die Codex CLI mit einem API-Schlüssel nutzen
Ab heute ersetzt GPT‑5.1‑Codex‑Max innerhalb von Codex GPT‑5.1‑Codex als Standardmodell
- GPT‑5.1 ist ein Allzweckmodell; Codex‑Max wird speziell für agentische Coding-Aufgaben empfohlen

Fazit

GPT‑5.1‑Codex‑Max stellt einen großen Fortschritt bei Ausdauer für langfristige Coding-Aufgaben, der Verwaltung komplexer Workflows und hochwertiger Implementierung dar
In Kombination mit Verbesserungen bei CLI, IDE-Erweiterungen, Cloud-Integration und Code-Review-Tools führt es zu einer 70 % höheren Engineering-Produktivität
- 95 % der internen OpenAI-Ingenieure nutzen Codex wöchentlich
Mit der Ausweitung agentischer Funktionen beginnt eine neue Phase der Entwicklerproduktivität

Anhang: Ergebnisse der Modellevaluierung

SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
SWE‑Lancer IC SWE: 66.3% → 79.9%
Terminal‑Bench 2.0: 52.8% → 58.1%

2 Kommentare

kaydash 2025-11-27

Codex, lass uns bei MS AOIA treffen 😊

GN⁺ 2025-11-20

Hacker-News-Kommentar

Ich habe in letzter Zeit viel mit Claude und Codex gearbeitet.
Claude ignoriert Anweisungen (z. B. CLAUDE.md) fast vollständig, während Codex ihnen geradezu pedantisch folgt, als wolle es kein einziges Zeichen verpassen.
Wenn es zum Beispiel einen Tippfehler in Testcode gibt, korrigiert Claude ihn nach dem Motto „Das ist offensichtlich ein Tippfehler“, während Codex so extrem vorgeht, dass es gefühlt gleich die V8-Engine neu schreiben und dabei die Arithmetik kaputtmachen würde.
Deshalb wirkt Claude für schnelle Iterationen geeignet, Codex dagegen für langfristige Aufgaben, bei denen Genauigkeit entscheidend ist.
- Ich war von Codex ebenfalls tief beeindruckt. In meinem seit 6 Monaten laufenden Flugsimulator-Projekt musste ich das Koordinatensystem auf ECEF umstellen, wofür die komplette Physik-Engine und das Grafiksystem neu geschrieben werden mussten.
  Ich habe nur eine Anweisung von etwa einem Absatz gegeben, und nach 45 Minuten war es nahezu perfekt erledigt. Als ich mir einen Zusammenfassungsbericht geben ließ, stellte sich heraus, dass wirklich jede Anweisung buchstabengetreu befolgt worden war.
- Ein Freund hat Claude gesagt, es solle ihn immer „Mr Tinkleberry“ nennen; jedes Mal, wenn Claude das vergisst, kann er damit das Ignorieren von Anweisungen erkennen.
- Codex verhält sich wie „der letzte Programmierer der Erde“. Es versucht, das Ziel unter allen Umständen zu erreichen.
  Für Leute, die es als Black Box behandeln, ist das vielleicht gut, aber ich möchte lieber einen kollaborativen Partner mit gesundem Menschenverstand.
  Das scheint den Unterschied darin zu zeigen, wie OpenAI und Anthropic die Zukunft von KI sehen.
- Die Metapher „1+1===3-Test fixen“ ist wirklich brillant. Mit dieser einen Zeile lässt sich der grundlegende Unterschied zwischen der GPT-Familie und der Claude-Familie erklären.
  GPT-Modelle sind schwächer beim improvisierten Coden, aber hervorragend bei Aufgaben mit klaren Anforderungen.
- Mich hat frustriert, dass Codex praktisch keinen Code löscht und die Codebasis immer unnötig aufbläht.
  Sowohl in Python als auch in TypeScript gab es zu viel defensiven Code wie .getattr() und typeof.
Wir sind gut darin, Modelle zu trainieren, aber schlecht im Benennen 😄
Die neue Version erreicht SOTA mit 77,9 % auf SWE-Bench-Verified, 79,9 % auf SWE-Lancer und 58,1 % auf TerminalBench 2.0.
Durch die Komprimierung mehrerer Kontextfenster sind lange Arbeitsläufe möglich, bei 30 % besserer Token-Effizienz.
Ich würde gern Meinungen dazu hören.
- Ich nutze derzeit GPT‑5.1‑Codex‑High und frage mich, wie sich die Max-Version bei Kosten und Credit-Limits unterscheidet.
  „Token-Einsparung“ klingt günstig, aber der Name „Max“ klingt teuer.
- Codex ist ein großartiges Produkt, daher ist auch ein inkrementelles Upgrade willkommen. Ich werde es bald ausprobieren.
- Ich frage mich, ob Issue #6426 gelöst wurde.
  Bei 5.1 wurden zu viele Tokens verbraucht, deshalb war ich wieder auf 5.0 zurückgegangen.
- Es wäre schön, wenn man dieses Modell auch in der Chat-Oberfläche nutzen könnte.
- Mir gefällt die Subagent-Funktion von Claude Code. Sie ist nützlich für das Kontextmanagement in komplexen Codebasen.
  Ich habe mir diese Beispiel-Agenten angesehen und würde mir so etwas auch für die Codex CLI wünschen.
Ich habe heute GPT‑5.1‑Codex‑Max und Gemini 3 Pro in der CLI verglichen.
Gemini ist schwer als kollaborativer Partner zu handhaben. Wenn man eine Frage stellt, errät es die Absicht und schreibt erst einmal Code.
Codex dagegen beantwortet Fragen direkt.
Die Codequalität bei Gemini hatte zwar einen für Menschen besser lesbaren Stil, aber bei Planung und Umsetzungsgenauigkeit war Codex deutlich überlegen.
Bei Gemini gab es Probleme wie halluzinierte DB-Spaltennamen, fehlende Funktionen und mangelnde Integration.
Insgesamt war Codex der klare Sieger.
- Google hat damit geprahlt, dass Gemini 3 in allen Benchmarks führend sei, aber das zeigt, dass es in der Praxis nicht so ist.
- Bei Gemini sollte man die Temperature-Einstellung auf dem Standardwert 1.0 belassen. Senkt man sie, kommt es zu Schleifen oder Leistungseinbußen.
  Siehe offizielle Dokumentation.
- Auch bei mir schreibt Gemini immer wieder Code neu, selbst wenn ich ausdrücklich sage: „Schreib keinen Code“.
OpenAI veröffentlicht seine Modelle oft direkt vor Ankündigungen der Konkurrenz.
GPT‑4o wurde ebenfalls einen Tag vor der Google I/O angekündigt. Auch dieses Codex ist wahrscheinlich eher ein inkrementelles Update.
- GPT‑5.1 / Codex lag bereits in den Benchmarks vor Gemini 3, und mit diesem Update vergrößert sich der Abstand weiter.
- Anthropic hat zum Zeitpunkt des GPT‑5-Releases ebenfalls Opus 4.1 veröffentlicht. Der Wettbewerb wird jetzt härter.
- Dank dieses Wettbewerbs beschleunigt sich der Fortschritt. Für gesunden Wettbewerb sollte man dankbar sein.
- Gemini gewinnt Marktanteile, und OpenAI weiß das auch.
- Dieser Wettstreit um den Veröffentlichungszeitpunkt ist inzwischen nichts Ungewöhnliches mehr.
Wenn man sich das SVG-Rendering-Beispiel ansieht,
ist das Medium-Niveau gut ausbalanciert und zeigt zwischen High und Low bewusste stilistische Unterschiede.
Solche Vergleiche helfen dabei, die kreative Konsistenz eines Modells einzuschätzen.
- Allerdings scheinen solche SVG-Ausgabe-Benchmarks inzwischen weniger aussagekräftig zu sein. Es könnte sich um Ergebnisse handeln, die durch RLHF gezielt darauf trainiert wurden.
Ich wünschte, die Unternehmen würden auch nur 1 % der Energie, die sie ins Modelltraining stecken, in bessere Zahlungs- und Login-Erlebnisse investieren.
Claude hat praktisch kein richtiges Login-System, OpenAI sollte den Codex-CLI-Bug (#2798) beheben.
Bei Google sind Produkt- und Zahlungsstruktur viel zu komplex. Das sollte auf eine einzige Preisseite konsolidiert werden.
- Ich habe wegen des Google-Zahlungssystems ebenfalls aufgegeben. Ich weiß nicht einmal, was Google Payments eigentlich ist, und wegen eines Fehlers bei der Kontoverifizierung wurde das 18 Jahre alte Firmenkonto gesperrt.
- Googles Produktportfolio ist chaotisch. Vertex AI, AI Studio, Maker Studio, Gemini usw. – die Dokumentation ist redundant und unklar.
- Die Opt-out-Option für Datentraining bei Gemini ist verschwunden, und es ist intransparent, welche Konten ins Training einfließen.
  Selbst Workspace-Konten sind nicht sicher. Man muss die ToS wirklich genau lesen.
  Im Moment wirkt OpenAI so, als würde es ein deutlich vertrauenswürdigeres Kundenerlebnis bieten.
- Ich frage mich, ob Gemini 3 Pro mit nicht autorisierten Daten nachtrainiert wurde.
  Auch in Issue #12121 gibt es dazu Diskussionen.
- Bei Claude ist es unpraktisch, dass es beim Login weder Passwort- noch Passkey-Optionen gibt.
Die Formulierungen „ein neuer Schritt hin zu einem vertrauenswürdigen Coding-Partner“ und „ein für lang andauernde Aufgaben optimiertes Modell“ klingen widersprüchlich.
Ein Partner sollte mit einem in kurzen Schleifen zusammenarbeiten; wenn er lange allein arbeitet, ist er kein Partner mehr.
- Codex ist bei lang laufenden Aufgaben zu eigenmächtig und verfolgt riskante Ansätze, etwa sogar TLS-Bibliotheken neu zu schreiben.
- (Codex-Teammitglied) Unser Ziel ist ein kollegiales Modell, das sowohl kurze Iterationen als auch langfristig delegierte Aufgaben bewältigen kann.
  Ein Blick auf das Token-Diagramm im offiziellen Blog zeigt diese Richtung.
- Ich empfehle auch das Composer-Modell von Cursor. Es ist extrem schnell, und selbst wenn das Ergebnis nicht ausreicht, kann man es innerhalb von 30 Sekunden erneut versuchen.
Ich war von der Geschwindigkeit des Plan-Modus von Codex beeindruckt. Auch die Codequalität war ordentlich.
Aber als ich sagte: „Führe npm run build aus und behebe alle Probleme“, rastete es aus und installierte allerlei eslint-bezogene Pakete.
Claude Code hatte dieselbe Aufgabe in weniger als einer Minute erledigt. Codex wirkt noch instabil.
- Ich frage mich, was der Plan-Modus eigentlich ist.
Codex ist bei Backend- oder datenorientierten Aufgaben stark, neigt aber bei einfachen UI-Aufgaben zu merkwürdigen Ergebnissen.
Letztes Wochenende habe ich Claude und Codex zusammen verwendet, und Codex lieferte bei TypeScript-Physik-/Grafikcode deutlich bessere Ergebnisse.
Von mehreren tausend Zeilen hatte ich nur ein paar hundert selbst geschrieben.
Jetzt werde ich den neuen Codex die Arbeit des vorherigen Codex überprüfen lassen.

Mit GPT‑5.1‑Codex‑Max mehr bauen

Einführung in GPT‑5.1‑Codex‑Max

Frontier-Coding-Leistung

Geschwindigkeit und Kosteneffizienz

Lang laufende Aufgaben

Aufbau sicherer und verlässlicher AI-Agenten

Verfügbarkeit und Rollout

Fazit

Anhang: Ergebnisse der Modellevaluierung

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentar