GPT-5.3-Codex vorgestellt
(openai.com)- Vereint die Coding-Leistung von GPT-5.2-Codex und das Schlussfolgern sowie Fachwissen von GPT-5.2 in einem Modell und bietet 25 % mehr Geschwindigkeit
- Erweitert den agentischen Aufgabenbereich von Codex auf lang laufende Aufgaben und integriert interaktive Zusammenarbeit in Echtzeit in die Codex-App, sodass auch während der Arbeit die Richtung geändert und Feedback eingearbeitet werden kann
- Das erste an seiner eigenen Entwicklung beteiligte Modell, dessen frühe Versionen direkt zum Debugging des eigenen Trainingsprozesses, zum Deployment-Management und zur Evaluationsdiagnostik eingesetzt wurden
- Erreicht branchenführende Leistung in wichtigen Benchmarks wie SWE-Bench Pro, Terminal-Bench 2.0 und OSWorld und arbeitet dabei mit weniger Tokens als frühere Modelle
- Unterstützt über das Schreiben von Code hinaus Wissensarbeit über den gesamten Software-Lebenszyklus hinweg, darunter Präsentationen, Tabellenkalkulationen und Datenanalyse
Überblick
- GPT-5.3-Codex ist das „leistungsfähigste agentische Coding-Modell“
- Vereint die Frontier-Coding-Leistung von GPT-5.2-Codex mit den Fähigkeiten von GPT-5.2 in Schlussfolgern und Fachwissen in einem Modell und steigert die Geschwindigkeit um 25 %
- Entwickelt für die Ausführung von langfristigen Aufgaben mit Recherche, Tool-Nutzung und komplexer Ausführung, die sich auch während der Bearbeitung ohne Kontextverlust steuern lassen
- War mit frühen Versionen an eigenem Training, Deployment und Evaluationsdiagnostik beteiligt und ist das erste Modell, das „seine eigene Entwicklung beschleunigt“ hat
- Erweitert die Rolle von Codex von „Code schreiben und reviewen“ hin zu „fast allen Aufgaben, die Entwickler und Fachleute am Computer erledigen“
Frontier-agentische Fähigkeiten
-
Coding-Leistung
- Erreicht Bestwerte bei SWE-Bench Pro (eine praxisnahe Software-Engineering-Evaluierung). Anders als SWE-Bench Verified, das nur Python testet, umfasst dieser Benchmark vier Sprachen, ist robuster gegen Kontamination und stärker industrienah
- Übertrifft auch bei Terminal-Bench 2.0 die bisherige Bestleistung deutlich; der Benchmark misst die für Coding-Agenten nötigen Terminal-Fähigkeiten
- Kann im Vergleich zu früheren Modellen dieselben Aufgaben mit weniger Tokens ausführen
-
Webentwicklung
- Durch die Kombination aus Frontier-Coding-Fähigkeiten, verbessertem ästhetischem Gespür und Kompressionstechniken lassen sich komplexe Spiele und Apps über mehrere Tage hinweg von Grund auf erstellen
- Zum Test von Webentwicklung und langfristigen agentischen Fähigkeiten wurden zwei Spiele gebaut: ein Rennspiel und ein Tauchspiel
- Rennspiel: mehrere Fahrer, 8 Maps und per Leertaste nutzbare Items
- Tauchspiel: Erkundung verschiedener Korallenriffe, Sammlung eines Fischlexikons sowie Management von Sauerstoff, Wasserdruck und Gefahren
- Mit der Skill „develop web game“ und vorkonfigurierten allgemeinen Folge-Prompts wie „fix the bug“ und „improve the game“ verbesserte es sich über Millionen von Tokens hinweg autonom iterativ
- Beim Erstellen alltäglicher Websites versteht es die Nutzerabsicht besser als GPT-5.2-Codex und wendet selbst bei einfachen oder unzureichenden Prompts automatisch mehr Funktionen und sinnvolle Standardwerte an
- Beispiel für einen Landingpage-Vergleich: GPT-5.3-Codex zeigt automatisch einen Jahresplan als vergünstigten Monatspreis an und erstellt ein automatisch rotierendes Empfehlungs-Karussell mit drei Nutzerzitaten, was zu einem ausgereifteren Ergebnis führt
-
Fähigkeiten jenseits des Codings
- Unterstützt den gesamten Software-Lebenszyklus, darunter Debugging, Deployment, Monitoring, Schreiben von PRDs, Copy-Editing, User Research, Tests und Metrikanalyse – also Aufgaben von Software Engineers, Designern, Produktmanagern und Data Scientists
- Erweitert sich auch auf Bereiche außerhalb von Software, etwa die Erstellung von Foliendecks und die Analyse von Sheet-Daten
- Erreicht bei GDPval (eine Evaluierung klar definierter Wissensarbeitsaufgaben in 44 Berufsfeldern) mit 70,9 % denselben Wert wie GPT-5.2
- Einschließlich realer Arbeitsergebnisse wie Präsentationen und Tabellenkalkulationen
- Zeigt verschiedene Beispiele für Outputs wie Finanzberatungsfolien, Schulungsunterlagen für den Einzelhandel, NPV-Analyse-Spreadsheets und Mode-Präsentations-PDFs
- Erreicht bei OSWorld-Verified (ein Benchmark für agentische Computernutzung bei Produktivitätsaufgaben in visuellen Desktop-Umgebungen) 64,7 % und liegt damit deutlich über früheren GPT-Modellen (38,2 %)
- Der menschliche Wert liegt bei etwa 72 %
Interaktiver Kollaborateur
- Mit steigenden Modellfähigkeiten verschiebt sich die Kernfrage von dem, was ein Agent tun kann, hin zu der Frage, wie leicht Menschen viele parallel arbeitende Agenten anweisen und überwachen können
- Die Codex-App erleichtert das Management und die Steuerung von Agenten und bietet mit GPT-5.3-Codex höhere Interaktivität
- Während der Arbeit liefert das Modell häufige Updates zu wichtigen Entscheidungen und zum Fortschritt, sodass Nutzer nicht bis zum Endergebnis warten müssen, sondern in Echtzeit Fragen stellen, Ansätze diskutieren und die Richtung anpassen können
- Es erklärt, woran es arbeitet, reagiert auf Feedback und hält die Nutzer von Anfang bis Ende im Loop
- Einstellungspfad: Settings > General > Follow-up behavior, um Steering während der Modellarbeit zu aktivieren
Training und Deployment von GPT-5.3-Codex mit Codex
- Die jüngsten schnellen Verbesserungen von Codex bauen auf Forschungsprojekten auf, die sich bei OpenAI über Monate bis Jahre erstrecken
- Viele Forscher und Engineers bei OpenAI sagen, ihre heutige Arbeitsweise sei grundlegend anders als noch vor zwei Monaten
- Schon frühe Versionen von GPT-5.3-Codex zeigten starke Fähigkeiten, sodass das Team diese frühen Versionen nutzte, um das Training und Deployment späterer Versionen zu unterstützen
-
Anwendungsfälle im Forschungsteam
- Codex wurde zum Monitoring und Debugging von Training Runs für diese Veröffentlichung verwendet
- Über das Debugging von Infrastrukturproblemen hinaus wurde es zum Verfolgen von Mustern im gesamten Trainingsprozess, für tiefgehende Analysen der Interaktionsqualität, für Änderungsvorschläge und zum präzisen Erfassen von Verhaltensunterschieden gegenüber früheren Modellen in umfangreichen Anwendungen eingesetzt
-
Anwendungsfälle im Engineering-Team
- Codex wurde für die Optimierung und Anpassung des Harnesses für GPT-5.3-Codex eingesetzt
- Wenn merkwürdige Edge Cases mit Nutzerwirkung auftraten, wurde Codex genutzt, um Bugs beim Context Rendering zu identifizieren und die Grundursachen niedriger Cache-Hit-Raten zu analysieren
- Während des Releases half es fortlaufend bei dynamischer Skalierung von GPU-Clustern und der Stabilisierung der Latenz bei Traffic-Spitzen
-
Einsatz in Alpha-Tests
- Ein Forscher wollte verstehen, wie viele zusätzliche Arbeitsschritte GPT-5.3-Codex pro Turn erledigt und wie sich das auf die Produktivität auswirkt
- GPT-5.3-Codex entwickelte mehrere einfache Regex-Klassifikatoren, die Häufigkeit von Rückfragen, positive oder negative Antworten und den Arbeitsfortschritt schätzten, führte sie im großen Maßstab auf vollständigen Session-Logs aus und erstellte anschließend einen Abschlussbericht
- Personen, die mit Codex bauten, waren zufriedener; der Agent verstand die Absicht besser, zeigte mehr Fortschritt pro Turn und stellte weniger Rückfragen
-
Aufbau einer Datenpipeline
- Die Alpha-Test-Daten unterschieden sich stark von früheren Modellen, wodurch viele anormale und kontraintuitive Ergebnisse auftraten
- Ein Data Scientist baute gemeinsam mit GPT-5.3-Codex eine neue Datenpipeline auf und erzeugte deutlich reichhaltigere Visualisierungen als mit Standard-Dashboard-Tools
- Gemeinsam mit Codex wurden die Ergebnisse analysiert und zentrale Erkenntnisse aus Tausenden von Datenpunkten innerhalb von drei Minuten zusammengefasst
Sicherung der Cybersecurity-Frontier
- In den vergangenen Monaten hat sich die Modellleistung bei Cybersecurity-Aufgaben deutlich verbessert, was sowohl Entwicklern als auch Sicherheitsexperten zugutekommt
- Parallel dazu wurden verstärkte Cybersecurity-Sicherheitsmaßnahmen vorbereitet, um defensive Nutzung und die Resilienz des breiteren Ökosystems zu unterstützen
- Unter dem Preparedness Framework ist es das erste Modell, das bei Cybersecurity-bezogenen Aufgaben als High eingestuft wurde, und das erste Modell, das direkt auf die Identifikation von Software-Schwachstellen trainiert wurde
- Zwar gibt es keine schlüssigen Belege dafür, dass End-to-End-Automatisierung von Cyberangriffen möglich ist, doch verfolgt OpenAI einen präventiven Ansatz und setzt seinen bislang umfassendsten Cybersecurity-Safety-Stack ein
- Einschließlich Safety-Training, automatisiertem Monitoring, vertrauensbasiertem Zugang zu erweiterten Funktionen und einer Enforcement-Pipeline mit Threat Intelligence
- Angesichts der inhärenten Dual-Use-Eigenschaft von Cybersecurity verfolgt OpenAI einen evidenzbasierten iterativen Ansatz, der die Fähigkeiten von Verteidigern zur Erkennung und Behebung von Schwachstellen beschleunigen und zugleich Missbrauch verzögern soll
-
Programme für defensive Forschung und Ökosystemschutz
- Start des Pilotprogramms Trusted Access for Cyber zur Beschleunigung defensiver Cyberforschung
- Ausweitung der Private Beta des Security-Research-Agenten Aardvark, des ersten Angebots der Codex-Security-Produktlinie
- Zusammenarbeit mit Open-Source-Maintainern, um häufig genutzten Projekten (z. B. Next.js) kostenlose Codebase-Scans bereitzustellen
- Ein Sicherheitsforscher entdeckte mit Codex in der vergangenen Woche offengelegte Schwachstellen (CVE-2025-59471, CVE-2025-59472)
- Aufbauend auf dem 2023 gestarteten Cybersecurity-Förderprogramm im Umfang von 1 Million US-Dollar investiert OpenAI zusätzlich 10 Millionen US-Dollar an API-Credits, um Cyberabwehr mit den leistungsstärksten Modellen zu beschleunigen
- Besonders für Open-Source-Software und kritische Infrastruktursysteme
- Organisationen, die sich an gutgläubiger Sicherheitsforschung beteiligen, können über das Cybersecurity Grant Program API-Credits und Unterstützung beantragen
Verfügbarkeit und Details
- GPT-5.3-Codex ist in kostenpflichtigen ChatGPT-Plänen verfügbar und überall nutzbar, wo Codex unterstützt wird (App, CLI, IDE-Erweiterung, Web)
- Der API-Zugang wird derzeit für eine sichere Aktivierung vorbereitet
- Dank Verbesserungen an Infrastruktur und Inferenz-Stack läuft es für Codex-Nutzer mit 25 % höherer Geschwindigkeit und liefert schnellere Interaktionen und Ergebnisse
- Gemeinsam konzipiert, trainiert und ausgeliefert auf NVIDIA GB200 NVL72-Systemen
Weitere Richtung
- Codex entwickelt sich über das Schreiben von Code hinaus in Richtung eines Systems, das Code als Werkzeug nutzt, um Computer zu bedienen und Aufgaben von Anfang bis Ende abzuschließen
- Durch die Erweiterung der Frontier von Coding-Agenten erschließt es nicht nur Softwareentwicklung und -Deployment, sondern auch breitere Bereiche der Wissensarbeit wie Forschung, Analyse und die Ausführung komplexer Aufgaben
- Vom besten Coding-Agenten ausgehend entwickelt es sich zu einem allgemeinen Kollaborateur am Computer und erweitert damit sowohl das, was gebaut werden kann, als auch den Kreis der Menschen, die es bauen können
Appendix: Benchmark-Zahlen
- Alle Evaluierungen wurden mit xhigh reasoning effort ausgeführt
- SWE-Bench Pro(Public): GPT-5.3-Codex 56.8% / GPT-5.2-Codex 56.4% / GPT-5.2 55.6%
- Terminal-Bench 2.0: GPT-5.3-Codex 77.3% / GPT-5.2-Codex 64.0% / GPT-5.2 62.2%
- OSWorld-Verified: GPT-5.3-Codex 64.7% / GPT-5.2-Codex 38.2% / GPT-5.2 37.9%
- GDPval(Sieg oder Gleichstand): GPT-5.3-Codex 70.9% / GPT-5.2 70.9%(high)
- Cybersecurity Capture The Flag Challenges: GPT-5.3-Codex 77.6% / GPT-5.2-Codex 67.4% / GPT-5.2 67.7%
- SWE-Lancer IC Diamond: GPT-5.3-Codex 81.4% / GPT-5.2-Codex 76.0% / GPT-5.2 74.6%
2 Kommentare
Früher habe ich eher Claude bevorzugt, aber in letzter Zeit gefällt mir Codex besser. Ich hoffe, dass sich beide wie iOS und AOS komplementär weiterentwickeln.
Hacker-News-Meinungen
Es ist interessant, dass sich GPT‑5.3 Codex und Opus 4.6 philosophisch in unterschiedliche Richtungen entwickeln.
Codex ist als interaktiver Kollaborationspartner konzipiert, bei dem Menschen zwischendurch eingreifen und mitarbeiten, während Opus eher ein autonomes, planendes System ist, das menschliche Eingriffe minimiert.
Das scheint die zwei Sichtweisen widerzuspiegeln, mit denen reale Entwickler LLM-basiertes Coding betrachten — menschzentrierte Kontrolle vs. vollständige Delegation.
Ich frage mich, ob Modelle künftig entlang dieser philosophischen Trennung optimiert werden oder ob neue Ansätze auftauchen.
Codex hat die Tendenz, vor einer Antwort deutlich länger nachzudenken.
Wenn der Mensch im Loop bleibt, lassen sich die meisten Probleme von LLMs vermeiden, und das Prüfen in kleinen Code-Einheiten ist effizient.
Wenn Codex die repetitiven Aufgaben übernimmt, kann sich der Entwickler auf die Kernlogik konzentrieren.
Ein vollständig autonomer Ansatz ist für große Codebases ungeeignet, weil die Codequalität langfristig sinkt.
Man schickte eine Anfrage ab, sie wurde automatisch in einer Container-Umgebung ausgeführt, und danach waren Folgeaktionen nur noch per Chat möglich.
Codex wird zunehmend autonomer, und Opus scheint kollaborativer zu werden.
Am Ende könnten je nach Situation beide Ansätze sehr nützlich sein.
Deshalb war Version 5.2 stabiler als Opus 4.5.
Es wirkt, als habe Anthropic übereilt Opus 4.6 veröffentlicht, um Vergleiche mit GPT‑5.3‑Codex zu vermeiden.
Der Terminal‑Bench‑2.0-Score liegt bei 65.4 für Opus 4.6 und bei 77.3 für GPT‑5.3‑Codex.
Trotzdem war Codex 5.2 bei komplexen Aufgaben am stärksten, und ich freue mich auf 5.3.
GPT‑5.2 Codex lag bei $3244, Claude Opus 4.5 bei etwa $1485.
Wenn man sich die ARC AGI 2-Ergebnisse ansieht, scheint es an Generalisierung zu fehlen.
Ich habe Zweifel an der Behauptung, Claude sei beim Coding überlegen.
Beeindruckend ist, dass GPT‑5.3‑Codex das erste Modell ist, das für seine eigene Entwicklung eingesetzt wurde.
Das Codex-Team soll mit frühen Versionen die eigene Trainingspipeline debuggt haben.
Ich denke, dass auch Claude Code dank einer solchen Dogfooding-Kultur gewachsen ist.
Das bringt mich dazu, erneut darüber nachzudenken, ob ein „soft take-off“ möglich ist.
GPT‑5.3‑Codex wird bei cybersicherheitsbezogenen Aufgaben als Modell mit hoher Leistungsfähigkeit (high capability) eingestuft.
Es wurde direkt auf Schwachstellenerkennung trainiert, aber für eine vollständige Automatisierung von Angriffen gibt es noch keine Belege.
Ich halte das Sicherheits-Framework allerdings für veraltet.
Künftig könnte der von Codex selbst geschriebene Code zur neuen Angriffsfläche für Sicherheitsbedrohungen werden.
Codex sollte grundsätzlich so entworfen sein, dass es sicheren Code erzeugt.
Zugehöriger Artikel: Bericht von NBC News
Ähnlich wie bei Anthropic fühlt es sich an, als würde man unter dem Deckmantel von „Sicherheitsforschung“ technische Stärke demonstrieren.
Ich frage mich, ob solche Fehler weiterhin passieren werden.
Früher haben AI-Labore ihre Veröffentlichungen koordiniert, um gleichzeitige Ankündigungen zu vermeiden,
heute veröffentlichen sie im Konkurrenzkampf im Abstand von 30 Minuten.
Demis ist zwar schwach bei politischen Machtspielen, wird aber wohl mit Leistung konkurrieren.
Elon, Sam und Dario sind bereits geschickt in politischen Manövern.
2026 dürfte ein dramatisches Jahr für die AI-Branche werden.
Passend zu OpenAIs Ankündigung um 10 Uhr haben Anthropic und Google mit Gegen-Lancierungen reagiert.
Ich fand es spannend zu sehen, dass GPT‑5.3‑Codex eigenständig ein Webspiel verbessert haben soll.
Schade ist nur, dass weder die Zahl der Prompts noch die Token-Anzahl des Vergleichsexperiments offengelegt wurden.
Ich würde es gern mit meinem früheren Factorio-Web-Klon vergleichen.
Ich wusste nicht, dass man Modelle auf diese Weise einsetzen kann.
Seit Jahren hört man von 100-fach höherer Produktivität durch AI.
Ich frage mich aber, ob es tatsächlich ein neues und verlässliches Programm gibt, das LLMs federführend gebaut haben.
Auch LLMs lösen bestehende Probleme nur schneller, anstatt völlig neue Probleme zu lösen.
Zum Beispiel hat mir Gemini bei einem Problem zur Anordnung von UI-Karten sehr geholfen, indem es einen auf Polarkoordinaten basierenden Ansatz vorgeschlagen hat.
Vielleicht nicht 100-fach, aber eine Verdopplung der Produktivität spüre ich schon.
Zugehöriger Thread: vibe-coding-Beispiel
Deshalb ist die Kritik, es handle sich nur um „bereits gelöste Probleme“, nicht besonders aussagekräftig.
und dabei drei Mal nicht existierende Flags halluziniert.
Auch ChatGPT 5.2 brauchte mehrere Korrekturen, um ein ffmpeg-Skript zu erstellen.
Wenn der Tag kommt, an dem Windows-Zeilenumbrüche korrekt behandelt werden, ist das vielleicht AGI.
Dass eine Codebase groß ist, wirkt nur wie eine vorübergehende Grenze.
Das klingt eher nach Beschwerden von Menschen, die keinen Fortschritt mögen.
Ergebnisse von Terminal Bench 2.0
Wichtiger als der Score ist das tatsächliche Gefühl beim Coding.
Ich frage mich, ob Entwickler sich durch diese Veränderung bedroht fühlen.
Ehrlich gesagt glaube ich schon.
Für Competitive Programmer mag das bedrohlich sein, für normale Entwickler weniger.
Ich glaube, vollständige Automatisierung ist vor AGI nicht möglich.
In meinem Umfeld gibt es deutlich mehr Claude-Nutzer als Codex-Nutzer.
Aber bei Usage-Limits und Preisplänen ist Codex viel großzügiger.
Selbst nach mehreren Monaten mit dem $20-Plan erreicht man das Limit fast nie.
Solche praktischen Unterschiede erscheinen mir wichtiger als die reine Coding-Qualität.
Früher war Claude in GH Copilot besser,
aber Codex ist durch seine höhere Autonomie besser für vibe-coding geeignet,
und durch den Werbeeffekt auf Twitter und LinkedIn scheint die Nutzerschaft gewachsen zu sein.
Wenn man keinen Qualitätsunterschied merkt, nimmt man natürlich die günstigere Option.
Auch der Wechsel zwischen Plänen ist flexibel, daher ist die Nutzungserfahrung sehr zufriedenstellend.