GPT-5.2-Codex vorgestellt
(openai.com)- Ein agentisches Coding-Modell für komplexe Entwicklungsaufgaben in der realen Welt, optimiert für die Codex-Umgebung
- Hält durch Kontextkomprimierung in lang laufenden Aufgaben den Zusammenhang aufrecht und ist dadurch robuster bei großen Änderungen wie Refactorings und Migrationen
- Umfassende Leistungsverbesserungen in nativen Windows-Umgebungen sowie stärkere Vision-Fähigkeiten zur Interpretation von Screenshots, technischen Zeichnungen, Diagrammen und UIs
- Erreicht Spitzenleistung auf SWE-Bench Pro und Terminal-Bench 2.0
- Führt ein Bereitstellungsmodell ein, das die Cybersecurity-Fähigkeiten für defensive Zwecke deutlich ausbaut und zugleich Missbrauchsrisiken durch priorisierte Verfügbarkeit für zahlende Nutzer und vertrauensbasierten Zugang berücksichtigt
Überblick
- GPT-5.2-Codex wurde neu vorgestellt. Das Modell ist auf komplexe Software-Engineering-Aufgaben aus der realen Welt ausgelegt
- Es basiert auf GPT-5.2 und ist für agentische Coding-Aufgaben in der Codex-Umgebung optimiert
- Durch Kontextkomprimierung liefert es bei lang laufenden Aufgaben stabile Leistung, und seine Fähigkeiten für groß angelegte Codeänderungen wurden erweitert
- In Windows-Umgebungen wurde die Gesamtleistung verbessert, zudem wurden die Cybersecurity-Fähigkeiten ausgebaut
Die Grenzen des Software Engineering erweitern
- Das Modell wurde auf Grundlage der fachlichen Stärken von GPT-5.2 und der agentischen Coding- und Terminal-Nutzung von GPT-5.1-Codex-Max entwickelt
- Ziel ist es, auf Basis von Langzeit-Kontextverständnis, stabilen Tool-Aufrufen, verbesserter Genauigkeit und nativer Kompaktion als verlässlicher Partner für lang laufende Coding-Aufgaben zu fungieren
- Dazu gehört auch, die Token-Effizienz während des Reasonings aufrechtzuerhalten
- Verbesserte Vision-Fähigkeiten erhöhen die Genauigkeit bei der Interpretation von Screenshots, technischen Zeichnungen, Diagrammen und UI-Ansichten, die während Coding-Sessions geteilt werden
- Auf Basis der in GPT-5.1-Codex-Max eingeführten Funktionen führt es agentisches Coding auch nativ unter Windows effektiver und stabiler aus
Benchmark-Leistung
- Erreicht Spitzenleistung auf SWE-Bench Pro und Terminal-Bench 2.0
- SWE-Bench Pro bewertet die Erstellung von Patches zur Lösung realistischer Software-Engineering-Aufgaben auf Basis bereitgestellter Code-Repositories
- Terminal-Bench 2.0 testet die Leistung von AI-Agenten in realen Terminal-Umgebungen und umfasst Aufgaben wie Code-Kompilierung, Modelltraining und Server-Konfiguration
Cybersecurity in der realen Welt
- Zum Schutz zentraler Systeme und sensibler Daten der modernen Gesellschaft ist starke Cybersecurity unverzichtbar
- Schwachstellen können lange unentdeckt bleiben, und ihre Entdeckung, Verifizierung und Behebung hängen stark von gut ausgestatteten Engineers und der Community unabhängiger Sicherheitsforscher ab
- Im Fall der Offenlegung von drei Sicherheitslücken durch das React-Team am 11. Dezember 2025, die Apps auf Basis von React Server Components betrafen, erhielt nicht nur die Schwachstelle selbst, sondern auch der Entdeckungsprozess Aufmerksamkeit
-
Fallbeispiel zur Entdeckung von React-Schwachstellen
- Andrew MacPherson, Sicherheitsforscher bei der Stripe-Tochter Privy, nutzte GPT-5.1-Codex-Max in der Codex CLI für die Analyse von React2Shell
- Codex wurde in einem standardmäßigen Sicherheits-Workflow eingesetzt, darunter der Aufbau einer lokalen Testumgebung, die Analyse der Angriffsfläche und Fuzzing mit anomalen Eingaben
- Bei der Reproduktion von React2Shell wurde unerwartetes Verhalten festgestellt, was innerhalb einer Woche zur Entdeckung von drei zuvor unbekannten Schwachstellen führte
- Die entdeckten Schwachstellen wurden dem React-Team auf verantwortungsvolle Weise offengelegt
- Eingeschlossen war auch die Freigabe einer Codex-Session als Beispiel dafür, wie stark sich der Verifizierungsprozess für Sicherheitsforscher verkürzen kann
Sich weiterentwickelnde Cybersecurity-Fähigkeiten
- Seit GPT-5-Codex haben sich die Cybersecurity-Fähigkeiten deutlich verbessert, mit einem großen Sprung bei GPT-5.1-Codex-Max und klaren weiteren Fortschritten bei GPT-5.2-Codex
- Es wird erwartet, dass künftige Modelle diesen Trend fortsetzen; Planung und Evaluierung erfolgen bereits unter der Annahme, dass in den Preparedness-Bewertungen die Stufe „hoch“ bei den Cybersecurity-Fähigkeiten erreicht werden könnte
- GPT-5.2-Codex hat die Stufe „hoch“ noch nicht erreicht, die Vorbereitungen laufen jedoch bereits mit Blick auf künftige Modelle, die diesen Schwellenwert überschreiten könnten
Fazit
- GPT-5.2-Codex zeigt, wie sich der Beitrag fortgeschrittener AI in den Bereichen Software Engineering und Cybersecurity erweitert
- Es unterstützt Entwickler und Sicherheitsverantwortliche dabei, komplexe und langfristige Aufgaben zu bewältigen, und stärkt zugleich Werkzeuge für verantwortungsvolle Sicherheitsforschung weiter
1 Kommentare
Hacker-News-Kommentare
Falls jemand von OpenAI mitliest: Bitte fasst die Reasoning-Fähigkeiten nicht an
Codex ist wirklich hervorragend darin, Bugs und Inkonsistenzen in Code oder Mathematik zu finden
Wenn Claude Code stark bei der „Codegenerierung“ ist, dann sind Codex/GPT5.x bei der Problemerkennung klar überlegen
Ich finde Qualität wichtiger als Geschwindigkeit
Anfangs war ich bei Codex skeptisch, aber inzwischen beginne ich alle Coding-Aufgaben mit Codex
Es ist nicht perfekt, aber beim Refactoring, beim Start neuer Projekte oder beim Arbeiten mit unbekannten Technologien liefert es erstaunliche Ergebnisse
Vor allem hilft es gegen Prokrastination. Selbst große, überwältigende Aufgaben kann man Codex geben, und es erzeugt einen guten Ausgangspunkt
Codex 5.2 hat sich qualitativ stark verbessert, und inzwischen überlasse ich ihm das eigentliche Schreiben des Codes
Wenn man es auch noch für Planung und Architekturdiskussionen einsetzt, gibt es kaum noch einen Grund, selbst Code zu schreiben
Interessant ist letztlich, wie schwierig objektive Leistungsmessung hier ist
Aber die Geschwindigkeit des Feedback-Loops ist entscheidend. Je schneller Build und Tests sind, desto effizienter werden agentische Coding-Tools
Klare Anweisungen wie Agents.md helfen dabei
Ich bin von Claude Code zum Codex CLI gewechselt und habe eine containerbasierte Codex-Laufzeitumgebung aufgebaut
Sie kann auf viele Arten ausgeführt werden, etwa per Timer, Dateitrigger, API-Aufruf oder im CLI-Modus
codex-container enthält mehr als 300 MCP-Tools
Unterstützt werden unter anderem Crawling, Google-Suche, Gmail/GCal/GDrive, Slack, Embeddings und Transkription
Sicherheitskritische Aufgaben teste ich dank Container-Isolation sicher
Mit gnosis-crawl ist auch Crawling mit Headless Browsern möglich
Meiner Erfahrung nach sind GPT-Modelle für Backend-Entwicklung viel besser geeignet als Claude
Sie sind langsamer, aber die Logik ist klarer und die Wartbarkeit höher
Ich nutze ein Muster, bei dem ich mit Claude plane, mit Codex umsetze und danach wieder Claude für den Code-Review verwende
Es wäre schön, wenn Codex CLI gleichzeitig mit npm auch bei homebrew aktualisiert würde
Claude hat immer noch zu viel unnötigen Ballast und overengineert
Claude weist auf Kleinigkeiten hin, aber Codex findet die wirklich wichtigen Probleme
Aus Sicherheitsperspektive ist es schade, dass OpenAI-Modelle bei offensiven Aufgaben zu stark eingeschränkt werden
Für Verteidigung braucht man meiner Meinung nach ein gewisses Maß an offensiver Simulation
Ich halte es für einen vernünftigen Ansatz, nur vertrauenswürdigen Experten Zugriff zu geben
Interessant, dass „Cybersicherheit“ so stark in den Vordergrund gestellt wird
Die Automatisierung von Sicherheitsanalysen hat den Kipppunkt bereits überschritten, und ich denke, wichtiger als Modellfortschritte ist inzwischen die Automatisierung wiederkehrender Aufgaben
Der Großteil der Schwachstellenanalyse besteht aus einfachen, automatisierbaren Arbeiten, und wenn man diese entfernt, können sich Menschen auf kreative Analyse konzentrieren
Für mich ist Codex immer schwächer als das Basismodell
Im CLI versucht es zu hastig, Code zu schreiben
Selbst wenn ich nur eine Frage stelle, will es Dateien ändern, was unpraktisch ist
Im Moment lässt es sich einigermaßen steuern, wenn man darum bittet, nur .md-Dateien zu bearbeiten
Die Politik, Modellzugang für Sicherheitsforschung per Einladung zu gewähren, erscheint mir vernünftig
Wenn das „Safety-Alignment“ zu stark ist, kann die Fähigkeit zur Sicherheitsanalyse leiden
Wenn nur ein KYC-Verfahren durchlaufen werden muss, könnte man positive Forschungsergebnisse erzielen und zugleich die Risikoexposition verringern
Das Risiko des Dual Use bedeutet weniger neue Angriffstechniken als vielmehr, die Ausführungshürde zu senken
Dieselbe Funktion kann Verteidigern bei der Schwachstellenanalyse helfen, für Angreifer aber zu einem automatisierten Angriffswerkzeug werden
Deshalb sind Auslieferungskontrolle und Logging wichtig
Ich habe GPT‑5.1 mit dem Codex-Plugin in VSCode benutzt, und das war wirklich eine magische Erfahrung
Bei 5.2 spüre ich bisher noch keinen großen Unterschied, aber wenn die Funktionen auf das Niveau von Cursor oder Kilo Code ausgebaut werden, dürfte es noch besser werden
Früher dachte ich, OpenAI sei zurückgefallen, aber 5.1 ist Gemini weit überlegen