GPT-5.2-Codex vorgestellt

(openai.com)

7 Punkte von GN⁺ 2025-12-19 | Noch keine Kommentare. | Auf WhatsApp teilen

Ein agentisches Coding-Modell für komplexe Entwicklungsaufgaben in der realen Welt, optimiert für die Codex-Umgebung
Hält durch Kontextkomprimierung in lang laufenden Aufgaben den Zusammenhang aufrecht und ist dadurch robuster bei großen Änderungen wie Refactorings und Migrationen
Umfassende Leistungsverbesserungen in nativen Windows-Umgebungen sowie stärkere Vision-Fähigkeiten zur Interpretation von Screenshots, technischen Zeichnungen, Diagrammen und UIs
Erreicht Spitzenleistung auf SWE-Bench Pro und Terminal-Bench 2.0
Führt ein Bereitstellungsmodell ein, das die Cybersecurity-Fähigkeiten für defensive Zwecke deutlich ausbaut und zugleich Missbrauchsrisiken durch priorisierte Verfügbarkeit für zahlende Nutzer und vertrauensbasierten Zugang berücksichtigt

Überblick

GPT-5.2-Codex wurde neu vorgestellt. Das Modell ist auf komplexe Software-Engineering-Aufgaben aus der realen Welt ausgelegt
Es basiert auf GPT-5.2 und ist für agentische Coding-Aufgaben in der Codex-Umgebung optimiert
Durch Kontextkomprimierung liefert es bei lang laufenden Aufgaben stabile Leistung, und seine Fähigkeiten für groß angelegte Codeänderungen wurden erweitert
In Windows-Umgebungen wurde die Gesamtleistung verbessert, zudem wurden die Cybersecurity-Fähigkeiten ausgebaut

Das Modell wurde auf Grundlage der fachlichen Stärken von GPT-5.2 und der agentischen Coding- und Terminal-Nutzung von GPT-5.1-Codex-Max entwickelt
Ziel ist es, auf Basis von Langzeit-Kontextverständnis, stabilen Tool-Aufrufen, verbesserter Genauigkeit und nativer Kompaktion als verlässlicher Partner für lang laufende Coding-Aufgaben zu fungieren
Dazu gehört auch, die Token-Effizienz während des Reasonings aufrechtzuerhalten
Verbesserte Vision-Fähigkeiten erhöhen die Genauigkeit bei der Interpretation von Screenshots, technischen Zeichnungen, Diagrammen und UI-Ansichten, die während Coding-Sessions geteilt werden
Auf Basis der in GPT-5.1-Codex-Max eingeführten Funktionen führt es agentisches Coding auch nativ unter Windows effektiver und stabiler aus

Erreicht Spitzenleistung auf SWE-Bench Pro und Terminal-Bench 2.0
- SWE-Bench Pro bewertet die Erstellung von Patches zur Lösung realistischer Software-Engineering-Aufgaben auf Basis bereitgestellter Code-Repositories
- Terminal-Bench 2.0 testet die Leistung von AI-Agenten in realen Terminal-Umgebungen und umfasst Aufgaben wie Code-Kompilierung, Modelltraining und Server-Konfiguration

Zum Schutz zentraler Systeme und sensibler Daten der modernen Gesellschaft ist starke Cybersecurity unverzichtbar
Schwachstellen können lange unentdeckt bleiben, und ihre Entdeckung, Verifizierung und Behebung hängen stark von gut ausgestatteten Engineers und der Community unabhängiger Sicherheitsforscher ab
Im Fall der Offenlegung von drei Sicherheitslücken durch das React-Team am 11. Dezember 2025, die Apps auf Basis von React Server Components betrafen, erhielt nicht nur die Schwachstelle selbst, sondern auch der Entdeckungsprozess Aufmerksamkeit
Fallbeispiel zur Entdeckung von React-Schwachstellen
- Andrew MacPherson, Sicherheitsforscher bei der Stripe-Tochter Privy, nutzte GPT-5.1-Codex-Max in der Codex CLI für die Analyse von React2Shell
- Codex wurde in einem standardmäßigen Sicherheits-Workflow eingesetzt, darunter der Aufbau einer lokalen Testumgebung, die Analyse der Angriffsfläche und Fuzzing mit anomalen Eingaben
- Bei der Reproduktion von React2Shell wurde unerwartetes Verhalten festgestellt, was innerhalb einer Woche zur Entdeckung von drei zuvor unbekannten Schwachstellen führte
- Die entdeckten Schwachstellen wurden dem React-Team auf verantwortungsvolle Weise offengelegt
- Eingeschlossen war auch die Freigabe einer Codex-Session als Beispiel dafür, wie stark sich der Verifizierungsprozess für Sicherheitsforscher verkürzen kann

Seit GPT-5-Codex haben sich die Cybersecurity-Fähigkeiten deutlich verbessert, mit einem großen Sprung bei GPT-5.1-Codex-Max und klaren weiteren Fortschritten bei GPT-5.2-Codex
Es wird erwartet, dass künftige Modelle diesen Trend fortsetzen; Planung und Evaluierung erfolgen bereits unter der Annahme, dass in den Preparedness-Bewertungen die Stufe „hoch“ bei den Cybersecurity-Fähigkeiten erreicht werden könnte
GPT-5.2-Codex hat die Stufe „hoch“ noch nicht erreicht, die Vorbereitungen laufen jedoch bereits mit Blick auf künftige Modelle, die diesen Schwellenwert überschreiten könnten

GPT-5.2-Codex zeigt, wie sich der Beitrag fortgeschrittener AI in den Bereichen Software Engineering und Cybersecurity erweitert
Es unterstützt Entwickler und Sicherheitsverantwortliche dabei, komplexe und langfristige Aufgaben zu bewältigen, und stärkt zugleich Werkzeuge für verantwortungsvolle Sicherheitsforschung weiter