- Ein agentisches Coding-Modell für komplexe Entwicklungsaufgaben in der realen Welt, optimiert für die Codex-Umgebung
- Hält durch Kontextkomprimierung in lang laufenden Aufgaben den Zusammenhang aufrecht und ist dadurch robuster bei großen Änderungen wie Refactorings und Migrationen
- Umfassende Leistungsverbesserungen in nativen Windows-Umgebungen sowie stärkere Vision-Fähigkeiten zur Interpretation von Screenshots, technischen Zeichnungen, Diagrammen und UIs
- Erreicht Spitzenleistung auf SWE-Bench Pro und Terminal-Bench 2.0
- Führt ein Bereitstellungsmodell ein, das die Cybersecurity-Fähigkeiten für defensive Zwecke deutlich ausbaut und zugleich Missbrauchsrisiken durch priorisierte Verfügbarkeit für zahlende Nutzer und vertrauensbasierten Zugang berücksichtigt
Überblick
- GPT-5.2-Codex wurde neu vorgestellt. Das Modell ist auf komplexe Software-Engineering-Aufgaben aus der realen Welt ausgelegt
- Es basiert auf GPT-5.2 und ist für agentische Coding-Aufgaben in der Codex-Umgebung optimiert
- Durch Kontextkomprimierung liefert es bei lang laufenden Aufgaben stabile Leistung, und seine Fähigkeiten für groß angelegte Codeänderungen wurden erweitert
- In Windows-Umgebungen wurde die Gesamtleistung verbessert, zudem wurden die Cybersecurity-Fähigkeiten ausgebaut
Die Grenzen des Software Engineering erweitern
- Das Modell wurde auf Grundlage der fachlichen Stärken von GPT-5.2 und der agentischen Coding- und Terminal-Nutzung von GPT-5.1-Codex-Max entwickelt
- Ziel ist es, auf Basis von Langzeit-Kontextverständnis, stabilen Tool-Aufrufen, verbesserter Genauigkeit und nativer Kompaktion als verlässlicher Partner für lang laufende Coding-Aufgaben zu fungieren
- Dazu gehört auch, die Token-Effizienz während des Reasonings aufrechtzuerhalten
- Verbesserte Vision-Fähigkeiten erhöhen die Genauigkeit bei der Interpretation von Screenshots, technischen Zeichnungen, Diagrammen und UI-Ansichten, die während Coding-Sessions geteilt werden
- Auf Basis der in GPT-5.1-Codex-Max eingeführten Funktionen führt es agentisches Coding auch nativ unter Windows effektiver und stabiler aus
Benchmark-Leistung
- Erreicht Spitzenleistung auf SWE-Bench Pro und Terminal-Bench 2.0
- SWE-Bench Pro bewertet die Erstellung von Patches zur Lösung realistischer Software-Engineering-Aufgaben auf Basis bereitgestellter Code-Repositories
- Terminal-Bench 2.0 testet die Leistung von AI-Agenten in realen Terminal-Umgebungen und umfasst Aufgaben wie Code-Kompilierung, Modelltraining und Server-Konfiguration
Cybersecurity in der realen Welt
- Zum Schutz zentraler Systeme und sensibler Daten der modernen Gesellschaft ist starke Cybersecurity unverzichtbar
- Schwachstellen können lange unentdeckt bleiben, und ihre Entdeckung, Verifizierung und Behebung hängen stark von gut ausgestatteten Engineers und der Community unabhängiger Sicherheitsforscher ab
- Im Fall der Offenlegung von drei Sicherheitslücken durch das React-Team am 11. Dezember 2025, die Apps auf Basis von React Server Components betrafen, erhielt nicht nur die Schwachstelle selbst, sondern auch der Entdeckungsprozess Aufmerksamkeit
-
Fallbeispiel zur Entdeckung von React-Schwachstellen
- Andrew MacPherson, Sicherheitsforscher bei der Stripe-Tochter Privy, nutzte GPT-5.1-Codex-Max in der Codex CLI für die Analyse von React2Shell
- Codex wurde in einem standardmäßigen Sicherheits-Workflow eingesetzt, darunter der Aufbau einer lokalen Testumgebung, die Analyse der Angriffsfläche und Fuzzing mit anomalen Eingaben
- Bei der Reproduktion von React2Shell wurde unerwartetes Verhalten festgestellt, was innerhalb einer Woche zur Entdeckung von drei zuvor unbekannten Schwachstellen führte
- Die entdeckten Schwachstellen wurden dem React-Team auf verantwortungsvolle Weise offengelegt
- Eingeschlossen war auch die Freigabe einer Codex-Session als Beispiel dafür, wie stark sich der Verifizierungsprozess für Sicherheitsforscher verkürzen kann
Sich weiterentwickelnde Cybersecurity-Fähigkeiten
- Seit GPT-5-Codex haben sich die Cybersecurity-Fähigkeiten deutlich verbessert, mit einem großen Sprung bei GPT-5.1-Codex-Max und klaren weiteren Fortschritten bei GPT-5.2-Codex
- Es wird erwartet, dass künftige Modelle diesen Trend fortsetzen; Planung und Evaluierung erfolgen bereits unter der Annahme, dass in den Preparedness-Bewertungen die Stufe „hoch“ bei den Cybersecurity-Fähigkeiten erreicht werden könnte
- GPT-5.2-Codex hat die Stufe „hoch“ noch nicht erreicht, die Vorbereitungen laufen jedoch bereits mit Blick auf künftige Modelle, die diesen Schwellenwert überschreiten könnten
Fazit
- GPT-5.2-Codex zeigt, wie sich der Beitrag fortgeschrittener AI in den Bereichen Software Engineering und Cybersecurity erweitert
- Es unterstützt Entwickler und Sicherheitsverantwortliche dabei, komplexe und langfristige Aufgaben zu bewältigen, und stärkt zugleich Werkzeuge für verantwortungsvolle Sicherheitsforschung weiter
Noch keine Kommentare.