7 Punkte von GN⁺ 2025-12-19 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Ein agentisches Coding-Modell für komplexe Entwicklungsaufgaben in der realen Welt, optimiert für die Codex-Umgebung
  • Hält durch Kontextkomprimierung in lang laufenden Aufgaben den Zusammenhang aufrecht und ist dadurch robuster bei großen Änderungen wie Refactorings und Migrationen
  • Umfassende Leistungsverbesserungen in nativen Windows-Umgebungen sowie stärkere Vision-Fähigkeiten zur Interpretation von Screenshots, technischen Zeichnungen, Diagrammen und UIs
  • Erreicht Spitzenleistung auf SWE-Bench Pro und Terminal-Bench 2.0
  • Führt ein Bereitstellungsmodell ein, das die Cybersecurity-Fähigkeiten für defensive Zwecke deutlich ausbaut und zugleich Missbrauchsrisiken durch priorisierte Verfügbarkeit für zahlende Nutzer und vertrauensbasierten Zugang berücksichtigt

Überblick

  • GPT-5.2-Codex wurde neu vorgestellt. Das Modell ist auf komplexe Software-Engineering-Aufgaben aus der realen Welt ausgelegt
  • Es basiert auf GPT-5.2 und ist für agentische Coding-Aufgaben in der Codex-Umgebung optimiert
  • Durch Kontextkomprimierung liefert es bei lang laufenden Aufgaben stabile Leistung, und seine Fähigkeiten für groß angelegte Codeänderungen wurden erweitert
  • In Windows-Umgebungen wurde die Gesamtleistung verbessert, zudem wurden die Cybersecurity-Fähigkeiten ausgebaut

Die Grenzen des Software Engineering erweitern

  • Das Modell wurde auf Grundlage der fachlichen Stärken von GPT-5.2 und der agentischen Coding- und Terminal-Nutzung von GPT-5.1-Codex-Max entwickelt
  • Ziel ist es, auf Basis von Langzeit-Kontextverständnis, stabilen Tool-Aufrufen, verbesserter Genauigkeit und nativer Kompaktion als verlässlicher Partner für lang laufende Coding-Aufgaben zu fungieren
  • Dazu gehört auch, die Token-Effizienz während des Reasonings aufrechtzuerhalten
  • Verbesserte Vision-Fähigkeiten erhöhen die Genauigkeit bei der Interpretation von Screenshots, technischen Zeichnungen, Diagrammen und UI-Ansichten, die während Coding-Sessions geteilt werden
  • Auf Basis der in GPT-5.1-Codex-Max eingeführten Funktionen führt es agentisches Coding auch nativ unter Windows effektiver und stabiler aus

Benchmark-Leistung

  • Erreicht Spitzenleistung auf SWE-Bench Pro und Terminal-Bench 2.0
    • SWE-Bench Pro bewertet die Erstellung von Patches zur Lösung realistischer Software-Engineering-Aufgaben auf Basis bereitgestellter Code-Repositories
    • Terminal-Bench 2.0 testet die Leistung von AI-Agenten in realen Terminal-Umgebungen und umfasst Aufgaben wie Code-Kompilierung, Modelltraining und Server-Konfiguration

Cybersecurity in der realen Welt

  • Zum Schutz zentraler Systeme und sensibler Daten der modernen Gesellschaft ist starke Cybersecurity unverzichtbar
  • Schwachstellen können lange unentdeckt bleiben, und ihre Entdeckung, Verifizierung und Behebung hängen stark von gut ausgestatteten Engineers und der Community unabhängiger Sicherheitsforscher ab
  • Im Fall der Offenlegung von drei Sicherheitslücken durch das React-Team am 11. Dezember 2025, die Apps auf Basis von React Server Components betrafen, erhielt nicht nur die Schwachstelle selbst, sondern auch der Entdeckungsprozess Aufmerksamkeit
  • Fallbeispiel zur Entdeckung von React-Schwachstellen

    • Andrew MacPherson, Sicherheitsforscher bei der Stripe-Tochter Privy, nutzte GPT-5.1-Codex-Max in der Codex CLI für die Analyse von React2Shell
    • Codex wurde in einem standardmäßigen Sicherheits-Workflow eingesetzt, darunter der Aufbau einer lokalen Testumgebung, die Analyse der Angriffsfläche und Fuzzing mit anomalen Eingaben
    • Bei der Reproduktion von React2Shell wurde unerwartetes Verhalten festgestellt, was innerhalb einer Woche zur Entdeckung von drei zuvor unbekannten Schwachstellen führte
    • Die entdeckten Schwachstellen wurden dem React-Team auf verantwortungsvolle Weise offengelegt
    • Eingeschlossen war auch die Freigabe einer Codex-Session als Beispiel dafür, wie stark sich der Verifizierungsprozess für Sicherheitsforscher verkürzen kann

Sich weiterentwickelnde Cybersecurity-Fähigkeiten

  • Seit GPT-5-Codex haben sich die Cybersecurity-Fähigkeiten deutlich verbessert, mit einem großen Sprung bei GPT-5.1-Codex-Max und klaren weiteren Fortschritten bei GPT-5.2-Codex
  • Es wird erwartet, dass künftige Modelle diesen Trend fortsetzen; Planung und Evaluierung erfolgen bereits unter der Annahme, dass in den Preparedness-Bewertungen die Stufe „hoch“ bei den Cybersecurity-Fähigkeiten erreicht werden könnte
  • GPT-5.2-Codex hat die Stufe „hoch“ noch nicht erreicht, die Vorbereitungen laufen jedoch bereits mit Blick auf künftige Modelle, die diesen Schwellenwert überschreiten könnten

Fazit

  • GPT-5.2-Codex zeigt, wie sich der Beitrag fortgeschrittener AI in den Bereichen Software Engineering und Cybersecurity erweitert
  • Es unterstützt Entwickler und Sicherheitsverantwortliche dabei, komplexe und langfristige Aufgaben zu bewältigen, und stärkt zugleich Werkzeuge für verantwortungsvolle Sicherheitsforschung weiter

Noch keine Kommentare.

Noch keine Kommentare.