7 Punkte von GN⁺ 2025-12-19 | 1 Kommentare | Auf WhatsApp teilen
  • Ein agentisches Coding-Modell für komplexe Entwicklungsaufgaben in der realen Welt, optimiert für die Codex-Umgebung
  • Hält durch Kontextkomprimierung in lang laufenden Aufgaben den Zusammenhang aufrecht und ist dadurch robuster bei großen Änderungen wie Refactorings und Migrationen
  • Umfassende Leistungsverbesserungen in nativen Windows-Umgebungen sowie stärkere Vision-Fähigkeiten zur Interpretation von Screenshots, technischen Zeichnungen, Diagrammen und UIs
  • Erreicht Spitzenleistung auf SWE-Bench Pro und Terminal-Bench 2.0
  • Führt ein Bereitstellungsmodell ein, das die Cybersecurity-Fähigkeiten für defensive Zwecke deutlich ausbaut und zugleich Missbrauchsrisiken durch priorisierte Verfügbarkeit für zahlende Nutzer und vertrauensbasierten Zugang berücksichtigt

Überblick

  • GPT-5.2-Codex wurde neu vorgestellt. Das Modell ist auf komplexe Software-Engineering-Aufgaben aus der realen Welt ausgelegt
  • Es basiert auf GPT-5.2 und ist für agentische Coding-Aufgaben in der Codex-Umgebung optimiert
  • Durch Kontextkomprimierung liefert es bei lang laufenden Aufgaben stabile Leistung, und seine Fähigkeiten für groß angelegte Codeänderungen wurden erweitert
  • In Windows-Umgebungen wurde die Gesamtleistung verbessert, zudem wurden die Cybersecurity-Fähigkeiten ausgebaut

Die Grenzen des Software Engineering erweitern

  • Das Modell wurde auf Grundlage der fachlichen Stärken von GPT-5.2 und der agentischen Coding- und Terminal-Nutzung von GPT-5.1-Codex-Max entwickelt
  • Ziel ist es, auf Basis von Langzeit-Kontextverständnis, stabilen Tool-Aufrufen, verbesserter Genauigkeit und nativer Kompaktion als verlässlicher Partner für lang laufende Coding-Aufgaben zu fungieren
  • Dazu gehört auch, die Token-Effizienz während des Reasonings aufrechtzuerhalten
  • Verbesserte Vision-Fähigkeiten erhöhen die Genauigkeit bei der Interpretation von Screenshots, technischen Zeichnungen, Diagrammen und UI-Ansichten, die während Coding-Sessions geteilt werden
  • Auf Basis der in GPT-5.1-Codex-Max eingeführten Funktionen führt es agentisches Coding auch nativ unter Windows effektiver und stabiler aus

Benchmark-Leistung

  • Erreicht Spitzenleistung auf SWE-Bench Pro und Terminal-Bench 2.0
    • SWE-Bench Pro bewertet die Erstellung von Patches zur Lösung realistischer Software-Engineering-Aufgaben auf Basis bereitgestellter Code-Repositories
    • Terminal-Bench 2.0 testet die Leistung von AI-Agenten in realen Terminal-Umgebungen und umfasst Aufgaben wie Code-Kompilierung, Modelltraining und Server-Konfiguration

Cybersecurity in der realen Welt

  • Zum Schutz zentraler Systeme und sensibler Daten der modernen Gesellschaft ist starke Cybersecurity unverzichtbar
  • Schwachstellen können lange unentdeckt bleiben, und ihre Entdeckung, Verifizierung und Behebung hängen stark von gut ausgestatteten Engineers und der Community unabhängiger Sicherheitsforscher ab
  • Im Fall der Offenlegung von drei Sicherheitslücken durch das React-Team am 11. Dezember 2025, die Apps auf Basis von React Server Components betrafen, erhielt nicht nur die Schwachstelle selbst, sondern auch der Entdeckungsprozess Aufmerksamkeit
  • Fallbeispiel zur Entdeckung von React-Schwachstellen

    • Andrew MacPherson, Sicherheitsforscher bei der Stripe-Tochter Privy, nutzte GPT-5.1-Codex-Max in der Codex CLI für die Analyse von React2Shell
    • Codex wurde in einem standardmäßigen Sicherheits-Workflow eingesetzt, darunter der Aufbau einer lokalen Testumgebung, die Analyse der Angriffsfläche und Fuzzing mit anomalen Eingaben
    • Bei der Reproduktion von React2Shell wurde unerwartetes Verhalten festgestellt, was innerhalb einer Woche zur Entdeckung von drei zuvor unbekannten Schwachstellen führte
    • Die entdeckten Schwachstellen wurden dem React-Team auf verantwortungsvolle Weise offengelegt
    • Eingeschlossen war auch die Freigabe einer Codex-Session als Beispiel dafür, wie stark sich der Verifizierungsprozess für Sicherheitsforscher verkürzen kann

Sich weiterentwickelnde Cybersecurity-Fähigkeiten

  • Seit GPT-5-Codex haben sich die Cybersecurity-Fähigkeiten deutlich verbessert, mit einem großen Sprung bei GPT-5.1-Codex-Max und klaren weiteren Fortschritten bei GPT-5.2-Codex
  • Es wird erwartet, dass künftige Modelle diesen Trend fortsetzen; Planung und Evaluierung erfolgen bereits unter der Annahme, dass in den Preparedness-Bewertungen die Stufe „hoch“ bei den Cybersecurity-Fähigkeiten erreicht werden könnte
  • GPT-5.2-Codex hat die Stufe „hoch“ noch nicht erreicht, die Vorbereitungen laufen jedoch bereits mit Blick auf künftige Modelle, die diesen Schwellenwert überschreiten könnten

Fazit

  • GPT-5.2-Codex zeigt, wie sich der Beitrag fortgeschrittener AI in den Bereichen Software Engineering und Cybersecurity erweitert
  • Es unterstützt Entwickler und Sicherheitsverantwortliche dabei, komplexe und langfristige Aufgaben zu bewältigen, und stärkt zugleich Werkzeuge für verantwortungsvolle Sicherheitsforschung weiter

1 Kommentare

 
GN⁺ 2025-12-19
Hacker-News-Kommentare
  • Falls jemand von OpenAI mitliest: Bitte fasst die Reasoning-Fähigkeiten nicht an
    Codex ist wirklich hervorragend darin, Bugs und Inkonsistenzen in Code oder Mathematik zu finden
    Wenn Claude Code stark bei der „Codegenerierung“ ist, dann sind Codex/GPT5.x bei der Problemerkennung klar überlegen
    Ich finde Qualität wichtiger als Geschwindigkeit

    • Wenn man solche präzise Problemerkennung nur ein paarmal am Tag braucht, frage ich mich, ob der 20-Dollar-Plan ausreicht oder ob man den 200-Dollar-Plan braucht
    • Ich denke, das Problem ist, dass „Qualität zuerst“ am Ende „höhere Kosten“ bedeutet und es schwer ist, diese Zusatzkosten an Kunden weiterzugeben
    • Ich nutze auch hauptsächlich Claude Code, aber wenn ich Codex für Code-Reviews mitlaufen lasse, ist es bei der Analyse von Abläufen und dem Aufspüren subtiler Bugs wirklich deutlich überlegen
    • Es ist erstaunlich zu sehen, wie der „Advanced-Reasoning-Modus“ feine Bugs im Code aufspürt
    • Das Problem ist, dass Codex zu genau ist und mich ständig auf Memory-Bugs hinweist, die ich eigentlich beheben sollte. Dadurch werde ich langsamer
  • Anfangs war ich bei Codex skeptisch, aber inzwischen beginne ich alle Coding-Aufgaben mit Codex
    Es ist nicht perfekt, aber beim Refactoring, beim Start neuer Projekte oder beim Arbeiten mit unbekannten Technologien liefert es erstaunliche Ergebnisse
    Vor allem hilft es gegen Prokrastination. Selbst große, überwältigende Aufgaben kann man Codex geben, und es erzeugt einen guten Ausgangspunkt

    • Stimme völlig zu. Ich war anfangs auch skeptisch, aber nachdem ich Opus 4.5 ausprobiert hatte, war ich schockiert
      Codex 5.2 hat sich qualitativ stark verbessert, und inzwischen überlasse ich ihm das eigentliche Schreiben des Codes
      Wenn man es auch noch für Planung und Architekturdiskussionen einsetzt, gibt es kaum noch einen Grund, selbst Code zu schreiben
    • Im obigen Thread heißt es, Codex sei schwach beim Debugging, aber in anderen Threads liest man genau das Gegenteil
      Interessant ist letztlich, wie schwierig objektive Leistungsmessung hier ist
    • Ich kann nachvollziehen, dass Codex Prokrastination reduziert
      Aber die Geschwindigkeit des Feedback-Loops ist entscheidend. Je schneller Build und Tests sind, desto effizienter werden agentische Coding-Tools
      Klare Anweisungen wie Agents.md helfen dabei
    • Wenn man Modellleistung vergleicht, gibt es zu viele Variablen wie Prompts, Aufgabentypen und Modellversionen, daher ist eine qualitative Bewertung schwierig
    • Ich habe auch Claude Code benutzt und würde gern Erfahrungen mit einem Vergleich zu Codex hören
  • Ich bin von Claude Code zum Codex CLI gewechselt und habe eine containerbasierte Codex-Laufzeitumgebung aufgebaut
    Sie kann auf viele Arten ausgeführt werden, etwa per Timer, Dateitrigger, API-Aufruf oder im CLI-Modus
    codex-container enthält mehr als 300 MCP-Tools
    Unterstützt werden unter anderem Crawling, Google-Suche, Gmail/GCal/GDrive, Slack, Embeddings und Transkription
    Sicherheitskritische Aufgaben teste ich dank Container-Isolation sicher
    Mit gnosis-crawl ist auch Crawling mit Headless Browsern möglich

    • Sieht gut aus, aber wenn ich PowerShell als Abhängigkeit installieren muss, würde ich es wohl nicht nutzen
    • Ich frage mich, ob die MCP-Tools nicht alle gleichzeitig laufen, sondern ob sie als Bibliothek strukturiert sind, sodass man nur das nutzt, was man braucht
  • Meiner Erfahrung nach sind GPT-Modelle für Backend-Entwicklung viel besser geeignet als Claude
    Sie sind langsamer, aber die Logik ist klarer und die Wartbarkeit höher
    Ich nutze ein Muster, bei dem ich mit Claude plane, mit Codex umsetze und danach wieder Claude für den Code-Review verwende
    Es wäre schön, wenn Codex CLI gleichzeitig mit npm auch bei homebrew aktualisiert würde

    • GPT‑5 hat mir zum ersten Mal Code geliefert, den ich ohne Änderungen direkt deployen konnte
      Claude hat immer noch zu viel unnötigen Ballast und overengineert
    • Meiner Erfahrung nach ist Codex bei der Qualität von Code-Reviews viel besser als Claude
      Claude weist auf Kleinigkeiten hin, aber Codex findet die wirklich wichtigen Probleme
    • Seit Opus 4.5 scheint sich auch Claude ziemlich verbessert zu haben
  • Aus Sicherheitsperspektive ist es schade, dass OpenAI-Modelle bei offensiven Aufgaben zu stark eingeschränkt werden
    Für Verteidigung braucht man meiner Meinung nach ein gewisses Maß an offensiver Simulation

    • Ich führe Angriffstests in einer Multi-Agenten-Architektur mit GPT‑5 als Backend durch, und das funktioniert ohne Einschränkungen gut
    • Sowohl ChatGPT als auch Codex arbeiten bei offensiven Sicherheitstests gut mit
    • Laut Artikel werden permissivere Modelle auf Einladungsbasis angeboten
      Ich halte es für einen vernünftigen Ansatz, nur vertrauenswürdigen Experten Zugriff zu geben
    • Auf die Frage, ob stärkere Blackhat-Funktionen der Sicherheit helfen, würde ich sagen: Es braucht ein Gleichgewicht
    • Ich mache ebenfalls täglich offensive Tests mit OpenAI-Modellen und hatte nie Probleme
  • Interessant, dass „Cybersicherheit“ so stark in den Vordergrund gestellt wird
    Die Automatisierung von Sicherheitsanalysen hat den Kipppunkt bereits überschritten, und ich denke, wichtiger als Modellfortschritte ist inzwischen die Automatisierung wiederkehrender Aufgaben
    Der Großteil der Schwachstellenanalyse besteht aus einfachen, automatisierbaren Arbeiten, und wenn man diese entfernt, können sich Menschen auf kreative Analyse konzentrieren

  • Für mich ist Codex immer schwächer als das Basismodell
    Im CLI versucht es zu hastig, Code zu schreiben
    Selbst wenn ich nur eine Frage stelle, will es Dateien ändern, was unpraktisch ist

    • Wenn man ausdrücklich sagt: „Schreib noch keinen Code, lass uns erst reden“, funktioniert es gut
    • In der Recherche- und Planungsphase ist es effizienter, Nicht-Codex-Modelle zu nutzen und Codex erst in der Umsetzungsphase einzusetzen
    • Ich habe dieselbe Erfahrung gemacht. Codex ist funktional korrekt, aber der Code wirkt seltsam oder unordentlich
    • Derzeit wird ein Plan-Modus entwickelt, der dieses Problem voraussichtlich abmildern wird
      Im Moment lässt es sich einigermaßen steuern, wenn man darum bittet, nur .md-Dateien zu bearbeiten
    • CodexTheModel ist schnell, aber ich priorisiere Qualität, daher bevorzuge ich das Basismodell
  • Die Politik, Modellzugang für Sicherheitsforschung per Einladung zu gewähren, erscheint mir vernünftig
    Wenn das „Safety-Alignment“ zu stark ist, kann die Fähigkeit zur Sicherheitsanalyse leiden
    Wenn nur ein KYC-Verfahren durchlaufen werden muss, könnte man positive Forschungsergebnisse erzielen und zugleich die Risikoexposition verringern

  • Das Risiko des Dual Use bedeutet weniger neue Angriffstechniken als vielmehr, die Ausführungshürde zu senken
    Dieselbe Funktion kann Verteidigern bei der Schwachstellenanalyse helfen, für Angreifer aber zu einem automatisierten Angriffswerkzeug werden
    Deshalb sind Auslieferungskontrolle und Logging wichtig

    • Ob eine Anfrage zur „Überprüfung von Sicherheitslücken“ von einem Maintainer oder von einem Angreifer kommt, macht beim Ergebnis einen vollständigen Unterschied
    • Wenn man Schwachstellen finden und patchen kann, bedeutet das gleichzeitig auch ein höheres Missbrauchspotenzial
    • Letztlich heißt das, dass dieses Modell für Red Team und Blue Team gleichermaßen nützlich ist
    • Wenn ein Modell besonders gut darin ist, Sicherheitslücken aufzuspüren, heißt das auch, dass es sich zur Automatisierung von Angriffen einsetzen lässt
  • Ich habe GPT‑5.1 mit dem Codex-Plugin in VSCode benutzt, und das war wirklich eine magische Erfahrung
    Bei 5.2 spüre ich bisher noch keinen großen Unterschied, aber wenn die Funktionen auf das Niveau von Cursor oder Kilo Code ausgebaut werden, dürfte es noch besser werden
    Früher dachte ich, OpenAI sei zurückgefallen, aber 5.1 ist Gemini weit überlegen