7 Punkte von GN⁺ 2026-02-06 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Vereint die Coding-Leistung von GPT-5.2-Codex und das Schlussfolgern sowie Fachwissen von GPT-5.2 in einem Modell und bietet 25 % mehr Geschwindigkeit
  • Erweitert den agentischen Aufgabenbereich von Codex auf lang laufende Aufgaben und integriert interaktive Zusammenarbeit in Echtzeit in die Codex-App, sodass auch während der Arbeit die Richtung geändert und Feedback eingearbeitet werden kann
  • Das erste an seiner eigenen Entwicklung beteiligte Modell, dessen frühe Versionen direkt zum Debugging des eigenen Trainingsprozesses, zum Deployment-Management und zur Evaluationsdiagnostik eingesetzt wurden
  • Erreicht branchenführende Leistung in wichtigen Benchmarks wie SWE-Bench Pro, Terminal-Bench 2.0 und OSWorld und arbeitet dabei mit weniger Tokens als frühere Modelle
  • Unterstützt über das Schreiben von Code hinaus Wissensarbeit über den gesamten Software-Lebenszyklus hinweg, darunter Präsentationen, Tabellenkalkulationen und Datenanalyse

Überblick

  • GPT-5.3-Codex ist das „leistungsfähigste agentische Coding-Modell“
  • Vereint die Frontier-Coding-Leistung von GPT-5.2-Codex mit den Fähigkeiten von GPT-5.2 in Schlussfolgern und Fachwissen in einem Modell und steigert die Geschwindigkeit um 25 %
  • Entwickelt für die Ausführung von langfristigen Aufgaben mit Recherche, Tool-Nutzung und komplexer Ausführung, die sich auch während der Bearbeitung ohne Kontextverlust steuern lassen
  • War mit frühen Versionen an eigenem Training, Deployment und Evaluationsdiagnostik beteiligt und ist das erste Modell, das „seine eigene Entwicklung beschleunigt“ hat
  • Erweitert die Rolle von Codex von „Code schreiben und reviewen“ hin zu „fast allen Aufgaben, die Entwickler und Fachleute am Computer erledigen“

Frontier-agentische Fähigkeiten

  • Coding-Leistung

    • Erreicht Bestwerte bei SWE-Bench Pro (eine praxisnahe Software-Engineering-Evaluierung). Anders als SWE-Bench Verified, das nur Python testet, umfasst dieser Benchmark vier Sprachen, ist robuster gegen Kontamination und stärker industrienah
    • Übertrifft auch bei Terminal-Bench 2.0 die bisherige Bestleistung deutlich; der Benchmark misst die für Coding-Agenten nötigen Terminal-Fähigkeiten
    • Kann im Vergleich zu früheren Modellen dieselben Aufgaben mit weniger Tokens ausführen
  • Webentwicklung

    • Durch die Kombination aus Frontier-Coding-Fähigkeiten, verbessertem ästhetischem Gespür und Kompressionstechniken lassen sich komplexe Spiele und Apps über mehrere Tage hinweg von Grund auf erstellen
    • Zum Test von Webentwicklung und langfristigen agentischen Fähigkeiten wurden zwei Spiele gebaut: ein Rennspiel und ein Tauchspiel
      • Rennspiel: mehrere Fahrer, 8 Maps und per Leertaste nutzbare Items
      • Tauchspiel: Erkundung verschiedener Korallenriffe, Sammlung eines Fischlexikons sowie Management von Sauerstoff, Wasserdruck und Gefahren
    • Mit der Skill „develop web game“ und vorkonfigurierten allgemeinen Folge-Prompts wie „fix the bug“ und „improve the game“ verbesserte es sich über Millionen von Tokens hinweg autonom iterativ
    • Beim Erstellen alltäglicher Websites versteht es die Nutzerabsicht besser als GPT-5.2-Codex und wendet selbst bei einfachen oder unzureichenden Prompts automatisch mehr Funktionen und sinnvolle Standardwerte an
    • Beispiel für einen Landingpage-Vergleich: GPT-5.3-Codex zeigt automatisch einen Jahresplan als vergünstigten Monatspreis an und erstellt ein automatisch rotierendes Empfehlungs-Karussell mit drei Nutzerzitaten, was zu einem ausgereifteren Ergebnis führt
  • Fähigkeiten jenseits des Codings

    • Unterstützt den gesamten Software-Lebenszyklus, darunter Debugging, Deployment, Monitoring, Schreiben von PRDs, Copy-Editing, User Research, Tests und Metrikanalyse – also Aufgaben von Software Engineers, Designern, Produktmanagern und Data Scientists
    • Erweitert sich auch auf Bereiche außerhalb von Software, etwa die Erstellung von Foliendecks und die Analyse von Sheet-Daten
    • Erreicht bei GDPval (eine Evaluierung klar definierter Wissensarbeitsaufgaben in 44 Berufsfeldern) mit 70,9 % denselben Wert wie GPT-5.2
      • Einschließlich realer Arbeitsergebnisse wie Präsentationen und Tabellenkalkulationen
    • Zeigt verschiedene Beispiele für Outputs wie Finanzberatungsfolien, Schulungsunterlagen für den Einzelhandel, NPV-Analyse-Spreadsheets und Mode-Präsentations-PDFs
    • Erreicht bei OSWorld-Verified (ein Benchmark für agentische Computernutzung bei Produktivitätsaufgaben in visuellen Desktop-Umgebungen) 64,7 % und liegt damit deutlich über früheren GPT-Modellen (38,2 %)
      • Der menschliche Wert liegt bei etwa 72 %

Interaktiver Kollaborateur

  • Mit steigenden Modellfähigkeiten verschiebt sich die Kernfrage von dem, was ein Agent tun kann, hin zu der Frage, wie leicht Menschen viele parallel arbeitende Agenten anweisen und überwachen können
  • Die Codex-App erleichtert das Management und die Steuerung von Agenten und bietet mit GPT-5.3-Codex höhere Interaktivität
  • Während der Arbeit liefert das Modell häufige Updates zu wichtigen Entscheidungen und zum Fortschritt, sodass Nutzer nicht bis zum Endergebnis warten müssen, sondern in Echtzeit Fragen stellen, Ansätze diskutieren und die Richtung anpassen können
  • Es erklärt, woran es arbeitet, reagiert auf Feedback und hält die Nutzer von Anfang bis Ende im Loop
  • Einstellungspfad: Settings > General > Follow-up behavior, um Steering während der Modellarbeit zu aktivieren

Training und Deployment von GPT-5.3-Codex mit Codex

  • Die jüngsten schnellen Verbesserungen von Codex bauen auf Forschungsprojekten auf, die sich bei OpenAI über Monate bis Jahre erstrecken
  • Viele Forscher und Engineers bei OpenAI sagen, ihre heutige Arbeitsweise sei grundlegend anders als noch vor zwei Monaten
  • Schon frühe Versionen von GPT-5.3-Codex zeigten starke Fähigkeiten, sodass das Team diese frühen Versionen nutzte, um das Training und Deployment späterer Versionen zu unterstützen
  • Anwendungsfälle im Forschungsteam

    • Codex wurde zum Monitoring und Debugging von Training Runs für diese Veröffentlichung verwendet
    • Über das Debugging von Infrastrukturproblemen hinaus wurde es zum Verfolgen von Mustern im gesamten Trainingsprozess, für tiefgehende Analysen der Interaktionsqualität, für Änderungsvorschläge und zum präzisen Erfassen von Verhaltensunterschieden gegenüber früheren Modellen in umfangreichen Anwendungen eingesetzt
  • Anwendungsfälle im Engineering-Team

    • Codex wurde für die Optimierung und Anpassung des Harnesses für GPT-5.3-Codex eingesetzt
    • Wenn merkwürdige Edge Cases mit Nutzerwirkung auftraten, wurde Codex genutzt, um Bugs beim Context Rendering zu identifizieren und die Grundursachen niedriger Cache-Hit-Raten zu analysieren
    • Während des Releases half es fortlaufend bei dynamischer Skalierung von GPU-Clustern und der Stabilisierung der Latenz bei Traffic-Spitzen
  • Einsatz in Alpha-Tests

    • Ein Forscher wollte verstehen, wie viele zusätzliche Arbeitsschritte GPT-5.3-Codex pro Turn erledigt und wie sich das auf die Produktivität auswirkt
    • GPT-5.3-Codex entwickelte mehrere einfache Regex-Klassifikatoren, die Häufigkeit von Rückfragen, positive oder negative Antworten und den Arbeitsfortschritt schätzten, führte sie im großen Maßstab auf vollständigen Session-Logs aus und erstellte anschließend einen Abschlussbericht
    • Personen, die mit Codex bauten, waren zufriedener; der Agent verstand die Absicht besser, zeigte mehr Fortschritt pro Turn und stellte weniger Rückfragen
  • Aufbau einer Datenpipeline

    • Die Alpha-Test-Daten unterschieden sich stark von früheren Modellen, wodurch viele anormale und kontraintuitive Ergebnisse auftraten
    • Ein Data Scientist baute gemeinsam mit GPT-5.3-Codex eine neue Datenpipeline auf und erzeugte deutlich reichhaltigere Visualisierungen als mit Standard-Dashboard-Tools
    • Gemeinsam mit Codex wurden die Ergebnisse analysiert und zentrale Erkenntnisse aus Tausenden von Datenpunkten innerhalb von drei Minuten zusammengefasst

Sicherung der Cybersecurity-Frontier

  • In den vergangenen Monaten hat sich die Modellleistung bei Cybersecurity-Aufgaben deutlich verbessert, was sowohl Entwicklern als auch Sicherheitsexperten zugutekommt
  • Parallel dazu wurden verstärkte Cybersecurity-Sicherheitsmaßnahmen vorbereitet, um defensive Nutzung und die Resilienz des breiteren Ökosystems zu unterstützen
  • Unter dem Preparedness Framework ist es das erste Modell, das bei Cybersecurity-bezogenen Aufgaben als High eingestuft wurde, und das erste Modell, das direkt auf die Identifikation von Software-Schwachstellen trainiert wurde
  • Zwar gibt es keine schlüssigen Belege dafür, dass End-to-End-Automatisierung von Cyberangriffen möglich ist, doch verfolgt OpenAI einen präventiven Ansatz und setzt seinen bislang umfassendsten Cybersecurity-Safety-Stack ein
    • Einschließlich Safety-Training, automatisiertem Monitoring, vertrauensbasiertem Zugang zu erweiterten Funktionen und einer Enforcement-Pipeline mit Threat Intelligence
  • Angesichts der inhärenten Dual-Use-Eigenschaft von Cybersecurity verfolgt OpenAI einen evidenzbasierten iterativen Ansatz, der die Fähigkeiten von Verteidigern zur Erkennung und Behebung von Schwachstellen beschleunigen und zugleich Missbrauch verzögern soll
  • Programme für defensive Forschung und Ökosystemschutz

    • Start des Pilotprogramms Trusted Access for Cyber zur Beschleunigung defensiver Cyberforschung
    • Ausweitung der Private Beta des Security-Research-Agenten Aardvark, des ersten Angebots der Codex-Security-Produktlinie
    • Zusammenarbeit mit Open-Source-Maintainern, um häufig genutzten Projekten (z. B. Next.js) kostenlose Codebase-Scans bereitzustellen
      • Ein Sicherheitsforscher entdeckte mit Codex in der vergangenen Woche offengelegte Schwachstellen (CVE-2025-59471, CVE-2025-59472)
    • Aufbauend auf dem 2023 gestarteten Cybersecurity-Förderprogramm im Umfang von 1 Million US-Dollar investiert OpenAI zusätzlich 10 Millionen US-Dollar an API-Credits, um Cyberabwehr mit den leistungsstärksten Modellen zu beschleunigen
      • Besonders für Open-Source-Software und kritische Infrastruktursysteme
      • Organisationen, die sich an gutgläubiger Sicherheitsforschung beteiligen, können über das Cybersecurity Grant Program API-Credits und Unterstützung beantragen

Verfügbarkeit und Details

  • GPT-5.3-Codex ist in kostenpflichtigen ChatGPT-Plänen verfügbar und überall nutzbar, wo Codex unterstützt wird (App, CLI, IDE-Erweiterung, Web)
  • Der API-Zugang wird derzeit für eine sichere Aktivierung vorbereitet
  • Dank Verbesserungen an Infrastruktur und Inferenz-Stack läuft es für Codex-Nutzer mit 25 % höherer Geschwindigkeit und liefert schnellere Interaktionen und Ergebnisse
  • Gemeinsam konzipiert, trainiert und ausgeliefert auf NVIDIA GB200 NVL72-Systemen

Weitere Richtung

  • Codex entwickelt sich über das Schreiben von Code hinaus in Richtung eines Systems, das Code als Werkzeug nutzt, um Computer zu bedienen und Aufgaben von Anfang bis Ende abzuschließen
  • Durch die Erweiterung der Frontier von Coding-Agenten erschließt es nicht nur Softwareentwicklung und -Deployment, sondern auch breitere Bereiche der Wissensarbeit wie Forschung, Analyse und die Ausführung komplexer Aufgaben
  • Vom besten Coding-Agenten ausgehend entwickelt es sich zu einem allgemeinen Kollaborateur am Computer und erweitert damit sowohl das, was gebaut werden kann, als auch den Kreis der Menschen, die es bauen können

Appendix: Benchmark-Zahlen

  • Alle Evaluierungen wurden mit xhigh reasoning effort ausgeführt
  • SWE-Bench Pro(Public): GPT-5.3-Codex 56.8% / GPT-5.2-Codex 56.4% / GPT-5.2 55.6%
  • Terminal-Bench 2.0: GPT-5.3-Codex 77.3% / GPT-5.2-Codex 64.0% / GPT-5.2 62.2%
  • OSWorld-Verified: GPT-5.3-Codex 64.7% / GPT-5.2-Codex 38.2% / GPT-5.2 37.9%
  • GDPval(Sieg oder Gleichstand): GPT-5.3-Codex 70.9% / GPT-5.2 70.9%(high)
  • Cybersecurity Capture The Flag Challenges: GPT-5.3-Codex 77.6% / GPT-5.2-Codex 67.4% / GPT-5.2 67.7%
  • SWE-Lancer IC Diamond: GPT-5.3-Codex 81.4% / GPT-5.2-Codex 76.0% / GPT-5.2 74.6%

Noch keine Kommentare.

Noch keine Kommentare.