- OpenAI hat den auf Software Engineering spezialisierten Agenten Codex veröffentlicht, der wiederkehrende Aufgaben, das Schreiben von Code und PR-Vorschläge automatisieren kann
- Codex arbeitet in einer isolierten Cloud-Sandbox-Umgebung und ermöglicht durch Tests und Logging eine transparente Überprüfung der Ergebnisse
- Über die Datei AGENTS.md lassen sich projektspezifische Konventionen und Testverfahren für Codex festlegen, sodass eine Optimierung für die jeweilige Codebasis möglich ist
- Mit Codex CLI wird auch eine CLI-Version bereitgestellt, sodass sich der Agent auch in lokalen Entwicklungsumgebungen nutzen lässt
- Die erste Bereitstellung erfolgt für ChatGPT Pro, Team und Enterprise; später soll sie auch auf Plus- und Edu-Nutzer ausgeweitet werden
Introducing Codex
Was ist Codex?
- Codex ist ein in der Cloud laufender Software-Engineering-Agent, der die Codebasis eines Nutzers lesen und verschiedene Aufgaben automatisch ausführen kann
- Er kann parallel neue Code-Funktionen hinzufügen, Fragen beantworten, Bugs beheben und PR-Vorschläge erstellen
- Jede Aufgabe wird unabhängig in einer isolierten Sandbox-Umgebung ausgeführt, wobei das Nutzer-Repository bereits vorgeladen ist
Funktionsweise
- Über die Codex-Funktion in der ChatGPT-Seitenleiste lassen sich Aufgaben mit den Befehlen „Code“ oder „Ask“ starten
- Dateien können gelesen und bearbeitet sowie Befehle für Tests, Linter, Type-Checker und mehr ausgeführt werden
- Aufgaben werden in der Regel innerhalb von 1~30 Minuten abgeschlossen, und der Fortschritt lässt sich in Echtzeit verfolgen
- Nach Abschluss erstellt Codex einen Commit und erläutert die Änderungen transparent unter Verweis auf Terminal-Logs und Testausgaben
- Nach der Prüfung der Ergebnisse ist die Erstellung eines GitHub-PRs oder die direkte Integration möglich
Datei AGENTS.md
- Die im Projekt abgelegte AGENTS.md weist Codex an, wie die Codebasis erkundet und getestet werden soll
- Das Dokument ähnelt in seinem Format einer README und kann Code-Stil, Ausführungsbefehle und das Format von PR-Nachrichten enthalten
- Dateien in tiefer liegenden Verzeichnissen haben Vorrang, und alle angegebenen Tests müssen ausgeführt werden
- Codex folgt außerdem der Regel, dass ein expliziter Prompt Vorrang vor AGENTS.md hat
Leistung in internen Benchmarks
- Im internen SWE-Benchmark von OpenAI erreichte codex-1 mit bis zu 192k Token und bei mittlerem Schwierigkeitsgrad eine hohe Genauigkeit
- Auch ohne AGENTS.md zeigt das Modell eine starke Leistung und kann Ergebnisse erzeugen, die dem von Menschen geschriebenen Code-Stil sehr nahekommen
Sicherheit und Zuverlässigkeit
- Codex wurde mit Fokus auf mehr Transparenz und Sicherheit entwickelt, und seine Ausgaben lassen sich überprüfen
- Während der Ausführung ist die Internetverbindung blockiert, und nur auf das angegebene Repository sowie dessen Abhängigkeiten kann zugegriffen werden
- Das Modell wurde so trainiert, dass es die Entwicklung von Schadcode blockiert, legitime Aufgaben auf Kernel-Ebene jedoch zulässt
Erste Anwendungsfälle
-
Intern bei OpenAI wird Codex bereits für wiederkehrendes Refactoring, das Schreiben von Tests und Dokumentation eingesetzt
-
Beispiele externer Partner:
- Cisco: Tests und Feedback für den Einsatz in realen Produkten bereitgestellt
- Temporal: Einsatz für Debugging, Testausführung und Refactoring in großen Codebasen
- Superhuman: Unterstützung bei QA, der Behebung von Integrationsfehlern und kleineren Code-Änderungen durch PMs
- Kodiak: Unterstützung bei Code-Analyse und Tool-Entwicklung für autonome Fahrtechnik
Updates für Codex CLI
- Codex CLI ist ein leichtgewichtiger, terminalbasierter Coding-Agent, der lokal mit den Modellen o3 und o4-mini arbeiten kann
- Mit diesem Update wird das auf o4-mini basierende Modell codex-mini eingeführt, optimiert für die CLI und mit geringer Latenz
- Beim Login mit einem ChatGPT-Konto werden API-Schlüssel automatisch eingerichtet, zudem gibt es kostenlose Credits für Plus- und Pro-Nutzer
Preise und Verfügbarkeit
- Codex ist derzeit für Pro-, Enterprise- und Team-Nutzer verfügbar; Plus und Edu sollen bald folgen
- Anfangs ist die Nutzung ohne zusätzliche Kosten möglich, später ist ein nutzungsbasiertes Preismodell geplant
codex-mini-latestkostet 1,50 $ pro 1M Eingabe-Token und 6 $ pro Ausgabe-Token, mit 75 % Rabatt auf Prompt-Caching
Ausblick
- Langfristig soll sich Codex zu einem asynchronen kollaborativen Agenten weiterentwickeln
- Geplant sind tiefere Integrationen mit Codex CLI, ChatGPT Desktop, Issue-Trackern und CI-Tools
- Künftig sollen Zwischenfeedback, Diskussionen über Implementierungsstrategien und proaktive Fortschrittsberichte hinzukommen
- OpenAI erwartet eine Zukunft, in der Entwickler mit Hilfe von KI schneller und fokussierter programmieren können
Anhang: Zusammenfassung der Systemnachricht von codex-1
- Vor und nach jeder Aufgabe muss der Git-Status geprüft und der Zustand unbedingt als abgeschlossener Commit erhalten werden
- Die in AGENTS.md festgelegten Validierungsschritte müssen auch bei kleinen Änderungen vollständig ausgeführt werden
- Beim Erstellen eines PRs gelten Regeln für datei- und terminalbasierte Zitate (z. B.
【F:main.py†L12】) - Inhalte aus früheren PRs oder Kommentaren dürfen nicht zitiert werden; erlaubt sind ausschließlich Dateien und Terminal-Ergebnisse
Diese Systemnachricht dient dazu, das Standardverhalten des Modells zu verstehen und für die Anpassung von Codex zu nutzen.
2 Kommentare
Endlich ist ein Agent der nächsten Generation erschienen, der sich von der Generation von Cursor, Cline und ähnlichen Tools unterscheiden lässt. Ich bin gespannt, wie viel schneller sich die Geschwindigkeit von Software-Veränderungen in der Welt noch erhöhen wird. Und auch auf das Erscheinen der nächsten Generation von Agenten danach.
Hacker-News-Kommentare
Ein Erfahrungsbericht aus dem Alpha-Test von Codex bei Assembled zusammen mit einigen Ingenieuren des Teams: Da zuvor schon lange lokale Agenten wie Cursor und Claude Code genutzt wurden, waren die Erwartungen nicht allzu hoch, doch die Fähigkeit von Codex zur parallelen Ausführung von Aufgaben habe beeindruckt. Mehrere Refactorings, Tests und Boilerplate-Arbeiten lassen sich auf einmal bündeln und ohne Kontextwechsel gleichzeitig ausführen. Bisherige Lösungen hätten das nur schwer geschafft, während Codex, wenn man Aufgaben bestimmten Dateien oder Funktionen zuweist, das meiste PR-Scaffolding automatisch erledige — fast so, als hätte man unendlich viele Junior-Ingenieure. Bis etwas tatsächlich in Produktion geht, sei aber weiterhin viel Nacharbeit nötig. Die Modellqualität sei ordentlich, doch im direkten Vergleich mit Cursor, Gemini 2.5-pro und anderen gebe es bei Stil, Logik oder Klarheit der Benennungen keinen klaren Vorsprung; der Eindruck sei eher, dass die Erwartungen „erfüllt“ werden.
Es wird die Frage aufgeworfen, woher künftige Senior-Ingenieure kommen sollen, wenn man für solche Arbeiten keine Junior-Ingenieure mehr einstellt. Die Tochter eines Kommentators habe kürzlich Informatik an einer guten Universität abgeschlossen, doch auf dem Arbeitsmarkt gebe es deutlich mehr Nachfrage nach Senior-Ingenieuren als nach Einstiegspositionen. Als das eigene Unternehmen vor Kurzem eine Ausschreibung für eine Junior-Position veröffentlicht habe, sei eine Flut an Bewerbungen eingegangen, sodass schon eine faire Bewertung kaum möglich gewesen sei. Letztlich hätten die Freunde der Tochter, die einen Job gefunden hätten, diesen meist über Kontakte bekommen.
Derzeit trügen Millionen Ingenieure zu Github Open Source bei, und ein faszinierender Kreislauf entstehe: Herausragende Talente nutzten diesen Code, um AI-Modelle zu entwickeln, die dann wiederum genau diese Ingenieure ersetzten. Je mehr Open-Source-Beiträge es gebe, desto einfacher werde auch die Ersetzung entsprechender Tätigkeiten — ein grundlegendes Dilemma. Es wird gefragt, ob die Motivation für Open-Source-Beiträge mit der Zeit nicht schwächer werde. Man habe geglaubt, kreativ zu arbeiten, verbringe aber tatsächlich den Großteil der Zeit mit repetitiven und vorhersagbaren Kombinationen von Wissen, und genau diese Art von Arbeit könne AI gut ersetzen. In einer optimistischen Sichtweise müsse man langfristig interessantere Arbeit schaffen, doch in der näheren Zukunft würden wegen eines Überangebots an Softwareingenieuren und zu geringer Nachfrage wohl mehrere schmerzhafte Jahre bevorstehen.
Es wird infrage gestellt, warum die parallele Ausführung von Aufgaben bei Codex so wichtig sein soll. Dass ein LLM Code schreibt, dauere in der Praxis nur wenige Sekunden; die wirklich zeitaufwendigen Teile seien die Spezifikation der Aufgabe sowie Review und Überarbeitung. Welchen Nutzen es bringe, gerade den schnellsten Teil zu parallelisieren, sei daher unklar.
Da Junior-Entwickler nicht vollständig autonom seien, gehe letztlich viel Zeit für ihre Betreuung und Code-Reviews drauf. Selbst wenn man viele Junioren habe, werde dieser Managementaufwand leicht zum Engpass. Deshalb wird gefragt, ob es nicht ebenso belastend werde, viele virtuelle Entwickler wie Codex zu steuern, oder ob deren Autonomie tatsächlich hoch genug sei.
Aus der Sicht eines langjährigen Nutzers von Cursor und Claude Code werden die Stärken und Grenzen von Claude Code sowie die Frage thematisiert, ob die parallele Ausführung von Aufgaben bei Codex im Vergleich wirklich einen großen Unterschied mache. Da auch das kürzlich erschienene Codex CLI eher enttäuschend gewesen sei, bestehe Interesse an den Erfahrungen und Einsichten des Teams mit Claude Code.
Im OpenAI-Vorschauvideo zu Codex findet ein Kommentator Zustimmung für Katy Shis Aussage, dass sich Engineering-Arbeit vom Schreiben von Code hin zum Code-Review verlagert habe. Es wird beobachtet, dass Entwickler im Zeitalter der breiten AI-Einführung weiterhin vor allem beim Lesen von Code und Tests verharren. Würde ein vergleichsweise neues Konzept wie Simulation eingeführt, ließen sich vor allem im Frontend vielfältigere Ergebnisse vorhersagen, als wenn man nur auf Code und Tests schaut. Der Kommentator erforsche dieses Thema derzeit selbst und habe beim Ansehen des Codex-Launch-Materials genau diesen Eindruck gewonnen.
Das passe auch zur eigenen These rund um Graphite: In einer Ära massenhaft AI-generierten Codes würden Review, Test und Integration zentral. Zwar entstünden auch AI-Code-Review-Systeme, doch menschliches Review werde dauerhaft nötig bleiben — letztlich wegen der Frage der Verantwortlichkeit. Computer könnten niemals Verantwortung tragen.
Es wird gefragt, ob mit „Simulation anschauen“ die Nutzung automatisierter Test-Suites gemeint sei.
Ein Mitentwickler von SWE-bench findet es interessant, dass Codex selbst gegenüber bereits starken o3-Ergebnissen noch leichte Verbesserungen zeigt. Es wird gefragt, ob der Sprung von 75 % auf 85 % bei Verified ähnlich viel Zeit benötigen werde wie zuvor der Sprung von 20 % auf 75 %.
Es wird die Ansicht geäußert, dass es bei swe-bench eine Überoptimierung auf Benchmarks gebe, und es werden Messergebnisse zu multi-swe-bench, swe polybench, kotlin bench und anderen geteilt.
Es wird nach der Zeit gefragt, die für den Anstieg von 20 % auf 75 % nötig war.
Ein Nutzer hat ein Pro-Abonnement, wird aber jedes Mal, wenn er Codex ausprobieren will, auf die Zahlungsseite für Team-Tarife weitergeleitet. Er fragt sich, ob der offizielle Start noch nicht erfolgt ist oder ob ihm etwas entgeht. Er nutze OpenAI-Produkte schon lange regelmäßig und wolle Codex wirklich ausprobieren.
Bei größeren Updates passiere Ähnliches immer wieder; die Reaktion darauf sei, dass das schwer nachvollziehbar sei.
Ein anderer berichtet von einer ähnlichen Situation und vermutet ein schrittweises Rollout, da es bei ihm seit einigen Minuten zu funktionieren scheine.
Es wird darauf hingewiesen, dass der Rollout weiterhin schrittweise erfolge.
Im Livestream wurde „microVM“ erwähnt; Browser-/Internetzugriff sei nicht möglich. Mit Microkerneln wie Firecracker oder Unikraft lasse sich schnell, günstig und in großem Maßstab skalieren. Für den Übergang zu vollständig getrennten Computerumgebungen pro Agent werden jedoch große technische Hürden erwartet. Der aktuelle ChatGPT Operator unterstütze bereits Browserzugriff, technisch sei es also möglich, doch die Nachfragedimension dürfte eine andere sein. Es gebe durchaus Raum für Infrastrukturunternehmen, die vollständige, für AI gedachte PC-Umgebungen mit Unterstützung für fork/snapshot/screen/human-in-the-loop bereitstellen. Derzeit bewege man sich eher bei Teilfunktionen wie der Browsernutzung.
Während der Arbeit bei einer Bank habe die Rechtsabteilung häufig kleine Änderungswünsche an der App gehabt; nun könnten sie diese vielleicht selbst umsetzen, was der Rechtsabteilung vermutlich viel Genugtuung verschaffen würde.
Ohne Code-Ausführung, Tests und Code-Review wäre es riskant, der Rechtsabteilung Änderungsrechte am Code zu geben; vermutlich werde das daher niemand tun.
Künftig werde sich Bug-Tracking voraussichtlich stark verändern: Jeder im Unternehmen könne ein Issue oder einen Feature-Wunsch einreichen, und das Modell reagiere automatisch darauf; nur wenn das nicht funktioniere, greife ein Mensch ein. Damit werde die Beurteilung und das Review dessen, welche Codeänderungen rechtlich zulässig sind und den Unternehmensstandards entsprechen, zunehmend zu einer Kernaufgabe nichttechnischer Prüfer.
Es wird versprochen, dass die Rechtsabteilung in der Praxis den Code nicht selbst ändern wird.
Es gibt Bedenken zu Privatsphäre, Training-Data-Opt-out und den Risiken, die entstehen könnten, wenn man mit Modellen konkurriert, die über die Plattform erstellt werden. Es wird gefragt, ob eine Regel fair sei, nach der sinngemäß gilt: „Du darfst die von dir erzeugten Ergebnisse nicht im Wettbewerb gegen dich selbst verwenden.“ Möglicherweise sei diese Sicht zu pessimistisch, doch es wird kritisch hinterfragt, wenn OpenAI verhindern wolle, dass die von einem selbst erzeugten Informationen zu Wettbewerbszwecken genutzt werden.
Es wird von Problemen mit der Funktion „secrets“ berichtet: Bei der Einrichtung der Umgebung würden sie korrekt injiziert, in der eigentlichen Arbeit funktioniere das aber nicht; auch nach erneutem Setup lasse sich das Problem stets reproduzieren.
Es gibt die Sorge, dass Codex nur in der Cloud läuft und Code dadurch automatisch committed und gepusht wird, ohne dass intern Zeit für eine Prüfung bleibt. Bei aider bevorzuge man einen Workflow, bei dem nach dem Commit mit
git reset HEAD^undgit diffdie Änderungen zunächst selbst geprüft und bei Bedarf angepasst werden, bevor tatsächlich committed und gepusht wird.Wenn man den Commit ohnehin sofort wieder zurückrolle, wird bei Aider die Option
--no-auto-commitsempfohlen.Vereinfacht gesagt sei Codex eine gemanagte Cloud-Version des bisherigen Codex CLI; entscheidend sei vor allem das neue Modell selbst, das voraussichtlich bald auch per API verfügbar sein werde.
Im Livestream sei gezeigt worden, dass nach Abschluss einer Aufgabe sofort ein Diff angezeigt wird und dass man erst nach Prüfung dieses Diffs entscheiden kann, ob ein Github PR erstellt werden soll.
Es wird gefragt, wie Unternehmen dazu stehen, ihren Codebestand mit AI-Anbietern zu teilen, oder ob sie solche Tools nur lokal einsetzen.
Für Unternehmen sei es sehr verbreitet, Code mit SaaS-Anbietern zu teilen; in der Regel verhinderten separate Verträge eine beliebige Weiterverwendung.
Der Code der meisten Unternehmen habe nur innerhalb des jeweiligen Unternehmens einen relevanten Wert.
OpenAI und ähnliche Anbieter würden wohl kaum das Risiko eingehen, sich den eigenen Code anzusehen; dafür lohne sich das juristische Risiko nicht.
Letztlich sei auch das alles ein Kosten-Nutzen-Abwägung: Wenn der Nutzen groß genug ist, kann das Teilen durchaus sinnvoll sein.
Cursor bietet im Enterprise-Modus eine Funktion zur erzwungenen Datenprivatsphäre.