GPT-5-Codex
(openai.com)- GPT-5-Codex ist ein für echte Softwareentwicklung optimiertes Modell und unterstützt sowohl kurze interaktive Sitzungen als auch lang andauernde autonome Arbeit
- Das neue Modell bietet eine verbesserte Code-Review-Funktion und erkennt wichtige Fehler frühzeitig durch Abhängigkeitsanalyse, Testausführung sowie den Vergleich von Absicht und Implementierung
- Es zeigt starke Leistung bei groß angelegtem Code-Refactoring und passt die Arbeitszeit dynamisch an die Anforderungen der Nutzer an
- Codex CLI und IDE-Erweiterungen wurden überarbeitet und für agentische Workflows mit Bildanhängen, Fortschrittsverfolgung, Websuche und MCP-Integration verbessert
- Durch die GitHub-Integration sind automatische PR-Reviews und Änderungsvorschläge möglich, was den Review-Aufwand im Team reduziert und die Zuverlässigkeit von Releases erhöht
- Codex ist jetzt in den Tarifen ChatGPT Plus, Pro, Business, Edu, Enterprise enthalten
GPT-5-Codex
- GPT-5-Codex ist auf komplexe reale Engineering-Aufgaben spezialisiert (Projekt-Builds, Hinzufügen von Features, groß angelegtes Refactoring, Debugging, Code Reviews)
- Die Fähigkeit, AGENTS.md-Anweisungen zu befolgen, wurde verbessert, sodass sich gewünschte Ergebnisse auch ohne lange Erklärungen zu Coding Style oder Codequalität erzielen lassen
- Je nach Schwierigkeit der Aufgabe passt es die Denkzeit dynamisch an
- Auf einfache Anfragen reagiert es schnell, bei großen Aufgaben arbeitet es über mehrere Stunden hinweg autonom und verbessert die Ergebnisse weiter
- Es ist für Code Reviews optimiert und führt durch Codebase-Erkundung, Abhängigkeitsanalyse und Testausführung eine präzise Verifikation durch
- Bei der Prüfung von Open-Source-Projekt-Commits wurden die Reviews von GPT-5-Codex als verlässlicher bewertet
- Auch bei Frontend-Arbeit ist es stark; in der Cloud kann es Bildeingaben nutzen, um den Fortschritt visuell zu prüfen und Ergebnisse per Screenshot zu teilen
- Während GPT-5 ein allgemeines Modell ist, wurde GPT-5-Codex für agentische Coding-Aufgaben speziell in der Codex-Umgebung entwickelt
Codex-Updates
- Codex CLI und IDE-Erweiterungen wurden rund um die agentische Coding-Erfahrung neu gestaltet
- In der CLI sind nun Bildanhänge, To-Do-Management für den Arbeitsfortschritt und die Anbindung externer Systeme möglich
- Die Terminal-UI wurde so verbessert, dass Tool-Aufrufe und Diffs leichter lesbar sind
- Der Freigabemodus wurde vereinfacht und bietet zugleich Sicherheit und Bedienkomfort
- Die IDE-Erweiterung funktioniert in VS Code, Cursor und weiteren Umgebungen und liefert auf Basis von Dateien und ausgewähltem Code mit kürzeren Prompts schneller Ergebnisse
- Sie ermöglicht einen nahtlosen Wechsel zwischen lokaler und Cloud-Umgebung sowie die Verfolgung laufender Aufgaben und die Prüfung abgeschlossener Arbeiten
- In der Cloud-Umgebung wurden Geschwindigkeitsverbesserungen durch Caching (90 % schneller), automatische Umgebungseinrichtung und Funktionen zur Steuerung des Internetzugangs ausgebaut
- Für UI-Design-Spezifikationen oder Bug-Reports können Bilder genutzt werden; Codex kann einen eigenen Browser öffnen, Ergebnisse prüfen und Screenshots an PRs anhängen
- Die GitHub-Integration unterstützt automatische PR-Reviews und Änderungsvorschläge
- Mit dem Befehl „@codex review“ können gezielte Review-Anfragen gestellt werden
- Auch intern bei OpenAI prüft Codex den Großteil der PRs vorab und entdeckt Hunderte Probleme frühzeitig
Sicherheit und Schutz
- Codex läuft standardmäßig in einer Sandbox-Umgebung, in der der Netzwerkzugang eingeschränkt ist
- Ob riskante Befehle ausgeführt werden dürfen, lässt sich über Freigaben steuern; zudem können nur vertrauenswürdige Domains zugelassen werden
- Entwickler können das Sicherheitsniveau an ihre Umgebung anpassen, und Codex stellt für jede Aufgabe Logs und Testergebnisse bereit, um die Verifikation zu unterstützen
- Es wird empfohlen, es nicht als Ersatz für menschliche Reviews zu verwenden, sondern als unterstützenden Reviewer
- GPT-5-Codex wird als Modell mit hohen Fähigkeiten in den Bereichen Biologie und Chemie eingestuft, weshalb Sicherheitsmechanismen angewendet werden
Preise und Verfügbarkeit
- Codex ist in den Tarifen ChatGPT Plus, Pro, Business, Edu, Enterprise enthalten
- Plus/Edu/Business eignen sich für 1–2 Sitzungen pro Woche, Pro unterstützt eine vollzeitnahe Entwickler-Arbeitswoche
- Im Business-Tarif können zusätzliche Credits gekauft werden, Enterprise arbeitet mit einem gemeinsamen Credit-Pool
- Für Nutzer von Codex CLI API Keys soll GPT-5-Codex bald ebenfalls verfügbar sein
- Codex entwickelt sich zu einem schnelleren und verlässlicheren Coding-Partner weiter und wird sich als Werkzeug etablieren, das Teams bei der Umsetzung ambitionierter Projekte unterstützt
6 Kommentare
Die Problemlösungsfähigkeit bei Themen, bei denen mehrere Kontexte berücksichtigt werden müssen, ist schwach, und insgesamt wird viel unnötiger Code mit Design Patterns verwendet. Es entsteht stark der Eindruck, dass für das Training überwiegend pädagogische Beispielcodes statt praxisnaher Produktivcodes verwendet wurden.
Insgesamt gibt es einen deutlichen Performance-Unterschied zu Gemini.
Im Vergleich zu Claude Code ist Claude Code derzeit wohl noch etwas brauchbarer, oder?
Letztlich ist eine gute AI-Tool-Erfahrung wohl dann gegeben, wenn das Tool das Bildungsniveau(?) des Nutzers berücksichtigt und zugleich ein gewisses Qualitätsniveau der Ergebnisse garantiert?
Interessant ist, dass sich Nutzer aller Erfahrungsstufen von AI-Tools durchweg etwas Besseres erhoffen.
Claude ist mir zu umständlich, daher überlege ich, zu wechseln.
Gibt es vielleicht etwas, das für Sie unpraktisch ist?
Hacker-News-Kommentare
Es wurde festgestellt, dass die Größe des neuen Modell-Prompts im Vergleich zu vorher fast auf die Hälfte geschrumpft ist (10 KB vs. 23 KB) (zugehörige Ressourcen: Beispiel für den vorherigen Prompt, Beispiel für einen noch älteren Prompt)
Die Leistung auf SWE-bench ist ähnlich wie bei dem bestehenden gpt-5, aber
gpt-5-codexscheint vor allem im Bereich Code-Refactoring verbessert worden zu sein (laut internem Benchmark 33,9 % -> 51,3 %)Ich habe kürzlich mit Codex CLI (
gpt-5-high) ein großes Refactoring versucht, bei dem mehrere interne Libraries als Pakete ausgelagert wurden, und dabei traten beim Löschen und anschließenden Neuschreiben von Dateien häufig Bugs auf (z. B. fehlten wichtige Dateien)Persönlich bevorzuge ich den Ansatz, Dateien einfach zu kopieren und dann pro Paket anzupassen, und bei dieser Verbesserung scheint ein besseres Tool Calling eingeführt worden zu sein
Außerdem wird behauptet, dass das neue Modell besser "steuerbar" sei, aber meiner Erfahrung nach ließ sich Codex CLI (gpt-5) schon deutlich leichter kontrollieren als Claude Code, daher sind weitere Verbesserungen sehr willkommen
Ich stimme zu, dass die SWE-bench-Werte von gpt-5 und gpt-5-codex ähnlich sind, aber die Bewertung mit SWE-bench ist selbst ein sehr eingeschränkter Test
Selbst bei gleicher Punktzahl kann die tatsächliche Nutzungserfahrung stark unterschiedlich sein
Ich teile auch einen X-(früher Twitter)-Thread, der detailliert auf Aspekte eingeht, die SWE-bench nicht messen kann: Link
Dass es „steuerbarer“ ist, kann auch ein Nachteil sein
Denn es folgt Prompts mitunter zu wörtlich
Dadurch braucht man am Ende bessere Prompting-Methoden und ein besseres Verständnis dafür, wie man das Modell einsetzt
Für Senior-Softwareingenieure ist das gut, für Entwickler, die eher per Gefühl coden, könnte es aber schwierig sein
Plötzlich gibt es viele Meinungen, dass Codex CLI mit gpt-5-codex besser als Claude Code geworden sei, aber das fällt mir schwer zu glauben
Ich frage mich, ob Teile des Prompts in höhere Layer verschoben oder auf andere Weise eingebaut (baked) wurden
Beim Code-Refactoring, wenn etwas in Pakete verschoben werden soll, empfehle ich, Dateien direkt manuell zu verschieben
Dann kann man Codex einfach sagen: „Diese Datei war früher an einer anderen Stelle, bitte passe es so an, dass es wieder funktioniert“
Das Konzept des Datei-Verschiebens scheint weder Codex noch andere CLIs bisher gut zu beherrschen
Insbesondere werden Datei-Löschungen/-Verschiebungen bei der Erstellung von git-Commits fast nie sauber nachverfolgt
Ich war lange ein glühender Nutzer der Kombination claude-4-sonnet + Cursor, aber in den letzten zwei Monaten ist mein Verbrauch stark angestiegen
Nach dem Standard-Abo von Cursor habe ich auf Pro upgegradet, bin aber wieder an Grenzen gestoßen und nutze inzwischen direkt einen Claude-API-Key, wodurch ich etwa 70 Dollar pro Woche ausgebe (was sich nicht dauerhaft anfühlt)
Dann kam grok-code-fast-1 heraus, ich habe es an Cursor angebunden und nutze es seitdem täglich; es ist schnell, günstig (bis jetzt kostenlos) und ich war sehr zufrieden
Vor Kurzem habe ich auch GPT-5 über die offizielle Codex-VSCode-Erweiterung ausprobiert, und es ist wirklich erstaunlich gut
Mit gpt-5-medium habe ich eine React-Native-App massiv refaktoriert und Struktur sowie Performance der App über Nacht verbessert (wenn ich es selbst gemacht hätte, hätte es mindestens zwei Tage gedauert)
Aktuell lasse ich mit gpt-5-medium-codex die gesamte Routing-Struktur der App neu aufbauen; es nutzt viele Tool Calls und versteht und führt Anweisungen sehr systematisch aus
Mein künftiger Stack wird Cursor + grok-code-fast-1 (für den Alltag) und bei Bedarf Codex/GPT sein
Nebenbei: Ich habe gpt-5-medium den ganzen Tag wirklich stark beansprucht, aber mit meinem ChatGPT-Plus-Konto bin ich kein einziges Mal ans Limit gestoßen, wofür ich dem OpenAI-Team dankbar bin
Mich würde interessieren, wie dein Workflow aussah, als du Refactoring mit gpt-5-medium ausprobiert hast
Mir fehlen selbst gute Testfälle, daher interessiert mich, wie du das Modell konkret promptest, welche Vorschläge du bekommst und wie sehr dein Wissen als Entwickler geholfen hat
Ich frage mich, ob diese Erfahrung, mit der man sich identifizieren kann, auch für einen durchschnittlichen SWE oder einen durchschnittlichen Entwickler erreichbar ist
Nach einem Jahr mit Cursor bin ich zum ersten Mal über das Nutzungslimit gegangen
Ich habe bei Claude, GPT und auch Grok bereits Limits erreicht
Deshalb nutze ich innerhalb des Cursor-Pro-Abos die Option für zusätzliche nutzungsbasierte Gebühren (25 Dollar pro Monat, also 20 + 5), um Claude weiterzuverwenden, weil es schneller als Grok war
Ich habe am Ende fast dieselbe Entscheidung getroffen
grok-code-fast-1 funktioniert bei den meisten Coding-Aufgaben gut
Ich verwende es in opencode; anscheinend gibt es kostenlos ein gewisses Kontingent, und ich konnte es nutzen, ohne einen separaten grok-Key hinzuzufügen
Ich bin von der Qualität der Codex-CLI-IDE sehr beeindruckt
Auch wenn man sie früher nicht mochte, würde ich empfehlen, sie mit der VSCode-Erweiterung noch einmal auszuprobieren, schon wegen des großzügig verfügbaren Kontingents im Plus-Abo
Ich habe mein Claude-Code-Max-Abo gekündigt und bin zum ChatGPT-Pro-Plan für 200 Dollar gewechselt
Es ist deutlich schneller geworden, und ich bin bisher noch nie ans Limit gestoßen
Ich nutze aider zusammen mit gemini pro für die Projektentwicklung
Konkret teile ich ein Tool-Projekt von mir: aretecodex.tools
Ich nutze Cursor im 20-Dollar-Plan, bin aber nach 15 Tagen ans Limit gestoßen und muss für den Rest des Monats zusätzliche Gebühren zahlen
Mich würde interessieren, welche Gegenmaßnahmen empfehlenswert sind
Ich frage mich, was genau mit CLI IDE gemeint ist
Ich bin inzwischen verwirrt, ob man es jetzt wie Claude Code auch als Abo nutzen kann oder ob es nur eine API gibt
Ich fand es interessant, dass in diesem Thread viele Nutzer zu Codex wechseln oder Claude Code verlassen
Das größte Problem bei Claude Code war, dass es bei zu vielen Aufgaben häufig Mock-Implementierungen oder Fake-Code erzeugte und die Probleme dadurch in der Praxis eher verschlimmerte
Auch durch Anpassungen des Eingabe-Prompts ließ sich das nur schwer verbessern, sodass ich schließlich auf Codex umgestiegen bin
Codex hat zwar den Vorteil, innerhalb einer bereits vollständig eingerichteten Codebasis zu arbeiten, aber in der tatsächlichen Nutzung war die Erfahrung mit Codex deutlich besser
Andere Systeme haben keinen separaten „Planning“-Modus und versuchen daher von Anfang an nur zu implementieren, weshalb man den Prompt sehr sorgfältig abstimmen muss
Claude unterstützt die Struktur „Planen > Ausführen“ separat, daher ist der Ansatz anders
Nach meinen Beobachtungen der letzten zwei Wochen hat Claude Code sowohl bei der Leistung stark nachgelassen als auch beim Nutzungskontingent deutlich eingebüßt, während OpenAI Codex eher stärker geworden ist und sich das Kontingent viel großzügiger anfühlt
Wenn jemand es seit über einem Monat nicht mehr benutzt hat, würde ich empfehlen, Codex CLI noch einmal zu testen
Aus Sicht der Endnutzer ist das Wichtigste, „jederzeit aussteigen zu können“
Man sollte Dienste ständig vergleichen und den mit dem besten Preis-Leistungs-Verhältnis wählen
Im letzten Jahr haben verschiedene Unternehmen mit unterschiedlichen Vor- und Nachteilen konkurriert, aber es gab keinen wirklich revolutionären Dienst
Es gibt keinen Grund, an einem bestimmten Dienst festzuhalten; nur die SaaS-Anbieter bemühen sich, Nutzer an sich zu binden
Ich frage mich, ob Codex CLI noch immer die Angewohnheit hat, sich in Projekten mit git automatisch im „YOLO“-Stil zu verhalten
Was ich mir von Coding-Assistenten unbedingt wünsche, ist
rmjedes Mal eine Genehmigung brauchenBuild-Hooks oder Subagent-Funktionen sind für mich nicht besonders wichtig
Ich habe eine Frage: Wie kann man in Codex CLI einen Modus nutzen, der dem „normal mode“ von Claude entspricht?
Codex unterstützt nur vibe coding oder den Plan-Modus, aber keinen interaktiven Modus dazwischen, in dem gefragt wird: „Darf ich diese Aufgabe (a/b) ausführen?“ – das ist frustrierend
Ich verstehe schwer, warum man nur zwischen dem Kopieren/Einfügen von bearbeiteten Codeänderungen oder deren automatischer Übernahme wählen kann
Danach gehe ich mehrere Schleifen des Plans durch, prüfe ihn und weise dann die Ausführung an
Manchmal „vergisst“ das LLM den Plan, daher kopiere und speichere ich ihn separat
Ich lasse mir die Arbeit auch schrittweise übergeben oder validiere an jedem Meilenstein parallel, z. B. mit Build-/Unit-Tests
Ich bin sehr beeindruckt
Ich habe sowohl Claude als auch Codex beim Entwickeln einer „Shared Presence“-Animation getestet (eine Web-App, bei der sich der Hintergrund je nach Cursor-Position aller Nutzer verändert)
Bis gestern haben sich beide Modelle damit schwergetan, wobei Claude leicht vorne lag
Wenn etwas „kreativ“ gebaut werden muss, wirken die Ergebnisse beider Modelle etwas generisch, und die Implementierung der Simulation war schwierig
Als ich heute dieselbe Aufgabe mit Codex gemacht habe, war das Design zwar immer noch etwas flach, aber der Simulationsteil war deutlich leistungsfähiger
Wenn man zusätzliche UI-Eigenschaften vorgibt oder anweist, sich am bestehenden App-Design zu orientieren, wird das Ergebnis deutlich besser
Ich wollte AI Coding noch einmal ausprobieren, habe ChatGPT abonniert und Codex genutzt, aber es fühlt sich viel zu langsam an
Selbst bei einer einfachen Aufgabe in einem fast leeren Repository „denkt“ das Modell seit 20 Minuten nur nach
Als Ingenieur hat man dabei nur das Erlebnis des Wartens, und ich zweifle an der realen Produktivität
Als asynchroner Agent könnte man zwar mehrere parallel laufen lassen, aber dafür braucht man eine strukturierte Codebasis, und obwohl ich schon mehrere Stunden investiert habe, habe ich noch nicht einmal ein Grundgerüst erstellt
Ich habe die Dokumentation gelesen und die Videos angeschaut, aber in diesem Maßstab scheint es viel schneller zu sein, es einfach selbst zu bauen
Ich frage mich, was ich falsch mache, ob es nur Serverüberlastung ist oder ob der aktuelle Stand von AI einfach so ist
Wenn man sich daran gewöhnt, mehrere Agenten gleichzeitig arbeiten zu lassen, halte ich es für ziemlich brauchbar
Ich habe dazu früher einmal einen Artikel gelesen, finde ihn aber gerade nicht wieder
Ich habe Codex am Wochenende zum ersten Mal ausprobiert, und das Ergebnis war etwas seltsam
Obwohl ich nur ein sehr einfaches Beispiel verlangt habe (eine Rails-App mit Docker Compose hochfahren und Homepage/Devise hinzufügen), hat es statt echter Dateien den kompletten Dateiinhalt in
bootstrap.shhartkodiertIch will weiter beobachten, ob es sich künftig anders verhält
Ich habe im letzten Monat chatgpt gekauft und genutzt und habe den Eindruck, dass OpenAI das Nutzererlebnis in letzter Zeit stark verbessert
Zum Beispiel ist der Voice-Modus viel besser als bei Claude, und auch die Modellnamen sind einfacher geworden, während sie früher verwirrend waren
Auch als allgemeiner Assistent war die Leistung besser als bei Claude, und OpenAI hat beim Vertrauen ebenfalls die Nase vorn, weil das Unternehmen ständig neue Tools veröffentlicht