GPT-5-Codex

(openai.com)

16 Punkte von GN⁺ 2025-09-17 | 6 Kommentare | Auf WhatsApp teilen

GPT-5-Codex ist ein für echte Softwareentwicklung optimiertes Modell und unterstützt sowohl kurze interaktive Sitzungen als auch lang andauernde autonome Arbeit
Das neue Modell bietet eine verbesserte Code-Review-Funktion und erkennt wichtige Fehler frühzeitig durch Abhängigkeitsanalyse, Testausführung sowie den Vergleich von Absicht und Implementierung
Es zeigt starke Leistung bei groß angelegtem Code-Refactoring und passt die Arbeitszeit dynamisch an die Anforderungen der Nutzer an
Codex CLI und IDE-Erweiterungen wurden überarbeitet und für agentische Workflows mit Bildanhängen, Fortschrittsverfolgung, Websuche und MCP-Integration verbessert
Durch die GitHub-Integration sind automatische PR-Reviews und Änderungsvorschläge möglich, was den Review-Aufwand im Team reduziert und die Zuverlässigkeit von Releases erhöht
Codex ist jetzt in den Tarifen ChatGPT Plus, Pro, Business, Edu, Enterprise enthalten

GPT-5-Codex

GPT-5-Codex ist auf komplexe reale Engineering-Aufgaben spezialisiert (Projekt-Builds, Hinzufügen von Features, groß angelegtes Refactoring, Debugging, Code Reviews)
- Die Fähigkeit, AGENTS.md-Anweisungen zu befolgen, wurde verbessert, sodass sich gewünschte Ergebnisse auch ohne lange Erklärungen zu Coding Style oder Codequalität erzielen lassen
Je nach Schwierigkeit der Aufgabe passt es die Denkzeit dynamisch an
- Auf einfache Anfragen reagiert es schnell, bei großen Aufgaben arbeitet es über mehrere Stunden hinweg autonom und verbessert die Ergebnisse weiter
Es ist für Code Reviews optimiert und führt durch Codebase-Erkundung, Abhängigkeitsanalyse und Testausführung eine präzise Verifikation durch
- Bei der Prüfung von Open-Source-Projekt-Commits wurden die Reviews von GPT-5-Codex als verlässlicher bewertet
Auch bei Frontend-Arbeit ist es stark; in der Cloud kann es Bildeingaben nutzen, um den Fortschritt visuell zu prüfen und Ergebnisse per Screenshot zu teilen
Während GPT-5 ein allgemeines Modell ist, wurde GPT-5-Codex für agentische Coding-Aufgaben speziell in der Codex-Umgebung entwickelt

Codex-Updates

Codex CLI und IDE-Erweiterungen wurden rund um die agentische Coding-Erfahrung neu gestaltet
- In der CLI sind nun Bildanhänge, To-Do-Management für den Arbeitsfortschritt und die Anbindung externer Systeme möglich
- Die Terminal-UI wurde so verbessert, dass Tool-Aufrufe und Diffs leichter lesbar sind
- Der Freigabemodus wurde vereinfacht und bietet zugleich Sicherheit und Bedienkomfort
Die IDE-Erweiterung funktioniert in VS Code, Cursor und weiteren Umgebungen und liefert auf Basis von Dateien und ausgewähltem Code mit kürzeren Prompts schneller Ergebnisse
- Sie ermöglicht einen nahtlosen Wechsel zwischen lokaler und Cloud-Umgebung sowie die Verfolgung laufender Aufgaben und die Prüfung abgeschlossener Arbeiten
In der Cloud-Umgebung wurden Geschwindigkeitsverbesserungen durch Caching (90 % schneller), automatische Umgebungseinrichtung und Funktionen zur Steuerung des Internetzugangs ausgebaut
- Für UI-Design-Spezifikationen oder Bug-Reports können Bilder genutzt werden; Codex kann einen eigenen Browser öffnen, Ergebnisse prüfen und Screenshots an PRs anhängen
Die GitHub-Integration unterstützt automatische PR-Reviews und Änderungsvorschläge
- Mit dem Befehl „@codex review“ können gezielte Review-Anfragen gestellt werden
- Auch intern bei OpenAI prüft Codex den Großteil der PRs vorab und entdeckt Hunderte Probleme frühzeitig

Sicherheit und Schutz

Codex läuft standardmäßig in einer Sandbox-Umgebung, in der der Netzwerkzugang eingeschränkt ist
- Ob riskante Befehle ausgeführt werden dürfen, lässt sich über Freigaben steuern; zudem können nur vertrauenswürdige Domains zugelassen werden
Entwickler können das Sicherheitsniveau an ihre Umgebung anpassen, und Codex stellt für jede Aufgabe Logs und Testergebnisse bereit, um die Verifikation zu unterstützen
Es wird empfohlen, es nicht als Ersatz für menschliche Reviews zu verwenden, sondern als unterstützenden Reviewer
GPT-5-Codex wird als Modell mit hohen Fähigkeiten in den Bereichen Biologie und Chemie eingestuft, weshalb Sicherheitsmechanismen angewendet werden

Preise und Verfügbarkeit

Codex ist in den Tarifen ChatGPT Plus, Pro, Business, Edu, Enterprise enthalten
- Plus/Edu/Business eignen sich für 1–2 Sitzungen pro Woche, Pro unterstützt eine vollzeitnahe Entwickler-Arbeitswoche
Im Business-Tarif können zusätzliche Credits gekauft werden, Enterprise arbeitet mit einem gemeinsamen Credit-Pool
Für Nutzer von Codex CLI API Keys soll GPT-5-Codex bald ebenfalls verfügbar sein
Codex entwickelt sich zu einem schnelleren und verlässlicheren Coding-Partner weiter und wird sich als Werkzeug etablieren, das Teams bei der Umsetzung ambitionierter Projekte unterstützt

6 Kommentare

aeolian21 2025-09-18

Die Problemlösungsfähigkeit bei Themen, bei denen mehrere Kontexte berücksichtigt werden müssen, ist schwach, und insgesamt wird viel unnötiger Code mit Design Patterns verwendet. Es entsteht stark der Eindruck, dass für das Training überwiegend pädagogische Beispielcodes statt praxisnaher Produktivcodes verwendet wurden.
Insgesamt gibt es einen deutlichen Performance-Unterschied zu Gemini.

bluekai17 2025-09-18

Im Vergleich zu Claude Code ist Claude Code derzeit wohl noch etwas brauchbarer, oder?

kuthia 2025-09-18

Letztlich ist eine gute AI-Tool-Erfahrung wohl dann gegeben, wenn das Tool das Bildungsniveau(?) des Nutzers berücksichtigt und zugleich ein gewisses Qualitätsniveau der Ergebnisse garantiert?
Interessant ist, dass sich Nutzer aller Erfahrungsstufen von AI-Tools durchweg etwas Besseres erhoffen.

slowandsnow 2025-09-17

Claude ist mir zu umständlich, daher überlege ich, zu wechseln.

shakespeares 2025-09-18

Gibt es vielleicht etwas, das für Sie unpraktisch ist?

GN⁺ 2025-09-17

Hacker-News-Kommentare

Es wurde festgestellt, dass die Größe des neuen Modell-Prompts im Vergleich zu vorher fast auf die Hälfte geschrumpft ist (10 KB vs. 23 KB) (zugehörige Ressourcen: Beispiel für den vorherigen Prompt, Beispiel für einen noch älteren Prompt)
Die Leistung auf SWE-bench ist ähnlich wie bei dem bestehenden gpt-5, aber gpt-5-codex scheint vor allem im Bereich Code-Refactoring verbessert worden zu sein (laut internem Benchmark 33,9 % -> 51,3 %)
Ich habe kürzlich mit Codex CLI (gpt-5-high) ein großes Refactoring versucht, bei dem mehrere interne Libraries als Pakete ausgelagert wurden, und dabei traten beim Löschen und anschließenden Neuschreiben von Dateien häufig Bugs auf (z. B. fehlten wichtige Dateien)
Persönlich bevorzuge ich den Ansatz, Dateien einfach zu kopieren und dann pro Paket anzupassen, und bei dieser Verbesserung scheint ein besseres Tool Calling eingeführt worden zu sein
Außerdem wird behauptet, dass das neue Modell besser "steuerbar" sei, aber meiner Erfahrung nach ließ sich Codex CLI (gpt-5) schon deutlich leichter kontrollieren als Claude Code, daher sind weitere Verbesserungen sehr willkommen
- Ich stimme zu, dass die SWE-bench-Werte von gpt-5 und gpt-5-codex ähnlich sind, aber die Bewertung mit SWE-bench ist selbst ein sehr eingeschränkter Test
  Selbst bei gleicher Punktzahl kann die tatsächliche Nutzungserfahrung stark unterschiedlich sein
  Ich teile auch einen X-(früher Twitter)-Thread, der detailliert auf Aspekte eingeht, die SWE-bench nicht messen kann: Link
- Dass es „steuerbarer“ ist, kann auch ein Nachteil sein
  Denn es folgt Prompts mitunter zu wörtlich
  Dadurch braucht man am Ende bessere Prompting-Methoden und ein besseres Verständnis dafür, wie man das Modell einsetzt
  Für Senior-Softwareingenieure ist das gut, für Entwickler, die eher per Gefühl coden, könnte es aber schwierig sein
- Plötzlich gibt es viele Meinungen, dass Codex CLI mit gpt-5-codex besser als Claude Code geworden sei, aber das fällt mir schwer zu glauben
- Ich frage mich, ob Teile des Prompts in höhere Layer verschoben oder auf andere Weise eingebaut (baked) wurden
- Beim Code-Refactoring, wenn etwas in Pakete verschoben werden soll, empfehle ich, Dateien direkt manuell zu verschieben
  Dann kann man Codex einfach sagen: „Diese Datei war früher an einer anderen Stelle, bitte passe es so an, dass es wieder funktioniert“
  Das Konzept des Datei-Verschiebens scheint weder Codex noch andere CLIs bisher gut zu beherrschen
  Insbesondere werden Datei-Löschungen/-Verschiebungen bei der Erstellung von git-Commits fast nie sauber nachverfolgt
Ich war lange ein glühender Nutzer der Kombination claude-4-sonnet + Cursor, aber in den letzten zwei Monaten ist mein Verbrauch stark angestiegen
Nach dem Standard-Abo von Cursor habe ich auf Pro upgegradet, bin aber wieder an Grenzen gestoßen und nutze inzwischen direkt einen Claude-API-Key, wodurch ich etwa 70 Dollar pro Woche ausgebe (was sich nicht dauerhaft anfühlt)
Dann kam grok-code-fast-1 heraus, ich habe es an Cursor angebunden und nutze es seitdem täglich; es ist schnell, günstig (bis jetzt kostenlos) und ich war sehr zufrieden
Vor Kurzem habe ich auch GPT-5 über die offizielle Codex-VSCode-Erweiterung ausprobiert, und es ist wirklich erstaunlich gut
Mit gpt-5-medium habe ich eine React-Native-App massiv refaktoriert und Struktur sowie Performance der App über Nacht verbessert (wenn ich es selbst gemacht hätte, hätte es mindestens zwei Tage gedauert)
Aktuell lasse ich mit gpt-5-medium-codex die gesamte Routing-Struktur der App neu aufbauen; es nutzt viele Tool Calls und versteht und führt Anweisungen sehr systematisch aus
Mein künftiger Stack wird Cursor + grok-code-fast-1 (für den Alltag) und bei Bedarf Codex/GPT sein
Nebenbei: Ich habe gpt-5-medium den ganzen Tag wirklich stark beansprucht, aber mit meinem ChatGPT-Plus-Konto bin ich kein einziges Mal ans Limit gestoßen, wofür ich dem OpenAI-Team dankbar bin
- Mich würde interessieren, wie dein Workflow aussah, als du Refactoring mit gpt-5-medium ausprobiert hast
  Mir fehlen selbst gute Testfälle, daher interessiert mich, wie du das Modell konkret promptest, welche Vorschläge du bekommst und wie sehr dein Wissen als Entwickler geholfen hat
  Ich frage mich, ob diese Erfahrung, mit der man sich identifizieren kann, auch für einen durchschnittlichen SWE oder einen durchschnittlichen Entwickler erreichbar ist
- Nach einem Jahr mit Cursor bin ich zum ersten Mal über das Nutzungslimit gegangen
  Ich habe bei Claude, GPT und auch Grok bereits Limits erreicht
  Deshalb nutze ich innerhalb des Cursor-Pro-Abos die Option für zusätzliche nutzungsbasierte Gebühren (25 Dollar pro Monat, also 20 + 5), um Claude weiterzuverwenden, weil es schneller als Grok war
- Ich habe am Ende fast dieselbe Entscheidung getroffen
  grok-code-fast-1 funktioniert bei den meisten Coding-Aufgaben gut
  Ich verwende es in opencode; anscheinend gibt es kostenlos ein gewisses Kontingent, und ich konnte es nutzen, ohne einen separaten grok-Key hinzuzufügen
Ich bin von der Qualität der Codex-CLI-IDE sehr beeindruckt
Auch wenn man sie früher nicht mochte, würde ich empfehlen, sie mit der VSCode-Erweiterung noch einmal auszuprobieren, schon wegen des großzügig verfügbaren Kontingents im Plus-Abo
Ich habe mein Claude-Code-Max-Abo gekündigt und bin zum ChatGPT-Pro-Plan für 200 Dollar gewechselt
Es ist deutlich schneller geworden, und ich bin bisher noch nie ans Limit gestoßen
- Ich nutze aider zusammen mit gemini pro für die Projektentwicklung
  Konkret teile ich ein Tool-Projekt von mir: aretecodex.tools
- Ich nutze Cursor im 20-Dollar-Plan, bin aber nach 15 Tagen ans Limit gestoßen und muss für den Rest des Monats zusätzliche Gebühren zahlen
  Mich würde interessieren, welche Gegenmaßnahmen empfehlenswert sind
- Ich frage mich, was genau mit CLI IDE gemeint ist
- Ich bin inzwischen verwirrt, ob man es jetzt wie Claude Code auch als Abo nutzen kann oder ob es nur eine API gibt
Ich fand es interessant, dass in diesem Thread viele Nutzer zu Codex wechseln oder Claude Code verlassen
Das größte Problem bei Claude Code war, dass es bei zu vielen Aufgaben häufig Mock-Implementierungen oder Fake-Code erzeugte und die Probleme dadurch in der Praxis eher verschlimmerte
Auch durch Anpassungen des Eingabe-Prompts ließ sich das nur schwer verbessern, sodass ich schließlich auf Codex umgestiegen bin
Codex hat zwar den Vorteil, innerhalb einer bereits vollständig eingerichteten Codebasis zu arbeiten, aber in der tatsächlichen Nutzung war die Erfahrung mit Codex deutlich besser
- Wenn man Claude verwendet, ist es am effektivsten, 1) im Plan-Mode einen Plan zu erstellen und 2) anschließend die Umsetzung dieses Plans anzuweisen
  Andere Systeme haben keinen separaten „Planning“-Modus und versuchen daher von Anfang an nur zu implementieren, weshalb man den Prompt sehr sorgfältig abstimmen muss
  Claude unterstützt die Struktur „Planen > Ausführen“ separat, daher ist der Ansatz anders
Nach meinen Beobachtungen der letzten zwei Wochen hat Claude Code sowohl bei der Leistung stark nachgelassen als auch beim Nutzungskontingent deutlich eingebüßt, während OpenAI Codex eher stärker geworden ist und sich das Kontingent viel großzügiger anfühlt
Wenn jemand es seit über einem Monat nicht mehr benutzt hat, würde ich empfehlen, Codex CLI noch einmal zu testen
- Aus Sicht der Endnutzer ist das Wichtigste, „jederzeit aussteigen zu können“
  Man sollte Dienste ständig vergleichen und den mit dem besten Preis-Leistungs-Verhältnis wählen
  Im letzten Jahr haben verschiedene Unternehmen mit unterschiedlichen Vor- und Nachteilen konkurriert, aber es gab keinen wirklich revolutionären Dienst
  Es gibt keinen Grund, an einem bestimmten Dienst festzuhalten; nur die SaaS-Anbieter bemühen sich, Nutzer an sich zu binden
- Ich frage mich, ob Codex CLI noch immer die Angewohnheit hat, sich in Projekten mit git automatisch im „YOLO“-Stil zu verhalten
  Was ich mir von Coding-Assistenten unbedingt wünsche, ist

eine Allowlist für die Ausführung von Befehlen
dass gefährliche Befehle wie rm jedes Mal eine Genehmigung brauchen
Unterstützung für benutzerdefinierte Slash-Commands
Build-Hooks oder Subagent-Funktionen sind für mich nicht besonders wichtig

Ich habe eine Frage: Wie kann man in Codex CLI einen Modus nutzen, der dem „normal mode“ von Claude entspricht?
Codex unterstützt nur vibe coding oder den Plan-Modus, aber keinen interaktiven Modus dazwischen, in dem gefragt wird: „Darf ich diese Aufgabe (a/b) ausführen?“ – das ist frustrierend
Ich verstehe schwer, warum man nur zwischen dem Kopieren/Einfügen von bearbeiteten Codeänderungen oder deren automatischer Übernahme wählen kann
- Üblicherweise schreibe ich in den Prompt: „Erstelle einen Plan und beginne nicht mit dem Coden, bis ich es genehmige“
  Danach gehe ich mehrere Schleifen des Plans durch, prüfe ihn und weise dann die Ausführung an
  Manchmal „vergisst“ das LLM den Plan, daher kopiere und speichere ich ihn separat
  Ich lasse mir die Arbeit auch schrittweise übergeben oder validiere an jedem Meilenstein parallel, z. B. mit Build-/Unit-Tests
Ich bin sehr beeindruckt
Ich habe sowohl Claude als auch Codex beim Entwickeln einer „Shared Presence“-Animation getestet (eine Web-App, bei der sich der Hintergrund je nach Cursor-Position aller Nutzer verändert)
Bis gestern haben sich beide Modelle damit schwergetan, wobei Claude leicht vorne lag
Wenn etwas „kreativ“ gebaut werden muss, wirken die Ergebnisse beider Modelle etwas generisch, und die Implementierung der Simulation war schwierig
Als ich heute dieselbe Aufgabe mit Codex gemacht habe, war das Design zwar immer noch etwas flach, aber der Simulationsteil war deutlich leistungsfähiger
- Von LLMs erzeugte UIs wirken immer gewöhnlich und generisch, wenn man keinen besonders detaillierten Prompt gibt (mit Design-/Farbschema-/Präferenzvorgaben usw.)
  Wenn man zusätzliche UI-Eigenschaften vorgibt oder anweist, sich am bestehenden App-Design zu orientieren, wird das Ergebnis deutlich besser
Ich wollte AI Coding noch einmal ausprobieren, habe ChatGPT abonniert und Codex genutzt, aber es fühlt sich viel zu langsam an
Selbst bei einer einfachen Aufgabe in einem fast leeren Repository „denkt“ das Modell seit 20 Minuten nur nach
Als Ingenieur hat man dabei nur das Erlebnis des Wartens, und ich zweifle an der realen Produktivität
Als asynchroner Agent könnte man zwar mehrere parallel laufen lassen, aber dafür braucht man eine strukturierte Codebasis, und obwohl ich schon mehrere Stunden investiert habe, habe ich noch nicht einmal ein Grundgerüst erstellt
Ich habe die Dokumentation gelesen und die Videos angeschaut, aber in diesem Maßstab scheint es viel schneller zu sein, es einfach selbst zu bauen
Ich frage mich, was ich falsch mache, ob es nur Serverüberlastung ist oder ob der aktuelle Stand von AI einfach so ist
- Die meisten Ingenieure, die ich gesehen habe, versuchen vor allem Parallelisierung
  Wenn man sich daran gewöhnt, mehrere Agenten gleichzeitig arbeiten zu lassen, halte ich es für ziemlich brauchbar
  Ich habe dazu früher einmal einen Artikel gelesen, finde ihn aber gerade nicht wieder
Ich habe Codex am Wochenende zum ersten Mal ausprobiert, und das Ergebnis war etwas seltsam
Obwohl ich nur ein sehr einfaches Beispiel verlangt habe (eine Rails-App mit Docker Compose hochfahren und Homepage/Devise hinzufügen), hat es statt echter Dateien den kompletten Dateiinhalt in bootstrap.sh hartkodiert
Ich will weiter beobachten, ob es sich künftig anders verhält
Ich habe im letzten Monat chatgpt gekauft und genutzt und habe den Eindruck, dass OpenAI das Nutzererlebnis in letzter Zeit stark verbessert
Zum Beispiel ist der Voice-Modus viel besser als bei Claude, und auch die Modellnamen sind einfacher geworden, während sie früher verwirrend waren
Auch als allgemeiner Assistent war die Leistung besser als bei Claude, und OpenAI hat beim Vertrauen ebenfalls die Nase vorn, weil das Unternehmen ständig neue Tools veröffentlicht

GPT-5-Codex

GPT-5-Codex

Codex-Updates

Sicherheit und Schutz

Preise und Verfügbarkeit

Verwandte Beiträge

6 Kommentare

Hacker-News-Kommentare