16 Punkte von GN⁺ 2025-09-17 | 6 Kommentare | Auf WhatsApp teilen
  • GPT-5-Codex ist ein für echte Softwareentwicklung optimiertes Modell und unterstützt sowohl kurze interaktive Sitzungen als auch lang andauernde autonome Arbeit
  • Das neue Modell bietet eine verbesserte Code-Review-Funktion und erkennt wichtige Fehler frühzeitig durch Abhängigkeitsanalyse, Testausführung sowie den Vergleich von Absicht und Implementierung
  • Es zeigt starke Leistung bei groß angelegtem Code-Refactoring und passt die Arbeitszeit dynamisch an die Anforderungen der Nutzer an
  • Codex CLI und IDE-Erweiterungen wurden überarbeitet und für agentische Workflows mit Bildanhängen, Fortschrittsverfolgung, Websuche und MCP-Integration verbessert
  • Durch die GitHub-Integration sind automatische PR-Reviews und Änderungsvorschläge möglich, was den Review-Aufwand im Team reduziert und die Zuverlässigkeit von Releases erhöht
  • Codex ist jetzt in den Tarifen ChatGPT Plus, Pro, Business, Edu, Enterprise enthalten

GPT-5-Codex

  • GPT-5-Codex ist auf komplexe reale Engineering-Aufgaben spezialisiert (Projekt-Builds, Hinzufügen von Features, groß angelegtes Refactoring, Debugging, Code Reviews)
    • Die Fähigkeit, AGENTS.md-Anweisungen zu befolgen, wurde verbessert, sodass sich gewünschte Ergebnisse auch ohne lange Erklärungen zu Coding Style oder Codequalität erzielen lassen
  • Je nach Schwierigkeit der Aufgabe passt es die Denkzeit dynamisch an
    • Auf einfache Anfragen reagiert es schnell, bei großen Aufgaben arbeitet es über mehrere Stunden hinweg autonom und verbessert die Ergebnisse weiter
  • Es ist für Code Reviews optimiert und führt durch Codebase-Erkundung, Abhängigkeitsanalyse und Testausführung eine präzise Verifikation durch
    • Bei der Prüfung von Open-Source-Projekt-Commits wurden die Reviews von GPT-5-Codex als verlässlicher bewertet
  • Auch bei Frontend-Arbeit ist es stark; in der Cloud kann es Bildeingaben nutzen, um den Fortschritt visuell zu prüfen und Ergebnisse per Screenshot zu teilen
  • Während GPT-5 ein allgemeines Modell ist, wurde GPT-5-Codex für agentische Coding-Aufgaben speziell in der Codex-Umgebung entwickelt

Codex-Updates

  • Codex CLI und IDE-Erweiterungen wurden rund um die agentische Coding-Erfahrung neu gestaltet
    • In der CLI sind nun Bildanhänge, To-Do-Management für den Arbeitsfortschritt und die Anbindung externer Systeme möglich
    • Die Terminal-UI wurde so verbessert, dass Tool-Aufrufe und Diffs leichter lesbar sind
    • Der Freigabemodus wurde vereinfacht und bietet zugleich Sicherheit und Bedienkomfort
  • Die IDE-Erweiterung funktioniert in VS Code, Cursor und weiteren Umgebungen und liefert auf Basis von Dateien und ausgewähltem Code mit kürzeren Prompts schneller Ergebnisse
    • Sie ermöglicht einen nahtlosen Wechsel zwischen lokaler und Cloud-Umgebung sowie die Verfolgung laufender Aufgaben und die Prüfung abgeschlossener Arbeiten
  • In der Cloud-Umgebung wurden Geschwindigkeitsverbesserungen durch Caching (90 % schneller), automatische Umgebungseinrichtung und Funktionen zur Steuerung des Internetzugangs ausgebaut
    • Für UI-Design-Spezifikationen oder Bug-Reports können Bilder genutzt werden; Codex kann einen eigenen Browser öffnen, Ergebnisse prüfen und Screenshots an PRs anhängen
  • Die GitHub-Integration unterstützt automatische PR-Reviews und Änderungsvorschläge
    • Mit dem Befehl „@codex review“ können gezielte Review-Anfragen gestellt werden
    • Auch intern bei OpenAI prüft Codex den Großteil der PRs vorab und entdeckt Hunderte Probleme frühzeitig

Sicherheit und Schutz

  • Codex läuft standardmäßig in einer Sandbox-Umgebung, in der der Netzwerkzugang eingeschränkt ist
    • Ob riskante Befehle ausgeführt werden dürfen, lässt sich über Freigaben steuern; zudem können nur vertrauenswürdige Domains zugelassen werden
  • Entwickler können das Sicherheitsniveau an ihre Umgebung anpassen, und Codex stellt für jede Aufgabe Logs und Testergebnisse bereit, um die Verifikation zu unterstützen
  • Es wird empfohlen, es nicht als Ersatz für menschliche Reviews zu verwenden, sondern als unterstützenden Reviewer
  • GPT-5-Codex wird als Modell mit hohen Fähigkeiten in den Bereichen Biologie und Chemie eingestuft, weshalb Sicherheitsmechanismen angewendet werden

Preise und Verfügbarkeit

  • Codex ist in den Tarifen ChatGPT Plus, Pro, Business, Edu, Enterprise enthalten
    • Plus/Edu/Business eignen sich für 1–2 Sitzungen pro Woche, Pro unterstützt eine vollzeitnahe Entwickler-Arbeitswoche
  • Im Business-Tarif können zusätzliche Credits gekauft werden, Enterprise arbeitet mit einem gemeinsamen Credit-Pool
  • Für Nutzer von Codex CLI API Keys soll GPT-5-Codex bald ebenfalls verfügbar sein
  • Codex entwickelt sich zu einem schnelleren und verlässlicheren Coding-Partner weiter und wird sich als Werkzeug etablieren, das Teams bei der Umsetzung ambitionierter Projekte unterstützt

6 Kommentare

 
aeolian21 2025-09-18

Die Problemlösungsfähigkeit bei Themen, bei denen mehrere Kontexte berücksichtigt werden müssen, ist schwach, und insgesamt wird viel unnötiger Code mit Design Patterns verwendet. Es entsteht stark der Eindruck, dass für das Training überwiegend pädagogische Beispielcodes statt praxisnaher Produktivcodes verwendet wurden.
Insgesamt gibt es einen deutlichen Performance-Unterschied zu Gemini.

 
bluekai17 2025-09-18

Im Vergleich zu Claude Code ist Claude Code derzeit wohl noch etwas brauchbarer, oder?

 
kuthia 2025-09-18

Letztlich ist eine gute AI-Tool-Erfahrung wohl dann gegeben, wenn das Tool das Bildungsniveau(?) des Nutzers berücksichtigt und zugleich ein gewisses Qualitätsniveau der Ergebnisse garantiert?
Interessant ist, dass sich Nutzer aller Erfahrungsstufen von AI-Tools durchweg etwas Besseres erhoffen.

 
slowandsnow 2025-09-17

Claude ist mir zu umständlich, daher überlege ich, zu wechseln.

 
shakespeares 2025-09-18

Gibt es vielleicht etwas, das für Sie unpraktisch ist?

 
GN⁺ 2025-09-17
Hacker-News-Kommentare
  • Es wurde festgestellt, dass die Größe des neuen Modell-Prompts im Vergleich zu vorher fast auf die Hälfte geschrumpft ist (10 KB vs. 23 KB) (zugehörige Ressourcen: Beispiel für den vorherigen Prompt, Beispiel für einen noch älteren Prompt)
    Die Leistung auf SWE-bench ist ähnlich wie bei dem bestehenden gpt-5, aber gpt-5-codex scheint vor allem im Bereich Code-Refactoring verbessert worden zu sein (laut internem Benchmark 33,9 % -> 51,3 %)
    Ich habe kürzlich mit Codex CLI (gpt-5-high) ein großes Refactoring versucht, bei dem mehrere interne Libraries als Pakete ausgelagert wurden, und dabei traten beim Löschen und anschließenden Neuschreiben von Dateien häufig Bugs auf (z. B. fehlten wichtige Dateien)
    Persönlich bevorzuge ich den Ansatz, Dateien einfach zu kopieren und dann pro Paket anzupassen, und bei dieser Verbesserung scheint ein besseres Tool Calling eingeführt worden zu sein
    Außerdem wird behauptet, dass das neue Modell besser "steuerbar" sei, aber meiner Erfahrung nach ließ sich Codex CLI (gpt-5) schon deutlich leichter kontrollieren als Claude Code, daher sind weitere Verbesserungen sehr willkommen

    • Ich stimme zu, dass die SWE-bench-Werte von gpt-5 und gpt-5-codex ähnlich sind, aber die Bewertung mit SWE-bench ist selbst ein sehr eingeschränkter Test
      Selbst bei gleicher Punktzahl kann die tatsächliche Nutzungserfahrung stark unterschiedlich sein
      Ich teile auch einen X-(früher Twitter)-Thread, der detailliert auf Aspekte eingeht, die SWE-bench nicht messen kann: Link

    • Dass es „steuerbarer“ ist, kann auch ein Nachteil sein
      Denn es folgt Prompts mitunter zu wörtlich
      Dadurch braucht man am Ende bessere Prompting-Methoden und ein besseres Verständnis dafür, wie man das Modell einsetzt
      Für Senior-Softwareingenieure ist das gut, für Entwickler, die eher per Gefühl coden, könnte es aber schwierig sein

    • Plötzlich gibt es viele Meinungen, dass Codex CLI mit gpt-5-codex besser als Claude Code geworden sei, aber das fällt mir schwer zu glauben

    • Ich frage mich, ob Teile des Prompts in höhere Layer verschoben oder auf andere Weise eingebaut (baked) wurden

    • Beim Code-Refactoring, wenn etwas in Pakete verschoben werden soll, empfehle ich, Dateien direkt manuell zu verschieben
      Dann kann man Codex einfach sagen: „Diese Datei war früher an einer anderen Stelle, bitte passe es so an, dass es wieder funktioniert“
      Das Konzept des Datei-Verschiebens scheint weder Codex noch andere CLIs bisher gut zu beherrschen
      Insbesondere werden Datei-Löschungen/-Verschiebungen bei der Erstellung von git-Commits fast nie sauber nachverfolgt

  • Ich war lange ein glühender Nutzer der Kombination claude-4-sonnet + Cursor, aber in den letzten zwei Monaten ist mein Verbrauch stark angestiegen
    Nach dem Standard-Abo von Cursor habe ich auf Pro upgegradet, bin aber wieder an Grenzen gestoßen und nutze inzwischen direkt einen Claude-API-Key, wodurch ich etwa 70 Dollar pro Woche ausgebe (was sich nicht dauerhaft anfühlt)
    Dann kam grok-code-fast-1 heraus, ich habe es an Cursor angebunden und nutze es seitdem täglich; es ist schnell, günstig (bis jetzt kostenlos) und ich war sehr zufrieden
    Vor Kurzem habe ich auch GPT-5 über die offizielle Codex-VSCode-Erweiterung ausprobiert, und es ist wirklich erstaunlich gut
    Mit gpt-5-medium habe ich eine React-Native-App massiv refaktoriert und Struktur sowie Performance der App über Nacht verbessert (wenn ich es selbst gemacht hätte, hätte es mindestens zwei Tage gedauert)
    Aktuell lasse ich mit gpt-5-medium-codex die gesamte Routing-Struktur der App neu aufbauen; es nutzt viele Tool Calls und versteht und führt Anweisungen sehr systematisch aus
    Mein künftiger Stack wird Cursor + grok-code-fast-1 (für den Alltag) und bei Bedarf Codex/GPT sein
    Nebenbei: Ich habe gpt-5-medium den ganzen Tag wirklich stark beansprucht, aber mit meinem ChatGPT-Plus-Konto bin ich kein einziges Mal ans Limit gestoßen, wofür ich dem OpenAI-Team dankbar bin

    • Mich würde interessieren, wie dein Workflow aussah, als du Refactoring mit gpt-5-medium ausprobiert hast
      Mir fehlen selbst gute Testfälle, daher interessiert mich, wie du das Modell konkret promptest, welche Vorschläge du bekommst und wie sehr dein Wissen als Entwickler geholfen hat
      Ich frage mich, ob diese Erfahrung, mit der man sich identifizieren kann, auch für einen durchschnittlichen SWE oder einen durchschnittlichen Entwickler erreichbar ist

    • Nach einem Jahr mit Cursor bin ich zum ersten Mal über das Nutzungslimit gegangen
      Ich habe bei Claude, GPT und auch Grok bereits Limits erreicht
      Deshalb nutze ich innerhalb des Cursor-Pro-Abos die Option für zusätzliche nutzungsbasierte Gebühren (25 Dollar pro Monat, also 20 + 5), um Claude weiterzuverwenden, weil es schneller als Grok war

    • Ich habe am Ende fast dieselbe Entscheidung getroffen
      grok-code-fast-1 funktioniert bei den meisten Coding-Aufgaben gut
      Ich verwende es in opencode; anscheinend gibt es kostenlos ein gewisses Kontingent, und ich konnte es nutzen, ohne einen separaten grok-Key hinzuzufügen

  • Ich bin von der Qualität der Codex-CLI-IDE sehr beeindruckt
    Auch wenn man sie früher nicht mochte, würde ich empfehlen, sie mit der VSCode-Erweiterung noch einmal auszuprobieren, schon wegen des großzügig verfügbaren Kontingents im Plus-Abo
    Ich habe mein Claude-Code-Max-Abo gekündigt und bin zum ChatGPT-Pro-Plan für 200 Dollar gewechselt
    Es ist deutlich schneller geworden, und ich bin bisher noch nie ans Limit gestoßen

    • Ich nutze aider zusammen mit gemini pro für die Projektentwicklung
      Konkret teile ich ein Tool-Projekt von mir: aretecodex.tools

    • Ich nutze Cursor im 20-Dollar-Plan, bin aber nach 15 Tagen ans Limit gestoßen und muss für den Rest des Monats zusätzliche Gebühren zahlen
      Mich würde interessieren, welche Gegenmaßnahmen empfehlenswert sind

    • Ich frage mich, was genau mit CLI IDE gemeint ist

    • Ich bin inzwischen verwirrt, ob man es jetzt wie Claude Code auch als Abo nutzen kann oder ob es nur eine API gibt

  • Ich fand es interessant, dass in diesem Thread viele Nutzer zu Codex wechseln oder Claude Code verlassen
    Das größte Problem bei Claude Code war, dass es bei zu vielen Aufgaben häufig Mock-Implementierungen oder Fake-Code erzeugte und die Probleme dadurch in der Praxis eher verschlimmerte
    Auch durch Anpassungen des Eingabe-Prompts ließ sich das nur schwer verbessern, sodass ich schließlich auf Codex umgestiegen bin
    Codex hat zwar den Vorteil, innerhalb einer bereits vollständig eingerichteten Codebasis zu arbeiten, aber in der tatsächlichen Nutzung war die Erfahrung mit Codex deutlich besser

    • Wenn man Claude verwendet, ist es am effektivsten, 1) im Plan-Mode einen Plan zu erstellen und 2) anschließend die Umsetzung dieses Plans anzuweisen
      Andere Systeme haben keinen separaten „Planning“-Modus und versuchen daher von Anfang an nur zu implementieren, weshalb man den Prompt sehr sorgfältig abstimmen muss
      Claude unterstützt die Struktur „Planen > Ausführen“ separat, daher ist der Ansatz anders
  • Nach meinen Beobachtungen der letzten zwei Wochen hat Claude Code sowohl bei der Leistung stark nachgelassen als auch beim Nutzungskontingent deutlich eingebüßt, während OpenAI Codex eher stärker geworden ist und sich das Kontingent viel großzügiger anfühlt
    Wenn jemand es seit über einem Monat nicht mehr benutzt hat, würde ich empfehlen, Codex CLI noch einmal zu testen

    • Aus Sicht der Endnutzer ist das Wichtigste, „jederzeit aussteigen zu können“
      Man sollte Dienste ständig vergleichen und den mit dem besten Preis-Leistungs-Verhältnis wählen
      Im letzten Jahr haben verschiedene Unternehmen mit unterschiedlichen Vor- und Nachteilen konkurriert, aber es gab keinen wirklich revolutionären Dienst
      Es gibt keinen Grund, an einem bestimmten Dienst festzuhalten; nur die SaaS-Anbieter bemühen sich, Nutzer an sich zu binden

    • Ich frage mich, ob Codex CLI noch immer die Angewohnheit hat, sich in Projekten mit git automatisch im „YOLO“-Stil zu verhalten
      Was ich mir von Coding-Assistenten unbedingt wünsche, ist

  1. eine Allowlist für die Ausführung von Befehlen
  2. dass gefährliche Befehle wie rm jedes Mal eine Genehmigung brauchen
  3. Unterstützung für benutzerdefinierte Slash-Commands
    Build-Hooks oder Subagent-Funktionen sind für mich nicht besonders wichtig
  • Ich habe eine Frage: Wie kann man in Codex CLI einen Modus nutzen, der dem „normal mode“ von Claude entspricht?
    Codex unterstützt nur vibe coding oder den Plan-Modus, aber keinen interaktiven Modus dazwischen, in dem gefragt wird: „Darf ich diese Aufgabe (a/b) ausführen?“ – das ist frustrierend
    Ich verstehe schwer, warum man nur zwischen dem Kopieren/Einfügen von bearbeiteten Codeänderungen oder deren automatischer Übernahme wählen kann

    • Üblicherweise schreibe ich in den Prompt: „Erstelle einen Plan und beginne nicht mit dem Coden, bis ich es genehmige“
      Danach gehe ich mehrere Schleifen des Plans durch, prüfe ihn und weise dann die Ausführung an
      Manchmal „vergisst“ das LLM den Plan, daher kopiere und speichere ich ihn separat
      Ich lasse mir die Arbeit auch schrittweise übergeben oder validiere an jedem Meilenstein parallel, z. B. mit Build-/Unit-Tests
  • Ich bin sehr beeindruckt
    Ich habe sowohl Claude als auch Codex beim Entwickeln einer „Shared Presence“-Animation getestet (eine Web-App, bei der sich der Hintergrund je nach Cursor-Position aller Nutzer verändert)
    Bis gestern haben sich beide Modelle damit schwergetan, wobei Claude leicht vorne lag
    Wenn etwas „kreativ“ gebaut werden muss, wirken die Ergebnisse beider Modelle etwas generisch, und die Implementierung der Simulation war schwierig
    Als ich heute dieselbe Aufgabe mit Codex gemacht habe, war das Design zwar immer noch etwas flach, aber der Simulationsteil war deutlich leistungsfähiger

    • Von LLMs erzeugte UIs wirken immer gewöhnlich und generisch, wenn man keinen besonders detaillierten Prompt gibt (mit Design-/Farbschema-/Präferenzvorgaben usw.)
      Wenn man zusätzliche UI-Eigenschaften vorgibt oder anweist, sich am bestehenden App-Design zu orientieren, wird das Ergebnis deutlich besser
  • Ich wollte AI Coding noch einmal ausprobieren, habe ChatGPT abonniert und Codex genutzt, aber es fühlt sich viel zu langsam an
    Selbst bei einer einfachen Aufgabe in einem fast leeren Repository „denkt“ das Modell seit 20 Minuten nur nach
    Als Ingenieur hat man dabei nur das Erlebnis des Wartens, und ich zweifle an der realen Produktivität
    Als asynchroner Agent könnte man zwar mehrere parallel laufen lassen, aber dafür braucht man eine strukturierte Codebasis, und obwohl ich schon mehrere Stunden investiert habe, habe ich noch nicht einmal ein Grundgerüst erstellt
    Ich habe die Dokumentation gelesen und die Videos angeschaut, aber in diesem Maßstab scheint es viel schneller zu sein, es einfach selbst zu bauen
    Ich frage mich, was ich falsch mache, ob es nur Serverüberlastung ist oder ob der aktuelle Stand von AI einfach so ist

    • Die meisten Ingenieure, die ich gesehen habe, versuchen vor allem Parallelisierung
      Wenn man sich daran gewöhnt, mehrere Agenten gleichzeitig arbeiten zu lassen, halte ich es für ziemlich brauchbar
      Ich habe dazu früher einmal einen Artikel gelesen, finde ihn aber gerade nicht wieder
  • Ich habe Codex am Wochenende zum ersten Mal ausprobiert, und das Ergebnis war etwas seltsam
    Obwohl ich nur ein sehr einfaches Beispiel verlangt habe (eine Rails-App mit Docker Compose hochfahren und Homepage/Devise hinzufügen), hat es statt echter Dateien den kompletten Dateiinhalt in bootstrap.sh hartkodiert
    Ich will weiter beobachten, ob es sich künftig anders verhält

  • Ich habe im letzten Monat chatgpt gekauft und genutzt und habe den Eindruck, dass OpenAI das Nutzererlebnis in letzter Zeit stark verbessert
    Zum Beispiel ist der Voice-Modus viel besser als bei Claude, und auch die Modellnamen sind einfacher geworden, während sie früher verwirrend waren
    Auch als allgemeiner Assistent war die Leistung besser als bei Claude, und OpenAI hat beim Vertrauen ebenfalls die Nase vorn, weil das Unternehmen ständig neue Tools veröffentlicht