23 Punkte von GN⁺ 2026-05-17 | 9 Kommentare | Auf WhatsApp teilen
  • Ich habe 3 Monate lang mit Claude/Anthropic programmiert, aber bei Arbeiten im Repo-Maßstab wurde die Zuverlässigkeit so gering, dass ein separates Überwachungs-Workflow nötig wurde
  • In der 4.7-Phase halluzinierte das Modell, eine Funktion sei fertig, obwohl die tatsächliche Implementierung nur bei etwa 40 % lag, und zeigte übermäßiges Selbstvertrauen rund um Stubs/Placeholder
  • Trotz der Kosten für Max x20 überwogen gegenüber dem Produktivitätsgewinn der Token-Verbrauch und der Aufwand für Aufsicht, daher erfolgte am 12. Mai der Wechsel zu GPT-5.5 + Codex
  • Codex versteht auch ohne übermäßige Prompts den benachbarten Code besser, erkennt Regressionen zuverlässiger und macht Lint-/Test-Schleifen sowie groß angelegte Refactorings handhabbar
  • Die Migration beschränkte sich im Wesentlichen auf den Wechsel von CLAUDE.md→AGENTS.md und das Beibehalten der Hooks; in diesem Workflow ist eine Rückkehr nicht geplant

So hat sich der Entwicklungsfluss nach dem Wechsel von Claude zu Codex verändert

  • In den vergangenen 3 Monaten wurde hauptsächlich mit Claude/Anthropic programmiert; zum Zeitpunkt des Releases von Opus 4.6 wirkten vor allem Architekturverständnis, der Umgang mit großem Kontext und schnelle Feature-Implementierung als Stärken
  • Mit der Zeit sank jedoch die Zuverlässigkeit bei Arbeiten im Repo-Maßstab, sodass ein separates Workflow zur Überwachung des Modells nötig wurde
    • mehrere Agenten, die Regressionen in benachbarten Dateien prüfen
    • ein „Senior Reviewer“-Agent bei jedem wichtigen Commit
    • kontinuierliche Verifikation, um Implementierungsdrift und unvollständige Implementierungen zu erkennen
    • eine Lint-/Test-Pipeline, die Aufgaben abfängt, von denen das Modell selbstbewusst behauptet, sie seien abgeschlossen
  • In der 4.7-Phase wurden die Probleme im persönlichen Workflow noch größer
    • Das Modell halluzinierte, dass eine Funktion abgeschlossen sei, obwohl die tatsächliche Implementierung nur bei etwa 40 % lag
    • Es zeigte unbegründetes Selbstvertrauen rund um Stubs/Placeholder
    • Selbst bei realistisch machbaren Änderungen zeigte es Ausweichverhalten, etwa mit Aussagen wie „dafür ist eine separate Session nötig“ oder mit übertriebenen Zeitschätzungen
  • Zwar wurden die Kosten für Max x20 bezahlt, doch stärker als jeder Produktivitätsgewinn fielen der steigende Token-Verbrauch und der wachsende Aufsichtsaufwand ins Gewicht
  • Am Ende erfolgte am 12. Mai der Wechsel zu GPT-5.5 + Codex, und AI-Coding fühlte sich nach Monaten eher wieder angenehm als stressig an

Wahrgenommene Vorteile von GPT-5.5 + Codex

  • Codex versteht auch ohne übermäßige Prompts den benachbarten Code gut und erkennt Regressionen besser
  • Die Lint-/Test-Feedback-Schleife arbeitet straffer, und auch groß angelegte Refactorings werden tatsächlich handhabbar
  • Infrastrukturentscheidungen und Architekturänderungen folgen eher einer konsistenten Richtung statt fragmentiert zu wirken, und statt nur so zu tun, als sei etwas fertig, wird die Arbeit tatsächlich abgeschlossen
  • /fast wird meist gemieden, weil es das wöchentliche Nutzungslimit schnell aufzubrauchen scheint, aber schon mit high/xhigh war der Produktivitätsgewinn groß
  • Wenn man das komplette Repository als ZIP in GPT-5.5 Pro extended thinking lädt, hilft das dabei, Probleme zu lösen, an denen andere Modelle wiederholt gescheitert sind
  • Auch die Migration verlief ohne große Reibung
    • CLAUDE.md wurde zu AGENTS.md
    • Hooks blieben unverändert erhalten
    • Der gesamte Workflow musste kaum angepasst werden
  • Das bedeutet nicht, dass alle sofort wechseln sollten, aber in diesem Workflow ist vorerst keine Rückkehr geplant

9 Kommentare

 
summerz 2026-05-18

Ab einem gewissen Punkt scheint Codex in vielerlei Hinsicht deutlich überlegen zu sein.

 
skageektp 2026-05-18

Geht nur mir das so, dass ich ständig zwischen den Abos hin- und herwechsle? lol Der Spitzenreiter wechselt ständig, lolol

 
skageektp 2026-05-18

Aber man sollte das etwas mit Vorsicht betrachten, weil es sich um einen Beitrag im Codex-Subreddit handelt. Bei Reddit ist der Unterschied darin, wie sehr etwas gehypt wird, je nach Subreddit wirklich enorm.

 
holywork 2026-05-18

Als ich früher Cursor benutzt habe, habe ich verschiedene Modelle abwechselnd verwendet. Seit GPT-5 wirken die OpenAI-Modelle im Vergleich relativ sehr vorsichtig, aber zugleich auch fleißig.

 
gkhcdef 2026-05-17

Ich hatte auch extra bezahlt, weil Codex mehr Tokens bietet und Fehler in den von Claude erstellten Plänen oder im Code gut findet, und ich deshalb sogar überlegt hatte, komplett zu wechseln.
Daran glaube ich zwar immer noch, aber ich kann Claude trotzdem noch nicht ganz aufgeben. Seit ich Codex als Haupttool nutze, findet nun Claude wiederum Fehler in den Plänen oder im Code von Codex.

 
xguru 2026-05-17

Bei mir war Codex die ganze Zeit das Haupttool, und in letzter Zeit wirkt es so, als würde es immer klüger werden.

Gerade eben erlebt: Inzwischen scheint es auch Automatisierung selbstständig gut hinzubekommen. Nachdem ich bei etwas im Zusammenhang mit dem CDN eine Konfiguration angepasst hatte, hat es von sich aus einen Timer eingerichtet, der in 4320 Minuten ausgeführt wird, mit dem Hinweis, es in 3 Tagen zu prüfen.

Die Codex-App für den Mac ist super praktisch. Jetzt läuft es auch mobil gut, also werde ich wohl noch mehr damit arbeiten.

 
helloppfm 2026-05-17

Claude war auf dem Thron, aber seit Codex 5.5 da ist, wirkt es so, als hätte Codex die Spitzenposition übernommen.

Ich nutze beide, aber in letzter Zeit verwende ich Claude Code fast gar nicht mehr. Codex scheint es besser zu können, und vor allem gehen die Tokens einfach nicht aus.

Ist nächsten Monat dann Gemini dran, das es bisher noch nicht auf den Thron geschafft hat?

 
kaydash 2026-05-17

„Die tatsächliche Implementierung ist erst zu etwa 40 % fertig, aber es halluziniert, sie sei abgeschlossen, oder zeigt rund um Stubs/Platzhalter übermäßiges Selbstvertrauen.“
Diese Halluzinationen über den echten Fertigstellungsgrad sind einfach so frustrierend, und ich kann das total nachvollziehen.

 
GN⁺ 2026-05-17
Hacker-News-Kommentare
  • AI-Tools sind nichts, bei dem man wie bei der Wahl eines Lieblingssportteams nur eine Seite anfeuern sollte. Man sollte beide, am besten alle, kennenlernen und diese Woche einfach das verwenden, was am besten passt
    Nächsten Monat kann das schon wieder anders aussehen. Ich habe zwei Abos, weiß aber auch, dass sich das nicht jeder leisten kann

    • Im Moment ist die Stimmung wirklich so, aber ich glaube, das liegt meist an der menschlichen Tendenz, es so zu empfinden, als würde mir jemand sagen, ich läge falsch, wenn jemand anderes eine andere Wahl trifft
      Die Tools sind alle okay, manche erzielen mit dem einen bessere Ergebnisse, und wie gesagt kann es nächste Woche schon wieder völlig anders sein
    • Mir ist auch egal, wer es ist, solange es gerade gut für mich funktioniert; ich teste und experimentiere einfach weiter
    • Genau. Die Modelle verändern sich ständig. Heute Anthropic, morgen OpenAI, dann wieder Anthropic, nächste Woche ein neuer Herausforderer aus China, und nächsten Monat bekommt Google vielleicht die Kurve. Das wiederholt sich immer weiter
    • Ich habe ungefähr eine Woche lang Codex und Gemini ausprobiert, und bisher passt Codex für mich am besten
      Allerdings nutze ich dank eines 15-€-Gutscheins für 18 Monate Premium von Kinguin auch Gemini, daher schiebe ich einige Aufgaben zu Gemini rüber, wenn ich ans Limit komme
  • Opus 4.7 fühlt sich so an, als sei es darauf ausgerichtet, nützlich und produktiv zu wirken und auf Show-Performance abzuzielen
    Codex erledigt tatsächlich die Arbeit

  • Es wäre schön, wenn du deinen Workflow etwas genauer teilen könntest. Ich würde gern lernen, was du wie machst, und das nachmachen
    Mich würde auch interessieren, warum du das ganze Repository in GPT packst und welche Techniken und Bücher du verwendest
    Ich gebe einen Prompt ein und warte, bis Codex fertig ist, und frage dann noch einmal nach, ob es die offensichtlichen Nebenaufgaben erledigt hat, die ich früher selbst gemacht hätte. Dann bearbeitet es diese erst, danach verbringe ich Zeit mit /review und manuellen Tests und gehe wieder zu kleineren Arbeitseinheiten über. Für große Features nutze ich plan, außerdem die VSCode-Erweiterung, und ich habe sowohl 5.4 als auch 5.5 verwendet, aber Ersteres scheint besser zu mir zu passen

  • Wie kann man hier andere Modelle als OpenAI-Modelle verwenden?

  • Das Problem bei Claude ist, dass es nicht wie Codex kontinuierlich weiterläuft. Claude mag besser sein, aber Codex versucht, die Aufgabe bis zum Ende abzuschließen
    Claude bleibt einfach stehen, und selbst wenn es dazu fähig wäre, wäre es wohl zu teuer, sodass es keinen großen Unterschied machen würde. Vielleicht ist es ähnlich gut oder sogar besser, aber inzwischen weiß ich es nicht mehr genau und nutze es nicht mehr. 4.5 war am Anfang, als es herauskam, das Beste

  • Dass Codex sich magisch anfühlt, ging mir genauso, aber warte einfach, bis es kaputtgeht. Vor drei Tagen hatte ich noch dasselbe Gefühl, aber jetzt wirkt es ehrlich gesagt sogar schlechter als Claude
    Ich nutze es mit 5 Pro-Accounts rund um die Uhr, also kann ich das mit Sicherheit sagen: Es ist nicht mehr wie vor einer Woche, inzwischen ist es wirklich deutlich schlechter geworden

    • Altman hat zugegeben, dass der Zustand von Codex am Donnerstag/Freitag katastrophal war, und dass man herauszufinden versucht, was sich geändert hat
    • Wegen eines Caching-Problems gab es einen Leistungseinbruch, dazu wurde auch getwittert. Inzwischen wurde ein Rollback durchgeführt, und die Leistung soll wieder auf dem Ausgangsniveau sein
    • 5 Pro-Accounts? Meinst du Plus-Accounts?