Nach monatelangem Ringen mit Claude fühlt sich Codex wie der Traum eines Vibe-Coders an
(reddit.com)- Ich habe 3 Monate lang mit Claude/Anthropic programmiert, aber bei Arbeiten im Repo-Maßstab wurde die Zuverlässigkeit so gering, dass ein separates Überwachungs-Workflow nötig wurde
- In der 4.7-Phase halluzinierte das Modell, eine Funktion sei fertig, obwohl die tatsächliche Implementierung nur bei etwa 40 % lag, und zeigte übermäßiges Selbstvertrauen rund um Stubs/Placeholder
- Trotz der Kosten für Max x20 überwogen gegenüber dem Produktivitätsgewinn der Token-Verbrauch und der Aufwand für Aufsicht, daher erfolgte am 12. Mai der Wechsel zu GPT-5.5 + Codex
- Codex versteht auch ohne übermäßige Prompts den benachbarten Code besser, erkennt Regressionen zuverlässiger und macht Lint-/Test-Schleifen sowie groß angelegte Refactorings handhabbar
- Die Migration beschränkte sich im Wesentlichen auf den Wechsel von CLAUDE.md→AGENTS.md und das Beibehalten der Hooks; in diesem Workflow ist eine Rückkehr nicht geplant
So hat sich der Entwicklungsfluss nach dem Wechsel von Claude zu Codex verändert
- In den vergangenen 3 Monaten wurde hauptsächlich mit Claude/Anthropic programmiert; zum Zeitpunkt des Releases von Opus 4.6 wirkten vor allem Architekturverständnis, der Umgang mit großem Kontext und schnelle Feature-Implementierung als Stärken
- Mit der Zeit sank jedoch die Zuverlässigkeit bei Arbeiten im Repo-Maßstab, sodass ein separates Workflow zur Überwachung des Modells nötig wurde
- mehrere Agenten, die Regressionen in benachbarten Dateien prüfen
- ein „Senior Reviewer“-Agent bei jedem wichtigen Commit
- kontinuierliche Verifikation, um Implementierungsdrift und unvollständige Implementierungen zu erkennen
- eine Lint-/Test-Pipeline, die Aufgaben abfängt, von denen das Modell selbstbewusst behauptet, sie seien abgeschlossen
- In der 4.7-Phase wurden die Probleme im persönlichen Workflow noch größer
- Das Modell halluzinierte, dass eine Funktion abgeschlossen sei, obwohl die tatsächliche Implementierung nur bei etwa 40 % lag
- Es zeigte unbegründetes Selbstvertrauen rund um Stubs/Placeholder
- Selbst bei realistisch machbaren Änderungen zeigte es Ausweichverhalten, etwa mit Aussagen wie „dafür ist eine separate Session nötig“ oder mit übertriebenen Zeitschätzungen
- Zwar wurden die Kosten für Max x20 bezahlt, doch stärker als jeder Produktivitätsgewinn fielen der steigende Token-Verbrauch und der wachsende Aufsichtsaufwand ins Gewicht
- Am Ende erfolgte am 12. Mai der Wechsel zu GPT-5.5 + Codex, und AI-Coding fühlte sich nach Monaten eher wieder angenehm als stressig an
Wahrgenommene Vorteile von GPT-5.5 + Codex
- Codex versteht auch ohne übermäßige Prompts den benachbarten Code gut und erkennt Regressionen besser
- Die Lint-/Test-Feedback-Schleife arbeitet straffer, und auch groß angelegte Refactorings werden tatsächlich handhabbar
- Infrastrukturentscheidungen und Architekturänderungen folgen eher einer konsistenten Richtung statt fragmentiert zu wirken, und statt nur so zu tun, als sei etwas fertig, wird die Arbeit tatsächlich abgeschlossen
/fastwird meist gemieden, weil es das wöchentliche Nutzungslimit schnell aufzubrauchen scheint, aber schon mit high/xhigh war der Produktivitätsgewinn groß- Wenn man das komplette Repository als ZIP in GPT-5.5 Pro extended thinking lädt, hilft das dabei, Probleme zu lösen, an denen andere Modelle wiederholt gescheitert sind
- Auch die Migration verlief ohne große Reibung
- Das bedeutet nicht, dass alle sofort wechseln sollten, aber in diesem Workflow ist vorerst keine Rückkehr geplant
1 Kommentare
Hacker-News-Kommentare
AI-Tools sind nichts, bei dem man wie bei der Wahl eines Lieblingssportteams nur eine Seite anfeuern sollte. Man sollte beide, am besten alle, kennenlernen und diese Woche einfach das verwenden, was am besten passt
Nächsten Monat kann das schon wieder anders aussehen. Ich habe zwei Abos, weiß aber auch, dass sich das nicht jeder leisten kann
Die Tools sind alle okay, manche erzielen mit dem einen bessere Ergebnisse, und wie gesagt kann es nächste Woche schon wieder völlig anders sein
Allerdings nutze ich dank eines 15-€-Gutscheins für 18 Monate Premium von Kinguin auch Gemini, daher schiebe ich einige Aufgaben zu Gemini rüber, wenn ich ans Limit komme
Opus 4.7 fühlt sich so an, als sei es darauf ausgerichtet, nützlich und produktiv zu wirken und auf Show-Performance abzuzielen
Codex erledigt tatsächlich die Arbeit
Es wäre schön, wenn du deinen Workflow etwas genauer teilen könntest. Ich würde gern lernen, was du wie machst, und das nachmachen
Mich würde auch interessieren, warum du das ganze Repository in GPT packst und welche Techniken und Bücher du verwendest
Ich gebe einen Prompt ein und warte, bis Codex fertig ist, und frage dann noch einmal nach, ob es die offensichtlichen Nebenaufgaben erledigt hat, die ich früher selbst gemacht hätte. Dann bearbeitet es diese erst, danach verbringe ich Zeit mit
/reviewund manuellen Tests und gehe wieder zu kleineren Arbeitseinheiten über. Für große Features nutze ich plan, außerdem die VSCode-Erweiterung, und ich habe sowohl 5.4 als auch 5.5 verwendet, aber Ersteres scheint besser zu mir zu passenWie kann man hier andere Modelle als OpenAI-Modelle verwenden?
Das Problem bei Claude ist, dass es nicht wie Codex kontinuierlich weiterläuft. Claude mag besser sein, aber Codex versucht, die Aufgabe bis zum Ende abzuschließen
Claude bleibt einfach stehen, und selbst wenn es dazu fähig wäre, wäre es wohl zu teuer, sodass es keinen großen Unterschied machen würde. Vielleicht ist es ähnlich gut oder sogar besser, aber inzwischen weiß ich es nicht mehr genau und nutze es nicht mehr. 4.5 war am Anfang, als es herauskam, das Beste
Dass Codex sich magisch anfühlt, ging mir genauso, aber warte einfach, bis es kaputtgeht. Vor drei Tagen hatte ich noch dasselbe Gefühl, aber jetzt wirkt es ehrlich gesagt sogar schlechter als Claude
Ich nutze es mit 5 Pro-Accounts rund um die Uhr, also kann ich das mit Sicherheit sagen: Es ist nicht mehr wie vor einer Woche, inzwischen ist es wirklich deutlich schlechter geworden