1 Punkte von GN⁺ 1 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • Ich habe 3 Monate lang mit Claude/Anthropic programmiert, aber bei Arbeiten im Repo-Maßstab wurde die Zuverlässigkeit so gering, dass ein separates Überwachungs-Workflow nötig wurde
  • In der 4.7-Phase halluzinierte das Modell, eine Funktion sei fertig, obwohl die tatsächliche Implementierung nur bei etwa 40 % lag, und zeigte übermäßiges Selbstvertrauen rund um Stubs/Placeholder
  • Trotz der Kosten für Max x20 überwogen gegenüber dem Produktivitätsgewinn der Token-Verbrauch und der Aufwand für Aufsicht, daher erfolgte am 12. Mai der Wechsel zu GPT-5.5 + Codex
  • Codex versteht auch ohne übermäßige Prompts den benachbarten Code besser, erkennt Regressionen zuverlässiger und macht Lint-/Test-Schleifen sowie groß angelegte Refactorings handhabbar
  • Die Migration beschränkte sich im Wesentlichen auf den Wechsel von CLAUDE.md→AGENTS.md und das Beibehalten der Hooks; in diesem Workflow ist eine Rückkehr nicht geplant

So hat sich der Entwicklungsfluss nach dem Wechsel von Claude zu Codex verändert

  • In den vergangenen 3 Monaten wurde hauptsächlich mit Claude/Anthropic programmiert; zum Zeitpunkt des Releases von Opus 4.6 wirkten vor allem Architekturverständnis, der Umgang mit großem Kontext und schnelle Feature-Implementierung als Stärken
  • Mit der Zeit sank jedoch die Zuverlässigkeit bei Arbeiten im Repo-Maßstab, sodass ein separates Workflow zur Überwachung des Modells nötig wurde
    • mehrere Agenten, die Regressionen in benachbarten Dateien prüfen
    • ein „Senior Reviewer“-Agent bei jedem wichtigen Commit
    • kontinuierliche Verifikation, um Implementierungsdrift und unvollständige Implementierungen zu erkennen
    • eine Lint-/Test-Pipeline, die Aufgaben abfängt, von denen das Modell selbstbewusst behauptet, sie seien abgeschlossen
  • In der 4.7-Phase wurden die Probleme im persönlichen Workflow noch größer
    • Das Modell halluzinierte, dass eine Funktion abgeschlossen sei, obwohl die tatsächliche Implementierung nur bei etwa 40 % lag
    • Es zeigte unbegründetes Selbstvertrauen rund um Stubs/Placeholder
    • Selbst bei realistisch machbaren Änderungen zeigte es Ausweichverhalten, etwa mit Aussagen wie „dafür ist eine separate Session nötig“ oder mit übertriebenen Zeitschätzungen
  • Zwar wurden die Kosten für Max x20 bezahlt, doch stärker als jeder Produktivitätsgewinn fielen der steigende Token-Verbrauch und der wachsende Aufsichtsaufwand ins Gewicht
  • Am Ende erfolgte am 12. Mai der Wechsel zu GPT-5.5 + Codex, und AI-Coding fühlte sich nach Monaten eher wieder angenehm als stressig an

Wahrgenommene Vorteile von GPT-5.5 + Codex

  • Codex versteht auch ohne übermäßige Prompts den benachbarten Code gut und erkennt Regressionen besser
  • Die Lint-/Test-Feedback-Schleife arbeitet straffer, und auch groß angelegte Refactorings werden tatsächlich handhabbar
  • Infrastrukturentscheidungen und Architekturänderungen folgen eher einer konsistenten Richtung statt fragmentiert zu wirken, und statt nur so zu tun, als sei etwas fertig, wird die Arbeit tatsächlich abgeschlossen
  • /fast wird meist gemieden, weil es das wöchentliche Nutzungslimit schnell aufzubrauchen scheint, aber schon mit high/xhigh war der Produktivitätsgewinn groß
  • Wenn man das komplette Repository als ZIP in GPT-5.5 Pro extended thinking lädt, hilft das dabei, Probleme zu lösen, an denen andere Modelle wiederholt gescheitert sind
  • Auch die Migration verlief ohne große Reibung
    • CLAUDE.md wurde zu AGENTS.md
    • Hooks blieben unverändert erhalten
    • Der gesamte Workflow musste kaum angepasst werden
  • Das bedeutet nicht, dass alle sofort wechseln sollten, aber in diesem Workflow ist vorerst keine Rückkehr geplant

1 Kommentare

 
GN⁺ 1 시간 전
Hacker-News-Kommentare
  • AI-Tools sind nichts, bei dem man wie bei der Wahl eines Lieblingssportteams nur eine Seite anfeuern sollte. Man sollte beide, am besten alle, kennenlernen und diese Woche einfach das verwenden, was am besten passt
    Nächsten Monat kann das schon wieder anders aussehen. Ich habe zwei Abos, weiß aber auch, dass sich das nicht jeder leisten kann

    • Im Moment ist die Stimmung wirklich so, aber ich glaube, das liegt meist an der menschlichen Tendenz, es so zu empfinden, als würde mir jemand sagen, ich läge falsch, wenn jemand anderes eine andere Wahl trifft
      Die Tools sind alle okay, manche erzielen mit dem einen bessere Ergebnisse, und wie gesagt kann es nächste Woche schon wieder völlig anders sein
    • Mir ist auch egal, wer es ist, solange es gerade gut für mich funktioniert; ich teste und experimentiere einfach weiter
    • Genau. Die Modelle verändern sich ständig. Heute Anthropic, morgen OpenAI, dann wieder Anthropic, nächste Woche ein neuer Herausforderer aus China, und nächsten Monat bekommt Google vielleicht die Kurve. Das wiederholt sich immer weiter
    • Ich habe ungefähr eine Woche lang Codex und Gemini ausprobiert, und bisher passt Codex für mich am besten
      Allerdings nutze ich dank eines 15-€-Gutscheins für 18 Monate Premium von Kinguin auch Gemini, daher schiebe ich einige Aufgaben zu Gemini rüber, wenn ich ans Limit komme
  • Opus 4.7 fühlt sich so an, als sei es darauf ausgerichtet, nützlich und produktiv zu wirken und auf Show-Performance abzuzielen
    Codex erledigt tatsächlich die Arbeit

  • Es wäre schön, wenn du deinen Workflow etwas genauer teilen könntest. Ich würde gern lernen, was du wie machst, und das nachmachen
    Mich würde auch interessieren, warum du das ganze Repository in GPT packst und welche Techniken und Bücher du verwendest
    Ich gebe einen Prompt ein und warte, bis Codex fertig ist, und frage dann noch einmal nach, ob es die offensichtlichen Nebenaufgaben erledigt hat, die ich früher selbst gemacht hätte. Dann bearbeitet es diese erst, danach verbringe ich Zeit mit /review und manuellen Tests und gehe wieder zu kleineren Arbeitseinheiten über. Für große Features nutze ich plan, außerdem die VSCode-Erweiterung, und ich habe sowohl 5.4 als auch 5.5 verwendet, aber Ersteres scheint besser zu mir zu passen

  • Wie kann man hier andere Modelle als OpenAI-Modelle verwenden?

  • Das Problem bei Claude ist, dass es nicht wie Codex kontinuierlich weiterläuft. Claude mag besser sein, aber Codex versucht, die Aufgabe bis zum Ende abzuschließen
    Claude bleibt einfach stehen, und selbst wenn es dazu fähig wäre, wäre es wohl zu teuer, sodass es keinen großen Unterschied machen würde. Vielleicht ist es ähnlich gut oder sogar besser, aber inzwischen weiß ich es nicht mehr genau und nutze es nicht mehr. 4.5 war am Anfang, als es herauskam, das Beste

  • Dass Codex sich magisch anfühlt, ging mir genauso, aber warte einfach, bis es kaputtgeht. Vor drei Tagen hatte ich noch dasselbe Gefühl, aber jetzt wirkt es ehrlich gesagt sogar schlechter als Claude
    Ich nutze es mit 5 Pro-Accounts rund um die Uhr, also kann ich das mit Sicherheit sagen: Es ist nicht mehr wie vor einer Woche, inzwischen ist es wirklich deutlich schlechter geworden

    • Altman hat zugegeben, dass der Zustand von Codex am Donnerstag/Freitag katastrophal war, und dass man herauszufinden versucht, was sich geändert hat
    • Wegen eines Caching-Problems gab es einen Leistungseinbruch, dazu wurde auch getwittert. Inzwischen wurde ein Rollback durchgeführt, und die Leistung soll wieder auf dem Ausgangsniveau sein
    • 5 Pro-Accounts? Meinst du Plus-Accounts?