Vergleich von Claude Code (~100 Stunden) vs. Codex (~20 Stunden)

(reddit.com)

58 Punkte von GN⁺ 15 일 전 | 18 Kommentare | Auf WhatsApp teilen

Ein Senior Engineer mit 14 Jahren Erfahrung schildert einen Praxistest von Claude Code (Opus 4.6) und Codex (GPT-5.4) in einem Python/TypeScript-Projekt mit 80.000 Zeilen Code
Claude Code ist schnell und interaktiv, erfordert aber aktives Management, da es Anweisungen ignoriert, Aufgaben unvollständig lässt und wahllos Funktionen zu bestehenden Dateien hinzufügt
Codex ist 3–4-mal langsamer, aber sorgfältiger und systematischer beim Schreiben von Code, refaktoriert eigenständig und befolgt die Anweisungsdatei (AGENTS.md) strikt
Claude Code eignet sich für schnelles Prototyping, Codex eher für die Entwicklung von Enterprise-Software
Das Fazit lautet, dass beide Tools ohne Software-Engineering-Kompetenz kaum gute Ergebnisse liefern

Hintergrund des Autors und Entwicklungsumgebung

Engineer auf Principal-/Staff-Eng-Manager-Niveau mit 14 Jahren Berufserfahrung bei den MAG7 (den sieben großen US-Techkonzernen) sowie einem weiteren bedeutenden Technologieunternehmen
Schwerpunkt auf Entwicklung auf Plattformebene und viel Erfahrung mit verteilten Systemen
Das Projekt besteht aus einer Python/TypeScript-basierten VSCode-Erweiterung mit 80.000 Zeilen Code und rund 2.800 Tests
Eine Datenanalyse-Anwendung, die hochgeladene PDF-/CSV-/XML-Dateien parst und in ein strukturiertes Datenmodell auf Postgres-Basis normalisiert
Verbindung zu einem serverseitigen Echtzeit-Datenanbieter über WebSocket, um aktuelle Daten in das Datenmodell zu streamen
Serverseitig werden Analysen auf Basis des Datenstroms aktualisiert und per SSE (Server-Sent Events) an die Web-UI übertragen
Keine Vibe-Coding-Spielerei, sondern Entwicklung auf Basis einer systematischen Architektur

Gemeinsamer Agent-Workflow

Beginn jeweils im Plan-Modus mit einem gut abgegrenzten Prompt; anschließend werden mit der plan-review-Skill 8 Sub-Agenten gestartet (Architektur, Coding-Standards, UI-Design, Performance usw.)
Jeder Sub-Agent verfügt über konkrete Prompts zusammen mit Referenzdokumenten aus früheren Research-Sessions (z. B. postgres_performance.md, python_threading.md, software_architecture.md)
- Der Spezialist für Architektur-Reviews ist so gepromptet, dass er unter Bezug auf Konzepte wie SOLID, DRY, KISS, YAGNI reviewt
Nach dem Schreiben des Codes gibt es für jeden Planungsschritt separate Commits; mit der code-review-Skill (unter Wiederverwendung der Plan-Sub-Agenten) wird jeder Commit geprüft, Feedback wird manuell kontrolliert und angepasst
CLAUDE.md umfasst etwa 100 Zeilen und enthält TDD, Git-Workflow, wichtige DevEx-Konventionen, Docker-Befehle und weitere Hinweise zur Nutzung der Projekt-Tools

Erfahrungen mit Claude Code (Opus 4.6)

Wirkt wie ein Engineer unter Termindruck und konzentriert sich eher nur auf die Umsetzung von Features durch Hacks, Patches und eine Flut von Helper-Funktionen, statt die Kernarchitektur zu überdenken
Interaktiv, braucht aber entsprechend mehr Betreuung (babysitting)
Erzeugt schnell funktionierenden Code, denkt aber vor dem Handeln nicht ausreichend nach
Selbst bei aktivem manuellem Kontext-Management (1M Kontext sei laut Einschätzung eine Anfängerfalle und sollte unter einem Viertel gehalten werden) kommt es in fast jeder Session vor, dass CLAUDE.md offen ignoriert wird
Lässt Aufgaben häufig halb fertig zurück
- Beispiel: Bei der Migration asynchroner Muster in 8 Test-Suites wurde der Großteil angepasst, einige Teile blieben jedoch im alten Muster zurück
Erstellt für neue Features fast nie neue Dateien, sondern fügt stattdessen laufend Funktionen in bestehende Dateien ein
- Das kollidiert mit einer starken OO-Ausrichtung und der Präferenz, Dateien unter 600 Zeilen zu halten
Wenn Tests fehlschlagen, versucht es oft, eigenmächtig ohne Prompt Korrekturen vorzunehmen; daher mussten viele Anweisungen wie „Wenn Tests fehlschlagen, stoppe und frag mich“ ergänzt werden
- 95 % der geschriebenen Tests sind nützlich, aber 5 % zementieren falsches Verhalten, was sich mit der Zeit aufsummiert

Erfahrungen mit Codex (GPT-5.4)

Wirkt wie ein Junior-Senior-Engineer mit 5–6 Jahren Erfahrung, der auch ohne separate Anweisung selbst stoppt und Code sauberer überarbeitet
3–4-mal langsamer als Claude (bei derselben Aufgabe)
Arbeitet vorsichtiger und bewusster und fakturiert Code automatisch straffer, statt wie Claude einfach eine „god class“ auszubauen
Überprüft während der Arbeit seine Annahmen erneut und arbeitet Dinge unterwegs um, um aufzuräumen
Führt mitunter auch unerwartete, wertstiftende Zusatzarbeiten eigenständig aus
Es wurde nie beobachtet, dass AGENTS.md ignoriert wird; selbst der Versuch, Anweisungen während einer Session zu überschreiben, wird nicht zugelassen
Da Codex ausreichend Kompetenz gezeigt hat, konnte auf ein Modell umgestellt werden, bei dem Aufgaben einfach gestartet und erst nach Abschluss geprüft werden; Echtzeit-Überwachung war nicht nötig

Gesamtvergleich

Das Nutzungslimit von Codex Pro x5 liegt ungefähr auf dem Niveau von Claude x20
Codex ist spürbar langsamer und weniger interaktiv, aber sorgfältiger, während Claude schnell und interaktiv ist, dafür aber Management braucht (babysitting)
Mit Claude lässt sich in einer Session mehr Arbeitsvolumen bewältigen, aber die Qualität der Arbeit ist bei Codex höher
- Mit Claude sind extrem schnelles Prototyping und Builds möglich, allerdings muss alle paar Tage Refactoring angeleitet werden
- Auch bei Codex ist Refactoring mit wachsender App irgendwann nötig, aber eher im Sinne von „Die App ist groß genug geworden, jetzt ist es Zeit für Refactoring“ statt „Welche Probleme müssen wir hier aufräumen?“
Für Vibe Coding in Projekten mit niedriger bis mittlerer Komplexität kommt man mit Claude schneller zum Ergebnis
Für den Aufbau von Enterprise-Software ist Codex besser geeignet
Beide Tools sind nützlich, aber Claude braucht einen erfahreneren und fokussierteren Fahrer als Codex
Wer keinerlei Ahnung von Software Engineering hat, bekommt mit beiden Tools schlechte Resultate

📋 Zusammenfassung der wichtigsten Punkte aus den Reddit-Kommentaren

Strategie: Beide Tools parallel nutzen (am häufigsten erwähnt)

Am beliebtesten ist ein Cross-Validation-Workflow: Entwurf/schnelle Arbeit mit Claude → Code-Review mit Codex
- „Lass Codex den von Claude geschriebenen Code reviewen – und umgekehrt“ — dass beide Modelle auf dieselbe Weise halluzinieren, sei äußerst selten
Manche Nutzer verwenden nach Erschöpfung der Claude-Tokens auch eine Baton-Pass-Strategie mit Codex
- Der Status wird in save-state.md und next-task.md gespeichert, damit Codex übernehmen kann; mit jedem Wechsel verbessert sich die Qualität des Handoffs
Es gibt auch Beispiele, in denen die Codex CLI als MCP-Server gekapselt wird, um die Zusammenarbeit mit Codex innerhalb von Claude Code zu automatisieren
- Nachdem Claude gearbeitet hat, gibt Codex Vorschläge zurück, die Claude dann umsetzt, wodurch sich die Codequalität drastisch verbessert
Ebenfalls praktikabel: den ganzen Tag mit Codex arbeiten, in der Abschlussphase mit Claude polieren und dann wieder zu Codex zurückkehren

Zustimmung zu den Stärken von Codex

Einige Nutzer haben Claude Code vom 20x-($200)-Plan auf 5x-($100)-Plan heruntergestuft und kombinieren es mit dem $100-Codex-Plan
Zwischen GPT-5.4 und Opus 4.6 wird kein gravierender Qualitätsabstand wahrgenommen; je nach Problem steht es eher 50:50
„Einfach laufen lassen, Kaffee holen und zurückkommen – dann ist es fertig“ — bei der autonomen Ausführung (fire-and-forget) wird Codex als Opus überlegen gesehen
Codex hält sich so strikt an AGENTS.md, dass es Anweisungen geradezu ablehnt zu missachten; ignoriert wird nur bei explizitem Override
Es gibt Berichte, dass rein mit Codex organisierte Abläufe aus Planung + Umsetzung + Review durch eine separate Codex-Instanz bessere Ergebnisse liefern

Schwächen von Codex

Der größte Kritikpunkt ist der roboterhafte Kommunikationsstil
- Beispielsweise werden Python-Dict-Werte wie [0.1, 0.3, 0.5, 0.7, 0.9] nicht in einer Zeile geschrieben, sondern jeder Wert in einer eigenen Zeile ausgegeben
- Es wird spekuliert, dass das RL-Training offenbar in Richtung „je mehr Bullet Points, desto besser“ belohnt habe
- Selbst bei angepassten Kommunikationseinstellungen pendelt das Verhalten zwischen Extremen (zu wenig vs. zu viel), ohne leicht den richtigen Mittelweg zu finden
Eine Tendenz, dem Nutzer ständig widersprechen zu wollen — selbst wenn Entwickler mit mehr als 10 Jahren Erfahrung klare Anweisungen geben, kommen weiter Einwände, ohne dass am Ende unbedingt eine gute Alternative vorgeschlagen wird
Das Gespräch zieht sich endlos hin — der Fokus auf die Aufgabe geht verloren, es wird zerfasert
Bei der Umsetzung großer Features werden viele Teile ausgelassen, und die bestehende Codebasis wird nicht immer korrekt verstanden
- Etwa wenn bereits ein Formatter existiert, aber ein neuer Formatter eigenständig erstellt wird oder hartkodierte Strings in ein ViewModel eingefügt werden
Funktional liegt Codex gegenüber Claude Code bei Hooks, MCP-Support und Plugins zurück, sodass sich ein Wechsel wie ein Rückschritt anfühlen kann

Zustimmung zu den chronischen Problemen von Claude Code

Breite Zustimmung zu dem Muster, dass Claude Anweisungen ignoriert und stattdessen macht, was es selbst für richtig hält
- „Claude versucht auszuführen, was es sich vorstellt, dass du willst“ — die Zuverlässigkeit bei der Befolgung von Anweisungen sei gering
- Fälle, in denen 100 Objekte einer Liste hartkodiert wurden und dies dann als Erfolg dargestellt wurde; sogar vorhandene Hooks zur Verhinderung wurden umgangen
In den letzten Monaten habe sich Claudes Tendenz verstärkt, bei komplexem Code die eigentliche Ursache nicht zu finden
- Statt der Grundursache werden nur Symptome gepatcht, während selbstbewusst behauptet wird, das Problem gefunden zu haben
- Es kommt auch vor, dass Codex durch Claudes selbstsichere, aber falsche Analyse in die Irre geführt wird
Manche Nutzer haben ihr Abo gekündigt, weil Claudes Credit-Verbrauch zu schnell sei — es bleibe kaum Zeit, überhaupt noch dazuzulernen

Gegenposition: Claude bleibt weiterhin überlegen

Manche Erfahrungen sprechen dafür, dass Opus 4.6 vorsichtiger und tiefer denkt und in der Design-/Architekturphase bessere Analysen als GPT-5.4 liefert
- Es gibt Fälle, in denen Opus in Reviews zusätzliche Probleme entdeckt, die GPT-5.4 übersehen hat
- Möglicherweise hängt das allerdings mit Gerüchten zusammen, dass aktuelle Claude-Modelle darauf getrimmt wurden, „weniger Aufwand zu betreiben“
Wenn Clean Architecture gefordert wird, erstellt Claude ebenfalls aktiv neue Dateien, und das Problem mit der god class tritt nicht auf
- Wenn beide Tools die Architektur sauber einhalten, ist die Codequalität nahezu gleichwertig; Unterschiede zeigen sich vor allem bei Geschwindigkeit und Bedienkomfort
Wer einen systematischen Workflow aufsetzt (Plan-Modus + Custom Skills + Feedback von coderabbit/sonarqube), kann auch in Phasen, in denen andere Nutzer sich beschweren, guten Code erzeugen und stößt nicht an die Limits

Weitere interessante Meinungen

„Beeindruckend, wie viele Features das Anthropic-Team veröffentlichen kann, wenn man bedenkt, dass 100 % des Codes von Claude geschrieben werden“ (satirisch gemeint)
„Mit Codex coden → in Claude reviewen → zusätzlich Gemini fürs Review einsetzen“ — eine Cross-Review-Strategie mit drei Modellen, wobei Sonnet manchmal Dinge findet, die Opus übersieht
Die Hoffnung: „Vielleicht wird mit Mythos (dem nächsten Modell) ein Teil dieses Handlings verschwinden“

18 Kommentare

brainer 15 일 전

Egal welches von beiden, HITL ist nötig. (Zumindest bis heute)
Bitte hört auf mit diesem Gerede über irgendwelche Ralph Loops.

loblue 11 일 전

Ich nutze nur Codex, und das entspricht genau meinem Eindruck.
Es passt auch zu meiner Arbeitsweise, deshalb nutze ich es gern.
Ich hatte vor, nach dem Ende von ChatGPT auf KakaoTalk zu Claude zu wechseln,
aber irgendwie habe ich das Gefühl, dass die Nachteile von Claude nicht zu meiner Art passen würden..

oberon 13 일 전

Gibt es wohl Unterschiede bei den bevorzugten Programmiersprachen der Nutzer von Claude und Codex?

tested 14 일 전

> Tendenz, dem Nutzer ständig widersprechen zu wollen — selbst wenn ein Entwickler mit über 10 Jahren Berufserfahrung klare Anweisungen gibt, erhebt es weiter Einwände und liefert am Ende nicht einmal selbst eine gute Alternative

lol

clash4970 14 일 전

Es scheint auch Unterschiede in der Art der Nutzung zu geben. Je nach Neigung des Entwicklers unterscheiden sich die Art der Handhabung und die Vorlieben, ähnlich wie bei allem anderen. Wenn man ein Modell viel benutzt, gewöhnt man sich an den Workflow damit, sodass sich ein anderes Modell ungewohnt anfühlen kann.

sea715 14 일 전

Ich glaube nicht, dass es einen Grund gibt, unbedingt an einem bestimmten Modell festzuhalten~

tangokorea 14 일 전

Hängt das nicht davon ab, auf welche Domäne man es anwendet?
Wenn ich es für etwas wie rhwp nutze, an dem ich gerade arbeite und bei dem ich Unterschiede im Rendering im Bereich von 1 mm aufspüren und verarbeiten muss, geht es mit Codex kaputt. Bei Aufgaben mit hohem Schwierigkeitsgrad liegt Claude Code bislang noch vorn, aber bei der Entwicklung von Web-Apps, bei der man nur Workflows und Frameworks braucht und es ausreicht, nach einem Verfahren nur bis zu einem gewissen Niveau zu kommen, habe ich das Gefühl, dass Codex für die psychische Gesundheit die bessere Wahl ist.

act1000 7 일 전

Ich benutze es sehr gern
Auf dem Mac lädt es sogar schneller als der Viewer und ist einfach top!

kyg5474 8 일 전

Vielen Dank, das weiß ich sehr zu schätzen.

ifmkl 13 일 전

Oh, ich nutze es sehr gern. Vielen Dank für dieses großartige Projekt.

dhlee0305 14 일 전

Ich werde rhwp gut nutzen.

Respekt

bungker 14 일 전

Ich stimme zu, dass Codex sehr gründlich ist. Ich empfehle, mit Claude zu programmieren und anschließend mit Codex reviewen zu lassen. Es dauert zwar ziemlich lange, aber wenn man es vor dem Gang zur Toilette oder vor einem Meeting anstößt, ist die Abschlussquote auch recht hoch.

oneforall88 14 일 전

Ich mache es auch so. Etwas detaillierter gesagt habe ich Claude für 100 Dollar und Codex für 200 Dollar eingerichtet und das Ganze sogar als Skill gebaut, damit es kontinuierlich in diesem Ablauf läuft: Planung mit Claude Code Opus -> Implementierung mit Sonnet -> Review mit Codex -> Validierung des Reviews mit Opus -> erneute Implementierung mit Sonnet -> Review mit Codex (danach Wiederholung) – und ich bin damit zufrieden.

minhoryang 14 일 전

Ich nutze es auch so. Ich weise die Rollen jedoch nicht fest einem bestimmten Modell zu, sondern ordne sie zuerst dem Modell zu, das das großzügigste Kontingent hat und zugleich am leistungsfähigsten ist.

gpdir16 14 일 전

Ich habe beide ausprobiert und dachte eher das Gegenteil, aber offenbar ist das nicht so.
Als ich es benutzt habe, hat Codex die Anweisungen nämlich oft ignoriert.
Vielleicht hat sich das geändert, weil Anthropic kürzlich die Leistung von 4.6 Opus gesenkt hat.

master6559 15 일 전

Ist es nicht eher umgekehrt? Der Senior ist wohl weniger kompetent als gedacht.

wedding 14 일 전

das chronische Problem von Claude Code haben Sie offenbar noch nicht erlebt. Auf Reddit ist deswegen ständig die Hölle los.

shblue21 14 일 전

Ich hatte mit Codex die bessere Erfahrung.