- In der Reddit-Community r/codex läuft eine Diskussion, die die Coding-Leistung der beiden Modelle vergleicht; die Mehrheit der Nutzer unterstützt zum jetzigen Zeitpunkt den Vorsprung von GPT 5.5
- GPT 5.5 überzeugt bei Stabilität und Präzision, während es bei Opus 4.7 viel Unzufriedenheit über jüngste Leistungseinbußen und Nutzungslimits gibt
- Es gibt auch Einschätzungen, dass Opus 4.7 im Bereich Frontend-/UI-Design weiterhin leicht im Vorteil ist
- Mehrere Nutzer weisen auf ein Herunterregeln der Leistung (lobotomize) bei Claude(Opus) aufgrund mangelnder Rechenressourcen hin und stellen damit die Zuverlässigkeit infrage
- Es wird auch die Ansicht vertreten, dass sich die Leistung von AI-Modellen weiter verbessert und langfristig Zugänglichkeit, Preis, Nutzungslimits und Zensurpolitik wichtigere Auswahlkriterien sein könnten als der aktuelle Vorsprung
Vergleich der allgemeinen Coding-Leistung
- Die meisten Kommentare stimmen darin überein, dass GPT 5.5 beim Coding/Programmieren insgesamt überlegen ist
- GPT 5.5 ist schnell, leistungsfähig und bei der Aufmerksamkeit für Details besser als Opus 4.7
- GPT 5.5 ist effektiv bei Bugfixes und beim Erkennen fehlender Abhängigkeiten
- Opus 4.7 wird zwar teils eine ähnliche reine Coding-Fähigkeit zugeschrieben, es zeigt aber eine „faule“ Tendenz, bei der es manchmal nur das Nötigste erledigt
- GPT 5.5 bewertet den Auswirkungsbereich des Codes und erkennt wichtige Überlegungen, bevor es handelt, während Opus 4.7 eher dazu neigt, schnell eine mittelmäßige Lösung zu bauen
UI-/Frontend-Design
- Bei Design- und Frontend-Aufgaben liefert Opus 4.7 etwas bessere Ergebnisse
- Allerdings gibt es auch einen Fall, in dem GPT 5.5 das Design einer Band-Website allein anhand des Logos im One-Shot fast perfekt umgesetzt hat
- Die Ergebnisse von UI/UX-Arbeiten mit Codex hängen davon ab, wie gut das Prompting ist und ob visuelle Hinweise bereitgestellt werden
- Als Strategie wird empfohlen, mit GPT 5.5 Basis und Struktur aufzubauen und mit Opus 4.7 das Frontend-Design zu verfeinern
- Es gibt auch den Vorschlag, kostenlose Tools wie Meta Muse Spark zu nutzen, um den UI-Teil zu ergänzen
Stabilitäts- und Nutzungslimit-Probleme bei Opus 4.7
- Es ist weit verbreitet die Wahrnehmung, dass Opus 4.7 wegen stark wachsender Nutzerzahlen und fehlender Rechenressourcen in der Leistung heruntergeregelt wurde
- Es gibt viele Beschwerden, dass 4.7 (und 4.6) wiederholt in der Leistung beschnitten (nerfed) wurden
- Es wird berichtet, dass Opus 4.7 im Max-Effort-Modus viele Halluzinationen erzeugt
- In einem Fall verbrauchte ein einzelner unvollständig bearbeiteter Prompt in einer 18-Minuten-Session ein Nutzungslimit im Umfang von 5 Stunden
- Das Nutzungslimit für Opus im $20-Claude-Pro-Abo wird als sehr streng eingeschätzt
Vor- und Nachteile von GPT 5.5
- GPT 5.5 ist stabil und liefert konstante Qualität ohne Leistungsrückschritte (regressions)
- Nutzer berichten, bislang keine Erzeugung falscher Informationen festgestellt zu haben
- Allerdings hat es eine „faule“ Tendenz, nur das im Prompt explizit Genannte minimal auszuführen, weshalb detailliertes Prompting oder ein vorgelagerter Planungs- und Q&A-Prozess nötig sein kann
- Der Token-Verbrauch ist tendenziell höher
- Im Vergleich zu GPT 5.4 ($20-Abo) verbraucht 5.5 doppelt so viel Nutzungslimit, während die Benchmark-Verbesserung nur bei 2–5 % liegt, weshalb auch das Preis-Leistungs-Verhältnis infrage gestellt wird
Preis- und Abo-Vergleich
- Für die private Nutzung gilt das $100-ChatGPT-Pro-Abo als besonders gutes Preis-Leistungs-Angebot
- Als Strategie wird empfohlen, Codex mit $10 Kimi oder $22 Gemini zu kombinieren, um UI-Arbeiten zu ergänzen
- Wer Google Storage bereits nutzt, für den liegt Gemini effektiv bei etwa $10–15
- Es gibt auch Nutzer, die erwägen, von einem Claude-Max-Konto vollständig zu GPT Plus zu wechseln
Langfristige Perspektive
- Innerhalb weniger Monate könnten alle Modelle einschließlich chinesischer Modelle mindestens das Niveau von Opus 4.6 erreichen und zu niedrigeren Preisen angeboten werden
- Wichtiger als die reine Modellleistung dürften künftig Zugänglichkeit, Preis, Nutzungslimits, Zensur und Kontextverständnis als Unterscheidungsmerkmale werden
- GPT 5.5 liegt derzeit vorn, doch es gibt die Sorge, dass auch Codex bald in der Leistung heruntergeregelt werden könnte, so wie Claude nach seiner Hochphase nachgelassen hat
- Es gibt auch Interesse an Vergleichen mit anderen Modellen wie Kimi 2.6, GLM und MiniMax
16 Kommentare
Man denkt wohl, dass es niemand merkt, wenn die Leistung per stillschweigendem Patch gesenkt wird, aber das menschliche Gespür ist in Wirklichkeit schärfer, als man denkt. Wenn ich mein Gefühl mit dem kombiniere, was die Leute in der Community sagen, hat man die Antwort sofort.
"Und was kannst du damit schon machen, haha" — deshalb bleibt einem nichts anderes übrig, als es trotzdem zu benutzen....
Seit Version 3.5 habe ich immer Claude als Hauptmodell genutzt, aber seit 5.5 nutze ich GPT als Hauptmodell. Es ist ziemlich gut.
Wie wäre es, mit Claude nur den Plan zu erstellen und mit Codex nur die Ausführung zu übernehmen?
So mache ich das in letzter Zeit auch. Allerdings sind die Sandbox-Richtlinien von Codex CLI viel zu streng, sodass es ziemlich unpraktisch ist, ihm auch noch Build und Tests zu überlassen.
Beide reden ziemlich beschissen, das macht mich echt wahnsinnig. Davon abgesehen sind beide auch noch faul und lassen sogar Dinge weg, die man ihnen aufgetragen hat.
Das entspricht total dem, was ich empfunden habe, deshalb habe ich das 100-Dollar-Abo für GPT abgeschlossen und nutze es.
Ich überlege, ob ich Claude statt für 200 Dollar auf 100 Dollar herunterstufen soll
Codex 5.4 klang auf Koreanisch seltsam, war leistungsmäßig aber schon Opus 4.6 und Opus 4.7 überlegen (die seltsame Ausdrucksweise ist eine Einstiegshürde / Formulierungen wie „ich habe geöffnet“, „ich habe geschlossen“, „ich werde schieben“ usw.)
Bei Codex 5.5 wurde auch die Ausdrucksweise normalisiert, und es ist deutlich sorgfältiger und intelligenter geworden. Opus 4.7 = wirkt faul, man merkt sehr deutlich, dass es an Inferenzkosten spart, und gefühlt ist es gegenüber Opus 4.6 sogar ein Rückschritt.
Beim reinen Codex-Modell 5.3 hatte es wirklich das Gefühl, als würde man mit einem untergeordneten Mitarbeiter sprechen, der zwar keine Einleitung hinbekommt, aber nur gut coden kann.
Ab 5.4 fing es an, ein bisschen zu reden, und seit 5.5 wirkt es, als wäre es zur Hälfte wieder bei Verstand.
Noch immer nennt es eine API manchmal einen Vertrag, und gelegentlich wirft es Englisch und Koreanisch völlig wild durcheinander, sodass man schreiben muss: „Erklär es bitte leicht verständlich und möglichst ohne Englisch.“
Trotzdem habe ich den Eindruck, dass die Code-Generierung leistungsmäßig ab 5.4 Opus überholt hat. Opus 4.7 ist zwar erschienen, aber ich habe es nicht einmal kurz ausprobiert. Es wirkt ohnehin so, als wäre das wieder Marketing à la „Anthropic“.
Eher hatte ich das Gefühl, dass Opus 4.6 und 4.7 anfingen, auf Koreanisch seltsam zu werden, haha.
Wer bereits eine bestehende Harness-Umgebung mit Claude aufgebaut hat, fährt mit Claude besser; wer gerade erst anfängt, für den ist GPT besser. Beim Preis-Leistungs-Verhältnis ist GPT klar überlegen, selbst das 20-Dollar-Abo reicht völlig aus.
Für Leute, die bereits bisher entwickelt haben, ist GPT 5.5 besser.
Für Nicht-Entwickler ist Claude meiner Ansicht nach besser.
Aber man muss darüber nicht allzu viel diskutieren.
Am besten ist es, etwas Nützliches zu bauen..
Insgesamt scheint sich die Stimmung dahin zu entwickeln, dass GPT 5.5 überlegen ist. Ich habe bisher nur Claude Code (Opus 4.7) verwendet … Vielleicht sollte ich jetzt auch Codex ernsthaft ausprobieren.
Tatsächlich war es schon seit GPT-5 überlegen, abgesehen von Frontend-Design.
Die Community ist einfach ziemlich langsam..
Sehe ich genauso
Bisher hatte ich oft das Gefühl einer Diskrepanz, weil meine tatsächliche Erfahrung und die Reaktionen der Community einander widersprachen.
Stimmt.
Vor einem Jahr hätte ich Claude noch wärmstens empfohlen, aber inzwischen empfehle ich die Codex-App sehr.