25 Punkte von GN⁺ 15 일 전 | 16 Kommentare | Auf WhatsApp teilen
  • In der Reddit-Community r/codex läuft eine Diskussion, die die Coding-Leistung der beiden Modelle vergleicht; die große Mehrheit der Nutzer sieht derzeit GPT 5.5 vorn
  • GPT 5.5 überzeugt durch Stabilität und Präzision, während es bei Opus 4.7 viel Unzufriedenheit wegen jüngster Leistungseinbußen und Nutzungsbeschränkungen gibt
  • Gleichzeitig gibt es Einschätzungen, dass Opus 4.7 im Bereich Frontend/UI-Design noch leicht im Vorteil ist
  • Mehrere Nutzer weisen darauf hin, dass Claude(Opus) wegen mangelnder Rechenressourcen in der Leistung beschnitten wurde („lobotomize“), und stellen seine Zuverlässigkeit infrage
  • Es wird auch die Meinung vertreten, dass sich die Leistung von AI-Modellen weiter verbessert und langfristig Zugänglichkeit, Preis, Nutzungsgrenzen und Zensurpolitik wichtigere Auswahlkriterien sein könnten als die aktuelle Führung

Vergleich der allgemeinen Coding-Leistung

  • Die meisten Kommentare stimmen darin überein, dass GPT 5.5 beim Coding/Programmieren insgesamt überlegen ist
  • GPT 5.5 ist schnell, leistungsfähig und bei der Aufmerksamkeit für Details besser als Opus 4.7
  • GPT 5.5 ist effektiv beim Beheben von Bugs und beim Erkennen fehlender Abhängigkeiten
  • Opus 4.7 wird teils zwar eine ähnliche reine Coding-Fähigkeit zugeschrieben, es zeige jedoch eine „faule“ Tendenz, bei der oft nur das Nötigste erledigt wird
  • GPT 5.5 bewertet den Wirkungsbereich des Codes und erkennt relevante Überlegungen, bevor es handelt, während Opus 4.7 dazu neigt, schnell mittelmäßige Lösungen zu bauen

UI-/Frontend-Design

  • Bei Design- und Frontend-Arbeiten liefert Opus 4.7 leicht bessere Ergebnisse
  • Allerdings gibt es auch ein Beispiel, in dem GPT 5.5 das Design einer Band-Website nur anhand des Logos in einem One-Shot nahezu perfekt umgesetzt hat
  • Die Ergebnisse von Codex bei UI/UX-Arbeiten hängen von der Qualität des Promptings und davon ab, ob visuelle Hinweise bereitgestellt werden
  • Als Strategie wird eine Kombination empfohlen: mit GPT 5.5 Grundlage und Struktur aufbauen und mit Opus 4.7 das Frontend-Design verfeinern
  • Es gibt auch den Vorschlag, kostenlose Tools wie Meta Muse Spark zu nutzen, um den UI-Teil zu ergänzen

Probleme bei Stabilität und Nutzungsgrenzen von Opus 4.7

  • Es ist weit verbreitet die Auffassung, dass Opus 4.7 wegen eines starken Zustroms neuer Nutzer bei knappen Rechenressourcen in der Leistung gedrosselt wurde
  • Es gibt viele Beschwerden, dass 4.7 (und 4.6) wiederholt abgeschwächt (nerfed) wurden
  • Berichtet wird außerdem von vielen Halluzinationen im Max-Effort-Modus von Opus 4.7
  • In einem Fall verbrauchte ein unvollständig bearbeiteter Prompt in einer 18-Minuten-Session ein Nutzungslimit im Umfang von 5 Stunden
  • Beim Claude-Pro-Abo für $20 wird das Nutzungslimit für Opus als sehr restriktiv bewertet

Vor- und Nachteile von GPT 5.5

  • GPT 5.5 ist stabil und liefert konsistente Qualität ohne Regressionen
  • Nutzer berichten, dass bislang keine Erzeugung falscher Informationen festgestellt wurde
  • Allerdings gibt es eine „faule“ Tendenz, nur das explizit im Prompt Genannte minimal auszuführen; deshalb sind detailliertes Prompting oder ein Prozess mit Vorplanung und Q&A nötig
  • Der Token-Verbrauch ist tendenziell höher
  • Im Vergleich zu GPT 5.4 ($20-Abo) verbraucht 5.5 doppelt so viel Nutzungslimit, während die Benchmark-Verbesserung nur bei 2–5 % liegt, was Fragen nach dem Preis-Leistungs-Verhältnis aufwirft

Preis- und Abo-Vergleich

  • Für die private Nutzung gilt das ChatGPT-Pro-Abo für $100 nach Ansicht mancher als besonders gutes Preis-Leistungs-Angebot
  • Empfohlen wird eine Strategie, Codex + $10 Kimi oder $22 Gemini zu kombinieren, um UI-Arbeiten zu ergänzen
  • Wer Google Storage ohnehin nutzt, für den liegt Gemini effektiv bei etwa $10–15
  • Es gibt auch Nutzer, die mit einem Claude-Max-Konto einen vollständigen Wechsel zu GPT Plus erwägen

Langfristige Perspektive

  • Innerhalb weniger Monate könnten alle Modelle einschließlich chinesischer Modelle das Niveau von Opus 4.6 oder darüber erreichen und zu niedrigeren Preisen angeboten werden
  • Wichtiger als die reine Modellleistung dürften künftig Zugänglichkeit, Preis, Nutzungsgrenzen, Zensur und Kontextverständnis als Unterscheidungsmerkmale werden
  • Zwar liegt GPT 5.5 derzeit vorn, doch es gibt die Sorge, dass auch Codex bald in der Leistung beschnitten werden könnte, so wie Claude nach seiner Hochphase nachgelassen hat
  • Es gibt außerdem Interesse an Vergleichen mit anderen Modellen wie Kimi 2.6, GLM und MiniMax

16 Kommentare

 
dicebattle 13 일 전

Man denkt wohl, dass es niemand merkt, wenn die Leistung per stillschweigendem Patch gesenkt wird, aber das menschliche Gespür ist in Wirklichkeit schärfer, als man denkt. Wenn ich mein Gefühl mit dem kombiniere, was die Leute in der Community sagen, hat man die Antwort sofort.

"Und was kannst du damit schon machen, haha" — deshalb bleibt einem nichts anderes übrig, als es trotzdem zu benutzen....

 
funnycat 14 일 전

Seit Version 3.5 habe ich immer Claude als Hauptmodell genutzt, aber seit 5.5 nutze ich GPT als Hauptmodell. Es ist ziemlich gut.

 
tkddls8848 14 일 전

Wie wäre es, mit Claude nur den Plan zu erstellen und mit Codex nur die Ausführung zu übernehmen?

 
cosine20 14 일 전

So mache ich das in letzter Zeit auch. Allerdings sind die Sandbox-Richtlinien von Codex CLI viel zu streng, sodass es ziemlich unpraktisch ist, ihm auch noch Build und Tests zu überlassen.

 
kaydash 14 일 전

Beide reden ziemlich beschissen, das macht mich echt wahnsinnig. Davon abgesehen sind beide auch noch faul und lassen sogar Dinge weg, die man ihnen aufgetragen hat.

 
jimmy2056 14 일 전

Das entspricht total dem, was ich empfunden habe, deshalb habe ich das 100-Dollar-Abo für GPT abgeschlossen und nutze es.
Ich überlege, ob ich Claude statt für 200 Dollar auf 100 Dollar herunterstufen soll

 
mse9000 14 일 전

Codex 5.4 klang auf Koreanisch seltsam, war leistungsmäßig aber schon Opus 4.6 und Opus 4.7 überlegen (die seltsame Ausdrucksweise ist eine Einstiegshürde / Formulierungen wie „ich habe geöffnet“, „ich habe geschlossen“, „ich werde schieben“ usw.)

Bei Codex 5.5 wurde auch die Ausdrucksweise normalisiert, und es ist deutlich sorgfältiger und intelligenter geworden. Opus 4.7 = wirkt faul, man merkt sehr deutlich, dass es an Inferenzkosten spart, und gefühlt ist es gegenüber Opus 4.6 sogar ein Rückschritt.

 
dicebattle 13 일 전

Beim reinen Codex-Modell 5.3 hatte es wirklich das Gefühl, als würde man mit einem untergeordneten Mitarbeiter sprechen, der zwar keine Einleitung hinbekommt, aber nur gut coden kann.
Ab 5.4 fing es an, ein bisschen zu reden, und seit 5.5 wirkt es, als wäre es zur Hälfte wieder bei Verstand.
Noch immer nennt es eine API manchmal einen Vertrag, und gelegentlich wirft es Englisch und Koreanisch völlig wild durcheinander, sodass man schreiben muss: „Erklär es bitte leicht verständlich und möglichst ohne Englisch.“

Trotzdem habe ich den Eindruck, dass die Code-Generierung leistungsmäßig ab 5.4 Opus überholt hat. Opus 4.7 ist zwar erschienen, aber ich habe es nicht einmal kurz ausprobiert. Es wirkt ohnehin so, als wäre das wieder Marketing à la „Anthropic“.

 
cosine20 14 일 전

Eher hatte ich das Gefühl, dass Opus 4.6 und 4.7 anfingen, auf Koreanisch seltsam zu werden, haha.

 
bungker 14 일 전

Wer bereits eine bestehende Harness-Umgebung mit Claude aufgebaut hat, fährt mit Claude besser; wer gerade erst anfängt, für den ist GPT besser. Beim Preis-Leistungs-Verhältnis ist GPT klar überlegen, selbst das 20-Dollar-Abo reicht völlig aus.

 
memevibe82 14 일 전

Für Leute, die bereits bisher entwickelt haben, ist GPT 5.5 besser.

Für Nicht-Entwickler ist Claude meiner Ansicht nach besser.

Aber man muss darüber nicht allzu viel diskutieren.

Am besten ist es, etwas Nützliches zu bauen..

 
rkjun 15 일 전

Insgesamt scheint sich die Stimmung dahin zu entwickeln, dass GPT 5.5 überlegen ist. Ich habe bisher nur Claude Code (Opus 4.7) verwendet … Vielleicht sollte ich jetzt auch Codex ernsthaft ausprobieren.

 
brainer 15 일 전

Tatsächlich war es schon seit GPT-5 überlegen, abgesehen von Frontend-Design.

Die Community ist einfach ziemlich langsam..

 
unknowncyder 14 일 전

Sehe ich genauso
Bisher hatte ich oft das Gefühl einer Diskrepanz, weil meine tatsächliche Erfahrung und die Reaktionen der Community einander widersprachen.

 
love7peace 14 일 전

Stimmt.

 
treestae 13 일 전

Vor einem Jahr hätte ich Claude noch wärmstens empfohlen, aber inzwischen empfehle ich die Codex-App sehr.