Everys Hands-on-Review zu GPT-5

(every.to)

11 Punkte von GN⁺ 2025-08-08 | Noch keine Kommentare. | Auf WhatsApp teilen

GPT-5 wird in ChatGPT als das beste Modell für die meisten allgemeinen Nutzer bewertet, da es Geschwindigkeit, Einfachheit und Antwortqualität deutlich verbessert
Bei den API-Preisen verfügt es über eine starke Preiswettbewerbsfähigkeit gegenüber der Konkurrenz: Insbesondere GPT-5-mini ist günstiger als Google Gemini 2.5 Flash, und GPT-5 Standard ist 12-mal günstiger als Claude 4 Opus
Es ist hervorragend für alltägliche Aufgaben, Pair Programming, Recherche und Debugging, hat aber Grenzen bei agentischem Programmieren und der Bewertung von Schreibqualität
In Team-Reviews zeigte GPT-5 Stärken bei klar definierten Aufgaben, Code-Merges, Entwürfen und Tiefenanalyse, ließ aber bei langer autonomer Arbeit und kreativer Entwicklung im großen Maßstab Wünsche offen
In Benchmark-Tests überzeugte es bei der Lösung bestimmter Probleme, der Implementierung von App-Funktionen und bei Recherchefähigkeiten, doch bei Spielen, UI-Design und Konsistenz im Schreiben wurde Opus 4.1 höher bewertet

GPT-5 in ChatGPT

Geschwindigkeit ist das auffälligste Merkmal: Auf einfache Anfragen antwortet es sofort, bei komplexen Anforderungen nimmt es sich selbst mehr Zeit, um tiefere Antworten zu liefern
Das Modell-Auswahlmenü wurde entfernt und durch einen Auto-Switcher ersetzt, der je nach Anfrage automatisch zwischen nicht-schlussfolgernder und schlussfolgernder Version wählt
- Für einfache Wissensfragen wird die schnelle nicht-schlussfolgernde Version verwendet
- Für komplexe Generierungs-, Coding- und Analyseanfragen wird die schlussfolgernde Version verwendet
Antworten sind mit strukturierten Unterüberschriften, Abständen und Fettdruck auf Lesbarkeit ausgelegt
In Canvas lassen sich Frontend-Apps per One-Shot erstellen, es gibt jedoch ein Limit von 1.000 Codezeilen sowie einige Funktionsbeschränkungen
Durch die kostenlose Standardbereitstellung eines Reasoning-Modells hebt OpenAI die Qualität der KI-Erfahrung für die breite Masse an

GPT-5 in der API

GPT-5-mini: $0.25 pro 1 Million Input-Token → günstiger als Google Gemini 2.5 Flash ($0.30)
GPT-5 Standard: $1.25 pro 1 Million Input-Token → gleichauf mit Google Gemini 2.5 Pro, 1/12 des Preises von Claude 4 Opus ($15)
Der Preis pro Output-Token ist höher als bei o4-mini, aber die Prompt-Befolgung (Steerability) ist stark, was bei fein gesteuerten Aufgaben ein Vorteil ist
Das Preis-Leistungs-Verhältnis dürfte im API-Markt viele Nutzer von Konkurrenzmodellen zum Wechsel bewegen

Agentic Engineering

Bei präziser Backend-Arbeit, Debugging und Codeverständnis stark, aber ineffizient bei langfristigem autonomem Schreiben von Code und groß angelegter Frontend-Arbeit
Cursor und Codex CLI sind eher auf Pair Programming als auf vollständig delegierte (fully agentic) Entwicklung ausgelegt
Gegenüber Claude Code fehlt es an Ausdauer und Autonomie bei Langzeitaufgaben, außerdem ist die Verarbeitungsgeschwindigkeit großer Arbeitsmengen geringer

Detaillierte Bewertung nach Einsatzfall

Alltagsaufgaben: Schnelle Q&A ohne Modellwahl, auch forschungsintensive Fragen werden umfassend behandelt, Halluzinationen treten seltener auf
Pair Programming: Exzellent bei Bugfixes, Feature-Implementierung und dem Verständnis großer Codebasen, mit hoher Geschwindigkeit und Genauigkeit
Schreiben: Weniger typische KI-Satzmuster, abwechslungsreicherer Ausdruck, gut für das Erstellen von Entwürfen, kann spezifische Stile erlernen
Agentic Engineering: Bei Langzeitprojekten und autonomer Code-Generierung häufige Stopps und geringere Ausgabequalität
Textbearbeitung: Bei der Bewertung von Textqualität und der Einschätzung sprachlicher Natürlichkeit inkonsistent und daher wenig verlässlich

Erkenntnisse aus der Team-Roundtable

Kieran Klaassen (Leiter von Cora): GPT-5 eignet sich für wiederkehrende Aufgaben mit feingranularen Anweisungen und ist stark genug, um Sonnet 3.5 zu ersetzen

"GPT-5 tut, was man ihm sagt. Vorsichtig, in kleinen Schritten, und es kommt nie vom Kurs ab — und genau das ist mein Problem damit. Beim Coding ist es stark, aber nicht für agentische Arbeit optimiert. In einem traditionelleren iterativen Entwicklungsprozess, in dem man sagt: 'Das ist gut, mach jetzt bitte das Nächste', ist es leicht zu handhaben. Aber so hat man 2024 mit KI gearbeitet. GPT-5 ist kein Sprung in die Zukunft, sondern ein Sonnet-3.5-Killer."
Danny Aziz (Leiter von Spiral): Optimal für klar abgegrenzte Aufgaben wie komplexe Code-Merges, bevorzugt für Langzeit-Reviews und groß angelegte Analysen aber Claude

"Der magische Moment mit GPT-5 war, als ich zwei komplexe Codebasen zusammengeführt habe. Das Open-Source-Framework, das ich benutzt habe, konnte die gewünschte Funktion nicht, also bat ich darum, Code aus einem anderen Framework zu integrieren. Es war nicht in einem Zug erledigt, aber es fühlte sich wie echte Zusammenarbeit an, bei der wir uns gemeinsam dem Ziel näherten. Bei klaren, gut definierten Coding-Aufgaben nutze ich GPT-5 sehr gern. Für agentische Langzeitaufgaben wie Code-Reviews verwende ich weiterhin Claude Code, aber wenn ich feststecke oder keine Lust habe, tief nachzudenken, bringt mich GPT-5 ans Ziel."
Alex Duffy (Leiter KI-Bildung): Für Gratisnutzer ein großer Fortschritt gegenüber GPT-4o, stark bei der Verarbeitung großer Datenmengen und strukturierter Arbeit

"Für Verbraucher ist GPT-5 gegenüber GPT-4o eindeutig ein Upgrade. Wer die Gratisversion nutzt, merkt den Unterschied deutlich. Professionelle Nutzer können weiterhin spezialisierte Tools wie o3 oder Opus verwenden, aber für Entwickler liegt der Wert von GPT-5 darin, dass es zuverlässig ist und Prompts gut befolgt. Besonders geeignet ist es dafür, riesige Informationsmengen hochwertig zusammenzufassen und zu strukturieren. Der Preis für Output-Token ist höher als bei o4-mini, dafür ist die Befolgung von Anweisungen deutlich besser. GPT-5-mini kann preislich mit Flash konkurrieren und könnte, wenn die Geschwindigkeit mitspielt, ein echter Dark Horse werden."
Naveen Naidu (EIR): Löste gemeinsam mit GPT-5 einen App-Freezing-Bug, den er vier Tage lang nicht beheben konnte

"In meiner KI-Diktier-App 'Monologue' konnte ich vier Tage lang einen Freezing-Bug nicht finden. Mit Claude Code habe ich allein am Sonntag vier Stunden daran gearbeitet und es trotzdem nicht geschafft. Mit GPT-5 war es wie die Zusammenarbeit mit einem Kollegen: Wir haben gemeinsam verfolgt, welcher Teil das Problem verursacht, und am Ende den genauen Bug gefunden."
Katie Parrott (Autorin und Leiterin AI Operations): Beim Schreiben von Erstentwürfen zufriedener als mit Opus, stark bei Interviews und Fragendesign, ineffizient beim Vibe Coding

"Ich habe GPT-5 fürs Schreiben genutzt, um aus einer Gliederung einen Rohentwurf zu machen, und das war gut. Nach ein paar Prompts hatte ich ihm den Stil von Every beigebracht, und als ich einen Stil zwischen einem Atlantic-Artikel und einem beliebten Hacker-News-Post verlangte, kam etwas Starkes heraus. Die in KI-Texten häufigen Klischeemuster wie 'It's not just X, but Y' waren deutlich reduziert. Auch bei Interviews half es gut dabei, die Struktur der Fragen festzulegen. Für Entwürfe war ich mit GPT-5 zufriedener als mit Opus.
Aber beim Vibe Coding in Codex war es weniger effizient. Es wollte Aufgaben nur in kleine Einheiten zerlegen und ich musste jedes Mal auf 'Weiter' klicken. Anders als Claude erklärte es auch nicht den Plan für die nächsten Schritte."
Yash Poojary (Leiter von Sparkle): Enttäuschend bei Swift-Coding, aber hervorragend bei komplexer technischer Analyse, Design und Trade-off-Bewertung

"Für mich zählt nur Swift. GPT-5 war anfangs nicht beeindruckend. Erst mit einem bestimmten Setup-Prompt wurde es brauchbar. Trotzdem war es beim Swift-Coding nicht auf einem Niveau, auf dem es Claude ersetzen könnte.
Für reine Recherche war es jedoch das Beste. Als ich zum Beispiel fragte, wie man auf dem Mac doppelte Dateien findet, lieferte es die technisch präziseste Analyse, die ich je von einer KI gesehen habe. Es fühlte sich an, als würde ein Systemarchitekt mit einem IQ von 140, der das System drei Mal gebaut hat, alle dabei gewonnenen Erkenntnisse erklären. Für die reine Implementierung würde ich Claude nutzen, aber für tiefen Kontext, Trade-off-Analyse und Design-Diskussionen nehme ich GPT-5."
Dans Mutter (Perspektive einer allgemeinen Nutzerin): Bewertet Informationsgehalt, Lesbarkeit und Fluss als eines der besten Erlebnisse in ChatGPT überhaupt

"Dieses Modell ist wirklich erstaunlich. Es ist viel umfassender als jede Antwort, die ich bisher in ChatGPT bekommen habe. Die Informationen lassen sich gut lesen und der Fluss ist sehr angenehm. Dieses Modell ist wirklich Gold wert."

Detaillierte Benchmark-Ergebnisse

Bewertung von Schreibqualität: Selbst beim gleichen Text mangelnde Ergebniskonsistenz, weniger verlässlich als Opus
One-Shot-Spielerstellung: Läuft stabil, aber es fehlt an Kreativität und Spielspaß; Opus 4.1 wurde besser bewertet
AI Diplomacy: Schwache Leistung mit dem Standard-Prompt, aber mit optimierten Anweisungen auf Augenhöhe mit Flash; Steerability ist die Stärke
Unmögliches Rätsel: In 1 Minute 10 Sekunden gelöst, deutlich schneller als o3
One-Shot-Musik-App-Erstellung: Implementiert GarageBand-ähnliche Funktionen, UI schlicht, Design von Opus 4 bevorzugt
Weitere Tests: In den Benchmarks Pelican on a bicycle und thup zeigen sich deutliche Charakterunterschiede zu Claude

Everys Hands-on-Review zu GPT-5

GPT-5 in ChatGPT

GPT-5 in der API

Agentic Engineering

Detaillierte Bewertung nach Einsatzfall

Erkenntnisse aus der Team-Roundtable

Detaillierte Benchmark-Ergebnisse

Verwandte Beiträge

Noch keine Kommentare.