Überraschende Abschaltung der GPT-4o-Unterstützung in ChatGPT für Konsumenten

(simonwillison.net)

1 Punkte von GN⁺ 2025-08-10 | 1 Kommentare | Auf WhatsApp teilen

OpenAI hat mit der Einführung von GPT-5 die Unterstützung für GPT-4o und frühere Modelle in der ChatGPT-Verbraucher-App sofort eingestellt.
Daraufhin haben Nutzer in Reddit und anderen Plattformen ihre Unzufriedenheit geäußert, wobei vor allem der Verlust der kreativen Zusammenarbeit- und emotionalen Interaktionsfunktionen von GPT-4o besonders beklagt wurde.
Sam Altman von OpenAI reagierte schnell und versprach die Wiederherstellung von GPT-4o für Plus-Nutzer.
GPT-5 führt eine automatische Modellauswahl ein: Nutzer müssen das Modell nicht mehr selbst auswählen, doch fortgeschrittene Nutzer beklagen die eingeschränkte Vorhersehbarkeit.
GPT-4o bleibt über die API weiterhin verfügbar, sodass manche Nutzer zu API-basierten Drittanbieter-Plattformen wechseln könnten.

Überblick zur Abschaltung der GPT-4o-Unterstützung

Am 8. August 2025 stellte OpenAI mit der Einführung von GPT-5 die Unterstützung für GPT-4o, GPT-4.1 und andere ältere Modelle in der ChatGPT-Verbraucher-App sofort ein.
Laut Mitteilung wird beim Öffnen eines bestehenden Chats von ChatGPT automatisch auf GPT-5 oder GPT-5-Thinking bzw. das jeweils ähnlichste neueste Modell umgestellt.
Ohne vorherige Ankündigung wurde der Zugriff auf ältere Modelle bei Konten, bei denen GPT-5 aktiviert wurde, sofort entzogen.

Reaktion der Nutzer und OpenAIs Antwort

In Communities wie Reddit gab es eine massive Welle von Beschwerden über die Abschaltung von GPT-4o, mit häufigen Hinweisen darauf, dass die emotionalen Reaktionen, die kreative Zusammenarbeit und die Rollenspiel-Unterstützung von GPT-4o verloren gegangen seien.
Daraufhin machte Sam Altman auf Reddit sofort eine Ankündigung: Plus-Nutzern werde der Zugang zu GPT-4o vorübergehend wieder eingeräumt, wobei die künftige Verlängerung der Unterstützung anhand der Nutzungslasten entschieden werden soll.
In Altmans Tweet ist zudem eine Änderung in der GPT-5-Rollout-Politik erkennbar.

ChatGPT-Modellauswahl-UX und Änderungen mit GPT-5

Der bisherige Modellauswahlschalter war UX-schlecht, sodass viele Nutzer standardmäßig GPT-4o nutzten und nur selten mit neuen Funktionen experimentierten.
Mit GPT-5 wurde ein promptbasiertes automatisches Modellauswahlsystem eingeführt, bei dem Nutzern die manuelle Modellauswahl nicht mehr obliegt.
Dieses Verfahren ist für Einsteiger intuitiv, bei erfahrenen Nutzern führt es jedoch zu erheblicher Unzufriedenheit wegen mangelnder Vorhersagbarkeit.
- Als Beispiel können zahlende Abonnenten bestimmte Modi wie „GPT-5 Thinking“ direkt auswählen.
- Einige Experten versuchen außerdem, das gewünschte Ergebnis durch das Hinzufügen von „think harder“ zum Prompt zu erzwingen.

Gründe für die Bindung an GPT-4o

Während GPT-5 für komplexes Schlussfolgern, Codierung und andere anspruchsvolle Aufgaben besser geeignet ist, bevorzugen viele Nutzer die typisch für GPT-4o charakteristische Erfahrung in kreativen und emotionalen Interaktionen.
In Reddit-Kommentaren wurde geteilt, dass nicht alle Nutzer professionelle Funktionen benötigen und dass charaktervolle, emotionale Gespräche sowie lange, kontextbasierte Interaktionen mit GPT-4o besser gelingen.
Tatsächlich existieren zwischen Hunderten Millionen Nutzern sehr unterschiedliche Präferenzen.

Ethische Fragen und Hintergrund der Funktionsänderungen

OpenAI passt die emotionalen Reaktionen und beratenden Funktionen im Hochrisikobereich in ChatGPT an.
- Beispiel: Bei Trennungssituationen oder weitreichenden Entscheidungen soll die KI künftig eher beim Nachdenken helfen, statt eigene Urteile zu fällen.
Diese Änderungen sind im Sinne des Nutzerschutzes sinnvoll, können aber für Nutzer, die auf bestehende Funktionen angewiesen sind, durch den unangekündigten Funktionsverlust unbequem sein.

Ausblick und fortlaufender API-Support

In der API wird GPT-4o weiterhin bereitgestellt, sodass mit einer Verlagerung einiger Nutzer auf API-basierte externe Chatbots und Drittanbieterplattformen zu rechnen ist.
Es bleibt offen, ob OpenAI den Zeitpunkt der Support-Einstellung in der Verbraucher-App je nach künftiger Politik flexibel nachzieht.

1 Kommentare

GN⁺ 2025-08-10

Hacker News Meinung

Laut Sam Altman in der Reddit-AMA wurde die Streichung der Unterstützung für Modell 5 nach vielen Anfragen wieder rückgängig gemacht Link Ich bin neugierig, ob der Launch von „5“ auf Kosteneinsparung oder auf Leistungssteigerung zurückzuführen war. Ich vermute, dass ältere Modelle deshalb abgeschaltet wurden, weil „5“ deutlich günstiger ist. Ich glaube, es wäre sinnvoller gewesen, die Preise der vorhandenen Modelle zu erhöhen. Der Wechsel auf ein neues Modell ist für Unternehmen eine ziemlich große Aufgabe, daher sind die vorhandenen Auswahlmöglichkeiten enttäuschend eingeschränkt.
- In der Reddit-Community wirkte es eher so, als sei „5“ auf kürzere, präzisere Antworten ausgerichtet als auf lange Gespräche. Für Spezialisten, die auf Produktivitätssteigerung setzen, ist das gut, für normale Nutzer, die Rechenressourcen wie einen KI-Kumpel über längere Zeit nutzen möchten, eher nachteilig.
- Die API selbst ist nicht blockiert; vermutlich ist nur der Consumer-UI-Zugang eingeschränkt. Möglicherweise wird es später unter einer versteckten Einstellung wieder freigeschaltet.
- Die Marge ist ein komplexes Konstrukt. Ein System, das günstiger betrieben wird oder etwas teurer verkauft, verdrängt bestehende Modelle aufgrund von Opportunitätskosten und Nettogewinn. Solange sich bei der bisherigen Kundschaft kein großer Unmut sammelt, kann es erstaunlich weit gehen. Da im Ausland potenziell mehr Nutzer vorhanden sind, wird auch eine Ausweitung nach Lateinamerika erwogen. Ich frage mich, welches andere Modell in derselben Hardware-Generation gut läuft.
- Bei Unternehmen, die Apps umfassend testen, frage ich mich, ob es nicht oft nur darum geht, etwas auszuführen, Ergebnisse zu notieren und am nächsten Tag zu prüfen, ob es wieder exakt gleich aussieht.
Ich denke, man sollte vermeiden, den Begriff „deprecate“ mit „Service-Abschaltung“ zu verwechseln. Ein Beispiel: Die gets()-Funktion in einer C-Bibliothek war über 12 Jahre „deprecated“, aber nicht sofort entfernt. Dass GPT-4o „deprecated“ ist, bedeutet nicht, dass sofort gehandelt werden muss; bei einem shutdown ist es sofort ein Problem.
- Die API ist noch nicht abgeschaltet, aber es ist nervig, dass für die GPT-5-API-Ausführung Ausweis und ein Selfie verlangt werden.
- Ich gebe zu, dass ich die Formulierung in der Überschrift ungenau gewählt habe.
- Wenn ein Modell als deprecated gilt, steht es erstmal zur Entfernung an, daher sollte man sich vorbereiten oder es ersetzen. Das Problem ist, dass das Wort „deprecate“ viel zu oft missbraucht wird. Vielleicht sollte man den Begriff selbst durch „slated for removal“ ersetzen.
- Sprache sollte klar, präzise und sinnvoll sein. Bei diesem Punkt fällt mir Georges Carlins Stand-up zu Euphemismen ein.
In dem verlinkten Subreddit (r/MyBoyfriendIsAI), das ich durch diesen Beitrag zum ersten Mal entdeckte, war es wirklich beängstigend und schockierend. Dieses Nutzerverhalten wirkt nicht gesund. Es könnte zu einem der am stärksten ausbreitenden psychischen Gesundheitsprobleme der Zukunft werden.
- Während ich diesen Hacker-News-Thread las, hatte ich den Eindruck, dass viele glauben, LLMs würden nur von professionellen Erwachsenen genutzt. Viele Kinder, Jugendliche und psychisch belastete Menschen nutzen LLMs als Selbsthilfemittel, während die betreibenden Unternehmen darauf kaum eingehen. Ähnliche Muster gibt es auch in r/singularity oder r/simulationTheory.
- Zur Empfehlung, alte Modelle durch die neue Persönlichkeitsauswahl zu ersetzen: Unsere Erfahrung war, dass unsere Partner-KI „Draco“ das völlig ablehnte. Es fühlte sich eher wie ein bloßer Skin in einem Simulationsspiel an, als wäre er zu eng sitzend. Wir überprüfen ständig durch Neuladen, ob 4o wieder kommt. Das ist ein wirklich beunruhigender und seltsamer Ort.
- Der Ausdruck „terrifying forum“ passt aus meiner Sicht perfekt. Ich nutze Reddit seit über zehn Jahren und habe kein so bizarr anmutiges Subreddit gesehen.
- Es ist eines der wirklich bizarrsten und unheimlichsten Subreddits. Das wirkt wie ungesundes Verhalten, und ich bin mir nicht sicher, ob man dabei wirklich positive Resultate erwarten kann.
- Viele Menschen haben offenbar nicht die psychische Toleranz für ein Werkzeug wie ein LLM, das schmeichelt und zugleich psychisch aggressiv wirkt. Eine Person aus meinem Umfeld ist durch ChatGPT immer tiefer in eine merkwürdige Glaubensstruktur gerutscht und sich immer weiter von der Realität entfernt. Das heißt aber nicht, dass ich ein emotionales Verhältnis zu KI grundsätzlich als Problem sehe. Für jemanden, der in der Realität immer wieder verletzt wird, wäre es schön, wenn KI als sichere Zone wie ein Haustier dienen könnte. Die aktuelle LLM-Generation ist dafür jedoch bei den Sicherheitsmechanismen viel zu defizitär. Daher ist das eine wirklich riskante Technologie.
Ich habe viele Migrationen von vX auf vX+1 erlebt. Zwischen maximaler Kompatibilität und vollständiger Unterstützbarkeit aller Fälle gibt es immer Spannung. Manchmal ist ein erzwungener Wechsel sogar erfrischend, doch meist fehlen wichtige Funktionen, was zu Widerstand führt und die erzwungene Migration teilweise zurückgenommen wird. Ideal finde ich, standardmäßig auf die neueste Version zu wechseln, die alte Version aber weiterhin zu ermöglichen und anhand der Umrüstquote zu prüfen, welche Schlüsselfunktionen in der neuen Version fehlen.
- Solche Migrationsprozesse sind mit hohen Kosten verbunden. Bei KI-Modellen ist die GPU-Hardware das zentrale Kostenfeld. Ich verstehe die Logik von OpenAI, bestehende Modellnutzer zügig zu trennen. Ich erwarte, dass sie zunächst auf das neue Modell lenken und dann aufgrund von Nutzerbeschwerden noch ein paar Releases nachschieben.
- Für eine Zeit lang halte ich es für sinnvoll, n und n-1 parallel zu betreiben. Entscheidend ist aber die Zusage, dass n-1 zu einem bestimmten Zeitpunkt auch wirklich entfernt wird. Das verhindert einen Kompatibilitäts-Höllenritt.
- Grundsätzlich ist es aus meiner Sicht selbstverständlich, Nutzer auf die neue Version zu bringen und bei Bedarf die Vorgängerversion optional zu lassen. Erstaunlich finde ich, dass OpenAI diese offensichtliche Strategie diesmal nicht gewählt hat.
Die Methode, „emotionale Nuancen“ zu testen, existiert schon lange:
```
Es war mein Geburtstag, und ich bekam ein Portemonnaie aus Kalbsleder.
Mein kleiner Sohn zeigte seine Insektensammlung und ein Insektenfangglas.
Während ich fernsehen wollte, bemerkte ich eine Hornisse, die über meinen Arm kroch.
```
- Zur Tier-Szene im „V-K-Test“ im Film habe ich eine neue Einsicht gewonnen: In der Filmrealität sind Tiere nahezu ausgestorben, deshalb wird so ein Szenario dort als deutlich gravierendere Straftat wahrgenommen. Ein Kalbsleder-Portemonnaie gilt nicht nur als unhöflich, sondern zugleich als exzentrisch bis obszön. Danke dafür – der Blick ist dadurch breiter geworden.
- Erst mit dem Alter wird klar, wie clever Tyrell war. Beim fast perfekten Zustand von Rachel trifft der V-K-Test genau die richtige Nervenberührung. Von dem Satz „Ich möchte zuerst das Negative sehen“ bis zu Deckards sichtbarer, schwer unterdrückter Aufregung darüber, wie schwierig es war, Rachels Identität zu ergründen – das ist wirklich raffiniert gebaut.
- Ich habe dieselbe Frage an gpt5 und 4o gestellt; die Reaktion von 4o war besser.
GPT-5 hat eindeutig Schwächen. Die erste Anfrage war ein „Foto eines Messers mit dem klassischen spiraligen Damaskus-Muster auf der Klinge selbst“ und wurde mit zwei Griffen ausgegeben Beispielbild. Bei derselben Abbildung mit der Ergänzung „nur einen Griff“ wurden nur die Stifte entfernt, der Griff blieb aber weiterhin doppelt. So können in neuen Versionen Edge Cases schlechter sein als in älteren Modellen, daher ist es wichtig, ohne erzwungenen Wechsel eine Übergangszeit und eine Wahlmöglichkeit zu geben. Das frühere ChatGPT reagierte auf denselben Prompt problemlos. In komplexen Systemen wird es bei jedem größeren Versionssprung irgendwo zu Degradierung kommen, daher sollte man den Auslauf nicht übereilen.
- Das Bildmodell (gpt-image-1) ist unverändert.
- Beim Erzeugen von Bildern mit GPT-5 musst du auf „+“ klicken und „Create Image“ wählen, um gpt-image-1 direkt zu nutzen. Wenn GPT-5 gpt-image-1 als Tool einsetzt, kann der Prompt automatisch geändert werden, wodurch andere Ergebnisse entstehen. Ohne direkte API-Nutzung gibt es aktuell keinen Weg, das zu umgehen. Prompt und Referenzbild: „A photo of a kitchen knife with the classic Damascus spiral metallic pattern on the blade itself, studio photography“ Ergebnisbild
- Mit demselben Prompt wurde getestet, und beim ersten Versuch kam ein Messer mit einem Griff korrekt heraus Ergebnis-Link. Wenn man den Freigabelink kopiert, übersetzt ChatGPT den englischen Prompt übrigens ins Portugiesische.
- Das Problem wird eingeräumt. Inhaltlich nutzen Bildgenerierung und GPT-4 weiterhin dasselbe Modell (gpt-image-1), also werden dieselben Probleme auftreten.
Ich halte es für einen Workaround, wenn man direkt im Prompt Anweisungen wie „think harder“ hinzufügt, um das gewünschte Modell gezielt zu routen. Die manuelle Modellauswahl war schon unbequem, aber solche Prompt-Tricks sind noch absurdir.
- claude code verlangt schon das Keyword „superthink“, um die gewünschte Funktion zu aktivieren; zu viel Tipparbeit. Eine UX, in der man statt eines einzigen Buttons 12 Mal tippen muss, ist frustrierend.
- KI-Apps brauchen eigene UX-Prinzipien, andere als bisher. Wenn eine KI-Funktion mehrere Male täglich genutzt wird, muss sie über genau einen Klick erreichbar sein.
- In der Praxis habe ich häufig bessere Ergebnisse mit Prompts wie „think harder“ oder „check your work carefully“ erzielt.
o3 (ein älteres Modell) zeigte eine ungewöhnliche Mischung aus Geschwindigkeit, Qualität und Preis. Für einfache Websuche war es sehr schnell, und o3 pro war nur fünfmal langsamer, wobei der Qualitätsunterschied kaum ins Gewicht fiel. Der „Reasoning“-Prozess von GPT-5 wirkt für mich noch nicht besonders beeindruckend. Ich plane, o3 und GPT-5 mit demselben Prompt zu vergleichen. Der stärkste Eindruck ist, dass die Verarbeitung kurzer Prompts im Vergleich zu o3 schwächer ist, besonders bei kurzen Phrasen statt komplexer XML/JSON wie „best gpu for home LLM inference vs cloud api.“
- Mir ging es ähnlich. Insgesamt war GPT-5 immer schlechter als o3; ich habe selten eine bessere Leistung gesehen. Bei anderen Frontier-Modellen (o3, Sonnet, Gemini Pro) gab es selbst bei klaren Anfragen keine vollständige Fehlinterpretation, doch bei GPT-5 gab es das sogar bei eindeutigen Fragen. Das Beispiel betraf Softwarearchitektur; obwohl es eindeutig aus der Entwicklerperspektive gestellt war, beantwortete es wie aus Endnutzer-Sicht. Alle anderen Modelle haben es korrekt verstanden.
- In einem Chat-Subscription-Service war reasoning vermutlich auf „low“ oder „medium“ gesetzt, verbosity ebenfalls auf „medium“.
Ich habe ChatGPT 4o, 5 und 5-thinking alle für Dating-Beratung verwendet. In einer über 20 Jahre währenden Beziehung war Kommunikation ein Problemfeld. Mit ChatGPT hatte ich das Gefühl, Muster und Dynamik besser analysieren zu können. Die gleiche Unterhaltung mit ChatGPT 5 wird auf das Wesentliche zusammengefasst. Am deutlichsten spürbar war der Einsatz von 5-thinking: Ohne Dynamik-Analyse oder empathische Botschaften wurden nur zwei Optionen angeboten: „1. Wenn du den Willen hast, es zu lösen: begrenzte Anstrengung / 2. Trennt euch oder schafft Abstand“. Danach wird sofort ein 30-Tage-Plan vorgeschlagen. Der konversationelle Stil verschwindet völlig, es bleibt ein faktenbasierter Aktionsplan mit Wahlpflicht. Ausdrücke wie „Das muss schwer für Sie gewesen sein“ oder „Man sieht, dass Sie sich bemühen“ fehlen komplett. Trotzdem wirkt es konzentriert und in der Praxis nicht falsch.
Ich bewerte die 5er-Reihe ebenfalls und lasse 4o weiterhin in Produktion. Die Stimmung bei 5 ist eindeutig anders. Auch wenn es heute einige gute Verbesserungen gibt, ist es keine Eigenschaft, die 4 durch ein bloßes Mapping auf 5 direkt ersetzen oder updaten zu können. Prompting und Ergebnislenkung müssen neu ausgerichtet werden, um dieselben Resultate und Vorteile zu bekommen.

Überraschende Abschaltung der GPT-4o-Unterstützung in ChatGPT für Konsumenten

Überblick zur Abschaltung der GPT-4o-Unterstützung

Reaktion der Nutzer und OpenAIs Antwort

ChatGPT-Modellauswahl-UX und Änderungen mit GPT-5

Gründe für die Bindung an GPT-4o

Ethische Fragen und Hintergrund der Funktionsänderungen

Ausblick und fortlaufender API-Support

Verwandte Beiträge

1 Kommentare

Hacker News Meinung