GPT-5: verspätet, überschätzt, enttäuschend – und gravierendere Probleme dahinter

(garymarcus.substack.com)

6 Punkte von GN⁺ 2025-08-11 | 5 Kommentare | Auf WhatsApp teilen

Im Gegensatz zu den Erwartungen stieg die Enttäuschung in der Community nach der tatsächlichen Veröffentlichung von GPT-5 deutlich an
GPT-5 unterscheidet sich in der Praxis kaum von bestehenden Modellen; in einigen Benchmarks wurde sogar eine verschlechterte Leistung festgestellt
Aktuelle Forschung bestätigt, dass die Grenzen der Generalisierung und das Problem der Verteilungsverschiebung bei Large Language Models (LLMs) weiterhin gravierend sind
Durch den Verlust von technologischer Führungsposition bei OpenAI, Abgänge wichtiger Mitarbeitender und das harte Aufholen durch Wettbewerber wird die Werterhaltung des Unternehmens zunehmend unklar
Mit wachsender Skepsis gegenüber den Versprechen zur Umsetzung von AGI verbreitet sich industrieweit die Einsicht, dass ein reiner Skalierungsansatz an Grenzen stößt

Start von GPT-5 und die Erwartungen

Die lange angekündigte Öffentlichlegung von GPT-5 durch OpenAI ist schließlich erfolgt
CEO Sam Altman nutzte vor und nach der Veröffentlichung selbstbewusstes Framing und Marketing
Nach dem Launch war die vorherrschende Reaktion in der Community—abgesehen von einigen Influencern—jedoch Enttäuschung
Nutzerinnen und Nutzer zeigten sich über das neue Modell stark enttäuscht; vereinzelt gab es sogar erfolgreiche Petitionen, die die Nutzung älterer Versionen forderten
Im Gegensatz zu Altman`s Aussagen und Marketing kippten die tatsächlichen Nutzerreaktionen deutlich in die negative Richtung

Reaktion von Community und Medien

In diversen Communities wie OpenAI-Reddit, Hacker News und weiteren Plattformen wurden vor allem Probleme wie Fehler und Halluzinationen von GPT-5 benannt
In wichtigen Performance-Benchmarks war GPT-5 auch im Vergleich zu Konkurrenzmodellen wie Grok 4 im Nachteil
Auch neue Funktionen wie automatisches Routing zeigten Verwirrung und Unzulänglichkeit
Bei stark gestiegenen Erwartungen in der Community hinterließ GPT-5 stattdessen große Enttäuschung
In der Polymarket-Umfrage am Veröffentlichungstag sank die Vertrauensbewertung von OpenAIs KI-Führungsrolle innerhalb von nur einer Stunde von 75 % auf 14 %

Strukturelle Grenzen: Schach, visuelles Verständnis, Schlussfolgern

Die von Autor:innen und Expert:innen immer wieder aufgeworfenen grundlegenden Schlussfolgerungsfehler und das Scheitern bei der Einhaltung von Schachregeln bestehen weiterhin
In Bereichen wie der Bildgenerierung werden klare Grenzen in Teil-Ganzes-Beziehungen, visueller Konsistenz und ähnlichen Bereichen deutlich
GPT-5 begeht Fehler bei Sachverhalten, bei denen weder ein Maschinenbauingenieur noch ein*e Laie typischerweise irren würde
Auch bei Basisthemen wie Zusammenfassung und Leseverständnis wurden zahlreiche Fehlerfälle berichtet
GPT-5 ist ein Modell mit akzeptabler inkrementeller Verbesserung, aber im Vergleich zum Vorjahr gibt es keinen klaren Innovationssprung

Aktuelle Lage und Ausblick von OpenAI

GPT-5 blieb im Vergleich zu Vorgängern auf einem Niveau schrittweiser Verbesserungen, wobei gravierende Schwächen erneut auftreten
In Markt und Branche sinkt das Vertrauen in die technologische Führung von OpenAI
Mehrere Schlüsselpersonen haben das Unternehmen verlassen, um Wettbewerber zu gründen oder zu wechseln, während Anthropic, Google und Elon Musk rasant nachziehen
Preisreduktion, Profitabilitätsdruck und die Verschlechterung der Beziehung zu Microsoft erhöhen die strukturellen Risiken
Die Skepsis gegenüber der AGI-Realisierung auf LLM-Basis und das schwindende Vertrauen in CEO Sam Altman verstärken sich

Grundlegende Grenzen von LLMs: Generalisierung und Verteilungsverschiebung

In einer aktuellen Arbeit der Arizona State University wurde gezeigt, dass Chain-of-Thought-Reasoning schon außerhalb der Trainingsverteilung zusammenbricht
Die bereits von Apple u. a. identifizierte Verwundbarkeit gegenüber Verteilungsverschiebung (Distribution Shift) wurde auch in neuesten Modellen erneut bestätigt
Das zeigt sich als fundamentale Ursache dafür, dass LLMs dauerhaft an qualitativen Grenzen aufeinandertreffen, die sich durch reines Skalieren der Parameter nicht überwinden lassen
Eine milliardenschwere Skalierungsstrategie zeigt, dass sie bei der Lösung grundlegender Probleme versagt hat
Das Bewusstsein für die Notwendigkeit eines neuen Paradigmas breitet sich aus

Die KI-Branche insgesamt und die Grenzen von „Skalierung"

Überzogenes Marketing zu AGI, automatisiertem Fahren und unrealistischen Zeitplänen ist weit verbreitet
Verzerrte Benchmark-Leistung, Black-Box-Bewertung und mangelnde Transparenz sind gravierende Probleme
Immer mehr Menschen erkennen, dass der Begriff AGI ein Werkzeug ist, um Anleger und Öffentlichkeit zu ködern
Optimistische KI-Erwartung und disziplinierende Kritik nehmen gleichzeitig zu
Ein reiner Skalierungsansatz hat in der Realität in eine Sackgasse geführt

Alternativen und Schlussfolgerung

GPT-5 mag günstiger geworden sein, doch qualitative Grenzen im Schach, Schließen, visuellen und mathematischen Denken bleiben bestehen
Auch Grok, Claude und Gemini wiederholen ähnliche Probleme
Das Problem der Verteilungsverschiebung (Distribution Shift) bleibt ungelöst
Nun wird argumentiert, dass neue Ansätze wie Neurosymbolische KI und world-model-basierte Ansätze erforderlich sind
Es wird bestätigt, dass komplexe algorithmische Innovationen und nicht reine Skalierung essenzielle Bestandteile für die Realisierung von AGI sind

Ausblick auf Folgefragen und PS

Neben den in dieser Woche identifizierten LLM-Grenzen deutet vieles darauf hin, dass weitere gravierende wissenschaftliche Themen aufgedeckt werden werden
Im nächsten Folgebeitrag wird ein separates Thema vorgestellt

Zusammenfassung

Um die Veröffentlichung von GPT-5 gab es breit geführte Diskussionen zu Erwartungen und Reaktionen der Branche und Community, zu den strukturellen Grenzen von LLMs, zu OpenAIs Zukunft und zur realistischen Einordnung des AGI-Rahmens
Insgesamt stellt der Beitrag für Start-ups und IT-Praktiker*innen wichtige Implikationen zu LLMs, den realen Grenzen von GPT-5, KI-Investitionen, Erwartungen und Enttäuschungen, Innovationsfragen und Forschungstrends vor

5 Kommentare

gnsdl116 2025-08-12

Das wirkt wie übertriebener Pessimismus.
Die Bedenken sind verständlich, aber der Fortschritt in der Technologie kann nicht zwingend immer nach oben steigen.

mammal 2025-08-11

Nur weil der Autor des Beitrags Gary Marcus ist, der doch sowieso nur Blödsinn von sich gibt, ...

GN⁺ 2025-08-11

Hacker News Diskussion

Ich halte GPT‑5 weiterhin für eine Kostenreduktionsstrategie, weil OpenAI ein wachstumsorientiertes Unternehmen ist, das eine Milliarde Nutzer für ein GPU-lastiges Produkt gewinnen will.
- Zu GPT‑5 Pro wird kaum etwas gesagt, aber ich habe es selbst getestet und es ist deutlich besser als Grok 4 Heavy und Opus 4.1.
- Es ist absolut state of the art, und wenn man das Modell mit maximaler Leistung betreibt, kann es pro Person auf mehrere tausend Dollar pro Monat kommen.
- Deshalb wird es offenbar nur eingeschränkt bereitgestellt; OpenAI zielt nicht auf dieses Marktsegment, sondern auf Wachstum, um Google entgegenzutreten.
- Dass das Pro-Modell nie erwähnt wird, macht diese Meinung für mich unzuverlässig.
Meiner Meinung nach ist es nicht der Eindruck, dass GPT‑5 Pro deutlich besser ist als o3-pro (vielleicht nicht einmal besser), sondern deutlich langsamer, mit ähnlicher Ausgabegüte.
- Es halluziniert weiterhin und verpasst oft den Kern.
- Bei neuen Lösungsansätzen für die Problembehandlung scheint es jedoch etwas besser zu sein.
- Mein erster Eindruck ist, dass 5-pro gegenüber o3-pro etwa 0–2 % mehr Wissen und 5–10 % mehr Kreativität/Originalität hat.
- Der „Ton“ oder die Persönlichkeit des Modells sind komplett gleich.
- Bei bestimmten Aufgaben (formale Logik, Datenanalyse, kurze analytische Aufgaben) ist es wirklich übermenschlich und besser als jede Version von Grok oder Gemini.
- Beim Schreiben von Prosa und allgemeinem Schreiben jedoch ist es klar schlechter als Kimi K2 und DeepSeek R1.
- Besonders bemerkenswert ist, dass das beste Modell für englische Prosa aus China stammt: Es nutzt nicht einfach den typischen „GPT-AI-Stil“, Kimi liegt qualitativ auf dem Niveau tatsächlich veröffentlichter Dichter*innen.
- Ich habe in meinem Netzwerk geprüft, ob jemand GPT‑5 Pro nutzt, und niemand tut es.
  - Besonders spannend wäre Feedback im direkten Vergleich mit o3.
- Das sehe ich ebenso, glaube aber auch, dass dahinter die Absicht steht, ein besseres Modell der breiten Öffentlichkeit zugänglich zu machen.
  - o3 war extrem stark, aber viele Menschen haben es trotzdem nicht genutzt.
  - Wenn man Leute fragt, die ChatGPT täglich nutzen, ob sie o3 verwendet haben, bekommt man oft einen ratlosen Ausdruck.
  - Deshalb glaube ich auch, dass es darum geht, Reasoning-Modelle zu popularisieren; das ist ein Kostenfaktor für OpenAI.
  - Für Power-Nutzer (meist HN-Nutzer) gibt es jedoch durch die Routing-Ebene auch einen Einsparungseffekt.
  - Power-Nutzer werden aber bald lernen, wie man die erzwungene Nutzung von Reasoning-Modellen umgeht.
- Soweit ich weiß, kann Pro nicht per API genutzt werden, oder?
  - Ich frage mich, ob man es über Codex CLI per Abonnement verknüpfen kann.
- Zustimmung.
  - Ein weiterer Hintergrund für diese Entscheidung ist, dass es für die Mehrheit der Nutzer auch mit den bisherigen Modellen genug ist.
  - Anders als HN-Nutzer sind normale Nutzer nicht so sehr an modernster Technik interessiert.
Ich finde Artikel dieser Art besonders nervig.
- Statt selbst zu analysieren, warum jemand denkt, GPT‑5 sei schlecht, wird Social-Media-Reaktion abgeschrieben, und jede Kritik wird als „Schock“ oder „Bock auf Bashing“ übertrieben, um die eigene Meinung durchzusetzen.
- Das ist zu einseitig, weder Journalismus noch eine originelle Analyse.
- Mir wirkt es, als hätten KI-bezogene Artikel grundsätzlich oft wenig Neugier und sich stattdessen auf Spott und Abwertung konzentrieren.
  - Ich mag KI, aber ich lese ernsthafte Texte mit anderen Ansichten jederzeit gern.
  - Solche Texte sind jedoch eine andere Sorte: Ohne Gegenkritik ist ihnen kaum irgendein Wert inne.
  - Ich finde die Moderation auf HN nicht schlecht, aber solche neugierslosen Texte sollten aus der Startseite verschwinden.
- Gary Marcus ist in seinen Analysen immer oberflächlich.
  - Seine Meinung ist ziemlich ähnlich wie Jim Cramers Aktienkommentare.
  - Man könnte im Ernst auf eine „Reverse-Gary-Marcus“-Strategie setzen.
- Gary Marcus behauptet immer, dass KI in der Praxis tatsächlich nicht funktioniert – und was er treffsicher hat, ist fast Zufall.
  - Ursprünglichen Kommentar anzeigen
  - Ich stimme vollständig zu, dass das ein breit verbreitetes Problem ist.
- Es ist ein Blogpost über die Frage, ob GPT‑5 die Überhitzung gerechtfertigt hat und welche Reaktionen es gibt.
  - Das ist ein völlig legitimes Thema.
  - Es ist ein Gary Marcus-Blog, also ist eine gewisse Verzerrung durch seine eigene Meinung zwangsläufig, anders als ein BBC-Artikel.
- Ich halte es für ein realitätsnahes Problem, dass es schwieriger wird, echte Meinungen zu finden.
  - Online geht es meist darum, die Meinungen anderer neu zu interpretieren, mit zuviel unnötigem Lärm und oberflächlichem Content.
Aus meiner Erfahrung ist dieses „Upgrade“ für Plus-Nutzer ein starkes Downgrade.
- GPT‑5 ist gegenüber O3 in der Antwortqualität schwächer, denkt zu wenig und nutzt nicht wie O3 Websuche.
- Selbst wenn ich thinking auswähle und klar anweise, wird es nicht gelöst.
- Jetzt braucht man Gemini, um ähnliche Qualität zu bekommen.
- Und auch die Custom GPTs (weitere Infos) sind kaputt: Mein Grammatik-Check-GPT ignoriert unabhängig vom Modell die Anweisungen.
- Auch die Deep-research-Option ist seltsam: Wählt man sie, antwortet es trotzdem wie vorher, und Anweisungen verändern das Ergebnis kaum.
- Projects scheint ebenfalls kaputt.
  - Es folgt Anweisungen nicht korrekt, antwortet auf Spanisch oder ignoriert meine Fragen.
  - Manchmal wirkt es, als würde es mit sich selbst reden: Egal welche Taste ich drücke, es gibt immer dieselbe unerwünschte Antwort, oft sogar auf Spanisch.
- Das fühlt sich an, als würden sie absichtlich auf den kostenlosen Tarif drängen oder ab Anfang nächsten Jahres Werbung einführen, oder in den 200-Dollar-Tarif überführen wollen.
  - Ich glaube, dass es künftig keinen werbefreien 20-Dollar-Tarif geben wird.
- Die Halluzinationen (Fehlinformationen) sind wirklich stark.
  - Sehr enttäuschend.
Die KI-Community braucht unabhängige Experten wie Marcus.
- Sie muss trotz Hypes oder veränderter interner Benchmarks (z. B. „internes Erreichen von AGI“ usw.) Wahrhaftigkeit und Transparenz bewahren.
- Unabhängig vom Stil ist Marcus mit Verweis auf Grenzen der Scaling Laws oder den realen Mangel an Inferenz in LLMs (Verallgemeinerung außerhalb der Verteilung) durchaus schon korrekt gewesen.
- Die Branche negiert anfangs oft, behauptet dann später, sie würde etwas Neues (Prompt Chain, RL-basierte LLMs usw.) als eigene Entdeckung verkaufen.
- Gegen überzogene Narrative braucht es zwingend kritische Stimmen.
  - Die lautesten Stimmen zu LLMs kommen aus wirtschaftlichem Interesse.
  - Ich bin auch nicht gegen KI, aber es ist absurd, wenn die Stimmung tut, als würde alles ökonomische Phänomen durch diese Technologie ersetzt werden (die eigentlichen Gründe für die schwierige Wirtschaftslage liegen woanders, meist an der Führung der einzelnen Länder).
  - Wenn die Innovationsgeschwindigkeit langsamer wird, würde ich mir wünschen, dass zumindest die Produkte, die ich nutze, sich wieder auf echte Funktionen oder Bugfixes konzentrieren statt KI-Funktionen aufzudrängen.
- Ich halte entschieden dagegen.
  - Dieser Essay ähnelt eher einem zusammengestellten Reddit-Beschwerdebeitrag und enthält keine direkten Testergebnisse; er behandelt nur Probleme im Launch (500 Millionen gleichzeitige Starts).
  - Diese Kritik verfehlt entscheidende Punkte bei GPT‑5: Tatsächlich ist dies die erste Einführung eines „AI Full Product“; jetzt geht es von der reinen Modellverbesserung in echte Produktierung über.
  - Wichtiger ist, dass es schneller, integrierter und befähigend für inkrementelle Innovationen (multimodale Interaktion, Bildgenerierung usw.) ist.
  - Insbesondere gibt es große Fortschritte bei sehr langen Kontexten und der Aufrechterhaltung langfristiger Ziele.
  - Willison hat ebenfalls gesagt, dass er seine Arbeitsschwerpunkt im Coding liegt, und auch ich habe das Gefühl, dass es bei längeren/komplexeren Coding-Aufgaben klar besser ist als Claude sowie die bisherigen Top-Modelle (o3-pro, Gemini).
  - Die Codingsgeschwindigkeit ist auch deutlich schneller als bei o3-pro.
  - Die Analyse, dass Reddit-Nutzer zu 4o loyal seien → oAI scheitert, ist schwach und ein bedeutungsloses Argument.
- Ich würde die meisten KI-Limits oder Fehldeutungen nicht Gary Marcus zuschreiben.
  - Ich glaube nicht, dass es Marcus’ Schuld ist.
Der größte Verbesserungsbedarf bei GPT ist aktuell, zu sagen: „Wenn ich es nicht weiß, sage ich es“.
- Heute wollte ich im Cyberpunk 2077-Mod mit redscript herausfinden, wie man NPCs automatisch erstellt, und das war ziemlich mühsam.
- ChatGPT 5 sagt, es recherchiere, erfindet aber APIs oder wiederholt Halluzinationen, obwohl ich sie mehrfach als falsch bezeichnet habe.
- 30 Minuten sind meiner Zeit verloren gegangen; bei einem einfachen „Ich weiß es nicht“ wäre es in einer Minute klar gewesen.
- Man darf nicht glauben, ChatGPT wisse etwas.
  - Es gibt nur die statistisch wahrscheinlichste Antwort auf Basis der Trainingsdaten aus.
  - Es greift nicht auf ein internes Wissenssystem zurück, sondern gibt nur Sprachmuster aus.
  - So wie man Ideen (z. B. Propaganda) betonen kann, kann man damit trainieren; Wissen kann man jedoch nicht direkt referenzieren.
- Genau so ist es!
  - Es wirkt wie ein Kollege mit voller Gewissheit, und deshalb glaubt man ihm ohne weiteres.
  - Tatsächlich ist es jedoch viel zu oft schlicht falsch — eine wirklich nervige Situation.
- Es weiß eigentlich nichts.
  - Jedes Ergebnis ist eher eine Prompt-basierte Halluzination.
- Ich stimme zu, dass „es zu sagen, wenn man etwas nicht weiß“ am wichtigsten ist.
  - Im Frontier AI Lab gab es intern sicherlich Reviews und Experimente dazu.
  - Dass dieses Phänomen nicht seltener ist, könnte selbst ein Zeichen dafür sein, dass die Modellgrenzen ziemlich klar sind.
- Diese Verbesserungen werden tatsächlich bearbeitet, OpenAI erwähnt das auch in offiziellen Unterlagen.
  - Relevanter Link
  - GPT‑5 (thinking-Option) versucht bei unmöglichen, informationell unzureichenden oder ohne Werkzeuge nicht lösbaren Aufgaben, offener zu sein, was Grenzen und Verhalten betrifft.
  - Zum Beispiel wurde im CharXiv-Multimodal-Benchmark beim Testen von Prompts ohne Bilder o3 zu 86,7 % selbstbewusst auf eine nicht vorhandene Grafik geantwortet, GPT‑5 hingegen nur zu 9 %.
  - Bei unmöglichem Coding oder fehlenden multimodalen Assets ist das reasoning von GPT‑5 im Vergleich zu o3 deutlich weniger falsch.
  - In einem ChatGPT-basierten Datensatz mit langen Gesprächen wurde die Deception-Rate von 4,8 % auf 2,1 % reduziert.
  - Es braucht noch weitere Verbesserungen, und die Forschung läuft weiter; siehe System Card.
Sein Fixierungsdrang auf „alles muss exakt passen“ verdeckt für mich die eigentliche Wahrheit.
- Die Diskussion um ein hybrides symbolic/transformer-System ist spannend.
- Im verlinkten Post zeigt er, dass Grok 4 durch Delegation der Mathematik an Python in Mathe erfolgreich sein konnte.
- Persönlich würde ich eher ein symbol-first-System sehen: echtes „hard“ Mathe symbolisch und nur die wirklich inferenzrelevanten Bereiche mit monad behandeln.
- Das neosymbolische System von Aloe ist im OpenAI deep research GAIA-Benchmark um 20 Punkte vorne.
  - Gary ist gesprächig und übertreibt zwar, aber er weiß ganz genau, wo die Grenzen von LLMs liegen (aloe.inc).
In GPT‑5 ist ein eigenartiges Problem aufgetreten, das es in GPT‑4 nicht gab.
- Im Gesprächsthread bricht der Kontext plötzlich ab oder er versteht die nächste Antwort nicht richtig.
- Als wäre ein Kontextbereinigungsprozess aktiv, der vorangegangene Gesprächsinhalte nicht zusammenfasst.
- Dann ist der wirklich nutzbare Kontext womöglich stark kleiner; dieses Phänomen tritt häufig auf.
- Wenn ich bitte, den letzten Gesprächsverlauf noch einmal zu prüfen, wird es etwas besser.
- Bei mir scheinen die Antworten deutlich kürzer geworden zu sein.
„Menschen erwarteten ein Wunder, aber GPT‑5 ist nur der neueste inkrementelle Fortschritt“
- Das war der einzige wirklich lesenswerte Teil dieses Artikels.
- Es ist absolut richtig, dass Menschen inkrementellen Fortschritt erwarten.
- Anbieter sollten keine Wunder versprechen.
- Erwartungsmanagement ist wichtig.
- Inkrementeller Fortschritt ist echter Fortschritt.
- Aber ich stimme nicht zu mit „AGI wird von der hinteren Hälfte der GPT-Serie aus einfach nachgeliefert“.
Die Trainingsdaten sind jetzt nicht mehr ausreichend.
- Alle KI-Verbesserungen hängen von jetzt an Strukturänderungen ab.
- Alle aktuellen Modelle stoßen bei neuen Informationen auf lokale Maxima.
- Aus den Vorarbeiten folgt, dass es effektiv ist, echte, absichtlich eingesetzte Daten mit hauptsächlich synthetischen Daten für das Training von frontier LLMs zu kombinieren.
  - Relevante Forschung
- Ich habe genau dies vor zwei Jahren bereits hier gesagt.
  - Es gibt kein „zweites Internet“ mit hochwertigen Inhalten, die man ausplündern könnte.
  - Bestehende Inhalte beginnen zunehmend stärker zu entgehen/sperren.
- Ist das wirklich die Behauptung, dass GPT‑5 bereits alle Videodaten der Welt gelernt hat?
- Entstehen wirklich nicht täglich neue Trainingsdaten?
  - YouTube, Facebook, TikTok etc.
  - Menschen sind eine Content-Produktionsmaschine.
Selbst wenn OpenAI das beste Modell baut, war der Zug mit dem Namen „GPT‑5“ bereits verpasst – die Community und OpenAI haben ihn überhöht, sodass ein Misserfolg vorausgesetzt ist.
- Eigentlich hätte OpenAI Memes und Overhyping ablehnen und auf inkrementelle Verbesserung setzen sollen; das wäre dann aber für Investoren/Story/AI-Ökosystem schwerer gewesen.
- Wir haben bereits den „Peak“ erreicht.
- Dass Sam Altman selbst solche Erwartungen geschaffen und angeheizt hat, ist ebenfalls wahr.
- Wenn echtes AGI kommt, bin ich gespannt, wie das Argument „es hat die Erwartungen nicht erfüllt“ dann aufgestellt wird.

dongho42 2025-08-11

Wenn sie wie Google einfach nur leise auf show&prove gesetzt hätten, wäre es wohl nicht so weit gekommen. Diese ständigen Warnungen wie „zu gefährlich“, „wie bei der Death Star“ oder „als hätten wir eine Atombombe gebaut“, zusammen mit dem ganzen zusätzlichen Hype, den sie sich da aufgebaut haben, sind wohl eher selbstverschuldet.