- Im Gegensatz zu den Erwartungen stieg die Enttäuschung in der Community nach der tatsächlichen Veröffentlichung von GPT-5 deutlich an
- GPT-5 unterscheidet sich in der Praxis kaum von bestehenden Modellen; in einigen Benchmarks wurde sogar eine verschlechterte Leistung festgestellt
- Aktuelle Forschung bestätigt, dass die Grenzen der Generalisierung und das Problem der Verteilungsverschiebung bei Large Language Models (LLMs) weiterhin gravierend sind
- Durch den Verlust von technologischer Führungsposition bei OpenAI, Abgänge wichtiger Mitarbeitender und das harte Aufholen durch Wettbewerber wird die Werterhaltung des Unternehmens zunehmend unklar
- Mit wachsender Skepsis gegenüber den Versprechen zur Umsetzung von AGI verbreitet sich industrieweit die Einsicht, dass ein reiner Skalierungsansatz an Grenzen stößt
Start von GPT-5 und die Erwartungen
- Die lange angekündigte Öffentlichlegung von GPT-5 durch OpenAI ist schließlich erfolgt
- CEO Sam Altman nutzte vor und nach der Veröffentlichung selbstbewusstes Framing und Marketing
- Nach dem Launch war die vorherrschende Reaktion in der Community—abgesehen von einigen Influencern—jedoch Enttäuschung
- Nutzerinnen und Nutzer zeigten sich über das neue Modell stark enttäuscht; vereinzelt gab es sogar erfolgreiche Petitionen, die die Nutzung älterer Versionen forderten
- Im Gegensatz zu Altman`s Aussagen und Marketing kippten die tatsächlichen Nutzerreaktionen deutlich in die negative Richtung
Reaktion von Community und Medien
- In diversen Communities wie OpenAI-Reddit, Hacker News und weiteren Plattformen wurden vor allem Probleme wie Fehler und Halluzinationen von GPT-5 benannt
- In wichtigen Performance-Benchmarks war GPT-5 auch im Vergleich zu Konkurrenzmodellen wie Grok 4 im Nachteil
- Auch neue Funktionen wie automatisches Routing zeigten Verwirrung und Unzulänglichkeit
- Bei stark gestiegenen Erwartungen in der Community hinterließ GPT-5 stattdessen große Enttäuschung
- In der Polymarket-Umfrage am Veröffentlichungstag sank die Vertrauensbewertung von OpenAIs KI-Führungsrolle innerhalb von nur einer Stunde von 75 % auf 14 %
Strukturelle Grenzen: Schach, visuelles Verständnis, Schlussfolgern
- Die von Autor:innen und Expert:innen immer wieder aufgeworfenen grundlegenden Schlussfolgerungsfehler und das Scheitern bei der Einhaltung von Schachregeln bestehen weiterhin
- In Bereichen wie der Bildgenerierung werden klare Grenzen in Teil-Ganzes-Beziehungen, visueller Konsistenz und ähnlichen Bereichen deutlich
- GPT-5 begeht Fehler bei Sachverhalten, bei denen weder ein Maschinenbauingenieur noch ein*e Laie typischerweise irren würde
- Auch bei Basisthemen wie Zusammenfassung und Leseverständnis wurden zahlreiche Fehlerfälle berichtet
- GPT-5 ist ein Modell mit akzeptabler inkrementeller Verbesserung, aber im Vergleich zum Vorjahr gibt es keinen klaren Innovationssprung
Aktuelle Lage und Ausblick von OpenAI
- GPT-5 blieb im Vergleich zu Vorgängern auf einem Niveau schrittweiser Verbesserungen, wobei gravierende Schwächen erneut auftreten
- In Markt und Branche sinkt das Vertrauen in die technologische Führung von OpenAI
- Mehrere Schlüsselpersonen haben das Unternehmen verlassen, um Wettbewerber zu gründen oder zu wechseln, während Anthropic, Google und Elon Musk rasant nachziehen
- Preisreduktion, Profitabilitätsdruck und die Verschlechterung der Beziehung zu Microsoft erhöhen die strukturellen Risiken
- Die Skepsis gegenüber der AGI-Realisierung auf LLM-Basis und das schwindende Vertrauen in CEO Sam Altman verstärken sich
Grundlegende Grenzen von LLMs: Generalisierung und Verteilungsverschiebung
- In einer aktuellen Arbeit der Arizona State University wurde gezeigt, dass Chain-of-Thought-Reasoning schon außerhalb der Trainingsverteilung zusammenbricht
- Die bereits von Apple u. a. identifizierte Verwundbarkeit gegenüber Verteilungsverschiebung (Distribution Shift) wurde auch in neuesten Modellen erneut bestätigt
- Das zeigt sich als fundamentale Ursache dafür, dass LLMs dauerhaft an qualitativen Grenzen aufeinandertreffen, die sich durch reines Skalieren der Parameter nicht überwinden lassen
- Eine milliardenschwere Skalierungsstrategie zeigt, dass sie bei der Lösung grundlegender Probleme versagt hat
- Das Bewusstsein für die Notwendigkeit eines neuen Paradigmas breitet sich aus
Die KI-Branche insgesamt und die Grenzen von „Skalierung"
- Überzogenes Marketing zu AGI, automatisiertem Fahren und unrealistischen Zeitplänen ist weit verbreitet
- Verzerrte Benchmark-Leistung, Black-Box-Bewertung und mangelnde Transparenz sind gravierende Probleme
- Immer mehr Menschen erkennen, dass der Begriff AGI ein Werkzeug ist, um Anleger und Öffentlichkeit zu ködern
- Optimistische KI-Erwartung und disziplinierende Kritik nehmen gleichzeitig zu
- Ein reiner Skalierungsansatz hat in der Realität in eine Sackgasse geführt
Alternativen und Schlussfolgerung
- GPT-5 mag günstiger geworden sein, doch qualitative Grenzen im Schach, Schließen, visuellen und mathematischen Denken bleiben bestehen
- Auch Grok, Claude und Gemini wiederholen ähnliche Probleme
- Das Problem der Verteilungsverschiebung (Distribution Shift) bleibt ungelöst
- Nun wird argumentiert, dass neue Ansätze wie Neurosymbolische KI und world-model-basierte Ansätze erforderlich sind
- Es wird bestätigt, dass komplexe algorithmische Innovationen und nicht reine Skalierung essenzielle Bestandteile für die Realisierung von AGI sind
Ausblick auf Folgefragen und PS
- Neben den in dieser Woche identifizierten LLM-Grenzen deutet vieles darauf hin, dass weitere gravierende wissenschaftliche Themen aufgedeckt werden werden
- Im nächsten Folgebeitrag wird ein separates Thema vorgestellt
Zusammenfassung
- Um die Veröffentlichung von GPT-5 gab es breit geführte Diskussionen zu Erwartungen und Reaktionen der Branche und Community, zu den strukturellen Grenzen von LLMs, zu OpenAIs Zukunft und zur realistischen Einordnung des AGI-Rahmens
- Insgesamt stellt der Beitrag für Start-ups und IT-Praktiker*innen wichtige Implikationen zu LLMs, den realen Grenzen von GPT-5, KI-Investitionen, Erwartungen und Enttäuschungen, Innovationsfragen und Forschungstrends vor
5 Kommentare
Das wirkt wie übertriebener Pessimismus.
Die Bedenken sind verständlich, aber der Fortschritt in der Technologie kann nicht zwingend immer nach oben steigen.
Nur weil der Autor des Beitrags Gary Marcus ist, der doch sowieso nur Blödsinn von sich gibt, ...
Hacker News Diskussion
Ich halte GPT‑5 weiterhin für eine Kostenreduktionsstrategie, weil OpenAI ein wachstumsorientiertes Unternehmen ist, das eine Milliarde Nutzer für ein GPU-lastiges Produkt gewinnen will.
Meiner Meinung nach ist es nicht der Eindruck, dass GPT‑5 Pro deutlich besser ist als o3-pro (vielleicht nicht einmal besser), sondern deutlich langsamer, mit ähnlicher Ausgabegüte.
Es halluziniert weiterhin und verpasst oft den Kern.
Bei neuen Lösungsansätzen für die Problembehandlung scheint es jedoch etwas besser zu sein.
Mein erster Eindruck ist, dass 5-pro gegenüber o3-pro etwa 0–2 % mehr Wissen und 5–10 % mehr Kreativität/Originalität hat.
Der „Ton“ oder die Persönlichkeit des Modells sind komplett gleich.
Bei bestimmten Aufgaben (formale Logik, Datenanalyse, kurze analytische Aufgaben) ist es wirklich übermenschlich und besser als jede Version von Grok oder Gemini.
Beim Schreiben von Prosa und allgemeinem Schreiben jedoch ist es klar schlechter als Kimi K2 und DeepSeek R1.
Besonders bemerkenswert ist, dass das beste Modell für englische Prosa aus China stammt: Es nutzt nicht einfach den typischen „GPT-AI-Stil“, Kimi liegt qualitativ auf dem Niveau tatsächlich veröffentlichter Dichter*innen.
Ich habe in meinem Netzwerk geprüft, ob jemand GPT‑5 Pro nutzt, und niemand tut es.
Das sehe ich ebenso, glaube aber auch, dass dahinter die Absicht steht, ein besseres Modell der breiten Öffentlichkeit zugänglich zu machen.
Soweit ich weiß, kann Pro nicht per API genutzt werden, oder?
Zustimmung.
Ich finde Artikel dieser Art besonders nervig.
Statt selbst zu analysieren, warum jemand denkt, GPT‑5 sei schlecht, wird Social-Media-Reaktion abgeschrieben, und jede Kritik wird als „Schock“ oder „Bock auf Bashing“ übertrieben, um die eigene Meinung durchzusetzen.
Das ist zu einseitig, weder Journalismus noch eine originelle Analyse.
Mir wirkt es, als hätten KI-bezogene Artikel grundsätzlich oft wenig Neugier und sich stattdessen auf Spott und Abwertung konzentrieren.
Gary Marcus ist in seinen Analysen immer oberflächlich.
Gary Marcus behauptet immer, dass KI in der Praxis tatsächlich nicht funktioniert – und was er treffsicher hat, ist fast Zufall.
Es ist ein Blogpost über die Frage, ob GPT‑5 die Überhitzung gerechtfertigt hat und welche Reaktionen es gibt.
Ich halte es für ein realitätsnahes Problem, dass es schwieriger wird, echte Meinungen zu finden.
Aus meiner Erfahrung ist dieses „Upgrade“ für Plus-Nutzer ein starkes Downgrade.
GPT‑5 ist gegenüber O3 in der Antwortqualität schwächer, denkt zu wenig und nutzt nicht wie O3 Websuche.
Selbst wenn ich
thinkingauswähle und klar anweise, wird es nicht gelöst.Jetzt braucht man Gemini, um ähnliche Qualität zu bekommen.
Und auch die Custom GPTs (weitere Infos) sind kaputt: Mein Grammatik-Check-GPT ignoriert unabhängig vom Modell die Anweisungen.
Auch die Deep-research-Option ist seltsam: Wählt man sie, antwortet es trotzdem wie vorher, und Anweisungen verändern das Ergebnis kaum.
Projects scheint ebenfalls kaputt.
Das fühlt sich an, als würden sie absichtlich auf den kostenlosen Tarif drängen oder ab Anfang nächsten Jahres Werbung einführen, oder in den 200-Dollar-Tarif überführen wollen.
Die Halluzinationen (Fehlinformationen) sind wirklich stark.
Die KI-Community braucht unabhängige Experten wie Marcus.
Sie muss trotz Hypes oder veränderter interner Benchmarks (z. B. „internes Erreichen von AGI“ usw.) Wahrhaftigkeit und Transparenz bewahren.
Unabhängig vom Stil ist Marcus mit Verweis auf Grenzen der Scaling Laws oder den realen Mangel an Inferenz in LLMs (Verallgemeinerung außerhalb der Verteilung) durchaus schon korrekt gewesen.
Die Branche negiert anfangs oft, behauptet dann später, sie würde etwas Neues (Prompt Chain, RL-basierte LLMs usw.) als eigene Entdeckung verkaufen.
Gegen überzogene Narrative braucht es zwingend kritische Stimmen.
Ich halte entschieden dagegen.
Ich würde die meisten KI-Limits oder Fehldeutungen nicht Gary Marcus zuschreiben.
Der größte Verbesserungsbedarf bei GPT ist aktuell, zu sagen: „Wenn ich es nicht weiß, sage ich es“.
Heute wollte ich im Cyberpunk 2077-Mod mit redscript herausfinden, wie man NPCs automatisch erstellt, und das war ziemlich mühsam.
ChatGPT 5 sagt, es recherchiere, erfindet aber APIs oder wiederholt Halluzinationen, obwohl ich sie mehrfach als falsch bezeichnet habe.
30 Minuten sind meiner Zeit verloren gegangen; bei einem einfachen „Ich weiß es nicht“ wäre es in einer Minute klar gewesen.
Man darf nicht glauben, ChatGPT wisse etwas.
Genau so ist es!
Es weiß eigentlich nichts.
Ich stimme zu, dass „es zu sagen, wenn man etwas nicht weiß“ am wichtigsten ist.
Diese Verbesserungen werden tatsächlich bearbeitet, OpenAI erwähnt das auch in offiziellen Unterlagen.
thinking-Option) versucht bei unmöglichen, informationell unzureichenden oder ohne Werkzeuge nicht lösbaren Aufgaben, offener zu sein, was Grenzen und Verhalten betrifft.Sein Fixierungsdrang auf „alles muss exakt passen“ verdeckt für mich die eigentliche Wahrheit.
Die Diskussion um ein hybrides symbolic/transformer-System ist spannend.
Im verlinkten Post zeigt er, dass Grok 4 durch Delegation der Mathematik an Python in Mathe erfolgreich sein konnte.
Persönlich würde ich eher ein symbol-first-System sehen: echtes „hard“ Mathe symbolisch und nur die wirklich inferenzrelevanten Bereiche mit monad behandeln.
Das neosymbolische System von Aloe ist im OpenAI deep research GAIA-Benchmark um 20 Punkte vorne.
In GPT‑5 ist ein eigenartiges Problem aufgetreten, das es in GPT‑4 nicht gab.
Im Gesprächsthread bricht der Kontext plötzlich ab oder er versteht die nächste Antwort nicht richtig.
Als wäre ein Kontextbereinigungsprozess aktiv, der vorangegangene Gesprächsinhalte nicht zusammenfasst.
Dann ist der wirklich nutzbare Kontext womöglich stark kleiner; dieses Phänomen tritt häufig auf.
Wenn ich bitte, den letzten Gesprächsverlauf noch einmal zu prüfen, wird es etwas besser.
Bei mir scheinen die Antworten deutlich kürzer geworden zu sein.
„Menschen erwarteten ein Wunder, aber GPT‑5 ist nur der neueste inkrementelle Fortschritt“
Die Trainingsdaten sind jetzt nicht mehr ausreichend.
Alle KI-Verbesserungen hängen von jetzt an Strukturänderungen ab.
Alle aktuellen Modelle stoßen bei neuen Informationen auf lokale Maxima.
Aus den Vorarbeiten folgt, dass es effektiv ist, echte, absichtlich eingesetzte Daten mit hauptsächlich synthetischen Daten für das Training von frontier LLMs zu kombinieren.
Ich habe genau dies vor zwei Jahren bereits hier gesagt.
Ist das wirklich die Behauptung, dass GPT‑5 bereits alle Videodaten der Welt gelernt hat?
Entstehen wirklich nicht täglich neue Trainingsdaten?
Selbst wenn OpenAI das beste Modell baut, war der Zug mit dem Namen „GPT‑5“ bereits verpasst – die Community und OpenAI haben ihn überhöht, sodass ein Misserfolg vorausgesetzt ist.
Eigentlich hätte OpenAI Memes und Overhyping ablehnen und auf inkrementelle Verbesserung setzen sollen; das wäre dann aber für Investoren/Story/AI-Ökosystem schwerer gewesen.
Wir haben bereits den „Peak“ erreicht.
Dass Sam Altman selbst solche Erwartungen geschaffen und angeheizt hat, ist ebenfalls wahr.
Wenn echtes AGI kommt, bin ich gespannt, wie das Argument „es hat die Erwartungen nicht erfüllt“ dann aufgestellt wird.
Wenn sie wie Google einfach nur leise auf show&prove gesetzt hätten, wäre es wohl nicht so weit gekommen. Diese ständigen Warnungen wie „zu gefährlich“, „wie bei der Death Star“ oder „als hätten wir eine Atombombe gebaut“, zusammen mit dem ganzen zusätzlichen Hype, den sie sich da aufgebaut haben, sind wohl eher selbstverschuldet.
Und ich glaube, dass auch der wirklich peinliche Fehler, den sie bei der Präsentation beim Zeigen der Benchmarks gemacht haben, zu einem insgesamt schlechten Gesamteindruck beigetragen hat.