- Ein OpenAI-Forscher zog eine Veröffentlichung zurück, in der er behauptete, GPT-5 habe ein Erdős-Problem gelöst, nachdem diese von der Community und aus der Branche kritisiert wurde
- Die Aussage konnte so verstanden werden, dass die KI einen echten Beweis für ein mathematisches Problem, das seit Jahrzehnten als ungelöst gilt, eigenständig gefunden habe
- Tatsächlich zeigte GPT-5 nur eine Neuauflage bereits bekannter Forschungsergebnisse; es war kein neuer Lösungsansatz für ein tatsächlich ungelöstes Problem
- Der Vorfall diente als Anlass, das Vertrauen in OpenAI zu untergraben und die Branchensorge vor ungeprüften, überzogenen KI-Announcements zu verstärken
- Die tatsächliche Stärke von GPT-5 als Hilfsmittel zur Suche nach Forschungsarbeiten und zur Literaturorganisation wurde hervorgehoben
Fallübersicht
- Vor kurzem verkündete ein OpenAI-Forscher auf X (ehemals Twitter), dass GPT-5 einen Durchbruch erzielt habe, indem es 10 ungelöste Erdős-Probleme gelöst und bei 11 weiteren Fortschritte erzielt habe
- Diese Aussage wurde als Behauptung verstanden, GPT-5 habe einen mathematischen Beweis für schwierige Probleme der Zahlentheorie eigenständig abgeleitet
- Mehrere OpenAI-Forscher veröffentlichten ähnliche Beiträge, die nahelegten, dass diese KI innovative wissenschaftliche Entdeckungen realisieren könne
Überprüfung durch die Community und die Debatte
- Der Mathematiker Thomas Bloom, der die Website Erdosproblems.com betreibt, widersprach umgehend und erklärte, dass die auf der Seite als „open" gekennzeichneten Probleme in Wirklichkeit keine ungelösten Probleme seien
- Diese Probleme waren schlicht Fälle, in denen Bloom selbst die Antwort nicht kannte oder bisherige Forschung nicht überprüft hatte
- GPT-5 hat lediglich bereits vorhandene Forschungsergebnisse gefunden und keine neuen mathematischen Lösungsansätze entdeckt
- Als diese Tatsache öffentlich wurde, löschten OpenAI-Forscher ihre Beiträge oder änderten Inhalte
- Community- und Branchenvertreter wie Demis Hassabis, CEO von DeepMind, nannten den Fall eine „Peinlichkeit“, und auch Yann LeCun von Meta AI sagte, OpenAI sei den eigenen PR-Versprechen aufgesessen
- Die Forscher räumten den Fehler ein und erklärten die tatsächliche Rolle von GPT-5 erneut
Vertrauensproblem in der Branche und Kritik
- Durch diesen Vorfall hat sich die Einschätzung verstärkt, dass OpenAI im Hinblick auf Zuverlässigkeit und Faktentreue Defizite zeigt
- Besonders in Verbindung mit aufgeblähten Erwartungen in der KI-Branche und spekulativem Interesse an thematisch verwandten Aktien stieg die Sorge über nicht verifizierte Erfolgsansagen
- Es wird auch gefragt, warum führende Forscher der Branche dramatische Behauptungen ohne Faktenprüfung veröffentlicht haben und ob die interne Integrität der Organisation intakt ist
Tatsächliche Ergebnisse und die Rolle von KI in der Mathematik
- In der Praxis bestätigte sich, dass GPT-5 vor allem nützlich ist als Assistent, der relevante Arbeiten und Forschungsquellen zu schwierigen, terminologisch vielfältigen mathematischen Problemen aufspürt
- Der Mathematiker Terence Tao erwartet, dass KI eher die umfassende Literaturrecherche und repetitive Sucharbeit erheblich verkürzt, statt „Lösungen für die neuesten ungelösten Probleme“ zu liefern
- Es gibt einzelne unabhängige Fortschrittsfälle, aktuell liegt der Hauptnutzen jedoch in der Automatisierung von Papersuche und Strukturierung
- Generative KI hat künftig das Potenzial, die Mathematik in Bezug auf Beschleunigung und Automatisierung zu fördern
- Fachliche Verifikation, Kategorisierung und Ergebnissynthese sind jedoch unverzichtbar
Fazit
- Der Vorfall illustriert exemplarisch die realen Grenzen und industriellen Möglichkeiten generativer KI ebenso wie das Risiko überzogener Ankündigungen zu KI-Forschungsergebnissen
- Letztendlich wurde die Potenzialrolle von GPT-5 als unterstützendes Werkzeug für die Aufbereitung von Forschungsmaterial, statt als innovativer Durchbruch bei ungelösten mathematischen Problemen, hervorgehoben
1 Kommentare
Hacker-News-Kommentare
Um dem OpenAI-Team fair zu werden: Wenn man sich den Kontext anschaut, wirkt die Situation meiner Meinung nach nicht besonders böswillig.
Der gelöschte Tweet lautete: „GPT-5 hat 10 (zuvor ungelöste) Erdös-Probleme gelöst, und bei weiteren 11 Fortschritte erzielt, Probleme, die seit Jahrzehnten ungelöst waren.“
Wenn dieser Tweet für sich allein gestanden hätte, wäre er meiner Meinung nach irreführend gewesen, aber tatsächlich war es ein Quote-Tweet.
Der erste zitierte Originalbeitrag (https://x.com/MarkSellke/status/1979226538059931886) sagte sinngemäß: „Wir treiben das noch weiter.“
Und im zweiten Originalbeitrag, auf den dieser Tweet verweist (https://x.com/SebastienBubeck/status/1977181716457701775), hieß es, GPT-5 sei hervorragend bei der Literatursuche und habe „tatsächlich eine vor 20 Jahren gelöste Aufgabe gefunden und damit Erdös-Problem #339, das noch als offen klassifiziert war, ‚gelöst‘“.
Liest man den Thread der Reihe nach, ergibt sich:
SebastienBubeck: „GPT-5 ist sehr gut bei der Literatursuche und hat gewissermaßen ein Problem gelöst, von dem bereits eine Lösung existierte.“
MarkSellke: „Jetzt hat es noch 10 weitere geschafft.“
kevinweil: „Schaut euch dieses tolle Ergebnis an, das wir erzielt haben!“
Letztlich ist das ein Problem des Quote-Tweet-Formats: Weil kevinweil mehrere Ebenen tief zitiert hat, ging das ursprüngliche Problem verloren — nämlich dass lediglich eine bereits existierende Lösung gefunden wurde — und für Leser war die Konstruktion zwangsläufig missverständlich.
So ein Fehler ist meines Erachtens durchaus nachvollziehbar, und ich finde die Kontroverse etwas überzogen.
Was den Punkt angeht, dass der Kontext des von Weil geposteten Quote-Tweets nicht ausreichend berücksichtigt wurde: Tatsächlich hat Weil selbst ausdrücklich erklärt, dass er Sellkes Beitrag missverstanden hatte (siehe https://x.com/kevinweil/status/1979270343941591525).
Sellke sagte „als offen klassifiziert“, während Weil von „zuvor ungelösten Problemen“ sprach — das ist der Unterschied.
Die erste Person sagte, das System habe „etwas gelöst“, das bereits vor 20 Jahren gelöst worden war, während die zweite Person sagte, es habe „10 zuvor ungelöste Erdös-Probleme gelöst“.
Ich finde, die Formulierung „zuvor ungelöst“ passt nicht zum tatsächlichen Kontext.
Ich frage mich, ob ich das falsch verstanden habe.
Das erinnert an den Fall vor ein paar Monaten, als DeepMind ein Paper veröffentlichte mit dem Anspruch, „Matrixmultiplikation besser als SOTA“ zu beherrschen.
Damals hieß es, Gemini habe eine neue Optimierungslösung gefunden, aber kurz nach der Veröffentlichung wiesen Mathematiker darauf hin, dass die Methode bereits in der Literatur von vor 30–40 Jahren beschrieben war und dass diese Information wahrscheinlich auch in Geminis Trainingsdaten enthalten war.
Zu der Aussage „GPT-5 ist sehr gut bei der Literatursuche und hat ein Problem mit vorhandener Lösung ‚gelöst‘“:
Ich halte das für Survivorship Bias.
In der Praxis scheitert GPT-5 oft schon an relativ einfachen Suchen.
Man muss entweder die Ergebnisse gut genug kennen oder einen eigenen Verifikationsprozess durchführen.
Es fühlt sich an wie Beiträge von jemandem, der 1000-mal würfelt und jedes Mal mit einer Doppel-Sechs prahlt.
Das wäre ähnlich absurd wie daraus abzuleiten, ich sei der beste Würfler der Welt.
Es wurde erwähnt, dass der Mathematiker Thomas Bloom, der erdosproblems.com betreibt, sofort widersprochen hat.
Er betonte, dass damit nicht „ungelöst (unsolved)“ gemeint sei, sondern „offen in dem Sinne, dass ich die Antwort nicht kenne“.
Ich finde es merkwürdig, wenn ein Mathematiker „offen“ so definiert.
Ich nenne eine Übungsaufgabe aus einem Lehrbuch, deren Antwort ich nicht kenne, ja auch keine „offene Frage“.
Widerspruch gegen die Behauptung, „GPT-5 sei als Hilfsmittel für Literature Reviews nützlich“.
Meiner Meinung nach produziert es in Wirklichkeit nur sehr plausibel wirkende, aber gefälscht anmutende Ergebnisse.
Wer damit zufrieden ist, hat offenbar ein deutlich leichteres Leben als ich.
Ich verbringe Stunden damit, in Bibliotheken und Archiven nach Quellen wie Arbeiten zur Ingenieurmathematik zu suchen, und greife dann als letzten Ausweg zu einem Chatbot.
Am Ende wirkt das Ergebnis aber seltsam, ich muss alles erneut überprüfen, und es bleibt nur die Enttäuschung: „Das kann unmöglich echt sein.“
Ich habe außerdem den Eindruck, dass nicht nur ich solche Erfahrungen mache.
Wenn ich häufiger tiefgehende Literaturrecherchen mache, erfindet GPT in etwa 50 % der Fälle unbegründete Quellen, also Halluzinationen.
Bei Überblicksrecherchen auf höherer Ebene liegt die Halluzinationsrate eher bei etwa 5 %.
Von den echten 50 % stammt etwa die Hälfte aus bereits bekannten Papers, die andere Hälfte aus mir unbekannten Arbeiten.
Das wirklich Gute ist, dass man gelegentlich Papers findet, die sonst schwer zu entdecken wären, auch solche, die man über Google Scholar nicht findet.
Besonders nützlich ist das bei verwandter Forschung aus anderen Fachgebieten oder bei wenig zitierten Konferenz-Abstracts und ähnlich vielfältigen Quellen.
Selbst wenn 75 % der Gesamtergebnisse nutzlos oder halluziniert sind, liefern die restlichen 25 % so viel Wert, dass das Ganze in der Praxis trotzdem sehr nützlich ist.
Zu sagen, es sei „überhaupt nicht nützlich“, ist wohl übertrieben.
GPT kann auch 500.000 Wörter in wenigen Minuten durchsuchen und sowohl Zusammenfassungen als auch detaillierte Antworten mit Belegen zu jeder Behauptung liefern.
Natürlich sollte man diesen Zusammenfassungen nicht blind vertrauen, und wichtige Informationen muss man immer durch Anklicken der Quellen verifizieren.
Trotzdem bleibt es ein sehr starkes Suchwerkzeug und ein Produktivitätsbooster.
Mir fällt der Name nicht ein, aber dafür gibt es ein bekanntes Prinzip.
Wenn Leute einen Zeitungsartikel über ein Thema lesen, bei dem sie sich auskennen, sehen sie sofort alle Schwächen und denken: „Wie konnte das so veröffentlicht werden?“
Bei Themen, die sie nicht kennen, glauben sie denselben Zeitungsartikeln dagegen oft völlig unkritisch.
Ich habe das Gefühl, bei ChatGPT entsteht ein ähnlicher unkritischer Glaube.
Eigentlich hätte es möglicherweise mehr Sinn ergeben, solche Chatbots wie GPT-5 nicht mit Gewalt für Suche oder Literature Reviews einzusetzen, sondern stattdessen eine wirklich starke semantische Suchmaschine zu verwenden.
Sobald man dem Chatbot Zusammenfassungen oder Antworten überlässt, schwingen Halluzinationen immer mit.
Bei dokumentbasierter Suche auf Basis von LLM-Embeddings besteht dagegen überhaupt kein Risiko, dass das Ergebnis selbst halluziniert ist, und für die Suche nach Papers, die Google oder Bing nicht finden, könnte das sogar die bessere Methode sein.
Vielleicht gibt es solche Dienste längst und nur ich kenne sie nicht; das sollte man mitbedenken.
Falls jemand an Tools für Literature Reviews interessiert ist: Ich stelle eine öffentliche Plattform zur Literaturaufbereitung vor, die ich für meine Freunde in der Graduiertenschule gebaut habe.
Sie nutzt hierarchische Mischmodelle, um groß angelegte Suchen und Zitationsnetzwerke zu strukturieren.
Beispiel: https://platform.sturdystatistics.com/deepdive?search_type=external&q=https://www.semanticscholar.org/paper/6052486bc9144dc1730c12bf35323af3792a1fd0&engine=cn_all
Dass ausgerechnet in derselben Woche, in der DeepMind tatsächlich einen Durchbruch bei der KI-gestützten Krebsbehandlung gezeigt hat, diese OpenAI-Geschichte hochkam, hinterlässt im Kontrast einen ziemlich schlechten Eindruck.
Das erinnert mich an etwas, das mein früherer Chef sagte: „Sei nicht die Person, wegen der man neue Richtlinien einführen muss.“
OpenAI wird seine Kommunikationsrichtlinien künftig wohl ändern müssen.
OpenAI-Mitarbeiter dürften die tatsächlichen Fähigkeiten ihrer Modelle ziemlich gut kennen, aber selbst wenn nicht, sollte man bei allen Behauptungen im Internet ohnehin immer vorsichtig sein.
Ich denke, genau diese Kultur hat letztlich das heutige Umfeld des KI-Hypes hervorgebracht.
Was dieser Vorfall zeigt, ist die traurige Wahrheit, dass OpenAI nicht ernsthaft in ungelöste mathematische Probleme investiert.
Ich halte das für einen logischen Sprung.
Eine große Organisation wie OpenAI wird ziemlich sicher mehrere Forschungsteams haben, die in unterschiedliche Richtungen experimentieren.
In dem Moment, in dem OpenAI sein Geschäft auf Werbung und Erwachsenen-Content ausgerichtet hat, hatte ich das Gefühl, jetzt haben sie den Hai übersprungen.
Der Markt scheint das noch nicht eingepreist zu haben.
Nur weil ein einzelner Mitarbeiter eine falsche Ankündigung gemacht hat, würde ich nicht so schnell das Ganze beurteilen.
Es wäre nicht überraschend, wenn OpenAI-Mitarbeiter gebeten würden, Dinge in genau dieser Form zu verkünden, also in Marketingsprache.
Das ist nicht das erste Mal; es gab schon früher Fälle, in denen behauptet wurde, GPT-5 habe etwas „gelöst“ (siehe https://x.com/SebastienBubeck/status/1970875019803910478).
Es gibt zunehmend Beispiele dafür, dass GPT-5 kleinere ungelöste mathematische Probleme lösen kann, typischerweise solche, die ein Doktorand in ein oder zwei Tagen lösen könnte.
Die Tragweite davon ist bislang noch nicht wirklich angekommen.
Ich vermisse den Rat: „Vertraue dem, was du selbst baust, nicht zu sehr.“
[Zweimal Urin trinken]
Yann LeCuns Formulierung „Hoisted by their own GPTards“ ist mir im Gedächtnis geblieben.
Yann ist ohne Zweifel klug und versteht das Feld bis in seine Grundlagen, aber ich habe den Eindruck, dass es bei ihm zuletzt auch einen negativen Trend gab und dass seine öffentlichen Positionen sich oft als schnell überholt herausstellen.
Bei einer früheren Veranstaltung mit jungen Forschern hat er zwei starke Behauptungen aufgestellt:
Doch innerhalb eines Jahres kann KI nun Werkzeuge einsetzen, IMO-Niveau erreichen und agentenbasierte Planung tatsächlich leisten.
Eine weitere Behauptung war, dass sich bei LLMs im Verlauf längerer Gespräche Fehler aufaddieren und sie schließlich in völligen Unsinn abgleiten. Inzwischen gibt es mit Long Context und der Kombination mit RL viele Fälle, in denen auch das im Wesentlichen überwunden wurde.
Selbst bei einem Genie sollte man die Meinung eines Einzelnen wohl mit etwas Vorsicht genießen.
Vielleicht entgeht mir da der Kontext, aber ich finde es überraschend, dass Yann überhaupt eine Abwandlung von „retard“ benutzt hat.
Normalerweise wäre das eher eine Wortwahl, die ich von jemandem wie Elon Musk erwarten würde.
Ich frage mich, in welchem Kontext das gefallen ist.
Nach dem zyklischen Finanzierungsskandal, bei dem es um Hunderte Milliarden Dollar ging, überrascht mich an Berichten über die KI-Branche oder künstlich erzeugten Hype eigentlich gar nichts mehr.