Erdős 281 mit ChatGPT 5.2 Pro gelöst
(twitter.com/neelsomani)- Erdős #281 ist ein Problem unter der Annahme, dass – egal, wie man unendlich viele Kongruenzen auswählt – am Ende kaum ganze Zahlen übrig bleiben, die zu keiner dieser Kongruenzen gehören
- Es geht um die Frage, ob in einer solchen Situation tatsächlich nicht alle unendlichen Kongruenzen benötigt werden, sondern bereits die ersten wenigen fast alle ganzen Zahlen herausfiltern
- Neel Somani stellte mit GPT-5.2 Pro eine Lösung für diese Frage vor, und mehrere Mathematiker prüften und ergänzten sie mit Fokus auf die Schlüsselschritte der Logik
- Statt einzelne ganze Zahlen direkt zu berechnen, wird das Problem angegangen, indem man die Menge aller ganzen Zahlen als einen Raum betrachtet und Eigenschaften von Dichte und Grenzwerten nutzt
- Es zeigte sich zudem, dass sich dieselbe Schlussfolgerung auch aus einer Kombination bereits bekannter Sätze ableiten lässt, begleitet von einer Diskussion darüber, warum diese Verbindung so lange unbeachtet blieb
Erdős Problem #281 — der Kernsatz der Diskussion
- Erdős #281 ist ein Problem unter der Annahme, dass bei unendlich vielen gegebenen Kongruenzen am Ende fast alle ganzen Zahlen in mindestens einer von ihnen enthalten sind, egal wie diese Kongruenzen gewählt werden
- Ausgangspunkt ist die bereits bekannte Eigenschaft, dass bei Anwendung aller Kongruenzen kaum ganze Zahlen übrig bleiben, die zu keiner Kongruenz gehören
- Daraus ergibt sich die Frage, ob in Wirklichkeit nicht die vollständige unendliche Familie bis zum Ende gebraucht wird, sondern schon die ersten wenigen Kongruenzen nahezu denselben Effekt haben
- Die Struktur der Frage lautet also, ob ein Resultat, das auf unendlicher Ebene gilt, automatisch auch auf endlicher Ebene garantiert ist
- Eine Schwierigkeit besteht darin, ob man unter der Bedingung, dass stets die ungünstigste Wahl der Restklassen erlaubt ist, dennoch sagen kann, dass bereits endlich viele Kongruenzen ausreichen
Der Ansatz der Lösung von Neel Somani und GPT-5.2 Pro
- Statt ganze Zahlen einzeln zu betrachten, wird das Problem über den Begriff der Dichte behandelt, indem man die Gesamtheit der ganzen Zahlen als einen Raum auffasst
- Dazu wird die Menge der ganzen Zahlen, die den ersten k Kongruenzen ausweichen, als ein Objekt definiert
- Mit wachsendem k wird diese Menge immer kleiner, wobei die Struktur genutzt wird, dass sie gegen das Resultat auf unendlicher Ebene konvergiert
- Aus der Annahme, dass es kaum ganze Zahlen gibt, die unendlich vielen Kongruenzen insgesamt ausweichen, wird hergeleitet, dass die Menge schon auf endlicher Ebene hinreichend klein werden muss
- Der Gesamtgang des Arguments nutzt Grenzwerte, Mittelwerte und Verschiebungseigenschaften
Der Prüfprozess und die Entwicklung der Diskussion
- In der vorgestellten Lösung wurden besonders die Rechtfertigung der Reihenfolge von Grenzübergängen und der Umgang mit Mittelwerten intensiv geprüft
- Es gab Hinweise darauf, dass einige Schritte zusätzliche Erläuterung und Präzisierung benötigen
- Mehrere Mathematiker überprüften die Logik öffentlich und klärten die Bedeutung der einzelnen Schritte
- Im Ergebnis blieb die Kernstruktur des Beweises erhalten, wurde aber in einer klareren Form ausgearbeitet
Verbindung zu klassischen Sätzen
- Es wurde bestätigt, dass sich dieselbe Schlussfolgerung auch durch die Kombination bereits bekannter älterer Sätze ableiten lässt
- Dabei wird ein Resultat zur Dichtekonvergenz unter unendlich vielen Bedingungen mit einem Satz kombiniert, der den schlechtesten Fall unter endlichen Bedingungen beschreibt
- Diese Verbindung zeigt die Struktur, dass Eigenschaften der unendlichen Ebene auch auf endlicher Ebene stark wirksam sind
- Zugleich entstand eine Diskussion darüber, warum diese Verbindung so lange nicht klar herausgearbeitet worden war
Warum dieser Fall Aufmerksamkeit bekommt
- Dies ist ein Fall, in dem ein vor langer Zeit formuliertes Problem durch einen von KI angestoßenen Lösungsvorschlag erneut ins Zentrum der Aufmerksamkeit rückte
- Die KI lieferte dabei weniger allein eine vollständig abgeschlossene Antwort, sondern stieß die Diskussion aus einer neuen Perspektive an
- Es zeigte sich, dass sich der Schwierigkeitsgrad stark verändert, je nachdem, in welche Sprache und in welchen begrifflichen Rahmen ein Problem übertragen wird
1 Kommentare
Hacker-News-Kommentare
Deshalb wurde der von dem LLM erzeugte Beweis in Abschnitt 2 von Terence Taos Wiki verschoben
Die zugehörige Diskussion findet sich im erdosproblems-Forenbeitrag
Noch seltsamer ist, dass dieser Beweis in einer Arbeit von Erdős selbst stand, er das Problem aber trotzdem als ungelöst stehen ließ
Dass bereits eine Lösung existierte und niemand davon wusste, lag daran, dass es niemanden interessierte
Einfach alte Literatur zu durchsuchen und das als „neuen Fortschritt“ zu bezeichnen, könnte Scheinforschritt sein
Vieles in der reinen Mathematik wirkt letztlich wie ein intellektuelles Puzzlespiel
Laut Taos Wiki-Erklärung
unterscheiden sich Erdos-Probleme stark im Schwierigkeitsgrad, und einige werden als leichte Probleme eingeordnet, die gut für AI geeignet sind
Leichte Probleme lagen auf dem Niveau, dass „selbst die besten Mathematiker sie nicht sofort lösen konnten“, was sie als Leistungsmaßstab für AI geeignet macht
Mit der Weiterentwicklung der AI werde sie wohl auf dieser Schwierigkeitsleiter zu immer schwierigeren Problemen aufsteigen
und sie wussten nicht einmal, dass der Beweis in einer Arbeit von Erdos selbst stand
Trotzdem wird im Fediverse und auf Twitter von einem LLM-Durchbruch geredet
sei beeindruckend gewesen, dass das LLM Fehler bei Grenzwertvertauschungen oder im Umgang mit Quantoren vermieden habe
Ein Modell der vorherigen Generation hätte an solchen Stellen wohl Fehler gemacht,
und er erklärte, dieses Ergebnis in Abschnitt 1 des Wikis aufgeführt zu haben
Tao kommentierte: „Der neue Beweis ist anders als der bestehende, aber ich verschiebe ihn in Abschnitt 2“
Aktuelle Modelle behaupten selbstbewusst, sie lieferten „100 % perfekten Code“, tatsächlich stürzen sie aber ab
Selbst beim Versuch, für z.ai zu bezahlen, trat ein Fehler auf, sodass ein Kauf gar nicht möglich war
LLMs sind eine erstaunliche Technologie, aber zugleich eine überschätzte Technologie
Es braucht empirische Nachweise wie Logs oder Ausführungsergebnisse
Das Modell erzeugt nur Text, und die App muss ihn verifizieren
Perfekte Texterzeugung ist derzeit jedoch unmöglich
Ich habe schon oft erlebt, dass LLMs mit großer Selbstsicherheit falsche Antworten ausgeben
Auch OpenAIs Memory-Richtlinie und die Beschränkung des Modellzugangs sind ein interessantes Thema
Im vorliegenden Fall geht es darum, dass ChatGPT 5.2 innerhalb einer Stunde eine Antwort geliefert hat,
aber es ist unklar, ob sich das reproduzieren lässt, warum genau diese Lösung herauskam und was eigentlich bewiesen wurde
Taos Verifikation schafft Vertrauen, doch am Ende bleibt die Frage: „Wurde das Modell einfach so trainiert, dass es besser zu reiner Mathematik passt?“
Siehe den früheren Fall und den ChatGPT-Sitzungslink
Passender Link
die anschließend mit formalen Beweissystemen wie Lean verifiziert werden
Tao prüft zunächst die Korrektheit des Beweises und bestätigt danach per Literaturrecherche dessen Neuheit
Derzeit gibt es kaum vollständig neue Beweise, aber neue Ansätze tauchen auf
Auch dieser Fall sah zunächst wie ein neuer Beweis aus, war am Ende aber ein Ergebnis, das Erdos bereits kannte
Als ich beide Beweise in Opus eingespeist habe, hieß es, sie seien äquivalent
Als Beispiel wurden Mengen (U_k) genannt und die Möglichkeit eines Gegenbeispiels erwähnt
Siehe dazu diesen Kommentar
Die mathematische Genauigkeit sei niedriger als bei ChatGPT oder Gemini Pro
Da stellt sich die Frage, ob einige professionelle Mathematiker AI nutzen, ohne es offenzulegen
Wie bei einem Doping-Wettlauf im Sport werden am Ende wohl alle dazu greifen, um mitzuhalten
Zumal AI-Nutzung kein Regelverstoß ist
aber LLMs haben noch keinen substanziellen Fortschritt erzielt
Ich persönlich halte eine Zeile im Dank für angemessen
Als Postdoc in Mathematik habe ich GPT 5.2 ausprobiert und fand, dass es weniger halluziniert und bei Misserfolg ehrlich ist
Gemini 3 hingegen neige dazu, bei Fehlern fiktive Sätze zu erfinden
oder ob es sich um echte originelle Forschungsleistungen handelt
schwankt der Schwierigkeitsgrad von Erdos-Problemen stark, und es gibt eine Gruppe von Problemen niedriger Schwierigkeit, die für AI leicht lösbar sind
Wenn ein Problem auf der Erdos-Liste steht, ist es zumindest wahrscheinlich, dass irgendjemand es irgendwann einmal versucht hat