1 Punkte von GN⁺ 2026-01-19 | 1 Kommentare | Auf WhatsApp teilen
  • Erdős #281 ist ein Problem unter der Annahme, dass – egal, wie man unendlich viele Kongruenzen auswählt – am Ende kaum ganze Zahlen übrig bleiben, die zu keiner dieser Kongruenzen gehören
  • Es geht um die Frage, ob in einer solchen Situation tatsächlich nicht alle unendlichen Kongruenzen benötigt werden, sondern bereits die ersten wenigen fast alle ganzen Zahlen herausfiltern
  • Neel Somani stellte mit GPT-5.2 Pro eine Lösung für diese Frage vor, und mehrere Mathematiker prüften und ergänzten sie mit Fokus auf die Schlüsselschritte der Logik
  • Statt einzelne ganze Zahlen direkt zu berechnen, wird das Problem angegangen, indem man die Menge aller ganzen Zahlen als einen Raum betrachtet und Eigenschaften von Dichte und Grenzwerten nutzt
  • Es zeigte sich zudem, dass sich dieselbe Schlussfolgerung auch aus einer Kombination bereits bekannter Sätze ableiten lässt, begleitet von einer Diskussion darüber, warum diese Verbindung so lange unbeachtet blieb

Erdős Problem #281 — der Kernsatz der Diskussion

  • Erdős #281 ist ein Problem unter der Annahme, dass bei unendlich vielen gegebenen Kongruenzen am Ende fast alle ganzen Zahlen in mindestens einer von ihnen enthalten sind, egal wie diese Kongruenzen gewählt werden
  • Ausgangspunkt ist die bereits bekannte Eigenschaft, dass bei Anwendung aller Kongruenzen kaum ganze Zahlen übrig bleiben, die zu keiner Kongruenz gehören
  • Daraus ergibt sich die Frage, ob in Wirklichkeit nicht die vollständige unendliche Familie bis zum Ende gebraucht wird, sondern schon die ersten wenigen Kongruenzen nahezu denselben Effekt haben
  • Die Struktur der Frage lautet also, ob ein Resultat, das auf unendlicher Ebene gilt, automatisch auch auf endlicher Ebene garantiert ist
  • Eine Schwierigkeit besteht darin, ob man unter der Bedingung, dass stets die ungünstigste Wahl der Restklassen erlaubt ist, dennoch sagen kann, dass bereits endlich viele Kongruenzen ausreichen

Der Ansatz der Lösung von Neel Somani und GPT-5.2 Pro

  • Statt ganze Zahlen einzeln zu betrachten, wird das Problem über den Begriff der Dichte behandelt, indem man die Gesamtheit der ganzen Zahlen als einen Raum auffasst
  • Dazu wird die Menge der ganzen Zahlen, die den ersten k Kongruenzen ausweichen, als ein Objekt definiert
  • Mit wachsendem k wird diese Menge immer kleiner, wobei die Struktur genutzt wird, dass sie gegen das Resultat auf unendlicher Ebene konvergiert
  • Aus der Annahme, dass es kaum ganze Zahlen gibt, die unendlich vielen Kongruenzen insgesamt ausweichen, wird hergeleitet, dass die Menge schon auf endlicher Ebene hinreichend klein werden muss
  • Der Gesamtgang des Arguments nutzt Grenzwerte, Mittelwerte und Verschiebungseigenschaften

Der Prüfprozess und die Entwicklung der Diskussion

  • In der vorgestellten Lösung wurden besonders die Rechtfertigung der Reihenfolge von Grenzübergängen und der Umgang mit Mittelwerten intensiv geprüft
  • Es gab Hinweise darauf, dass einige Schritte zusätzliche Erläuterung und Präzisierung benötigen
  • Mehrere Mathematiker überprüften die Logik öffentlich und klärten die Bedeutung der einzelnen Schritte
  • Im Ergebnis blieb die Kernstruktur des Beweises erhalten, wurde aber in einer klareren Form ausgearbeitet

Verbindung zu klassischen Sätzen

  • Es wurde bestätigt, dass sich dieselbe Schlussfolgerung auch durch die Kombination bereits bekannter älterer Sätze ableiten lässt
  • Dabei wird ein Resultat zur Dichtekonvergenz unter unendlich vielen Bedingungen mit einem Satz kombiniert, der den schlechtesten Fall unter endlichen Bedingungen beschreibt
  • Diese Verbindung zeigt die Struktur, dass Eigenschaften der unendlichen Ebene auch auf endlicher Ebene stark wirksam sind
  • Zugleich entstand eine Diskussion darüber, warum diese Verbindung so lange nicht klar herausgearbeitet worden war

Warum dieser Fall Aufmerksamkeit bekommt

  • Dies ist ein Fall, in dem ein vor langer Zeit formuliertes Problem durch einen von KI angestoßenen Lösungsvorschlag erneut ins Zentrum der Aufmerksamkeit rückte
  • Die KI lieferte dabei weniger allein eine vollständig abgeschlossene Antwort, sondern stieß die Diskussion aus einer neuen Perspektive an
  • Es zeigte sich, dass sich der Schwierigkeitsgrad stark verändert, je nachdem, in welche Sprache und in welchen begrifflichen Rahmen ein Problem übertragen wird

1 Kommentare

 
GN⁺ 2026-01-19
Hacker-News-Kommentare
  • Zuvor hieß es, es gebe keine Lösung, doch nun wurde eine bereits existierende Lösung gefunden
    Deshalb wurde der von dem LLM erzeugte Beweis in Abschnitt 2 von Terence Taos Wiki verschoben
    Die zugehörige Diskussion findet sich im erdosproblems-Forenbeitrag
    • Taos Aussage ist interessant — der neue Beweis sei ziemlich anders als der aus der bestehenden Literatur
      Noch seltsamer ist, dass dieser Beweis in einer Arbeit von Erdős selbst stand, er das Problem aber trotzdem als ungelöst stehen ließ
    • Diese Modelle scheinen wie natürlichsprachliche Suchmaschinen zu funktionieren, die Wissenspunkte verbinden, die Menschen nicht miteinander verknüpft haben
    • Eigentlich zeigt dieser Fall, dass das Problem selbst nicht wichtig ist
      Dass bereits eine Lösung existierte und niemand davon wusste, lag daran, dass es niemanden interessierte
      Einfach alte Literatur zu durchsuchen und das als „neuen Fortschritt“ zu bezeichnen, könnte Scheinforschritt sein
      Vieles in der reinen Mathematik wirkt letztlich wie ein intellektuelles Puzzlespiel
  • Ich habe mich gefragt, welche Art von Erdos-Problemen das sind — schwierige Probleme, an denen Mathematiker jahrelang gearbeitet haben, oder eher vernachlässigte Probleme
    Laut Taos Wiki-Erklärung
    unterscheiden sich Erdos-Probleme stark im Schwierigkeitsgrad, und einige werden als leichte Probleme eingeordnet, die gut für AI geeignet sind
    • Erdos war ein äußerst produktiver Mathematiker und stellte gern Preisgeldprobleme
      Leichte Probleme lagen auf dem Niveau, dass „selbst die besten Mathematiker sie nicht sofort lösen konnten“, was sie als Leistungsmaßstab für AI geeignet macht
      Mit der Weiterentwicklung der AI werde sie wohl auf dieser Schwierigkeitsleiter zu immer schwierigeren Problemen aufsteigen
    • Man muss sich keine allzu großen Sorgen machen. Weder Tao noch der Autor interessierten sich besonders für Erdos-Probleme,
      und sie wussten nicht einmal, dass der Beweis in einer Arbeit von Erdos selbst stand
      Trotzdem wird im Fediverse und auf Twitter von einem LLM-Durchbruch geredet
  • Laut einem Kommentar, den Tao selbst im Forum hinterlassen hat,
    sei beeindruckend gewesen, dass das LLM Fehler bei Grenzwertvertauschungen oder im Umgang mit Quantoren vermieden habe
    Ein Modell der vorherigen Generation hätte an solchen Stellen wohl Fehler gemacht,
    und er erklärte, dieses Ergebnis in Abschnitt 1 des Wikis aufgeführt zu haben
    • Später fand jemand bei weiterer Literatursuche heraus, dass derselbe Satz bereits in einer Arbeit von Davenport und Erdos aus dem Jahr 1936 bewiesen worden war
      Tao kommentierte: „Der neue Beweis ist anders als der bestehende, aber ich verschiebe ihn in Abschnitt 2“
  • Ich würde mir wünschen, dass AI zuerst einmal ihre eigenen Behauptungen beweist
    Aktuelle Modelle behaupten selbstbewusst, sie lieferten „100 % perfekten Code“, tatsächlich stürzen sie aber ab
    Selbst beim Versuch, für z.ai zu bezahlen, trat ein Fehler auf, sodass ein Kauf gar nicht möglich war
    LLMs sind eine erstaunliche Technologie, aber zugleich eine überschätzte Technologie
    • Um von AI erzeugten Code zu verifizieren, muss man ihn wie beim Menschen durch Tests oder Belege nachweisen
      Es braucht empirische Nachweise wie Logs oder Ausführungsergebnisse
    • Man muss zwischen Modell und App unterscheiden
      Das Modell erzeugt nur Text, und die App muss ihn verifizieren
      Perfekte Texterzeugung ist derzeit jedoch unmöglich
  • Es gibt einen erdosproblems-Forenthread, an dem Tao selbst beteiligt ist
  • Ich habe mich gefragt, ob dieser Beweis wirklich verifiziert wurde
    Ich habe schon oft erlebt, dass LLMs mit großer Selbstsicherheit falsche Antworten ausgeben
    Auch OpenAIs Memory-Richtlinie und die Beschränkung des Modellzugangs sind ein interessantes Thema
    • Tao hat ihn selbst abgesegnet. Viel sicherer lässt sich ein Beweis wohl kaum verifizieren
  • Kürzlich gab es einen Beitrag darüber, dass Harmonics Aristotle das Erdős-Problem 728 gelöst habe
    Im vorliegenden Fall geht es darum, dass ChatGPT 5.2 innerhalb einer Stunde eine Antwort geliefert hat,
    aber es ist unklar, ob sich das reproduzieren lässt, warum genau diese Lösung herauskam und was eigentlich bewiesen wurde
    Taos Verifikation schafft Vertrauen, doch am Ende bleibt die Frage: „Wurde das Modell einfach so trainiert, dass es besser zu reiner Mathematik passt?“
    Siehe den früheren Fall und den ChatGPT-Sitzungslink
    • Bereits vor 49 Tagen gab es einen Fall, in dem Problem #124 angeblich von AI bewiesen wurde
      Passender Link
    • Das ist einer von mehreren Versuchen, bei denen ein LLM Kandidatenbeweise für mathematische Probleme erzeugt,
      die anschließend mit formalen Beweissystemen wie Lean verifiziert werden
      Tao prüft zunächst die Korrektheit des Beweises und bestätigt danach per Literaturrecherche dessen Neuheit
      Derzeit gibt es kaum vollständig neue Beweise, aber neue Ansätze tauchen auf
      Auch dieser Fall sah zunächst wie ein neuer Beweis aus, war am Ende aber ein Ergebnis, das Erdos bereits kannte
  • Ich habe Deepseek denselben Prompt gegeben, und es hat das Problem viel schneller gelöst als ChatGPT
    Als ich beide Beweise in Opus eingespeist habe, hieß es, sie seien äquivalent
    • Aber es wurde darauf hingewiesen, dass das im Grunde „nur deinem eigenen Abnicken gleichkommt“ und dass mangelnde Detailprüfung den gesamten Beweis zum Einsturz bringen kann
    • Mathematisch wurde infrage gestellt, ob der Teil zur Dichte von Schnittmengen ausreicht
      Als Beispiel wurden Mengen (U_k) genannt und die Möglichkeit eines Gegenbeispiels erwähnt
    • Der Reasoning-Block von Kimi-k2 wurde ebenfalls geteilt
    • Es gab auch die Vermutung, Deepseek habe die bestehende Lösung vielleicht einfach auswendig gelernt
      Siehe dazu diesen Kommentar
    • Manche meinten auch, Opus sei für Mathematik ungeeignet
      Die mathematische Genauigkeit sei niedriger als bei ChatGPT oder Gemini Pro
  • Erstaunlicherweise stammen viele LLM-Beweise von Nichtfachleuten
    Da stellt sich die Frage, ob einige professionelle Mathematiker AI nutzen, ohne es offenzulegen
    • Tatsächlich scheinen die meisten Fachleute zu denken: „In meinem Fachgebiet ist ein LLM dumm“
    • Solche inoffizielle AI-Nutzung dürfte bald normal werden
      Wie bei einem Doping-Wettlauf im Sport werden am Ende wohl alle dazu greifen, um mitzuhalten
      Zumal AI-Nutzung kein Regelverstoß ist
    • Realistisch gesehen haben Fachleute es wahrscheinlich bereits versucht,
      aber LLMs haben noch keinen substanziellen Fortschritt erzielt
    • Es wird darüber nachgedacht, wie man AI-Beiträge kennzeichnen sollte
      Ich persönlich halte eine Zeile im Dank für angemessen
      Als Postdoc in Mathematik habe ich GPT 5.2 ausprobiert und fand, dass es weniger halluziniert und bei Misserfolg ehrlich ist
      Gemini 3 hingegen neige dazu, bei Fehlern fiktive Sätze zu erfinden
  • Ich frage mich, ob die von LLMs gelösten Erdos-Probleme einfach nur leichte Probleme sind, die Menschen nicht angerührt haben,
    oder ob es sich um echte originelle Forschungsleistungen handelt
    • Laut dem Warnhinweis in Taos Wiki
      schwankt der Schwierigkeitsgrad von Erdos-Problemen stark, und es gibt eine Gruppe von Problemen niedriger Schwierigkeit, die für AI leicht lösbar sind
    • Trotzdem hat es Wert, wenn LLMs solche niedrigschwelligen Probleme aufarbeiten
      Wenn ein Problem auf der Erdos-Liste steht, ist es zumindest wahrscheinlich, dass irgendjemand es irgendwann einmal versucht hat