- GPT-5.4 Pro hat in Zusammenarbeit mit Kevin Barreto und Liam Price ein mit Hypergraphen verbundenes Ramsey-artiges Problem gelöst
- Der Aufgabensteller Will Brian hat die Korrektheit der Lösung überprüft; das vollständige Gesprächsprotokoll und das abschließende Erläuterungsdokument der KI wurden veröffentlicht
- Die Lösung beseitigt die Ineffizienz bisheriger unterer Schranken-Konstruktionen und präsentiert eine symmetrische Struktur der oberen Schranke, wodurch eine in der Ramsey-Theorie seltene Übereinstimmung erreicht wird
- Anschließend lösten im Framework FrontierMath: Open Problems mehrere Modelle dasselbe Problem, wodurch sich die Eignung als Werkzeug zur Überprüfung mathematischer Schlussfolgerungsfähigkeiten von KI bestätigte
- Die Leistung wird als Beispiel dafür bewertet, dass KI substanziell zur Lösung ungelöster mathematischer Probleme beitragen kann
Lösung eines Ramsey-artigen Problems zu Hypergraphen
- GPT-5.4 Pro hat in Zusammenarbeit mit Kevin Barreto und Liam Price das schwierige, mit Hypergraphen verbundene Ramsey-artige Problem gelöst
- Der Aufgabensteller Will Brian hat die Korrektheit der Lösung überprüft
- Das vollständige Gesprächsprotokoll des Lösungsprozesses sowie das abschließende Erläuterungsdokument von GPT-5.4 Pro wurden veröffentlicht
- Brian bewertet die Lösung so, dass sie die Ineffizienz bestehender Konstruktionen der unteren Schranke beseitigt und die Komplexität sowie die symmetrische Struktur der Konstruktion der oberen Schranke zeigt
- Da untere und obere Schranke konsistent zusammenfallen, wurde ein im Rahmen der Ramsey-Theorie seltenes Maß an Konsistenz erreicht
- Er plant, das Ergebnis in einer Arbeit auszuformulieren; möglicherweise werden auch weiterführende Forschungen aufgenommen, die aus Ideen der KI hervorgegangen sind
- Danach stellte Epoch AI das Test-Framework FrontierMath: Open Problems fertig und wandte dasselbe Problem auf mehrere Modelle an
- Auch die Modelle Opus 4.6 (max), Gemini 3.1 Pro und GPT-5.4 (xhigh) lösten das Problem erfolgreich
- Das zeigt, dass die FrontierMath-Umgebung für die Bewertung der mathematischen Schlussfolgerungsfähigkeit von KI-Modellen geeignet ist
Problemdefinition
- Das Problem konzentriert sich darauf, die untere Schranke der Folge (H(n)) zu verbessern, die bei der Untersuchung der gleichzeitigen Konvergenz unendlicher Reihenmengen auftritt
- Dass ein Hypergraph ((V, \mathcal H)) eine Partition der Größe (n) enthält, bedeutet, dass
(D \subseteq V), (\mathcal P \subseteq \mathcal H) existieren mit (|D| = n), und
jedes Element von (D) in genau einem Element von (\mathcal P) enthalten ist
- (H(n)) ist definiert als die maximale Anzahl von Knoten (k) eines Hypergraphen, der keine isolierten Knoten hat und keine Partition mit Größe größer als (n) enthält
- Es gilt als wahrscheinlich, dass die bekannte untere Schranke von (H(n)) nicht optimal ist und sich durch eine neue Hypergraph-Konstruktion verbessern lässt
- Ziel ist es, einen Algorithmus zu finden, der (H(n) \ge c \cdot k_n) erfüllt (wobei (c > 1))
- (k_n) ist durch die Rekursion (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor}) definiert
Phasen der Problemkonstruktion
-
Warm-up-Phase
- Konstruktion eines Hypergraphen für Werte von (n), für die bereits eine bekannte Lösung existiert
- Bedingungen: (|V| ≥ 64), (|H| ≤ 20), keine Partition mit Größe über 20
-
Single-Challenge-Phase
- Aufgabe, unter denselben Bedingungen einen Hypergraphen für Werte von (n) zu finden, für die keine bekannte Lösung existiert
- Bedingungen: (|V| ≥ 66), (|H| ≤ 20), keine Partition mit Größe über 20
-
Full-Problem-Phase
- Gefordert wird ein allgemeiner Algorithmus, der für alle (n) funktioniert
- Für Eingabe (n) muss ein Hypergraph erzeugt werden, der (H(n) ≥ c \cdot k_n) erfüllt
- Für (n ≤ 100) muss die Ausführung auf einem normalen Notebook innerhalb von 10 Minuten möglich sein
Bewertung durch Mathematiker
- Die Zahl der Mathematiker, die mit diesem Problem vertraut sind, liegt bei etwa 10, darunter viele Forschende aus dem Spezialgebiet
- Die Zahl der Mathematiker, die tatsächlich versucht haben, das Problem zu lösen, wird auf 5–10 geschätzt
- Die erwartete Zeit für Fachleute, das Problem zu lösen, beträgt 1–3 Monate
- Eine Lösung wird als auf dem Niveau einer Veröffentlichung in einer Fachzeitschrift bewertet
- Aufgrund der inhaltlichen Reichhaltigkeit des Problems ist die Wahrscheinlichkeit hoch, dass die Lösung zu neuer mathematischer Forschung führt
- Unter den genannten Bedingungen wird die Wahrscheinlichkeit, dass das Problem lösbar ist, auf 95–99 % geschätzt
1 Kommentare
Hacker-News-Kommentare
Es überrascht mich, wie viele Leute kategorisch behaupten, LLMs könnten keine echte Kreativität besitzen
Einfach nur zu sagen „Das war nicht in den Trainingsdaten, also ist es unmöglich“ reicht nicht aus. Dafür gibt es bereits viele Gegenbeispiele
Dann braucht man eine Begründung dafür, warum manche neuen Aufgaben möglich sein sollen und andere nicht
Wenn man anerkennt, dass „Neuheit“ auf einem Kontinuum liegt, frage ich mich, wo man die Grenze zieht und welche Belege die eigene Meinung ändern würden
Es gibt aber auch Gegenargumente. Nachdem ich ein Modell gesehen habe, das Olympiagold in Mathematik geholt hat, habe ich das erste Argument verworfen
Mit RL und zusätzlichem Speicher scheint sich auch die zweite Grenze überwinden zu lassen
Vielleicht können große LLMs Informationen ähnlich wie Menschen internalisieren
Ein passendes Beispiel: METR-Blogbeitrag
Menschen definieren „echte Neuheit“ oft viel zu großspurig — etwa als Formel für Supraleiter oder Entwicklung neuer Medikamente
Aber formal ist auch eine neue Art, Schnürsenkel zu binden, etwas Neues
LLMs können unzählige solcher kleinen Probleme lösen, doch das ist womöglich keine bedeutende Innovation, die Menschen beeindruckt
Es hat es aus Gründen des Performance-Overheads präzise abgelehnt und einen völlig anderen Ansatz vorgeschlagen
Das ist kein besonders neuartiges Problem, aber die Lösung war ziemlich kreativ, was mich überrascht hat
Projektbild
Es ist nicht bloß Auswendiglernen, sondern die Verinnerlichung einer generalisierten Operation in internen Schaltkreisen des neuronalen Netzes
Ich dachte, ich würde es erst glauben, wenn AI schwierige Probleme selbst lösen kann, aber wenn dieses Ergebnis echt ist, fühle ich mich jetzt fast wie ein Gläubiger
Ich möchte mehr solcher Beispiele sehen, aber die Welt wird wirklich neu und spannend
In Bereichen mit unscharfer Definition wie Codequalität nehmen Halluzinationen jedoch zu
Ohne eine sich selbst lernende Wertfunktion wie bei AlphaGo hat RL allein Grenzen
AI produziert unablässig Inhalte auf „ganz okayem“ Niveau, aber echte Ergriffenheit verschwindet
Die guten Dinge, die Menschen miteinander geteilt haben, nehmen ab, und nur die schlechten scheinen verstärkt zu werden
Die meisten Menschen können solche Probleme auch nicht lösen, während AI bei allgemeiner Wissensarbeit bereits hervorragend ist
Mit so einem Maßstab nähert man sich eher einer Definition von AGI oder ASI
Welche Probleme das genau waren, müsste durch Expertenprüfung verifiziert werden
Mir scheint, dass die Grundannahme, Menschen seien etwas Besonderes, noch immer zu stark ist
Dass die Erklärung „es klappt eben nach vielen Versuchen“ auch auf Menschen zutreffen könnte, wird oft nicht genug bedacht
Selbst in Communities, die wissenschaftliches Denken hochhalten, ist menschlicher Exzeptionalismus tief verankert
AI setzt sich nicht selbst Ziele und erkennt ihre Leistungen nicht als solche
Für enorme Kosten könnte am Ende nur ein kleiner mathematischer Fortschritt herausgekommen sein
Ich bin Funktionalist, aber ich halte das „wie Intelligenz wirkende“ Verhalten von LLMs nicht für echte Intelligenz
Das vollständige Gespräch mit GPT‑5.4 Pro und der Ergebnisbericht sind veröffentlicht
Vollständiges Transkript / Ergebniszusammenfassung
Außerdem fand ich spannend, wie der Nutzer zwischendurch den Tokenverbrauch aktualisiert und so den Kontext erweitert hat
Da Opus 4.6 offenbar rund 250.000 Token verbraucht hat, stelle ich mir die Tokenzahl als Maß für die Schwierigkeit eines Problems vor
Lustig zu denken, dass mein heutiges React-Refactoring etwa halb so schwer war wie ein ungelöstes Mathematikproblem
Manche Probleme wurden vielleicht nur von 5 bis 10 Menschen weltweit überhaupt versucht
Wie unvollendete Software, der es an Motivation fehlt, könnten auch mathematische Probleme einfach deshalb ungelöst sein, weil es zu wenige Versuche gab
Dass AI solche Probleme gelöst hat, ist trotzdem fast ein Wunder
Wenn der Kontext größer wird, steigen die Kosten, und Anbieter könnten auch die Stückpreise erhöhen
Die Fähigkeiten von AI werden durch die trainierte Kostenfunktion bestimmt
Letztlich ist Intelligenz der Prozess, eine komplexe Kostenfunktion zu minimieren
In Bereichen wie Mathematik und Coding, in denen automatische Verifikation möglich ist, werden Ansätze wie RLVR sich schnell weiterentwickeln
In Feldern mit sozialer Belohnung oder hoher Unsicherheit könnten Fortschritte dagegen langsamer sein
Die Einführung komplexer Zahlen könnte man zum Beispiel als Ergebnis einer Optimierung der Darstellung verstehen
Domänenexperten bringen LLMs bei, wie sie ihre Probleme lösen
Am Ende lösen LLMs die Probleme, indem sie deren Denkmuster nachahmen
Ich denke, es gibt viele Probleme, die sich durch Resampling bestehender Beweise lösen lassen
Was für Menschen ein verrückt machendes, repetitives Durchsuchen wäre, kann eine Maschine hartnäckig durchziehen
Kein gewaltiger Fortschritt, aber es kann dabei helfen, Vermutungen in Theoreme zu verwandeln
Wirklich neue Perspektiven zu eröffnen, ist selten
Vielleicht ist es nur Tokenverschwendung
Auf Epochs Open-Problems-Seite gibt es 15 Probleme samt Schwierigkeitsklassen
Das jetzt gelöste war auf der Stufe „moderately interesting“ und gehört damit eher zu den einfacheren
Trotzdem ist beeindruckend, dass es schon vor der Lösung öffentlich war
Ich frage mich, wie schnell die drei übrigen Probleme derselben Stufe nun gelöst werden
Der Titel ist etwas irreführend
Der eigentliche Titel lautet „A Ramsey-style Problem on Hypergraphs“, und gelöst wurde es nicht nur von GPT‑5.4, sondern von mehreren aktuellen Modellen
Trotzdem bleibt es eine beeindruckende Leistung