GPT-5.4 Pro löst Ramsey-artiges Mathematikproblem zu Hypergraphen

(epoch.ai)

2 Punkte von GN⁺ 2026-03-25 | 1 Kommentare | Auf WhatsApp teilen

GPT-5.4 Pro hat in Zusammenarbeit mit Kevin Barreto und Liam Price ein mit Hypergraphen verbundenes Ramsey-artiges Problem gelöst
Der Aufgabensteller Will Brian hat die Korrektheit der Lösung überprüft; das vollständige Gesprächsprotokoll und das abschließende Erläuterungsdokument der KI wurden veröffentlicht
Die Lösung beseitigt die Ineffizienz bisheriger unterer Schranken-Konstruktionen und präsentiert eine symmetrische Struktur der oberen Schranke, wodurch eine in der Ramsey-Theorie seltene Übereinstimmung erreicht wird
Anschließend lösten im Framework FrontierMath: Open Problems mehrere Modelle dasselbe Problem, wodurch sich die Eignung als Werkzeug zur Überprüfung mathematischer Schlussfolgerungsfähigkeiten von KI bestätigte
Die Leistung wird als Beispiel dafür bewertet, dass KI substanziell zur Lösung ungelöster mathematischer Probleme beitragen kann

Lösung eines Ramsey-artigen Problems zu Hypergraphen

GPT-5.4 Pro hat in Zusammenarbeit mit Kevin Barreto und Liam Price das schwierige, mit Hypergraphen verbundene Ramsey-artige Problem gelöst
- Der Aufgabensteller Will Brian hat die Korrektheit der Lösung überprüft
- Das vollständige Gesprächsprotokoll des Lösungsprozesses sowie das abschließende Erläuterungsdokument von GPT-5.4 Pro wurden veröffentlicht
Brian bewertet die Lösung so, dass sie die Ineffizienz bestehender Konstruktionen der unteren Schranke beseitigt und die Komplexität sowie die symmetrische Struktur der Konstruktion der oberen Schranke zeigt
- Da untere und obere Schranke konsistent zusammenfallen, wurde ein im Rahmen der Ramsey-Theorie seltenes Maß an Konsistenz erreicht
- Er plant, das Ergebnis in einer Arbeit auszuformulieren; möglicherweise werden auch weiterführende Forschungen aufgenommen, die aus Ideen der KI hervorgegangen sind
Danach stellte Epoch AI das Test-Framework FrontierMath: Open Problems fertig und wandte dasselbe Problem auf mehrere Modelle an
- Auch die Modelle Opus 4.6 (max), Gemini 3.1 Pro und GPT-5.4 (xhigh) lösten das Problem erfolgreich
- Das zeigt, dass die FrontierMath-Umgebung für die Bewertung der mathematischen Schlussfolgerungsfähigkeit von KI-Modellen geeignet ist

Problemdefinition

Das Problem konzentriert sich darauf, die untere Schranke der Folge (H(n)) zu verbessern, die bei der Untersuchung der gleichzeitigen Konvergenz unendlicher Reihenmengen auftritt
- Dass ein Hypergraph ((V, \mathcal H)) eine Partition der Größe (n) enthält, bedeutet, dass (D \subseteq V), (\mathcal P \subseteq \mathcal H) existieren mit (|D| = n), und jedes Element von (D) in genau einem Element von (\mathcal P) enthalten ist
- (H(n)) ist definiert als die maximale Anzahl von Knoten (k) eines Hypergraphen, der keine isolierten Knoten hat und keine Partition mit Größe größer als (n) enthält
Es gilt als wahrscheinlich, dass die bekannte untere Schranke von (H(n)) nicht optimal ist und sich durch eine neue Hypergraph-Konstruktion verbessern lässt
- Ziel ist es, einen Algorithmus zu finden, der (H(n) \ge c \cdot k_n) erfüllt (wobei (c > 1))
- (k_n) ist durch die Rekursion (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor}) definiert

Phasen der Problemkonstruktion

Warm-up-Phase
- Konstruktion eines Hypergraphen für Werte von (n), für die bereits eine bekannte Lösung existiert
- Bedingungen: (|V| ≥ 64), (|H| ≤ 20), keine Partition mit Größe über 20
Single-Challenge-Phase
- Aufgabe, unter denselben Bedingungen einen Hypergraphen für Werte von (n) zu finden, für die keine bekannte Lösung existiert
- Bedingungen: (|V| ≥ 66), (|H| ≤ 20), keine Partition mit Größe über 20
Full-Problem-Phase
- Gefordert wird ein allgemeiner Algorithmus, der für alle (n) funktioniert
- Für Eingabe (n) muss ein Hypergraph erzeugt werden, der (H(n) ≥ c \cdot k_n) erfüllt
- Für (n ≤ 100) muss die Ausführung auf einem normalen Notebook innerhalb von 10 Minuten möglich sein

Bewertung durch Mathematiker

Die Zahl der Mathematiker, die mit diesem Problem vertraut sind, liegt bei etwa 10, darunter viele Forschende aus dem Spezialgebiet
Die Zahl der Mathematiker, die tatsächlich versucht haben, das Problem zu lösen, wird auf 5–10 geschätzt
Die erwartete Zeit für Fachleute, das Problem zu lösen, beträgt 1–3 Monate
Eine Lösung wird als auf dem Niveau einer Veröffentlichung in einer Fachzeitschrift bewertet
Aufgrund der inhaltlichen Reichhaltigkeit des Problems ist die Wahrscheinlichkeit hoch, dass die Lösung zu neuer mathematischer Forschung führt
Unter den genannten Bedingungen wird die Wahrscheinlichkeit, dass das Problem lösbar ist, auf 95–99 % geschätzt

1 Kommentare

GN⁺ 2026-03-25

Hacker-News-Kommentare

Es überrascht mich, wie viele Leute kategorisch behaupten, LLMs könnten keine echte Kreativität besitzen
Einfach nur zu sagen „Das war nicht in den Trainingsdaten, also ist es unmöglich“ reicht nicht aus. Dafür gibt es bereits viele Gegenbeispiele
Dann braucht man eine Begründung dafür, warum manche neuen Aufgaben möglich sein sollen und andere nicht
Wenn man anerkennt, dass „Neuheit“ auf einem Kontinuum liegt, frage ich mich, wo man die Grenze zieht und welche Belege die eigene Meinung ändern würden
- Wenn ich meine eigene Frage beantworte, gibt es auch logische Argumente für grundlegende Grenzen von LLMs
  1. Sie lernen aus menschlichen Daten und ahmen daher menschliche Grenzen nach
  2. Sie lernen nicht aus Erfahrung
    Es gibt aber auch Gegenargumente. Nachdem ich ein Modell gesehen habe, das Olympiagold in Mathematik geholt hat, habe ich das erste Argument verworfen
    Mit RL und zusätzlichem Speicher scheint sich auch die zweite Grenze überwinden zu lassen
    Vielleicht können große LLMs Informationen ähnlich wie Menschen internalisieren
    Ein passendes Beispiel: METR-Blogbeitrag
- LLMs können ihrem Wesen nach alles Mögliche erzeugen. Nur verstehen sie nicht, was sie selbst erzeugt haben
  Menschen definieren „echte Neuheit“ oft viel zu großspurig — etwa als Formel für Supraleiter oder Entwicklung neuer Medikamente
  Aber formal ist auch eine neue Art, Schnürsenkel zu binden, etwas Neues
  LLMs können unzählige solcher kleinen Probleme lösen, doch das ist womöglich keine bedeutende Innovation, die Menschen beeindruckt
- Ich habe an einem Utility für macOS gearbeitet, mit dem man durch App-Fenster „hindurchsehen“ kann, und Claude Code hat vorgeschlagen, ScreenCaptureKit nicht zu verwenden
  Es hat es aus Gründen des Performance-Overheads präzise abgelehnt und einen völlig anderen Ansatz vorgeschlagen
  Das ist kein besonders neuartiges Problem, aber die Lösung war ziemlich kreativ, was mich überrascht hat
  Projektbild
- Dass LLMs neue Multiplikationsaufgaben lösen können, liegt daran, dass sie während des Trainings sehr viele Multiplikationsbeispiele gesehen und daraus eine komprimierte abstrakte Strategie gelernt haben
  Es ist nicht bloß Auswendiglernen, sondern die Verinnerlichung einer generalisierten Operation in internen Schaltkreisen des neuronalen Netzes
- Die meisten Erfindungen sind das Ergebnis einer Interpolation von drei bestehenden Ideen. Solche Systeme sind darin sehr gut
Ich dachte, ich würde es erst glauben, wenn AI schwierige Probleme selbst lösen kann, aber wenn dieses Ergebnis echt ist, fühle ich mich jetzt fast wie ein Gläubiger
Ich möchte mehr solcher Beispiele sehen, aber die Welt wird wirklich neu und spannend
- Mathematik- und Coding-Wettbewerbsprobleme haben klare Regeln und lassen sich leicht verifizieren, daher sind sie gut lernbar
  In Bereichen mit unscharfer Definition wie Codequalität nehmen Halluzinationen jedoch zu
  Ohne eine sich selbst lernende Wertfunktion wie bei AlphaGo hat RL allein Grenzen
- Statt einer „neuen und spannenden Welt“ kommt jetzt vielleicht eher ein Zeitalter endloser Wiederaufgüsse
  AI produziert unablässig Inhalte auf „ganz okayem“ Niveau, aber echte Ergriffenheit verschwindet
  Die guten Dinge, die Menschen miteinander geteilt haben, nehmen ab, und nur die schlechten scheinen verstärkt zu werden
- LLMs sind nur Remixer. Sie sagen lediglich Buchstabenkombinationen voraus, die es in der Vergangenheit schon gab, und erschaffen nicht selbst völlig neue Muster
- Ich frage mich, warum gerade das „Lösen schwieriger Probleme“ zum Maßstab für AI gemacht wird
  Die meisten Menschen können solche Probleme auch nicht lösen, während AI bei allgemeiner Wissensarbeit bereits hervorragend ist
  Mit so einem Maßstab nähert man sich eher einer Definition von AGI oder ASI
- Bekannte VCs nannten DeepSeek ein „übergeniales Modell“, weil es Aufgaben auf Einführungsniveau der Elektrodynamik gelöst habe, aber das wirkt übertrieben
  Welche Probleme das genau waren, müsste durch Expertenprüfung verifiziert werden
Mir scheint, dass die Grundannahme, Menschen seien etwas Besonderes, noch immer zu stark ist
Dass die Erklärung „es klappt eben nach vielen Versuchen“ auch auf Menschen zutreffen könnte, wird oft nicht genug bedacht
Selbst in Communities, die wissenschaftliches Denken hochhalten, ist menschlicher Exzeptionalismus tief verankert
- Menschen können mit nur 20 Watt ohne Erfahrung schlussfolgern. Das ist eindeutig etwas Besonderes
- Auch diese Leistung ist letztlich nur deshalb bedeutsam, weil Menschen das Problem gestellt und die Ergebnisse gemeinsam mit AI verifiziert haben
  AI setzt sich nicht selbst Ziele und erkennt ihre Leistungen nicht als solche
  Für enorme Kosten könnte am Ende nur ein kleiner mathematischer Fortschritt herausgekommen sein
- Dass Menschen besonders sind, ist nicht bloß ein Glaube, sondern eine empirische Tatsache, mit der sich Neurowissenschaft und Kognitionswissenschaft befassen
  Ich bin Funktionalist, aber ich halte das „wie Intelligenz wirkende“ Verhalten von LLMs nicht für echte Intelligenz
- Um die Besonderheit des Menschen zu verstehen, könnte man sich die Theorie der Orchestrated Objective Reduction ansehen
- Es geht nicht darum, dass Menschen besonders sind, sondern darum, dass statistische Modelle kaum außerhalb ihres Rahmens denken können
Das vollständige Gespräch mit GPT‑5.4 Pro und der Ergebnisbericht sind veröffentlicht
Vollständiges Transkript / Ergebniszusammenfassung
- Mich würde interessieren, was genau in der bereitgestellten Datei solution template stand
  Außerdem fand ich spannend, wie der Nutzer zwischendurch den Tokenverbrauch aktualisiert und so den Kontext erweitert hat
Da Opus 4.6 offenbar rund 250.000 Token verbraucht hat, stelle ich mir die Tokenzahl als Maß für die Schwierigkeit eines Problems vor
Lustig zu denken, dass mein heutiges React-Refactoring etwa halb so schwer war wie ein ungelöstes Mathematikproblem
- Klingt wie ein Witz, aber Mathematik ist im Kern ein sehr abgeschlossenes Gebiet, also könnte das tatsächlich so sein
  Manche Probleme wurden vielleicht nur von 5 bis 10 Menschen weltweit überhaupt versucht
  Wie unvollendete Software, der es an Motivation fehlt, könnten auch mathematische Probleme einfach deshalb ungelöst sein, weil es zu wenige Versuche gab
  Dass AI solche Probleme gelöst hat, ist trotzdem fast ein Wunder
- Kontextmanagement ist wichtig. Verschwendete Token führen zu schlechterer Leistung
  Wenn der Kontext größer wird, steigen die Kosten, und Anbieter könnten auch die Stückpreise erhöhen
- Der Vergleich der Ausgaben von Opus 4.6 und GPT‑5.4 Pro war interessant, weil Ersteres vielfältigere Verifizierungsversuche und Denkverläufe zeigte
- In der Mathematik entspricht eine Variable einem Token, aber in Software braucht man wegen der Lesbarkeit viel mehr Token
- Die Tokenzahl ist kein Maß für Komplexität. Datenzentrierte Probleme verbrauchen weit mehr Token als einfache Denkprobleme
Die Fähigkeiten von AI werden durch die trainierte Kostenfunktion bestimmt
Letztlich ist Intelligenz der Prozess, eine komplexe Kostenfunktion zu minimieren
In Bereichen wie Mathematik und Coding, in denen automatische Verifikation möglich ist, werden Ansätze wie RLVR sich schnell weiterentwickeln
In Feldern mit sozialer Belohnung oder hoher Unsicherheit könnten Fortschritte dagegen langsamer sein
- Dagegen gibt es das Argument, dass es auch Probleme gibt, die sich nicht durch eine „Kostenfunktion“ ausdrücken lassen
  Die Einführung komplexer Zahlen könnte man zum Beispiel als Ergebnis einer Optimierung der Darstellung verstehen
Domänenexperten bringen LLMs bei, wie sie ihre Probleme lösen
Am Ende lösen LLMs die Probleme, indem sie deren Denkmuster nachahmen
Ich denke, es gibt viele Probleme, die sich durch Resampling bestehender Beweise lösen lassen
Was für Menschen ein verrückt machendes, repetitives Durchsuchen wäre, kann eine Maschine hartnäckig durchziehen
Kein gewaltiger Fortschritt, aber es kann dabei helfen, Vermutungen in Theoreme zu verwandeln
- Die Frage ist, ob der Beweis bedeutungsvoll ist. Meist dürfte es nur Wiederholung innerhalb eines bestehenden Paradigmas sein
  Wirklich neue Perspektiven zu eröffnen, ist selten
  Vielleicht ist es nur Tokenverschwendung
- Ich denke, jede Entdeckung ist das Ergebnis kombinatorischer Synthese. Fast nichts entsteht aus dem völligen Nichts
- Dann frage ich mich, wie man einen Benchmark entwerfen sollte, der echte Neuheit bewertet
Auf Epochs Open-Problems-Seite gibt es 15 Probleme samt Schwierigkeitsklassen
Das jetzt gelöste war auf der Stufe „moderately interesting“ und gehört damit eher zu den einfacheren
Trotzdem ist beeindruckend, dass es schon vor der Lösung öffentlich war
Ich frage mich, wie schnell die drei übrigen Probleme derselben Stufe nun gelöst werden
- Dass ein LLM überhaupt irgendein offenes Problem löst, ist für mich bereits ein Ereignis auf Science-Fiction-Niveau
Der Titel ist etwas irreführend
Der eigentliche Titel lautet „A Ramsey-style Problem on Hypergraphs“, und gelöst wurde es nicht nur von GPT‑5.4, sondern von mehreren aktuellen Modellen
Trotzdem bleibt es eine beeindruckende Leistung

GPT-5.4 Pro löst Ramsey-artiges Mathematikproblem zu Hypergraphen

Lösung eines Ramsey-artigen Problems zu Hypergraphen

Problemdefinition

Phasen der Problemkonstruktion

Warm-up-Phase

Single-Challenge-Phase

Full-Problem-Phase

Bewertung durch Mathematiker

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare