2 Punkte von GN⁺ 2026-03-25 | 1 Kommentare | Auf WhatsApp teilen
  • GPT-5.4 Pro hat in Zusammenarbeit mit Kevin Barreto und Liam Price ein mit Hypergraphen verbundenes Ramsey-artiges Problem gelöst
  • Der Aufgabensteller Will Brian hat die Korrektheit der Lösung überprüft; das vollständige Gesprächsprotokoll und das abschließende Erläuterungsdokument der KI wurden veröffentlicht
  • Die Lösung beseitigt die Ineffizienz bisheriger unterer Schranken-Konstruktionen und präsentiert eine symmetrische Struktur der oberen Schranke, wodurch eine in der Ramsey-Theorie seltene Übereinstimmung erreicht wird
  • Anschließend lösten im Framework FrontierMath: Open Problems mehrere Modelle dasselbe Problem, wodurch sich die Eignung als Werkzeug zur Überprüfung mathematischer Schlussfolgerungsfähigkeiten von KI bestätigte
  • Die Leistung wird als Beispiel dafür bewertet, dass KI substanziell zur Lösung ungelöster mathematischer Probleme beitragen kann

Lösung eines Ramsey-artigen Problems zu Hypergraphen

  • GPT-5.4 Pro hat in Zusammenarbeit mit Kevin Barreto und Liam Price das schwierige, mit Hypergraphen verbundene Ramsey-artige Problem gelöst
    • Der Aufgabensteller Will Brian hat die Korrektheit der Lösung überprüft
    • Das vollständige Gesprächsprotokoll des Lösungsprozesses sowie das abschließende Erläuterungsdokument von GPT-5.4 Pro wurden veröffentlicht
  • Brian bewertet die Lösung so, dass sie die Ineffizienz bestehender Konstruktionen der unteren Schranke beseitigt und die Komplexität sowie die symmetrische Struktur der Konstruktion der oberen Schranke zeigt
    • Da untere und obere Schranke konsistent zusammenfallen, wurde ein im Rahmen der Ramsey-Theorie seltenes Maß an Konsistenz erreicht
    • Er plant, das Ergebnis in einer Arbeit auszuformulieren; möglicherweise werden auch weiterführende Forschungen aufgenommen, die aus Ideen der KI hervorgegangen sind
  • Danach stellte Epoch AI das Test-Framework FrontierMath: Open Problems fertig und wandte dasselbe Problem auf mehrere Modelle an
    • Auch die Modelle Opus 4.6 (max), Gemini 3.1 Pro und GPT-5.4 (xhigh) lösten das Problem erfolgreich
    • Das zeigt, dass die FrontierMath-Umgebung für die Bewertung der mathematischen Schlussfolgerungsfähigkeit von KI-Modellen geeignet ist

Problemdefinition

  • Das Problem konzentriert sich darauf, die untere Schranke der Folge (H(n)) zu verbessern, die bei der Untersuchung der gleichzeitigen Konvergenz unendlicher Reihenmengen auftritt
    • Dass ein Hypergraph ((V, \mathcal H)) eine Partition der Größe (n) enthält, bedeutet, dass (D \subseteq V), (\mathcal P \subseteq \mathcal H) existieren mit (|D| = n), und jedes Element von (D) in genau einem Element von (\mathcal P) enthalten ist
    • (H(n)) ist definiert als die maximale Anzahl von Knoten (k) eines Hypergraphen, der keine isolierten Knoten hat und keine Partition mit Größe größer als (n) enthält
  • Es gilt als wahrscheinlich, dass die bekannte untere Schranke von (H(n)) nicht optimal ist und sich durch eine neue Hypergraph-Konstruktion verbessern lässt
    • Ziel ist es, einen Algorithmus zu finden, der (H(n) \ge c \cdot k_n) erfüllt (wobei (c > 1))
    • (k_n) ist durch die Rekursion (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor}) definiert

Phasen der Problemkonstruktion

  • Warm-up-Phase

    • Konstruktion eines Hypergraphen für Werte von (n), für die bereits eine bekannte Lösung existiert
    • Bedingungen: (|V| ≥ 64), (|H| ≤ 20), keine Partition mit Größe über 20
  • Single-Challenge-Phase

    • Aufgabe, unter denselben Bedingungen einen Hypergraphen für Werte von (n) zu finden, für die keine bekannte Lösung existiert
    • Bedingungen: (|V| ≥ 66), (|H| ≤ 20), keine Partition mit Größe über 20
  • Full-Problem-Phase

    • Gefordert wird ein allgemeiner Algorithmus, der für alle (n) funktioniert
    • Für Eingabe (n) muss ein Hypergraph erzeugt werden, der (H(n) ≥ c \cdot k_n) erfüllt
    • Für (n ≤ 100) muss die Ausführung auf einem normalen Notebook innerhalb von 10 Minuten möglich sein

Bewertung durch Mathematiker

  • Die Zahl der Mathematiker, die mit diesem Problem vertraut sind, liegt bei etwa 10, darunter viele Forschende aus dem Spezialgebiet
  • Die Zahl der Mathematiker, die tatsächlich versucht haben, das Problem zu lösen, wird auf 5–10 geschätzt
  • Die erwartete Zeit für Fachleute, das Problem zu lösen, beträgt 1–3 Monate
  • Eine Lösung wird als auf dem Niveau einer Veröffentlichung in einer Fachzeitschrift bewertet
  • Aufgrund der inhaltlichen Reichhaltigkeit des Problems ist die Wahrscheinlichkeit hoch, dass die Lösung zu neuer mathematischer Forschung führt
  • Unter den genannten Bedingungen wird die Wahrscheinlichkeit, dass das Problem lösbar ist, auf 95–99 % geschätzt

1 Kommentare

 
GN⁺ 2026-03-25
Hacker-News-Kommentare
  • Es überrascht mich, wie viele Leute kategorisch behaupten, LLMs könnten keine echte Kreativität besitzen
    Einfach nur zu sagen „Das war nicht in den Trainingsdaten, also ist es unmöglich“ reicht nicht aus. Dafür gibt es bereits viele Gegenbeispiele
    Dann braucht man eine Begründung dafür, warum manche neuen Aufgaben möglich sein sollen und andere nicht
    Wenn man anerkennt, dass „Neuheit“ auf einem Kontinuum liegt, frage ich mich, wo man die Grenze zieht und welche Belege die eigene Meinung ändern würden

    • Wenn ich meine eigene Frage beantworte, gibt es auch logische Argumente für grundlegende Grenzen von LLMs
      1. Sie lernen aus menschlichen Daten und ahmen daher menschliche Grenzen nach
      2. Sie lernen nicht aus Erfahrung
        Es gibt aber auch Gegenargumente. Nachdem ich ein Modell gesehen habe, das Olympiagold in Mathematik geholt hat, habe ich das erste Argument verworfen
        Mit RL und zusätzlichem Speicher scheint sich auch die zweite Grenze überwinden zu lassen
        Vielleicht können große LLMs Informationen ähnlich wie Menschen internalisieren
        Ein passendes Beispiel: METR-Blogbeitrag
    • LLMs können ihrem Wesen nach alles Mögliche erzeugen. Nur verstehen sie nicht, was sie selbst erzeugt haben
      Menschen definieren „echte Neuheit“ oft viel zu großspurig — etwa als Formel für Supraleiter oder Entwicklung neuer Medikamente
      Aber formal ist auch eine neue Art, Schnürsenkel zu binden, etwas Neues
      LLMs können unzählige solcher kleinen Probleme lösen, doch das ist womöglich keine bedeutende Innovation, die Menschen beeindruckt
    • Ich habe an einem Utility für macOS gearbeitet, mit dem man durch App-Fenster „hindurchsehen“ kann, und Claude Code hat vorgeschlagen, ScreenCaptureKit nicht zu verwenden
      Es hat es aus Gründen des Performance-Overheads präzise abgelehnt und einen völlig anderen Ansatz vorgeschlagen
      Das ist kein besonders neuartiges Problem, aber die Lösung war ziemlich kreativ, was mich überrascht hat
      Projektbild
    • Dass LLMs neue Multiplikationsaufgaben lösen können, liegt daran, dass sie während des Trainings sehr viele Multiplikationsbeispiele gesehen und daraus eine komprimierte abstrakte Strategie gelernt haben
      Es ist nicht bloß Auswendiglernen, sondern die Verinnerlichung einer generalisierten Operation in internen Schaltkreisen des neuronalen Netzes
    • Die meisten Erfindungen sind das Ergebnis einer Interpolation von drei bestehenden Ideen. Solche Systeme sind darin sehr gut
  • Ich dachte, ich würde es erst glauben, wenn AI schwierige Probleme selbst lösen kann, aber wenn dieses Ergebnis echt ist, fühle ich mich jetzt fast wie ein Gläubiger
    Ich möchte mehr solcher Beispiele sehen, aber die Welt wird wirklich neu und spannend

    • Mathematik- und Coding-Wettbewerbsprobleme haben klare Regeln und lassen sich leicht verifizieren, daher sind sie gut lernbar
      In Bereichen mit unscharfer Definition wie Codequalität nehmen Halluzinationen jedoch zu
      Ohne eine sich selbst lernende Wertfunktion wie bei AlphaGo hat RL allein Grenzen
    • Statt einer „neuen und spannenden Welt“ kommt jetzt vielleicht eher ein Zeitalter endloser Wiederaufgüsse
      AI produziert unablässig Inhalte auf „ganz okayem“ Niveau, aber echte Ergriffenheit verschwindet
      Die guten Dinge, die Menschen miteinander geteilt haben, nehmen ab, und nur die schlechten scheinen verstärkt zu werden
    • LLMs sind nur Remixer. Sie sagen lediglich Buchstabenkombinationen voraus, die es in der Vergangenheit schon gab, und erschaffen nicht selbst völlig neue Muster
    • Ich frage mich, warum gerade das „Lösen schwieriger Probleme“ zum Maßstab für AI gemacht wird
      Die meisten Menschen können solche Probleme auch nicht lösen, während AI bei allgemeiner Wissensarbeit bereits hervorragend ist
      Mit so einem Maßstab nähert man sich eher einer Definition von AGI oder ASI
    • Bekannte VCs nannten DeepSeek ein „übergeniales Modell“, weil es Aufgaben auf Einführungsniveau der Elektrodynamik gelöst habe, aber das wirkt übertrieben
      Welche Probleme das genau waren, müsste durch Expertenprüfung verifiziert werden
  • Mir scheint, dass die Grundannahme, Menschen seien etwas Besonderes, noch immer zu stark ist
    Dass die Erklärung „es klappt eben nach vielen Versuchen“ auch auf Menschen zutreffen könnte, wird oft nicht genug bedacht
    Selbst in Communities, die wissenschaftliches Denken hochhalten, ist menschlicher Exzeptionalismus tief verankert

    • Menschen können mit nur 20 Watt ohne Erfahrung schlussfolgern. Das ist eindeutig etwas Besonderes
    • Auch diese Leistung ist letztlich nur deshalb bedeutsam, weil Menschen das Problem gestellt und die Ergebnisse gemeinsam mit AI verifiziert haben
      AI setzt sich nicht selbst Ziele und erkennt ihre Leistungen nicht als solche
      Für enorme Kosten könnte am Ende nur ein kleiner mathematischer Fortschritt herausgekommen sein
    • Dass Menschen besonders sind, ist nicht bloß ein Glaube, sondern eine empirische Tatsache, mit der sich Neurowissenschaft und Kognitionswissenschaft befassen
      Ich bin Funktionalist, aber ich halte das „wie Intelligenz wirkende“ Verhalten von LLMs nicht für echte Intelligenz
    • Um die Besonderheit des Menschen zu verstehen, könnte man sich die Theorie der Orchestrated Objective Reduction ansehen
    • Es geht nicht darum, dass Menschen besonders sind, sondern darum, dass statistische Modelle kaum außerhalb ihres Rahmens denken können
  • Das vollständige Gespräch mit GPT‑5.4 Pro und der Ergebnisbericht sind veröffentlicht
    Vollständiges Transkript / Ergebniszusammenfassung

    • Mich würde interessieren, was genau in der bereitgestellten Datei solution template stand
      Außerdem fand ich spannend, wie der Nutzer zwischendurch den Tokenverbrauch aktualisiert und so den Kontext erweitert hat
  • Da Opus 4.6 offenbar rund 250.000 Token verbraucht hat, stelle ich mir die Tokenzahl als Maß für die Schwierigkeit eines Problems vor
    Lustig zu denken, dass mein heutiges React-Refactoring etwa halb so schwer war wie ein ungelöstes Mathematikproblem

    • Klingt wie ein Witz, aber Mathematik ist im Kern ein sehr abgeschlossenes Gebiet, also könnte das tatsächlich so sein
      Manche Probleme wurden vielleicht nur von 5 bis 10 Menschen weltweit überhaupt versucht
      Wie unvollendete Software, der es an Motivation fehlt, könnten auch mathematische Probleme einfach deshalb ungelöst sein, weil es zu wenige Versuche gab
      Dass AI solche Probleme gelöst hat, ist trotzdem fast ein Wunder
    • Kontextmanagement ist wichtig. Verschwendete Token führen zu schlechterer Leistung
      Wenn der Kontext größer wird, steigen die Kosten, und Anbieter könnten auch die Stückpreise erhöhen
    • Der Vergleich der Ausgaben von Opus 4.6 und GPT‑5.4 Pro war interessant, weil Ersteres vielfältigere Verifizierungsversuche und Denkverläufe zeigte
    • In der Mathematik entspricht eine Variable einem Token, aber in Software braucht man wegen der Lesbarkeit viel mehr Token
    • Die Tokenzahl ist kein Maß für Komplexität. Datenzentrierte Probleme verbrauchen weit mehr Token als einfache Denkprobleme
  • Die Fähigkeiten von AI werden durch die trainierte Kostenfunktion bestimmt
    Letztlich ist Intelligenz der Prozess, eine komplexe Kostenfunktion zu minimieren
    In Bereichen wie Mathematik und Coding, in denen automatische Verifikation möglich ist, werden Ansätze wie RLVR sich schnell weiterentwickeln
    In Feldern mit sozialer Belohnung oder hoher Unsicherheit könnten Fortschritte dagegen langsamer sein

    • Dagegen gibt es das Argument, dass es auch Probleme gibt, die sich nicht durch eine „Kostenfunktion“ ausdrücken lassen
      Die Einführung komplexer Zahlen könnte man zum Beispiel als Ergebnis einer Optimierung der Darstellung verstehen
  • Domänenexperten bringen LLMs bei, wie sie ihre Probleme lösen
    Am Ende lösen LLMs die Probleme, indem sie deren Denkmuster nachahmen

  • Ich denke, es gibt viele Probleme, die sich durch Resampling bestehender Beweise lösen lassen
    Was für Menschen ein verrückt machendes, repetitives Durchsuchen wäre, kann eine Maschine hartnäckig durchziehen
    Kein gewaltiger Fortschritt, aber es kann dabei helfen, Vermutungen in Theoreme zu verwandeln

    • Die Frage ist, ob der Beweis bedeutungsvoll ist. Meist dürfte es nur Wiederholung innerhalb eines bestehenden Paradigmas sein
      Wirklich neue Perspektiven zu eröffnen, ist selten
      Vielleicht ist es nur Tokenverschwendung
    • Ich denke, jede Entdeckung ist das Ergebnis kombinatorischer Synthese. Fast nichts entsteht aus dem völligen Nichts
    • Dann frage ich mich, wie man einen Benchmark entwerfen sollte, der echte Neuheit bewertet
  • Auf Epochs Open-Problems-Seite gibt es 15 Probleme samt Schwierigkeitsklassen
    Das jetzt gelöste war auf der Stufe „moderately interesting“ und gehört damit eher zu den einfacheren
    Trotzdem ist beeindruckend, dass es schon vor der Lösung öffentlich war
    Ich frage mich, wie schnell die drei übrigen Probleme derselben Stufe nun gelöst werden

    • Dass ein LLM überhaupt irgendein offenes Problem löst, ist für mich bereits ein Ereignis auf Science-Fiction-Niveau
  • Der Titel ist etwas irreführend
    Der eigentliche Titel lautet „A Ramsey-style Problem on Hypergraphs“, und gelöst wurde es nicht nur von GPT‑5.4, sondern von mehreren aktuellen Modellen
    Trotzdem bleibt es eine beeindruckende Leistung