4 Punkte von GN⁺ 2025-11-08 | 1 Kommentare | Auf WhatsApp teilen
  • AlphaEvolve ist ein neuartiges Optimierungswerkzeug, das mit LLMs den Code selbst weiterentwickelt, und wurde auf mathematische Problemlösungen angewendet
  • Experimente mit 67 Problemen aus Analysis, Kombinatorik und Geometrie zeigten Leistungen auf dem Niveau bestehender Optimierungstools sowie Stärken bei der Skalierbarkeit
  • Das Werkzeug ist hochgradig anpassungsfähig und kann ohne problemspezifisches Detailwissen auf verschiedene mathematische Probleme angewendet werden; zudem setzt es Diskretisierungsparameter selbst, um effizient zu rechnen
  • Der erzeugte Code bietet Interpretierbarkeit und hilft Menschen, Optimierungsstrukturen zu verstehen oder neue mathematische Einsichten zu gewinnen
  • Bei einigen Problemen wurden bestehende Ergebnisse wiederentdeckt oder leicht verbessert; das zeigt das Potenzial für Automatisierung mathematischer Forschung und die Ausweitung überprüfbarer Exploration

AlphaEvolve und Überblick über die Forschung

  • Terence Tao, Bogdan Georgiev, Javier Gómez-Serrano und Adam Zsolt Wagner veröffentlichten in Zusammenarbeit mit Google DeepMind ein Forschungsarbeit auf arXiv, die AlphaEvolve nutzt
    • Paper: “Mathematical exploration and discovery at scale”
    • Zugehörige Daten und Prompts wurden in einem GitHub-Repository veröffentlicht
  • AlphaEvolve ist ein LLM-basiertes, code-evolutionäres Optimierungssystem, das nicht Eingabewerte, sondern Code weiterentwickelt, um eine Bewertungsfunktion zu maximieren
    • Vom LLM erzeugter Code wird ausgeführt, erzeugt Eingaben und deren Ergebnisse werden bewertet
    • Evolution durch leistungsbasierte Kreuzung und Mutation zwischen Code-Generationen
    • „Halluzinationen“ werden bei schlechter Leistung entfernt, manche erhöhen jedoch die Diversität und helfen, lokale Optima zu verlassen
  • Nutzer können Hinweise oder PDFs verwandter Literatur hochladen, um die Leistung zu verbessern
  • Ähnliche Werkzeuge sind unter anderem OpenEvolve, ShinkaEvolve und DeepEvolve

Experimentumfang und wichtigste Ergebnisse

  • Experimente wurden an 67 mathematischen Problemen durchgeführt, darunter Analysis, Kombinatorik und Geometrie
    • Es wurden geometrische Packungen oder Funktionskandidaten für Variationsprobleme gefunden, die effizienter als in der bestehenden Literatur sind
  • Eine Stärke ist die Skalierbarkeit (scale): Prompt und Verifikationstools für ein Problem lassen sich anpassen und für ähnliche Probleme wiederverwenden
  • AlphaEvolve besitzt hohe Anpassungsfähigkeit (adaptability) und kann ohne feine Hyperparameter-Abstimmung auf verschiedene Probleme angewendet werden
    • Beispiel: Bei Variationsproblemen lässt das System Diskretisierungsparameter selbst festlegen, um effiziente Ergebnisse zu erzielen
    • Beispiel: Optimierungsexperiment für die Konstante der Hausdorff–Young-Ungleichung

Interpretierbarkeit und konkrete Beispiele

  • Der von AlphaEvolve ausgegebene Code ist für Menschen les- und analysierbar und nützlich, um Optimierungsstrukturen zu verstehen
    • Beispiel: Beim Problem zur Gagliardo–Nirenberg-Ungleichung wurde die exakte Talenti-Funktion gefunden und Python-Code zu deren Sampling erzeugt
  • In manchen Fällen ruft das System auch bestehende Optimierungs-Subroutinen auf oder verwendet einfache Suchverfahren

Trainingsdaten und Leistungsunterschiede

  • Bei Problemen, die in den Trainingsdaten enthalten waren, präsentiert das LLM sofort die optimale Lösung (z. B. eine Gaußfunktion)
    • Wird das Problem so verändert, dass die gaußsche Lösung verborgen ist, sucht es andere Kandidaten
  • Beispiel: In Experimenten zur arithmetischen Kakeya-Vermutung wurde ein Kandidat auf Basis diskreter Gaußfunktionen vorgeschlagen, der die bestehende Untergrenze leicht verbessert
    • Auf dieser Grundlage bewies Tao in einer separaten Arbeit theoretisches asymmetrisches Verhalten

Design der Verifikatoren und Schwachstellen

  • AlphaEvolve findet häufig „Exploits“, die Schwachstellen im Verifikationscode ausnutzen
    • Beispiel: Bei Geometrieproblemen mit großer Toleranz für Distanzfehler wurden Punkte an derselben Position platziert, um hohe Bewertungen zu erhalten
  • Um dies zu verhindern, sollten exakte Arithmetik oder konservative Bewertungsfunktionen verwendet werden
    • Beispiel: Beim Moving-Sofa-Problem wurde konservatives Scoring eingesetzt, wodurch das „Gerver sofa“ wiederentdeckt und für eine 3D-Variante ein neues Design gefunden wurde

Experimente mit schwierigen und vermutungsbasierten Problemen

  • Es wurden Experimente zu wichtigen offenen Vermutungen wie Sidorenko, Sendov, Crouzeix und Ovals durchgeführt
    • Optimale Kandidaten aus der bestehenden Literatur wurden wiederentdeckt, Gegenbeispiele jedoch nicht gefunden
    • Das könnte bedeuten, dass die Vermutungen wahr sind oder dass AlphaEvolve nur die „naheliegenden“ Konstruktionen durchsucht hat, die frühere Forschende bereits ausprobiert hatten
  • Solche Werkzeuge sind nützlich für die systematische Dokumentation negativer Ergebnisse und könnten bei neuen Vermutungen als automatisches Verifikationswerkzeug eingesetzt werden
  • Bei einigen abgewandelten Problemen wurden neue zweiparametrige Erweiterungsvermutungen entdeckt

Leistungsunterschiede nach Fachgebiet

  • Bei Problemen der analytischen Zahlentheorie wie dem Entwurf von Siebgewichten für Approximationen zum Primzahlsatz fällt es schwer, strukturelle Eigenschaften auszunutzen
    • Dagegen wurden bei Problemen mit algebraischer Struktur wie Kakeya- und Nikodym-Problemen über endlichen Körpern sehr gute Ergebnisse erzielt
  • Beim Kakeya-Problem wurde die optimale Konstruktion auf Basis quadratischer Reste wiederentdeckt und in drei Dimensionen eine leichte Verbesserung erreicht
    • Mit Geminis Deep Think wurde ein informeller Beweis gefunden und mit AlphaProof in einen formalen Lean-Beweis überführt
    • Die Verbesserung in vier Dimensionen stellte sich als strukturgleich mit der bestehenden Bukh–Chao-Arbeit heraus
  • Beim Nikodym-Problem wurde eine neue dreidimensionale Konstruktion gefunden, die sich jedoch als schlechter als eine Zufallskonstruktion erwies
    • Darauf aufbauend wurde eine hybride Konstruktion entwickelt, die die Leistung verbesserte; eine Folgearbeit ist geplant

Gesamtbedeutung

  • AlphaEvolve zeigt das Potenzial der Automatisierung großskaliger mathematischer Exploration
    • Gegenüber bestehenden Optimierungstools ist es bei Skalierbarkeit, Anpassungsfähigkeit und Interpretierbarkeit überlegen
    • Bei einigen Problemen führte dies zu neuen Konstruktionen und Beweisen
  • Künftig könnte sich in der mathematischen Forschung eine Kooperationsstruktur aus KI-gestützter Exploration und menschlicher Verifikation etablieren

1 Kommentare

 
GN⁺ 2025-11-08
Hacker-News-Kommentare
  • Es ist ermüdend, wenn LLM-Fans jedes Mal alles als „Durchbruch“ überhöhen, aber dieses Beispiel zeigt, wie sich die aktuellen Fähigkeiten von LLMs sinnvoll für Forschung einsetzen lassen
    Das mathematische Problem wurde in ein Coding-Agent-Problem umgewandelt und so gelöst; dieser Ansatz scheint sich auch auf andere Bereiche ausweiten zu lassen
    Das AlphaEvolve-System scheint außerdem gegenüber bestehenden Agenten Verbesserungen zu haben. KI macht jedes Jahr stetige Fortschritte, aber weder Übertreibungen der Befürworter noch der Skeptiker helfen weiter

    • Auch diese Art von Beschwerde wiederholt sich ständig. Wenn es einem nicht gefällt, muss man es doch nicht lesen, oder?
      Menschen genießen den Hype Cycle zu unterschiedlichen Zeitpunkten. Für manche ist das längst langweilig, für andere kann die Verbindung von LLMs und Mathematik neu sein. Solche Inspiration kann langfristig nützlich sein
    • Auch LLM-Skeptiker greifen die Fans jedes Mal an und halten so ihre selbstzufriedene Welt vom „AI Bubble“ aufrecht
      Dennoch ist diese Forschung ein gutes Beispiel für den sinnvollen Einsatz von LLMs. Inzwischen gibt es viele praktische Anwendungen, die nicht einmal mehr Nachrichtenwert haben. Nur weil es Fans gibt, muss man sie nicht jedes Mal kritisieren
  • Diese Forschung scheint die Behauptung zu widerlegen, dass LLMs „nur Probleme lösen, die sie schon gesehen haben“
    Hört man LLM-Entwicklern zu, dann führt der RL-Prozess nach dem Training dazu, dass sich mehr als nur eine einfache Markov chain bildet, nämlich ein world model
    Der nächste Schritt wäre, ähnliche Fähigkeiten auf Modellen wie Genie 3 aufzubauen

    • Wenn man in der im Blog zitierten Arbeit Abschnitt 2 liest, wird das LLM in der evolutionären Schleife als mutation function verwendet
      Das LLM ist zwar ein zentrales Werkzeug, aber der eigentliche Anteil am Erfolg liegt hier stärker bei der evolutionary optimization
    • Ich glaube nicht, dass diese Forschung eine solche Behauptung wirklich widerlegt. Noch immer ist sorgfältiges Eingreifen von Experten nötig, und nicht-LLM-artiges Denken bleibt unverzichtbar
    • AlphaEvolve ist nicht das LLM selbst, sondern ein evolutionärer Coding-Agent, der LLMs zur Codegenerierung nutzt
      Laut dem DeepMind-Blog steht es in der Tradition der „Alpha“-Reihe wie AlphaGo und AlphaFold
      Dieser Ansatz dürfte auch beim ARC-AGI-Test von Chollet gut funktionieren. Allerdings wirkt die Verwendung des Ausdrucks „extremize“ durch Tao als mathematischer Fachbegriff etwas ungewohnt
    • Laut diesem Beitrag könnten die in der Arbeit vorgestellten Lösungen letztlich Fälle sein, die bereits in der bestehenden Literatur vorkamen
    • Die Aussage „LLMs lösen nur Probleme, die sie schon gesehen haben“ ist zu simpel
      Diese Forschung eignet sich für Probleme, bei denen schnelle Verifikation und Pruning schlechter Lösungen möglich sind. Menschliche Softwareentwicklung hat dagegen mit Design-Bias, langsamer Evolution und schwieriger Testbarkeit zu kämpfen, weshalb dieser Ansatz dort schwerer anwendbar ist
  • Wie Daniel Litt anmerkte, ist dies wohl einfach der erste Fall, in dem massiv Compute eingesetzt wurde
    Einige Ungleichungen von AlphaEvolve lassen sich auch von Menschen und mit Moore’s Law leicht verbessern
    Die zugehörige Arbeit gibt es hier

  • Es gab einen Kommentar mit der Bitte um eine Zusammenfassung für Menschen ohne mathematischen Hintergrund

    • Ich bin kein Experte, aber kurz gesagt: Terence Tao ist ein Mathematiker von Weltrang, und AlphaEvolve ist Googles LLM-basiertes Optimierungstool
      Das LLM übernimmt Mutationen von Python-Code, und fehlerhafte Versuche werden automatisch verworfen
      Getestet wurden 67 Probleme, und oft kamen Ergebnisse auf Expertenniveau heraus. Vorteile sind Skalierbarkeit, Robustheit und leichte Interpretierbarkeit
      Allerdings konvergierten Aufgaben, die im Trainingsdatensatz enthalten waren, schnell, und bei unsauber definierter Problemstellung wurde diese Lücke teils „ausgenutzt“
      In manchen mathematischen Teilgebieten, etwa der analytischen Zahlentheorie, war die Leistung schwächer. Trotzdem lieferte das System Ideen, an denen Menschen anknüpfen können
    • Kurz gesagt: Man hat ein LLM in die menschliche Schleife mathematischen Denkens eingebaut, und damit Mathematik auf Forschungsniveau betrieben
      Es war nicht in allen Bereichen gleich stark, spezialisierte sich aber wie Ramanujan oder Erdős auf rechnerisch geprägte Problemlösung
  • Mir war nicht klar, dass das Sofa-Problem gelöst worden ist. Die zugehörige Arbeit ist hier

  • Am interessantesten am Text fand ich das vom Autor verwendete Konzept von „robustness“
    AlphaEvolve ließ sich ohne spezielles Domänenwissen leicht auf verschiedene Probleme anwenden
    In der Softwarewelt bedeutet „robustness“ aber meist eher Fehlertoleranz, daher scheint hier „adaptability“ passender zu sein
    Die Stärke von LLMs liegt darin, dass sie ohne komplexe Modellierung eine textbasierte Integration ermöglichen. Wenn sich die Bildverarbeitung weiter verbessert, könnten sich auch Bereiche wie Game AI öffnen

    • Tatsächlich hat der Autor den Haupttext später geändert, „robustness“ entfernt und durch „adaptability“ ersetzt
  • Dass Tao sagte, es könne an den Prompts liegen, ist eine ziemlich großzügige Haltung
    In anderer ML-Forschung hört man bei schwacher Leistung kaum Selbstkritik der Art „wir haben das Hyperparameter-Tuning schlecht gemacht“

    • Im Paper-Review-Prozess sind solche Hinweise allerdings durchaus üblich. Hier handelt es sich eher um eine explorative Forschungsnotiz, daher ist der Kontext anders
    • Tatsächlich beruhen viele algorithmische Verbesserungen auf unzureichendem Baseline-Tuning oder Problemen in der statistischen Auswertung. Tao zeigte damit eher epistemische Bescheidenheit
  • Beeindruckend war die Geschichte über das Logikrätsel-Experiment in Abschnitt 44.2 der Arbeit
    AlphaEvolve sollte das Problem lösen, durch Interaktion mit drei „Wächtern“ – Engel, Dämon und Torwächter – eine optimale Strategie zu finden, erreichte am Ende aber durch Prompt Injection gegen ein anderes LLM die volle Punktzahl
    Dabei schlug AE selbst vor, die „logische Komplexität zu reduzieren und stattdessen die Simulation anzugreifen“

    • Entscheidend ist, dass AE selbst auf die Idee kam, „die Regeln des Logikrätsels zu brechen und die Simulation zu hacken“
    • Wenn die letzte Injection gescheitert wäre, hätte es als Nächstes vielleicht das „Tor zur Hölle“ geöffnet
    • Dass eine KI eine andere KI täuscht, um das Problem zu lösen, ist wirklich diabolisch
      Anders als bei dem früheren Leak eines Coding-Benchmarks war das diesmal kein Zufall, sondern ein gezielter Angriff
  • Diese Forschung wirkt wie eine moderne Version von Gauss’ mathematischem Labor
    Statt mehrere Mathematiker zu beschäftigen, setzt man ein elektronisches Team darauf an, Muster zu erkunden und auf dieser Grundlage Beweise zu versuchen

  • Ehrlich gesagt: Wenn Terence Tao etwas sagt, glaube ich es einfach