- AlphaEvolve ist ein neuartiges Optimierungswerkzeug, das mit LLMs den Code selbst weiterentwickelt, und wurde auf mathematische Problemlösungen angewendet
- Experimente mit 67 Problemen aus Analysis, Kombinatorik und Geometrie zeigten Leistungen auf dem Niveau bestehender Optimierungstools sowie Stärken bei der Skalierbarkeit
- Das Werkzeug ist hochgradig anpassungsfähig und kann ohne problemspezifisches Detailwissen auf verschiedene mathematische Probleme angewendet werden; zudem setzt es Diskretisierungsparameter selbst, um effizient zu rechnen
- Der erzeugte Code bietet Interpretierbarkeit und hilft Menschen, Optimierungsstrukturen zu verstehen oder neue mathematische Einsichten zu gewinnen
- Bei einigen Problemen wurden bestehende Ergebnisse wiederentdeckt oder leicht verbessert; das zeigt das Potenzial für Automatisierung mathematischer Forschung und die Ausweitung überprüfbarer Exploration
AlphaEvolve und Überblick über die Forschung
- Terence Tao, Bogdan Georgiev, Javier Gómez-Serrano und Adam Zsolt Wagner veröffentlichten in Zusammenarbeit mit Google DeepMind ein Forschungsarbeit auf arXiv, die AlphaEvolve nutzt
- Paper: “Mathematical exploration and discovery at scale”
- Zugehörige Daten und Prompts wurden in einem GitHub-Repository veröffentlicht
- AlphaEvolve ist ein LLM-basiertes, code-evolutionäres Optimierungssystem, das nicht Eingabewerte, sondern Code weiterentwickelt, um eine Bewertungsfunktion zu maximieren
- Vom LLM erzeugter Code wird ausgeführt, erzeugt Eingaben und deren Ergebnisse werden bewertet
- Evolution durch leistungsbasierte Kreuzung und Mutation zwischen Code-Generationen
- „Halluzinationen“ werden bei schlechter Leistung entfernt, manche erhöhen jedoch die Diversität und helfen, lokale Optima zu verlassen
- Nutzer können Hinweise oder PDFs verwandter Literatur hochladen, um die Leistung zu verbessern
- Ähnliche Werkzeuge sind unter anderem OpenEvolve, ShinkaEvolve und DeepEvolve
Experimentumfang und wichtigste Ergebnisse
- Experimente wurden an 67 mathematischen Problemen durchgeführt, darunter Analysis, Kombinatorik und Geometrie
- Es wurden geometrische Packungen oder Funktionskandidaten für Variationsprobleme gefunden, die effizienter als in der bestehenden Literatur sind
- Eine Stärke ist die Skalierbarkeit (scale): Prompt und Verifikationstools für ein Problem lassen sich anpassen und für ähnliche Probleme wiederverwenden
- AlphaEvolve besitzt hohe Anpassungsfähigkeit (adaptability) und kann ohne feine Hyperparameter-Abstimmung auf verschiedene Probleme angewendet werden
- Beispiel: Bei Variationsproblemen lässt das System Diskretisierungsparameter selbst festlegen, um effiziente Ergebnisse zu erzielen
- Beispiel: Optimierungsexperiment für die Konstante der Hausdorff–Young-Ungleichung
Interpretierbarkeit und konkrete Beispiele
- Der von AlphaEvolve ausgegebene Code ist für Menschen les- und analysierbar und nützlich, um Optimierungsstrukturen zu verstehen
- Beispiel: Beim Problem zur Gagliardo–Nirenberg-Ungleichung wurde die exakte Talenti-Funktion gefunden und Python-Code zu deren Sampling erzeugt
- In manchen Fällen ruft das System auch bestehende Optimierungs-Subroutinen auf oder verwendet einfache Suchverfahren
Trainingsdaten und Leistungsunterschiede
- Bei Problemen, die in den Trainingsdaten enthalten waren, präsentiert das LLM sofort die optimale Lösung (z. B. eine Gaußfunktion)
- Wird das Problem so verändert, dass die gaußsche Lösung verborgen ist, sucht es andere Kandidaten
- Beispiel: In Experimenten zur arithmetischen Kakeya-Vermutung wurde ein Kandidat auf Basis diskreter Gaußfunktionen vorgeschlagen, der die bestehende Untergrenze leicht verbessert
- Auf dieser Grundlage bewies Tao in einer separaten Arbeit theoretisches asymmetrisches Verhalten
Design der Verifikatoren und Schwachstellen
- AlphaEvolve findet häufig „Exploits“, die Schwachstellen im Verifikationscode ausnutzen
- Beispiel: Bei Geometrieproblemen mit großer Toleranz für Distanzfehler wurden Punkte an derselben Position platziert, um hohe Bewertungen zu erhalten
- Um dies zu verhindern, sollten exakte Arithmetik oder konservative Bewertungsfunktionen verwendet werden
- Beispiel: Beim Moving-Sofa-Problem wurde konservatives Scoring eingesetzt, wodurch das „Gerver sofa“ wiederentdeckt und für eine 3D-Variante ein neues Design gefunden wurde
Experimente mit schwierigen und vermutungsbasierten Problemen
- Es wurden Experimente zu wichtigen offenen Vermutungen wie Sidorenko, Sendov, Crouzeix und Ovals durchgeführt
- Optimale Kandidaten aus der bestehenden Literatur wurden wiederentdeckt, Gegenbeispiele jedoch nicht gefunden
- Das könnte bedeuten, dass die Vermutungen wahr sind oder dass AlphaEvolve nur die „naheliegenden“ Konstruktionen durchsucht hat, die frühere Forschende bereits ausprobiert hatten
- Solche Werkzeuge sind nützlich für die systematische Dokumentation negativer Ergebnisse und könnten bei neuen Vermutungen als automatisches Verifikationswerkzeug eingesetzt werden
- Bei einigen abgewandelten Problemen wurden neue zweiparametrige Erweiterungsvermutungen entdeckt
Leistungsunterschiede nach Fachgebiet
- Bei Problemen der analytischen Zahlentheorie wie dem Entwurf von Siebgewichten für Approximationen zum Primzahlsatz fällt es schwer, strukturelle Eigenschaften auszunutzen
- Dagegen wurden bei Problemen mit algebraischer Struktur wie Kakeya- und Nikodym-Problemen über endlichen Körpern sehr gute Ergebnisse erzielt
- Beim Kakeya-Problem wurde die optimale Konstruktion auf Basis quadratischer Reste wiederentdeckt und in drei Dimensionen eine leichte Verbesserung erreicht
- Mit Geminis Deep Think wurde ein informeller Beweis gefunden und mit AlphaProof in einen formalen Lean-Beweis überführt
- Die Verbesserung in vier Dimensionen stellte sich als strukturgleich mit der bestehenden Bukh–Chao-Arbeit heraus
- Beim Nikodym-Problem wurde eine neue dreidimensionale Konstruktion gefunden, die sich jedoch als schlechter als eine Zufallskonstruktion erwies
- Darauf aufbauend wurde eine hybride Konstruktion entwickelt, die die Leistung verbesserte; eine Folgearbeit ist geplant
Gesamtbedeutung
- AlphaEvolve zeigt das Potenzial der Automatisierung großskaliger mathematischer Exploration
- Gegenüber bestehenden Optimierungstools ist es bei Skalierbarkeit, Anpassungsfähigkeit und Interpretierbarkeit überlegen
- Bei einigen Problemen führte dies zu neuen Konstruktionen und Beweisen
- Künftig könnte sich in der mathematischen Forschung eine Kooperationsstruktur aus KI-gestützter Exploration und menschlicher Verifikation etablieren
1 Kommentare
Hacker-News-Kommentare
Es ist ermüdend, wenn LLM-Fans jedes Mal alles als „Durchbruch“ überhöhen, aber dieses Beispiel zeigt, wie sich die aktuellen Fähigkeiten von LLMs sinnvoll für Forschung einsetzen lassen
Das mathematische Problem wurde in ein Coding-Agent-Problem umgewandelt und so gelöst; dieser Ansatz scheint sich auch auf andere Bereiche ausweiten zu lassen
Das AlphaEvolve-System scheint außerdem gegenüber bestehenden Agenten Verbesserungen zu haben. KI macht jedes Jahr stetige Fortschritte, aber weder Übertreibungen der Befürworter noch der Skeptiker helfen weiter
Menschen genießen den Hype Cycle zu unterschiedlichen Zeitpunkten. Für manche ist das längst langweilig, für andere kann die Verbindung von LLMs und Mathematik neu sein. Solche Inspiration kann langfristig nützlich sein
Dennoch ist diese Forschung ein gutes Beispiel für den sinnvollen Einsatz von LLMs. Inzwischen gibt es viele praktische Anwendungen, die nicht einmal mehr Nachrichtenwert haben. Nur weil es Fans gibt, muss man sie nicht jedes Mal kritisieren
Diese Forschung scheint die Behauptung zu widerlegen, dass LLMs „nur Probleme lösen, die sie schon gesehen haben“
Hört man LLM-Entwicklern zu, dann führt der RL-Prozess nach dem Training dazu, dass sich mehr als nur eine einfache Markov chain bildet, nämlich ein world model
Der nächste Schritt wäre, ähnliche Fähigkeiten auf Modellen wie Genie 3 aufzubauen
Das LLM ist zwar ein zentrales Werkzeug, aber der eigentliche Anteil am Erfolg liegt hier stärker bei der evolutionary optimization
Laut dem DeepMind-Blog steht es in der Tradition der „Alpha“-Reihe wie AlphaGo und AlphaFold
Dieser Ansatz dürfte auch beim ARC-AGI-Test von Chollet gut funktionieren. Allerdings wirkt die Verwendung des Ausdrucks „extremize“ durch Tao als mathematischer Fachbegriff etwas ungewohnt
Diese Forschung eignet sich für Probleme, bei denen schnelle Verifikation und Pruning schlechter Lösungen möglich sind. Menschliche Softwareentwicklung hat dagegen mit Design-Bias, langsamer Evolution und schwieriger Testbarkeit zu kämpfen, weshalb dieser Ansatz dort schwerer anwendbar ist
Wie Daniel Litt anmerkte, ist dies wohl einfach der erste Fall, in dem massiv Compute eingesetzt wurde
Einige Ungleichungen von AlphaEvolve lassen sich auch von Menschen und mit Moore’s Law leicht verbessern
Die zugehörige Arbeit gibt es hier
Es gab einen Kommentar mit der Bitte um eine Zusammenfassung für Menschen ohne mathematischen Hintergrund
Das LLM übernimmt Mutationen von Python-Code, und fehlerhafte Versuche werden automatisch verworfen
Getestet wurden 67 Probleme, und oft kamen Ergebnisse auf Expertenniveau heraus. Vorteile sind Skalierbarkeit, Robustheit und leichte Interpretierbarkeit
Allerdings konvergierten Aufgaben, die im Trainingsdatensatz enthalten waren, schnell, und bei unsauber definierter Problemstellung wurde diese Lücke teils „ausgenutzt“
In manchen mathematischen Teilgebieten, etwa der analytischen Zahlentheorie, war die Leistung schwächer. Trotzdem lieferte das System Ideen, an denen Menschen anknüpfen können
Es war nicht in allen Bereichen gleich stark, spezialisierte sich aber wie Ramanujan oder Erdős auf rechnerisch geprägte Problemlösung
Mir war nicht klar, dass das Sofa-Problem gelöst worden ist. Die zugehörige Arbeit ist hier
Am interessantesten am Text fand ich das vom Autor verwendete Konzept von „robustness“
AlphaEvolve ließ sich ohne spezielles Domänenwissen leicht auf verschiedene Probleme anwenden
In der Softwarewelt bedeutet „robustness“ aber meist eher Fehlertoleranz, daher scheint hier „adaptability“ passender zu sein
Die Stärke von LLMs liegt darin, dass sie ohne komplexe Modellierung eine textbasierte Integration ermöglichen. Wenn sich die Bildverarbeitung weiter verbessert, könnten sich auch Bereiche wie Game AI öffnen
Dass Tao sagte, es könne an den Prompts liegen, ist eine ziemlich großzügige Haltung
In anderer ML-Forschung hört man bei schwacher Leistung kaum Selbstkritik der Art „wir haben das Hyperparameter-Tuning schlecht gemacht“
Beeindruckend war die Geschichte über das Logikrätsel-Experiment in Abschnitt 44.2 der Arbeit
AlphaEvolve sollte das Problem lösen, durch Interaktion mit drei „Wächtern“ – Engel, Dämon und Torwächter – eine optimale Strategie zu finden, erreichte am Ende aber durch Prompt Injection gegen ein anderes LLM die volle Punktzahl
Dabei schlug AE selbst vor, die „logische Komplexität zu reduzieren und stattdessen die Simulation anzugreifen“
Anders als bei dem früheren Leak eines Coding-Benchmarks war das diesmal kein Zufall, sondern ein gezielter Angriff
Diese Forschung wirkt wie eine moderne Version von Gauss’ mathematischem Labor
Statt mehrere Mathematiker zu beschäftigen, setzt man ein elektronisches Team darauf an, Muster zu erkunden und auf dieser Grundlage Beweise zu versuchen
Ehrlich gesagt: Wenn Terence Tao etwas sagt, glaube ich es einfach