3 Punkte von GN⁺ 2025-05-15 | 1 Kommentare | Auf WhatsApp teilen
  • AlphaEvolve ist ein evolutionärer Agent zur Algorithmusgenerierung, der LLMs und automatische Evaluatoren kombiniert
  • Hat konkrete Ergebnisse in Mathematik, Computing, AI und Hardware-Design nachgewiesen und wird in der gesamten Google-Infrastruktur eingesetzt
  • Kombiniert Gemini Flash und Gemini Pro, um Breite und Tiefe von Ideen zugleich zu erkunden
  • Erzielt bei Rechenzentrums-Scheduling, TPU-Design und AI-Kernel-Optimierung höhere Geschwindigkeit und geringeren Ressourcenverbrauch
  • Stellt sich mehr als 50 schwierigen Mathematikproblemen, schlägt neue Algorithmen vor und verbessert bei einigen Aufgaben bestehende Lösungsansätze

AlphaEvolve: Gemini-basierter Agent zur Algorithmen-Evolution

Überblick

  • AlphaEvolve ist ein von Google DeepMind entwickelter Coding-Agent auf Basis großer Sprachmodelle (LLMs)
  • Die Gemini-Modelle erzeugen kreative Codevorschläge, die Validierung übernimmt ein automatischer Evaluator
  • Mithilfe evolutionärer Algorithmen werden optimale Codekandidaten iterativ verbessert

Praktische Einsatzbereiche und Ergebnisse

Optimierung der Google-Computing-Infrastruktur

  • AlphaEvolve wird in Rechenzentren sowie über Hardware und Software hinweg eingesetzt
  • Effizienzverbesserungen erzeugen anhaltende Ausstrahlungseffekte auf die gesamte AI-Infrastruktur

Verbesserungen beim Rechenzentrums-Scheduling

  • Schlägt neue Heuristiken für Googles Cluster-Manager Borg vor
  • Seit über einem Jahr im Produktiveinsatz und trägt zur Rückgewinnung von 0,7 % der weltweiten Computing-Ressourcen bei
  • Durch menschenlesbaren Code leicht wartbar

Unterstützung beim Hardware-Design

  • Schlägt Optimierungen für in Verilog geschriebene Matrixmultiplikations-Schaltungen vor
  • Soll künftig in das TPU-Design von Google integriert werden
  • Fördert die Zusammenarbeit mit Hardware-Ingenieuren

Beschleunigung von AI-Training und Inferenz

  • Zerlegt Matrixmultiplikationen in kleinere Teilprobleme → 1 % schnelleres Training für Gemini
  • Verkürzt die Kernel-Optimierungszeit von mehreren Wochen auf wenige Tage
  • Verbessert FlashAttention-Kernel um bis zu 32,5 %
  • Kann selbst in Bereichen mit extrem aggressiver Compiler-Optimierung zusätzliche Leistungsgewinne erzielen

Innovationen in Mathematik und Algorithmen

Entdeckung eines neuen Matrixmultiplikations-Algorithmus

  • Findet eine bessere Methode als den bisherigen Strassen-Algorithmus (1969)
  • Verarbeitet 4x4-komplexe Matrizen mit nur 48 skalaren Multiplikationen

Erforschung schwieriger Mathematikprobleme

  • Experimente mit mehr als 50 Problemen aus Analysis, Geometrie, Kombinatorik und Zahlentheorie

    • In 75 % der Fälle wurden bestehende Bestlösungen wiedergefunden
    • In 20 % der Fälle wurden Ergebnisse erzielt, die bisherige Lösungen übertreffen
  • Beispiel: Entdeckung einer neuen unteren Schranke für das Kissing-Number-Problem

    • In 11 Dimensionen wurde mit einer Konfiguration von 593 Kugeln der bisherige Rekord verbessert

Funktionsweise

  1. Ein Prompt-Sampler erzeugt Eingaben
  2. Die Modelle Gemini Flash/Pro generieren Code
  3. Ein automatischer Evaluator bewertet Genauigkeit und Qualität quantitativ
  4. Mit einem genetischen Algorithmus wird besonders leistungsfähiger Code weiterentwickelt
  5. Optimaler Code ist wiederverwendbar, bereitstellbar und skalierbar

Weitere Pläne

  • Mit steigender Coding-Fähigkeit soll auch AlphaEvolve kontinuierlich verbessert werden
  • In Zusammenarbeit mit dem People + AI Research Team wird eine Benutzeroberfläche entwickelt
  • Soll über das Early Access Program für Nutzer aus der Wissenschaft verfügbar gemacht werden
    Interesse registrieren

Anwendungspotenzial

  • Auf alle Bereiche anwendbar, in denen sich Lösungen algorithmisch definieren und bewerten lassen
  • Beispiele: Entwicklung neuer Materialien, Wirkstoffsuche, Nachhaltigkeit sowie die Lösung technischer und geschäftlicher Probleme

Weiterführende Links

1 Kommentare

 
GN⁺ 2025-05-15
Hacker-News-Kommentare
  • Laut dem im Paper zitierten Inhalt benötigt die wiederholte Anwendung des Strassen-Algorithmus 49 Multiplikationen für die 4x4-Matrixmultiplikation, während AlphaEvolve als erste Methode die Multiplikation komplexer 4x4-Matrizen mit nur 48 Multiplikationen gefunden hat. Wenn man Matrizen direkt multipliziert, hat man das Gefühl, dass ähnliche Berechnungen mehrfach wiederholt werden. Zum Beispiel muss man beim Bestimmen der Größe der Vereinigungsmenge zweier Mengen die überlappenden Teile abziehen. Der Strassen-Algorithmus verfolgt Berechnungen, die in späteren Schritten benötigt werden, und ist eine Art dynamischer Programmierung ähnlich. Interessant ist, dass der zusätzliche Einsparungseffekt nur bei komplexen Zahlen auftritt; offenbar gibt es in der komplexen Ebene bei der naiven Methode etwas, das zu Doppelzählungen führt
    • Beim Googeln nach „4x4 matrices multiplication 48“ habe ich einen Beitrag auf math.stackexchange gefunden. Dort wurde 2019 erwähnt, dass 4x4-Matrixmultiplikation mit 48 Multiplikationen möglich sei, zusammen mit einem Link zu einer Dissertation. Ich vermute, dass dieser Teil des Ergebnisses bereits bekannt war (den Überblick über den Algorithmus habe ich allerdings noch nicht geprüft)
    • Es scheint ein Missverständnis über den Strassen-Algorithmus zu geben. Erstens ist Strassen keine dynamische Programmierung, sondern ein klassisches Beispiel für Divide-and-Conquer. Zweitens funktioniert der Strassen-Algorithmus nicht nur mit komplexen Zahlen, sondern auch mit reellen Zahlen
  • Es heißt, AlphaEvolve habe beim FlashAttention-Kernel von Transformer-basierten AI-Modellen Geschwindigkeitssteigerungen von bis zu 32,5 % erreicht. Erwähnt wird außerdem, dass in 75 % der Fälle die bisher beste Lösung wiederentdeckt wurde und in 20 % der Fälle der bisherige Rekord weiter verbessert wurde. Das ist wirklich beeindruckend, aber ich würde gern konkreter wissen, welche Methoden und Verbesserungen tatsächlich eingesetzt wurden. Ich frage mich, ob die 32,5 % nur in einem extremen Ausnahmefall erreicht wurden, und hätte gern echte Benchmarks gesehen
    • GPUs haben eine Cache-Hierarchie, daher bringt eine optimal abgestimmte Blockgröße enorme Vorteile, aber in der Praxis braucht man dafür viele unterschiedliche Kernel, GPUs und Tuning-Aufwände. Hinzu kommen Kernel-Fusion und API-Grenzen. Die Ergebnisse von AlphaEvolve sind sehr beeindruckend, aber weder Magie noch Trickerei
    • AlphaEvolve hat den Kernkernel der Gemini-Architektur um 23 % beschleunigt, indem es große Matrixmultiplikationsoperationen intelligent in leichter handhabbare Teilprobleme zerlegt hat, und dadurch die gesamte Trainingszeit von Gemini um 1 % reduziert
    • Solche Zahlen wirken in letzter Zeit übertrieben. Wenn FlashAttention wirklich um 32,5 % schneller geworden ist, frage ich mich, warum das nicht als PR im Flash-Attention-Repository eingereicht wurde. Ich würde das gern genauer lesen
  • Dieser Moment ist bedeutsam. Es gibt jetzt klare Belege dafür, dass AI-Systeme neue Forschung leisten können, die in der realen Welt echten Wert schafft. 1 % Einsparung ist nur der Anfang, und wenn sich solche Effekte aufsummieren, ist ein erheblicher Nutzen zu erwarten. Außerdem wurde dieser Prozess selbst auch zur Weiterentwicklung von gemini 2.5 pro genutzt, was schrittweise in Richtung Selbstverbesserung geht. Vollständig automatisiert ist es noch nicht, aber die Richtung wird sichtbar
    • Genetische Programmiersysteme verbessern seit Langem Algorithmen. Ob LLM-basierte genetische Programmierung ein grundlegender Umbruch oder nur eine schrittweise Evolution ist, weiß man noch nicht. Beim Konzept der Selbstverbesserung bin ich vorsichtig. Die Idee „GP verbessert sich mit GP selbst!“ ist wirklich alt, hat aber bis heute wenig geliefert. Dazu gibt es Beispiele und Papers anderer Firmen
    • Ich frage mich, ob dieses Ergebnis wirklich neu ist. Es gibt Quellen, nach denen Lösungen mit 48 und 46 Multiplikationen bereits bekannt waren, und zugleich Aufregung darüber, dass AI die Singularität erreicht habe. Wenn es wirklich ein großer Durchbruch wäre, wäre es wohl noch vor dem Paper bekannt geworden
  • Ich frage mich, wie inkrementell dieser Fortschritt tatsächlich ist. Als Beispiel habe ich B.2 (die zweite Autokorrelationsungleichung) genommen und das frühere Paper (https://arxiv.org/pdf/0907.1379) nachgeschlagen; dort erwähnen die Autoren, dass sie mit Mathematica numerische Suchen durchgeführt haben, um die frühere Schranke zu finden. Sie schreiben auch, dass sie diesen Teil nicht weiter verbessert haben, weil der Nutzen den Aufwand nicht wert war. Insofern ist auch der aktuelle Fortschritt von AlphaEvolve ziemlich inkrementell (wenn auch trotzdem ein schönes Ergebnis)
    • Jetzt ist der „Aufwand“ massiv gesunken, sodass wir an einem Punkt angekommen sind, an dem man nicht mehr sagen kann, es lohne sich nicht. Das allein ist wichtig
    • Was für Menschen keinen Zeitwert hatte, kann durch AI-Automatisierung in zahllosen „Chancen“ kumulieren und einen enormen Unterschied machen
    • Das fühlt sich genau wie das Signal an, dass echte AI gerade beginnt abzuheben
  • Bei so kühnen Behauptungen ist es schwer, eine defensive Haltung einzunehmen. Wenn es tatsächlich so ist wie beschrieben, dann ist eine „außer Kontrolle geratene AI“ im Grunde schon fertig. Philosophisch betrachtet: Wenn man einem älteren LLM neue Entdeckungen schrittweise erklärt, dann ist diese Information zwar „neues“ Wissen, aber letztlich wurde damit menschliche Intelligenz indirekt hineingeschleust
  • Cool ist es schon, aber ist das im Kern nicht eigentlich ähnlich wie Googles Co-Scientist? Mehrere LLMs reichen sich Kontext weiter und validieren sich gegenseitig. In der Ausführung beeindruckend, aber grundlegend nicht völlig neu. LLMs sind eindeutig nützlich, um Code zu optimieren oder Muster und Redundanzen zu erkennen, die Menschen übersehen, aber diese Nachricht wirkt auch wie ein weiterer schillernder Google-Blogpost. Das Label „Alpha“ wurde früher eher nur für klare Innovationen wie AlphaGo oder AlphaFold verwendet, heute scheint es auch an Systeme mit vergleichsweise geringerem Impact vergeben zu werden. Zur Einordnung: Auch Co-Scientist hatte eine Evaluationsmethode. ( https://research.google/blog/accelerating-scientific-breakth... siehe )
    • Das wird im AlphaEvolve-Paper behandelt. Während AI Co-Scientist wissenschaftliche Hypothesen und Bewertungen in natürlicher Sprache ausgedrückt hat, entwickelt sich AlphaEvolve über Code-Evolution und programmatische Bewertungsfunktionen weiter. Dadurch konnte man LLM-Halluzinationen weitgehend vermeiden und das Evolutionsverfahren über viele Schritte hinweg kontinuierlich fortführen
    • Ganz typisch Google habe ich das Gefühl, dass dort weiterhin unterschiedliche Teams gleichzeitig Produkte mit ähnlichen Funktionen bauen
    • Ich weiß nicht, ob „Google's Co-Scientist“ der Name mehrerer Projekte ist
  • Menschen, die auf die Singularität warten, springen auf Formulierungen wie diese an: „AlphaEvolve schlägt Änderungen in der Standardsprache vor, die Chip-Design-Ingenieure verwenden, sodass AI und Hardware-Ingenieure zusammenarbeiten können“
    • Um den relevanten Teil des Papers zu zitieren: AlphaEvolve entfernte unnötige Bits im Code der Recheneinheiten innerhalb der matmul-Unit, und TPU-Designer verifizierten die Korrektheit dieser Änderung. Der Grund könnte sein, dass die oberen Bits der Ausgabe des MAC-Schaltkreises an manchen Stellen nicht in den unteren Akkumulatoren usw. verwendet werden. Tatsächlich würden gleichwertige Optimierungen auch in nachgelagerten Synthesetools automatisch erfolgen, und es wird behauptet, dass das frühzeitige Abschneiden von Bits im Quell-RTL bedeutungsvoller sei als die Optimierung nach der Synthese. Allerdings garantieren Synthesetools, dass sich die Bedeutung der Schaltung nicht ändert, während Änderungen am Quell-RTL das nicht tun, weshalb menschliche Verifikation nötig ist. Schade ist allerdings, dass man im Syntheseergebnis nicht sehen kann, welche Teile optimiert wurden. LLM-basierte Code-Evolution kann für frühe Exploration im Hardware-Design sinnvoll sein, aber ich halte die tatsächlichen Leistungen von AlphaEvolve für übertrieben dargestellt
    • Letztlich bedeutet das, dass dies auf Compiler-Zwischendarstellungen oder Debug-Text arbeitet
    • Dieser Ansatz ist nur auf Optimierungsprobleme anwendbar, bei denen die Bewertungsfunktion gut definiert oder messbar ist. Eine Bewertungsfunktion für „allgemeine Intelligenz“ kann man so nicht schreiben
    • Die Formulierung „AlphaEvolve steigert die Effizienz in Googles Rechenzentren, beim Chip-Design und beim AI-Training — einschließlich des Trainings der LLMs, aus denen AlphaEvolve selbst entstanden ist“ wirkt eindrucksvoll. Es fühlt sich an, als sei die Realität angekommen, in der AI sich selbst schneller verbessert als Menschen
    • Die Singularität liegt immer am Höhepunkt überzogenen Selbstvertrauens, und AI ist in Wirklichkeit eher eine „automatisierte Sessellift“-Pseudo-Intelligenz
  • Interessant ist, dass AlphaEvolve offenbar schon seit einem Jahr eingesetzt wurde und erst jetzt öffentlich gemacht wurde. Laut Paper basiert es auf Gemini 2.0 (Pro und Flash), sodass hier die eigenartige Situation entstand, dass Gemini 2.0 dazu genutzt wurde, Gemini 2.5 zu trainieren. Auch wenn das noch keine typische „Selbstverbesserungs-Feedbackschleife“ ist, zeigt es doch etwas von diesem Kontext. Es bleibt die Frage, ob AlphaEvolve in diesem einen Jahr nur entwickelt oder von der Entwicklung bis in den produktiven Einsatz gebracht wurde. Außerdem bekommt man den Eindruck, dass es in der AI-Forschung nicht unbedingt nötig ist, erzielte Fortschritte sofort zu teilen
    • Wenn man genug Köpfe, Rechenressourcen und Hardware hat, scheint es nichts zu geben, was eine echte Feedbackschleife noch aufhalten könnte. DeepMind ist in dieser Hinsicht in einer einzigartigen Position
    • Der Einsatz von Gemini 2.0 zur Verbesserung von Gemini 2.5 ähnelt strukturell der Strategie, mit der OpenAI seit der Einführung von RLHF strukturierte Daten und destillierte Modelle erzeugt hat
    • Entscheidend ist die Autonomie. Wirklich bedeutsam wird es erst, wenn selbst vorgenommene Änderungen ohne menschliche Verifikation möglich sind. Wenn vollständig unerklärliche Lösungen zunehmen, ist fraglich, ob das in der Praxis wirklich hilfreich ist. Es könnten sich stattdessen einfach unnötig obskure Codes ansammeln. Man fragt sich, ob das wirklich das Ziel ist
  • Ich war überrascht, wie wenig die Evolutionsprozedur von AlphaEvolve erklärt wird. Die Formulierung „ein von MAP elites algorithm und island-based population model inspirierter Algorithmus“ bedeutet bei „inspiriert von“ in der Praxis oft sehr viel. Wie werden die Mutationsdimensionen von MAP-elites festgelegt, wie werden die beiden Algorithmen kombiniert, und wie weit reicht diese Inspiration konkret? Es fehlt an Details. Es wirkt fast so, als bliebe der Kern der Evolutionsprozedur als geheime Zutat verborgen
    • Das island-basierte LLM-Evolutionspaper in Nature von 2023 (https://www.nature.com/articles/s41586-023-06924-6) behandelt das ausführlicher. Solche zentralen Einstellungen von „Dimensionen/Features“ sind wichtig. Solche Whitepaper können wissenschaftlich sogar eher enttäuschend sein
    • Die einfachste Methode wäre, das Modell verschiedene Bewertungskriterien erzeugen zu lassen und jedes davon als Dimension zu verwenden
  • Im Paper gibt es zu wenig Erklärung zum evolutionären Teil. Normalerweise enthalten evolutionäre Algorithmen auch ein Crossover-Element; wenn das hier fehlt, sollte man es eigentlich eher als Hill Climbing oder Beam Search einordnen
    • In einer Bildunterschrift wird erwähnt, dass 16 „Mutationen“ nötig waren; ich würde gern verstehen, wie dieser Mutationsprozess aussieht
    • Es gibt auch „Evolutionary-Strategies“-Algorithmen, die ohne typische Mutation und Crossover eine Kandidatenpopulation verwenden, um eine Gradientenlandschaft zu approximieren
    • Die beunruhigende Möglichkeit ist, dass dies weniger ein evolutionärer Algorithmus ist, sondern eher nur ein anderer Ansatz mit einem ähnlich klingenden Namen