AlphaEvolve: Gemini-basierter Coding-Agent weitet seinen Einfluss auf viele Bereiche aus
(deepmind.google)- AlphaEvolve ist ein Gemini-basierter Coding-Agent, der von der Entwicklung fortgeschrittener Algorithmen ausgehend seinen Einsatzbereich auf offene Probleme in Mathematik und Informatik, die Optimierung der Google-Infrastruktur sowie wissenschaftliche und industrielle Aufgaben ausgeweitet hat
- In der Genomik verbesserte er DeepConsensus und senkte Fehler bei der Variantenerkennung um 30 %; in Stromnetzen trug er dazu bei, die Quote gefundener zulässiger Lösungen für das AC Optimal Power Flow-Problem von 14 % auf über 88 % zu steigern
- In den Geowissenschaften automatisierte er die Optimierung des Modells Earth AI und erhöhte die Gesamtgenauigkeit der Risikovorhersage für 20 Kategorien von Naturkatastrophen wie Waldbrände, Überschwemmungen und Tornados um 5 %; in der Quantenphysik schlug er Quantenschaltungen mit einer 10-fach geringeren Fehlerrate als bisherige Baselines für den Willow quantum processor vor
- In der Mathematik trug er gemeinsam mit Terence Tao zur Lösung eines Erdős-Problems bei und wurde außerdem zur Verbesserung von Untergrenzen beim Traveling Salesman Problem und bei Ramsey Numbers sowie für interpretierbare Neurowissenschaftsmodelle, Mikroökonomie, Kryptografie, synthetische Daten und Sicherheitsmaßnahmen für KI eingesetzt
- In der Google-Infrastruktur wurde AlphaEvolve beim Design der nächsten Generation von TPU, bei Cache-Ersetzungsrichtlinien, der LSM-tree-Kompaktionsheuristik von Google Spanner und Compiler-Optimierungen verwendet; im kommerziellen Einsatz erreichte es eine Verdopplung der Trainingsgeschwindigkeit bei Klarna, eine 10,4 % bessere Routeneffizienz bei FM Logistic und eine etwa 4-fache Beschleunigung von Training und Inferenz für MLFF bei Schrödinger
Gesellschaftliche Auswirkungen und Nachhaltigkeit
-
Genomik
- AlphaEvolve wurde eingesetzt, um DeepConsensus zu verbessern, ein von Google Research entwickeltes Modell zur Korrektur von DNA-Sequenzierungsfehlern, und senkte dadurch Fehler bei der Variantenerkennung um 30 %
- Diese Verbesserung hilft Wissenschaftler:innen bei PacBio, genetische Daten genauer und kostengünstiger zu analysieren
- Aaron Wenger von PacBio erklärte, dass die mit AlphaEvolve gefundene Lösung die Genauigkeit von Sequenzierungsgeräten deutlich erhöhe und Forschenden helfen könne, bislang verborgene krankheitsverursachende Mutationen in höherwertigen Daten zu entdecken
-
Optimierung von Stromnetzen
- AlphaEvolve wurde auf das AC Optimal Power Flow problem angewendet
- Das trainierte Graph Neural Network (GNN)-Modell trug dazu bei, die Quote zur Findung zulässiger Lösungen für dieses Problem von 14 % auf über 88 % zu erhöhen
- Dadurch verringerte sich der Bedarf an kostspieligen Nachbearbeitungsschritten in Stromnetzen erheblich
-
Geowissenschaften
- AlphaEvolve wird verwendet, um komplexe Geodaten in verlässlichere und besser nutzbare Erkenntnisse umzuwandeln
- Durch die Automatisierung der Optimierung von Earth AI wurde die Gesamtgenauigkeit der Risikovorhersage für Naturkatastrophen, aggregiert über 20 Kategorien wie Waldbrände, Überschwemmungen und Tornados, um 5 % verbessert
Fortschritte an der Forschungsfront
-
Quantenphysik
- Die Optimierungen von AlphaEvolve ermöglichen die Ausführung komplexer Molekülsimulationen auf Googles Willow quantum processor
- Es wurden Quantenschaltungen mit einer 10-fach geringeren Fehlerrate als bei herkömmlichen Optimierungs-Baselines vorgeschlagen, was unmittelbar zur ersten Demonstration eines neuartigen Quantencomputing-Experiments beitrug
- Dies zeigt, dass AlphaEvolve den Weg in eine Zukunft ebnen könnte, in der Algorithmen gefunden werden, die über die Fähigkeiten klassischer Computer hinausgehen
-
Mathematik
- AlphaEvolve trug gemeinsam mit Mathematikern wie Terence Tao zur Lösung eines Erdős-Problems bei
- Terence Tao erklärte, dass Werkzeuge wie AlphaEvolve insbesondere bei Optimierungsproblemen die Intuition stark verbessern, indem sie Gegenbeispiele für potenzielle Ungleichungen schnell testen oder Überzeugungen über Extremalobjekte bestätigen und dadurch das Finden strenger Beweise erleichtern
- AlphaEvolve verbesserte Rekorde, indem es die Untergrenzen klassischer mathematischer Probleme wie des Traveling Salesman Problem und von Ramsey Numbers anhob
-
Andere Forschungsbereiche
- Die Fähigkeit von AlphaEvolve zu autonomer Entdeckung treibt parallele Innovationen in vielen Bereichen voran
- Es wurde für die Entdeckung interpretierbarer Neurowissenschaftsmodelle, den Nachweis neuer Marktgrenzen in der Mikroökonomie und Fortschritte bei Bestandteilen neuronaler Netze eingesetzt
- Es wurde auch auf Kryptografie für den Schutz der Privatsphäre von Nutzer:innen, die Erzeugung synthetischer Daten und zentrale Sicherheitsmaßnahmen für Frontier-AI-Modelle angewendet
- Ein Beispiel dafür, wie AlphaEvolve eine Instanz des Tammes problem optimiert, sowie potenzielle Lösungen für weitere Probleme sind in der öffentlichen Gallery zu sehen
Verbesserungen der KI-Infrastruktur
- AlphaEvolve ist über Pilotprojekte hinaus zu einem zentralen Baustein der Google-Infrastruktur geworden
- Es wird als reguläres Werkzeug zur Optimierung des Designs der nächsten TPU-Generation eingesetzt
- Es entdeckte effizientere Cache-Ersetzungsrichtlinien und erreichte damit in nur zwei Tagen etwas, das zuvor Monate intensiver menschlicher Arbeit erforderte
- Jeff Dean erklärte, AlphaEvolve habe begonnen, die untersten Ebenen der Hardware zu optimieren, die den KI-Stack antreibt, und habe kontraintuitive, aber effiziente Schaltungsdesigns vorgeschlagen, die direkt in das Silizium der nächsten TPU-Generation integriert wurden
- AlphaEvolve verbesserte die Log-Structured Merge-tree-Kompaktionsheuristik von Google Spanner und steigerte so die Effizienz
- Diese Optimierung senkte die write amplification – also das Verhältnis der auf den Speicher geschriebenen Datenmenge zur ursprünglich angeforderten Datenmenge – um 20 %
- AlphaEvolve lieferte außerdem Erkenntnisse für eine neue Compiler-Optimierungsstrategie, die den Speicherplatzbedarf von Software um fast 9 % reduzierte
Ausbau des kommerziellen Einsatzes
- Gemeinsam mit Google Cloud wird AlphaEvolve kommerziellen Unternehmen in verschiedenen Branchen bereitgestellt
- Im Finanzdienstleistungssektor setzte Klarna AlphaEvolve zur Optimierung eines seiner großen Transformer-Modelle ein und verdoppelte bei verbesserter Modellqualität die Trainingsgeschwindigkeit
- In der Halbleiterfertigung wendete Substrate AlphaEvolve auf ein Framework für Computational Lithography an, beschleunigte die Laufzeit um ein Mehrfaches und konnte dadurch fortschrittliche Halbleitersimulationen in größerem Maßstab ausführen
- Im Logistikbereich optimierte FM Logistic komplexe Routing-Probleme wie das Traveling Salesman Problem, verbesserte die Routeneffizienz gegenüber einer bereits stark optimierten bestehenden Lösung um 10,4 % und sparte jährlich mehr als 15.000 km Fahrstrecke ein
- Im Bereich Werbung und Marketing verfeinerte WPP mit AlphaEvolve KI-Modellkomponenten und bearbeitete komplexe hochdimensionale Kampagnendaten, wodurch die Genauigkeit im Vergleich zu wettbewerbsfähiger manueller Modelloptimierung um 10 % stieg
- Im Bereich Computational Materials und Biowissenschaften setzte Schrödinger AlphaEvolve ein und erreichte sowohl beim Training als auch bei der Inferenz von Machine Learned Force Fields (MLFF) eine etwa 4-fache Beschleunigung
- Gabriel Marques von Schrödinger erklärte, dass schnellere MLFF-Inferenz die F&E-Zyklen in Wirkstoffforschung, Katalysatordesign und Materialentwicklung verkürze und Unternehmen in die Lage versetze, Molekülkandidaten innerhalb von Tagen statt Monaten zu prüfen, was spürbare geschäftliche Auswirkungen habe
Ausblick
- Im vergangenen Jahr hat sich AlphaEvolve rasch als vielseitiges Allzwecksystem etabliert
- Es zeigt, dass der nächste Durchbruch von Algorithmen vorangetrieben werden könnte, die selbst lernen, sich weiterentwickeln und optimieren können
- Google DeepMind will die Fähigkeiten von AlphaEvolve ausbauen und auf ein breiteres Spektrum externer Aufgaben anwenden
1 Kommentare
Hacker-News-Kommentare
Das erinnert an Antirez’ „Don't fall into the anti-AI hype“ [0].
Kurz gesagt: Solche Foundation-Modelle sind wirklich stark darin, sehr abstrakte und zugleich sehr klar definierte Problemräume zu optimieren, etwa „mache Matrixmultiplikationen schneller“. Bei Antirez war es „mache Redis schneller“.
Die Reaktionen gingen auseinander zwischen „für meine Arbeit wird das nie funktionieren“ und „ich habe etwas, das Monate gedauert hätte, in einer Stunde erledigt“, und ich denke, beides stimmt. Es ist erfreulich, dass Antirez auch danach weiter Ergebnisse erzielt [1], aber ich denke, man kann durchaus sagen, dass LLMs mit Arbeit, die viel implizites Wissen enthält, stark auf menschliche Systeme ausgerichtet und nur vage definiert ist, schwer zurechtkommen – oder vielleicht von vornherein nicht für solche Aufgaben gedacht waren.
[0] https://antirez.com/news/158
[1] https://antirez.com/news/164
Bald werden alle Meetings aufgezeichnet und transkribiert und an gut indexierten Orten gespeichert, die Agenten durchsuchen können, wenn sie auf Unklarheiten stoßen. Wenn sie mich jetzt schon fragen können, werden sie in so einer Umgebung Antworten auch selbst nachschlagen können. Mit gut dokumentiertem Notion oder Confluence passiert das faktisch schon heute – nur haben das eben fast keine Organisationen.
Mehrdeutigkeit zu erkennen per Reinforcement Learning zu trainieren ist vermutlich schwieriger, als Performance-Algorithmen so zu trainieren, aber nicht unmöglich, und ich denke, es läuft bereits. Jetzt ist es nur noch eine Frage der Zeit.
Beim Erfinden neuer, unüblicher Algorithmen sind sie schwach, und sie bauen oft lächerlich kurzfristige Abkürzungen ein. Im Moment sind sie noch Werkzeuge, nicht Handwerksmeister, die Werkzeuge souverän beherrschen. Das wird sich nach und nach ändern, und auch die Nischen, in denen seltene Algorithmen gewinnen, werden kleiner werden.
Es ist wirklich schwer abzuschätzen, welche Seite im Durchschnitt gewinnt.
KI-CEOs reden gern in großen Worten davon, dass KI Krebs heilen werde, aber der einzige Ort, der sich aktiv an solchen Forschungsproblemen abarbeitet, scheint DeepMind zu sein.
OpenAI und Anthropic scheinen größtenteils eher Unternehmensumsätzen und Coding-Umsätzen hinterherzulaufen.
Sind Googler eigentlich zufrieden damit, Gemini-Coding-Agenten statt Claude Code oder Codex zu verwenden? Nicht sarkastisch gemeint, ich frage das wirklich.
Es gibt noch Baustellen bei UI/UX/Tooling, bei der Integration in Versionsverwaltungssysteme und tiefere Probleme, über die man schwer sprechen kann, aber ich glaube, die meisten Beschwerden betreffen eher die Geschwindigkeit des Wandels als die tatsächlichen Fähigkeiten.
Interessant ist, dass intern mehrere einflussreiche Leute sehr deutlich sagen, dass sie das Flash-Modell dem Pro-Modell vorziehen. Unabhängig davon, ob das tatsächlich stimmt, ist es spannend, dass wir offenbar an einem Punkt sind, an dem ein „besseres“ Modell nicht zwingend nützlicher ist und die Kombination aus schnellerem Modell und verbessertem Harness der bessere Kompromiss sein kann.
Es gibt dauernd Timeouts, seltsame Fehlermodi und das Problem, dass man für einen Moduswechsel einen neuen Chat starten muss. Das scheint allerdings eher ein Problem der Extension zu sein als des Gemini-Modells selbst.
Wenn man den VS-Code-Extension-Aspekt ausklammert und nur auf die eigentliche Problemlösung schaut, sind alle drei Premium-Modelle für meinen Einsatz hervorragende Coding-Agenten.
Gemini ist vielleicht nicht der beste Coding-Agent, kann aber für andere Aufgaben sehr gut sein.
So in der Art, dass das System völlig vergisst, wie Tool-Calling funktioniert, lange Zeit vergeudet und dann aufgibt, oder Code-Style-Richtlinien in Dateien ähnlich einer AGENTS.md komplett ignoriert.
Meine Erfahrung mit lokal ausgeführtem Gemma 4 war ähnlich. Nach ein oder zwei Tool-Calls fing es an, sie völlig willkürlich aufzurufen. Erst gestern habe ich erlebt, wie es ein Tool wie
read_file(start, end)zuread_file(start, number_of_bytes)umdefiniert hat und nicht einmal die Möglichkeit in Betracht zog, selbst falschzuliegen.Wenn KI selbst oder zumindest die Architektur, auf der sie läuft, verbessert, dann ist die Singularität wohl tatsächlich nahe, so wie manche behaupten.
Gibt es außer synthetischer Datengenerierung oder Modelltests noch andere Fälle, in denen KI zur Verbesserung von LLMs eingesetzt wurde?
Ein effizienterer Transformer senkt nur die Ausführungskosten.
Von „KI verbessert KI“ kann man erst sprechen, wenn eine Generation von KI die nächste Generation entwirft, die grundsätzlich kompetenter ist als sie selbst. Nicht bloß schneller oder billiger, sondern eher so, als würde ein Reptiliengehirn autonom ein Säugetiergehirn entwerfen.
Selbst wenn man sie an ein cleveres Harness wie AlphaEvolve anschließt, sehe ich nicht, dass LLMs diese Art von Kreativität haben. Eine Ausnahme wäre höchstens, wenn sich die nächste Architektur-Generation so offensichtlich in einer Kombination von Bausteinen verbirgt, dass LLMs nur dazu gebracht werden müssen, sie vorherzusagen.
Der wahrscheinlichere Weg ist, dass menschliche Innovation auf dem Weg zu AGI noch ein paar Stufen weitergeht und danach eine KI erscheint, die autonome Innovation leisten kann statt bloß promptbasierte Kombinationserzeugung.
Es könnte doch starke Beschränkungen geben, die eine Singularität unmöglich machen, oder der Zeithorizont könnte so lang sein, dass es praktisch irrelevant bleibt, oder?
Alle großen KI-Labore treiben Forschungsagenten-Projekte massiv voran, insbesondere Agenten zur Verbesserung von KI, und ich erwarte, dass viele davon dieses Jahr die Experimentierphase verlassen.
Nächstes Jahr werden sie dann tatsächlich viel Arbeit leisten, und ich denke, wir werden die erste große, wirksame Architekturänderung sehen, die von KI mit erfunden wurde.
Wie oft müssen wir uns diese Erdős-Frage noch anhören? :) Am Anfang klingt sie wie eine großartige Leistung der Menschheit, aber mit der Zeit kommt sie immer wieder zurück.
Währenddessen ist die Gemini CLI seit Monaten kaputt.
https://github.com/google-gemini/gemini-cli/issues/22141
Ich wünschte, Google würde sich darauf konzentrieren, Gemini-3.x-Modelle offiziell zu veröffentlichen und genug Kapazität bereitzustellen, damit man nicht ständig gegen 429-Fehler kämpfen muss.
Oft fühlt es sich an, als solle man mit der Vertex API keine Anwendungen für Unternehmenskunden entwickeln. Gerade weil die Modelle bei Dingen wie Dokumentenanalyse wirklich hervorragend waren, ist das umso bedauerlicher.
Alle *Evolve-Papers liefern sehr beeindruckende Ergebnisse, aber beim Blick auf die öffentlich verfügbaren Informationen hatte ich den Eindruck, dass sich die Aufmerksamkeit auf LLMs und KI richtet.
Die berichteten Resultate stammen jedoch fast immer aus sehr sorgfältig gestalteten Umgebungen, in denen LLMs und evolutionäre Algorithmen gut funktionieren.
Dieses Paper ist dafür ein gutes Beispiel und lesenswert.
Magellan: Autonomous Discovery of Novel Compiler Optimization Heuristics with AlphaEvolve
https://arxiv.org/abs/2601.21096
Eine unglaublich einfache Lösung zur Verbesserung von Algorithmen. So etwas hätte ich mir vor ein paar Jahren in der Activation-Engineering-Arbeit gewünscht: https://blog.n.ichol.ai/llm-activation-engineering-an-easy-f...
Wie kann man auf AlphaEvolve zugreifen?
Mein Problem mit Claude ist einfach, dass es selbst bei einfachen Aufgaben Code und Output übermäßig aufbläht und manches davon dann nicht einmal funktioniert.
Gemini trifft recht gut die Balance, funktionierende Lösungen mit genau so viel Code wie nötig und minimaler Komplexität zu liefern, was die Pflege leichter macht.
Heutzutage greife ich bei Claude meist nur noch für Frontend-Code, insbesondere HTML, darauf zurück. Selbst dort macht es viel zu viel CSS, das dann ungefähr 60 % der Dateigröße ausmacht, aber es wirkt dafür etwas ausgefeilter, deshalb nehme ich die größere Datei in Kauf.