2 Punkte von GN⁺ 2 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • AlphaEvolve ist ein Gemini-basierter Coding-Agent, der von der Entwicklung fortgeschrittener Algorithmen ausgehend seinen Einsatzbereich auf offene Probleme in Mathematik und Informatik, die Optimierung der Google-Infrastruktur sowie wissenschaftliche und industrielle Aufgaben ausgeweitet hat
  • In der Genomik verbesserte er DeepConsensus und senkte Fehler bei der Variantenerkennung um 30 %; in Stromnetzen trug er dazu bei, die Quote gefundener zulässiger Lösungen für das AC Optimal Power Flow-Problem von 14 % auf über 88 % zu steigern
  • In den Geowissenschaften automatisierte er die Optimierung des Modells Earth AI und erhöhte die Gesamtgenauigkeit der Risikovorhersage für 20 Kategorien von Naturkatastrophen wie Waldbrände, Überschwemmungen und Tornados um 5 %; in der Quantenphysik schlug er Quantenschaltungen mit einer 10-fach geringeren Fehlerrate als bisherige Baselines für den Willow quantum processor vor
  • In der Mathematik trug er gemeinsam mit Terence Tao zur Lösung eines Erdős-Problems bei und wurde außerdem zur Verbesserung von Untergrenzen beim Traveling Salesman Problem und bei Ramsey Numbers sowie für interpretierbare Neurowissenschaftsmodelle, Mikroökonomie, Kryptografie, synthetische Daten und Sicherheitsmaßnahmen für KI eingesetzt
  • In der Google-Infrastruktur wurde AlphaEvolve beim Design der nächsten Generation von TPU, bei Cache-Ersetzungsrichtlinien, der LSM-tree-Kompaktionsheuristik von Google Spanner und Compiler-Optimierungen verwendet; im kommerziellen Einsatz erreichte es eine Verdopplung der Trainingsgeschwindigkeit bei Klarna, eine 10,4 % bessere Routeneffizienz bei FM Logistic und eine etwa 4-fache Beschleunigung von Training und Inferenz für MLFF bei Schrödinger

Gesellschaftliche Auswirkungen und Nachhaltigkeit

  • Genomik

    • AlphaEvolve wurde eingesetzt, um DeepConsensus zu verbessern, ein von Google Research entwickeltes Modell zur Korrektur von DNA-Sequenzierungsfehlern, und senkte dadurch Fehler bei der Variantenerkennung um 30 %
    • Diese Verbesserung hilft Wissenschaftler:innen bei PacBio, genetische Daten genauer und kostengünstiger zu analysieren
    • Aaron Wenger von PacBio erklärte, dass die mit AlphaEvolve gefundene Lösung die Genauigkeit von Sequenzierungsgeräten deutlich erhöhe und Forschenden helfen könne, bislang verborgene krankheitsverursachende Mutationen in höherwertigen Daten zu entdecken
  • Optimierung von Stromnetzen

    • AlphaEvolve wurde auf das AC Optimal Power Flow problem angewendet
    • Das trainierte Graph Neural Network (GNN)-Modell trug dazu bei, die Quote zur Findung zulässiger Lösungen für dieses Problem von 14 % auf über 88 % zu erhöhen
    • Dadurch verringerte sich der Bedarf an kostspieligen Nachbearbeitungsschritten in Stromnetzen erheblich
  • Geowissenschaften

Fortschritte an der Forschungsfront

Verbesserungen der KI-Infrastruktur

  • AlphaEvolve ist über Pilotprojekte hinaus zu einem zentralen Baustein der Google-Infrastruktur geworden
  • Es wird als reguläres Werkzeug zur Optimierung des Designs der nächsten TPU-Generation eingesetzt
  • Es entdeckte effizientere Cache-Ersetzungsrichtlinien und erreichte damit in nur zwei Tagen etwas, das zuvor Monate intensiver menschlicher Arbeit erforderte
  • Jeff Dean erklärte, AlphaEvolve habe begonnen, die untersten Ebenen der Hardware zu optimieren, die den KI-Stack antreibt, und habe kontraintuitive, aber effiziente Schaltungsdesigns vorgeschlagen, die direkt in das Silizium der nächsten TPU-Generation integriert wurden
  • AlphaEvolve verbesserte die Log-Structured Merge-tree-Kompaktionsheuristik von Google Spanner und steigerte so die Effizienz
  • Diese Optimierung senkte die write amplification – also das Verhältnis der auf den Speicher geschriebenen Datenmenge zur ursprünglich angeforderten Datenmenge – um 20 %
  • AlphaEvolve lieferte außerdem Erkenntnisse für eine neue Compiler-Optimierungsstrategie, die den Speicherplatzbedarf von Software um fast 9 % reduzierte

Ausbau des kommerziellen Einsatzes

  • Gemeinsam mit Google Cloud wird AlphaEvolve kommerziellen Unternehmen in verschiedenen Branchen bereitgestellt
  • Im Finanzdienstleistungssektor setzte Klarna AlphaEvolve zur Optimierung eines seiner großen Transformer-Modelle ein und verdoppelte bei verbesserter Modellqualität die Trainingsgeschwindigkeit
  • In der Halbleiterfertigung wendete Substrate AlphaEvolve auf ein Framework für Computational Lithography an, beschleunigte die Laufzeit um ein Mehrfaches und konnte dadurch fortschrittliche Halbleitersimulationen in größerem Maßstab ausführen
  • Im Logistikbereich optimierte FM Logistic komplexe Routing-Probleme wie das Traveling Salesman Problem, verbesserte die Routeneffizienz gegenüber einer bereits stark optimierten bestehenden Lösung um 10,4 % und sparte jährlich mehr als 15.000 km Fahrstrecke ein
  • Im Bereich Werbung und Marketing verfeinerte WPP mit AlphaEvolve KI-Modellkomponenten und bearbeitete komplexe hochdimensionale Kampagnendaten, wodurch die Genauigkeit im Vergleich zu wettbewerbsfähiger manueller Modelloptimierung um 10 % stieg
  • Im Bereich Computational Materials und Biowissenschaften setzte Schrödinger AlphaEvolve ein und erreichte sowohl beim Training als auch bei der Inferenz von Machine Learned Force Fields (MLFF) eine etwa 4-fache Beschleunigung
  • Gabriel Marques von Schrödinger erklärte, dass schnellere MLFF-Inferenz die F&E-Zyklen in Wirkstoffforschung, Katalysatordesign und Materialentwicklung verkürze und Unternehmen in die Lage versetze, Molekülkandidaten innerhalb von Tagen statt Monaten zu prüfen, was spürbare geschäftliche Auswirkungen habe

Ausblick

  • Im vergangenen Jahr hat sich AlphaEvolve rasch als vielseitiges Allzwecksystem etabliert
  • Es zeigt, dass der nächste Durchbruch von Algorithmen vorangetrieben werden könnte, die selbst lernen, sich weiterentwickeln und optimieren können
  • Google DeepMind will die Fähigkeiten von AlphaEvolve ausbauen und auf ein breiteres Spektrum externer Aufgaben anwenden

1 Kommentare

 
GN⁺ 2 시간 전
Hacker-News-Kommentare
  • Das erinnert an Antirez’ „Don't fall into the anti-AI hype“ [0].
    Kurz gesagt: Solche Foundation-Modelle sind wirklich stark darin, sehr abstrakte und zugleich sehr klar definierte Problemräume zu optimieren, etwa „mache Matrixmultiplikationen schneller“. Bei Antirez war es „mache Redis schneller“.
    Die Reaktionen gingen auseinander zwischen „für meine Arbeit wird das nie funktionieren“ und „ich habe etwas, das Monate gedauert hätte, in einer Stunde erledigt“, und ich denke, beides stimmt. Es ist erfreulich, dass Antirez auch danach weiter Ergebnisse erzielt [1], aber ich denke, man kann durchaus sagen, dass LLMs mit Arbeit, die viel implizites Wissen enthält, stark auf menschliche Systeme ausgerichtet und nur vage definiert ist, schwer zurechtkommen – oder vielleicht von vornherein nicht für solche Aufgaben gedacht waren.
    [0] https://antirez.com/news/158
    [1] https://antirez.com/news/164

    • Ehrlich gesagt glaube ich das inzwischen nicht mehr. Die Modelle gehen inzwischen ziemlich gut mit Mehrdeutigkeit um, und Claude Code stellt mir mittlerweile Fragen, wenn etwas unklar ist.
      Bald werden alle Meetings aufgezeichnet und transkribiert und an gut indexierten Orten gespeichert, die Agenten durchsuchen können, wenn sie auf Unklarheiten stoßen. Wenn sie mich jetzt schon fragen können, werden sie in so einer Umgebung Antworten auch selbst nachschlagen können. Mit gut dokumentiertem Notion oder Confluence passiert das faktisch schon heute – nur haben das eben fast keine Organisationen.
      Mehrdeutigkeit zu erkennen per Reinforcement Learning zu trainieren ist vermutlich schwieriger, als Performance-Algorithmen so zu trainieren, aber nicht unmöglich, und ich denke, es läuft bereits. Jetzt ist es nur noch eine Frage der Zeit.
    • Claude und ähnliche Systeme waren ziemlich gut darin, Algorithmen, die ich mir ausgedacht hatte, schnell zu implementieren. Allerdings muss man viele Kontrollfragen stellen und den Code prüfen.
      Beim Erfinden neuer, unüblicher Algorithmen sind sie schwach, und sie bauen oft lächerlich kurzfristige Abkürzungen ein. Im Moment sind sie noch Werkzeuge, nicht Handwerksmeister, die Werkzeuge souverän beherrschen. Das wird sich nach und nach ändern, und auch die Nischen, in denen seltene Algorithmen gewinnen, werden kleiner werden.
    • Am Ende scheint es immer auf eines von zwei Dingen hinauszulaufen: „Erstaunlich, die Effizienz um 1 % verbessert“ oder „Dumm gelaufen, eine Stunde verloren, weil ich eine halluzinierte API debuggt habe“.
      Es ist wirklich schwer abzuschätzen, welche Seite im Durchschnitt gewinnt.
    • Was, wenn KI-gestützte Forschung KI über LLMs hinaus voranbringt? Gehst du davon aus, dass so etwas nicht passieren kann?
    • Die Aussage „LLMs können keine Arbeit mit viel implizitem Wissen, menschensystemzentriertem Kontext und vager Definition leisten“ könnte um 2030 ziemlich kurzsichtig wirken.
  • KI-CEOs reden gern in großen Worten davon, dass KI Krebs heilen werde, aber der einzige Ort, der sich aktiv an solchen Forschungsproblemen abarbeitet, scheint DeepMind zu sein.
    OpenAI und Anthropic scheinen größtenteils eher Unternehmensumsätzen und Coding-Umsätzen hinterherzulaufen.

    • Google kann das mit Kriegskasse selbst finanzieren, OpenAI und Anthropic müssen dagegen bei Investoren anklopfen.
  • Sind Googler eigentlich zufrieden damit, Gemini-Coding-Agenten statt Claude Code oder Codex zu verwenden? Nicht sarkastisch gemeint, ich frage das wirklich.

    • Ja. Das Modell ist gut und schnell, und die internen Tools haben inzwischen aufgeholt.
      Es gibt noch Baustellen bei UI/UX/Tooling, bei der Integration in Versionsverwaltungssysteme und tiefere Probleme, über die man schwer sprechen kann, aber ich glaube, die meisten Beschwerden betreffen eher die Geschwindigkeit des Wandels als die tatsächlichen Fähigkeiten.
      Interessant ist, dass intern mehrere einflussreiche Leute sehr deutlich sagen, dass sie das Flash-Modell dem Pro-Modell vorziehen. Unabhängig davon, ob das tatsächlich stimmt, ist es spannend, dass wir offenbar an einem Punkt sind, an dem ein „besseres“ Modell nicht zwingend nützlicher ist und die Kombination aus schnellerem Modell und verbessertem Harness der bessere Kompromiss sein kann.
    • Wenn du die Gemini VS Code Extension meinst: Die ist im Vergleich zu Claude Code oder Codex miserabel. Ich verstehe nicht, wie sie in diesem Zustand produktiv eingesetzt wird.
      Es gibt dauernd Timeouts, seltsame Fehlermodi und das Problem, dass man für einen Moduswechsel einen neuen Chat starten muss. Das scheint allerdings eher ein Problem der Extension zu sein als des Gemini-Modells selbst.
      Wenn man den VS-Code-Extension-Aspekt ausklammert und nur auf die eigentliche Problemlösung schaut, sind alle drei Premium-Modelle für meinen Einsatz hervorragende Coding-Agenten.
    • Coding ist nicht der einzige Einsatzzweck von Gemini oder solchen Modellen. In diesem Artikel geht es auch nicht um Coding.
      Gemini ist vielleicht nicht der beste Coding-Agent, kann aber für andere Aufgaben sehr gut sein.
    • Letzten Monat deutete Steve Yegge an, dass das nicht so ist: https://xcancel.com/Steve_Yegge/status/2043747998740689171
    • Nach Gesprächen mit Leuten bei Google hatten die meisten Unzufriedenheit mit den internen Gemini-Agenten und scheinen zu finden, dass es in letzter Zeit deutlich schlechter geworden ist.
      So in der Art, dass das System völlig vergisst, wie Tool-Calling funktioniert, lange Zeit vergeudet und dann aufgibt, oder Code-Style-Richtlinien in Dateien ähnlich einer AGENTS.md komplett ignoriert.
      Meine Erfahrung mit lokal ausgeführtem Gemma 4 war ähnlich. Nach ein oder zwei Tool-Calls fing es an, sie völlig willkürlich aufzurufen. Erst gestern habe ich erlebt, wie es ein Tool wie read_file(start, end) zu read_file(start, number_of_bytes) umdefiniert hat und nicht einmal die Möglichkeit in Betracht zog, selbst falschzuliegen.
  • Wenn KI selbst oder zumindest die Architektur, auf der sie läuft, verbessert, dann ist die Singularität wohl tatsächlich nahe, so wie manche behaupten.
    Gibt es außer synthetischer Datengenerierung oder Modelltests noch andere Fälle, in denen KI zur Verbesserung von LLMs eingesetzt wurde?

    • Dass KI sich selbst kompetenter macht, und dass sie Software optimiert, die für KI-Training und Inferenz verwendet wird, sind so verschieden wie Äpfel und Birnen.
      Ein effizienterer Transformer senkt nur die Ausführungskosten.
      Von „KI verbessert KI“ kann man erst sprechen, wenn eine Generation von KI die nächste Generation entwirft, die grundsätzlich kompetenter ist als sie selbst. Nicht bloß schneller oder billiger, sondern eher so, als würde ein Reptiliengehirn autonom ein Säugetiergehirn entwerfen.
      Selbst wenn man sie an ein cleveres Harness wie AlphaEvolve anschließt, sehe ich nicht, dass LLMs diese Art von Kreativität haben. Eine Ausnahme wäre höchstens, wenn sich die nächste Architektur-Generation so offensichtlich in einer Kombination von Bausteinen verbirgt, dass LLMs nur dazu gebracht werden müssen, sie vorherzusagen.
      Der wahrscheinlichere Weg ist, dass menschliche Innovation auf dem Weg zu AGI noch ein paar Stufen weitergeht und danach eine KI erscheint, die autonome Innovation leisten kann statt bloß promptbasierte Kombinationserzeugung.
    • Ja. Als AlphaEvolve letztes Jahr vorgestellt wurde, verbesserte ein früheres Gemini-Modell die Kernel, die für das Training der aktuellen Modellgeneration verwendet werden, und machte Trainingsläufe um 1 % schneller. Nicht riesig, aber trotzdem ein Erfolg.
    • Das zuletzt Viralste war wohl https://github.com/karpathy/autoresearch
    • Bedeutet Selbstverbesserung denn zwangsläufig eine Singularität?
      Es könnte doch starke Beschränkungen geben, die eine Singularität unmöglich machen, oder der Zeithorizont könnte so lang sein, dass es praktisch irrelevant bleibt, oder?
    • Für mich ist „KI verbessert sich selbst“ etwas, auf das man 2027 achten sollte.
      Alle großen KI-Labore treiben Forschungsagenten-Projekte massiv voran, insbesondere Agenten zur Verbesserung von KI, und ich erwarte, dass viele davon dieses Jahr die Experimentierphase verlassen.
      Nächstes Jahr werden sie dann tatsächlich viel Arbeit leisten, und ich denke, wir werden die erste große, wirksame Architekturänderung sehen, die von KI mit erfunden wurde.
  • Wie oft müssen wir uns diese Erdős-Frage noch anhören? :) Am Anfang klingt sie wie eine großartige Leistung der Menschheit, aber mit der Zeit kommt sie immer wieder zurück.

    • Es gibt nur noch rund 700 offene Erdős-Probleme; wenn die alle gelöst sind, können wir endlich Ruhe geben.
  • Währenddessen ist die Gemini CLI seit Monaten kaputt.
    https://github.com/google-gemini/gemini-cli/issues/22141

  • Ich wünschte, Google würde sich darauf konzentrieren, Gemini-3.x-Modelle offiziell zu veröffentlichen und genug Kapazität bereitzustellen, damit man nicht ständig gegen 429-Fehler kämpfen muss.
    Oft fühlt es sich an, als solle man mit der Vertex API keine Anwendungen für Unternehmenskunden entwickeln. Gerade weil die Modelle bei Dingen wie Dokumentenanalyse wirklich hervorragend waren, ist das umso bedauerlicher.

    • Machst du das auf dem kostenlosen Tarif? Dort habe ich 429 deutlich häufiger gesehen.
  • Alle *Evolve-Papers liefern sehr beeindruckende Ergebnisse, aber beim Blick auf die öffentlich verfügbaren Informationen hatte ich den Eindruck, dass sich die Aufmerksamkeit auf LLMs und KI richtet.
    Die berichteten Resultate stammen jedoch fast immer aus sehr sorgfältig gestalteten Umgebungen, in denen LLMs und evolutionäre Algorithmen gut funktionieren.
    Dieses Paper ist dafür ein gutes Beispiel und lesenswert.
    Magellan: Autonomous Discovery of Novel Compiler Optimization Heuristics with AlphaEvolve
    https://arxiv.org/abs/2601.21096

  • Eine unglaublich einfache Lösung zur Verbesserung von Algorithmen. So etwas hätte ich mir vor ein paar Jahren in der Activation-Engineering-Arbeit gewünscht: https://blog.n.ichol.ai/llm-activation-engineering-an-easy-f...
    Wie kann man auf AlphaEvolve zugreifen?

    • Das ist doch nur ein Angeber-Post. Entweder du wirst eine Milliarden-Dollar-Firma oder du kannst gehen.
  • Mein Problem mit Claude ist einfach, dass es selbst bei einfachen Aufgaben Code und Output übermäßig aufbläht und manches davon dann nicht einmal funktioniert.
    Gemini trifft recht gut die Balance, funktionierende Lösungen mit genau so viel Code wie nötig und minimaler Komplexität zu liefern, was die Pflege leichter macht.
    Heutzutage greife ich bei Claude meist nur noch für Frontend-Code, insbesondere HTML, darauf zurück. Selbst dort macht es viel zu viel CSS, das dann ungefähr 60 % der Dateigröße ausmacht, aber es wirkt dafür etwas ausgefeilter, deshalb nehme ich die größere Datei in Kauf.