AlphaGenome: KI für ein besseres Verständnis des Genoms

(deepmind.google)

1 Punkte von GN⁺ 2025-06-27 | 2 Kommentare | Auf WhatsApp teilen

Google DeepMind hat ein neues DNA-Sequenz-KI-Modell namens AlphaGenome vorgestellt
Das Modell erhöht die Präzision bei der Vorhersage der Effekte regulatorischer genetischer Varianten und kann verschiedene Prozesse der Genregulation vorhersagen
Es zeichnet sich dadurch aus, dass es lange DNA-Sequenzen von bis zu 1 Million Basenpaaren als Eingabe verarbeiten und verschiedene biologische Phänomene in hoher Auflösung vorhersagen kann
Anders als bestehende Modelle kann es die Auswirkungen von Varianten für verschiedene biologische Gewebe und Zelltypen in einem Durchgang bewerten
Es wird erwartet, dass AlphaGenome Forschenden dabei hilft, Genfunktionen und die Biologie von Krankheiten besser zu verstehen und die Entdeckung neuer Therapien zu beschleunigen

Einführung in AlphaGenome

Google DeepMind hat ein neues DNA-Sequenz-KI-Modell namens AlphaGenome vorgestellt
Indem das Modell die Effekte einzelner Varianten oder Mutationen, die die Genregulation beeinflussen, präzise vorhersagt, markiert es einen wichtigen Wendepunkt für die Erforschung der Genomfunktion und das Verständnis von Krankheiten
Es ist über eine API vorab für Forschungszwecke verfügbar, und das Modell soll später ebenfalls veröffentlicht werden

Funktionsweise von AlphaGenome

AlphaGenome nimmt lange DNA-Sequenzen von bis zu 1 Million Basenpaaren als Eingabe und sagt verschiedene molekulare Eigenschaften voraus
Zu den vorhersagbaren Eigenschaften gehören Tausende Merkmale wie Genpositionen, RNA-Produktion, DNA-Zugänglichkeit und Protein-Bindungsstellen
Das Modell wurde mit großen öffentlich verfügbaren Datensätzen wie ENCODE, GTEx, 4D Nucleome und FANTOM5 trainiert
Intern erkennt es mit Convolution-Layern zunächst kurze Muster, kombiniert dann mit einem Transformer Informationen über die gesamte Sequenz und erzeugt daraus verschiedene Vorhersagewerte
In einer verteilten TPU-Umgebung verarbeitet es große Rechenlasten, um die Trainingseffizienz zu erhöhen
Es baut auf dem früheren Enformer-Modell auf und analysiert im Unterschied zu AlphaMissense, das auf protein-kodierende Bereiche spezialisiert ist, auch nicht-kodierende Bereiche umfassend mit ein (98 % des gesamten Genoms)

Wodurch sich AlphaGenome unterscheidet

Ultrahochauflösende Analyse langer Sequenzen: Es analysiert auf der Ebene von 1 Million Basenpaaren und liefert Ergebnisse mit Präzision auf Einzelbasen-Niveau
Es ist trainingseffizienter als bestehende Modelle und lernt schneller mit weniger Ressourcen
Integrierte multimodale Vorhersage: Informationen aus verschiedenen Stufen der Genregulation werden in einem Modell gleichzeitig vorhergesagt
Effiziente Variantenscoring: Mutierte und normale Sequenzen werden unmittelbar verglichen, um den Einfluss von Varianten auf verschiedene biologische Phänomene schnell zu berechnen
Innovative Modellierung von Spleißstellen: Es sagt Gen-Spleißpositionen und Expressionsniveaus direkt voraus und trägt damit auch zur Erforschung seltener Krankheiten bei

Fortschrittliche Leistung und Benchmark-Ergebnisse

AlphaGenome erreichte in 22 von 24 Genomvorhersage-Benchmarks und in 24 von 26 Bewertungen regulatorischer Varianteneffekte Leistungen, die führende externe Modelle übertrafen oder ihnen entsprachen
Im Unterschied zu auf Einzelaufgaben spezialisierten Modellen ist es das einzige Modell, das verschiedene Arten biologischer Merkmale gleichzeitig mit einem einzigen API-Aufruf vorhersagen kann

Vorteile eines integrierten Modells

Da es mehrere Modalitäten integriert behandeln kann, können Wissenschaftler:innen verschiedene Hypothesen und Experimente schnell iterieren
Es lernt eine allgemeine Repräsentation von DNA-Sequenzen, was zusätzliches Training und Optimierung in der Community erleichtert
Es bietet Flexibilität und Skalierbarkeit, sodass sich Daten und Anwendungsbereiche erweitern lassen

Bedeutung als leistungsfähiges Forschungswerkzeug

Krankheitsverständnis: Potenziell einsetzbar zur Aufklärung von Krankheitsursachen wie seltenen Varianten und zur Suche nach therapeutischen Zielen
Synthetische Biologie: Kann für das Design synthetischer DNA mit bestimmten Funktionen genutzt werden
Grundlagenforschung: Unterstützt das Mapping zentraler funktionaler Elemente des Genoms und die Identifizierung zellspezifischer regulatorischer Elemente
Tatsächlich sagte AlphaGenome für eine mit T-ALL (akute lymphoblastische Leukämie) assoziierte Variante voraus, dass durch die Bildung eines MYB-DNA-Bindungsmotivs das benachbarte TAL1-Gen aktiviert wird, und reproduzierte damit erfolgreich den Wirkmechanismus dieser Variante auf das Krankheitsgen

Aktuelle Grenzen

Die Erfassung von Effekten sehr weit entfernter regulatorischer Elemente, die mehr als 100.000 Basen auseinanderliegen, bleibt weiterhin eine Herausforderung
Auch die Erkennung zell- und gewebespezifischer Muster erfordert weitere Forschung
Für Vorhersagen individueller Genome (personalisierte Diagnostik und Prognose) ist das Modell derzeit nicht vorgesehen
Es kann nur Vorhersagen auf molekularer Ebene treffen und erklärt nicht vollständig die komplexen Ursachen aller Krankheiten
Es befindet sich derzeit im Stadium einer Forschungsankündigung; eine direkte klinische Eignungsbewertung oder therapeutische Anwendung ist noch nicht möglich

Community-Unterstützung und Ausblick

Die API kann sofort für nicht-kommerzielle Forschungszwecke genutzt werden, und es ist geplant, den Nutzen von AlphaGenome durch breite Zusammenarbeit mit der Forschungsgemeinschaft zu erhöhen
Über Community-Foren werden Feedback und Anwendungsfälle gesammelt
Es soll zu einer erweiterten Version mit mehr Daten, Arten und Modalitäten weiterentwickelt werden
Es wird erwartet, neue Innovationen in Medizin und Biowissenschaften rund um die Genominterpretation zu fördern

Fazit

AlphaGenome ist ein neues KI-basiertes Werkzeug zur Genomanalyse, das die Bedeutung genetischer Varianten aus verschiedenen Perspektiven gleichzeitig interpretiert und Grundlagen- wie klinische Forschung beschleunigen kann
In Zusammenarbeit mit externen Expertengruppen soll datenbasierte Innovation auf Grundlage von Genomdaten möglichst vielen Menschen zugänglich gemacht werden

2 Kommentare

galadbran 2025-06-27

Ich habe mich gefragt, welche Modalitäten die Multimodalität eines KI-Modells umfasst, das sich mit Genvorhersagen befasst. Also habe ich o3 gefragt, und es erklärte mir, dass dazu unter anderem Transkriptionsmenge, Positionen von Transkriptionsstart und -ende, Spleißen usw. als Modalitäten zählen.

GN⁺ 2025-06-27

Hacker-News-Kommentare

Man sieht daran ein Zeichen dafür, dass der Druck in Unternehmen zunimmt: Obwohl es sich um ein Modell handelt, das auf einer einzelnen A100 laufen kann, werden weder Code noch Parameter veröffentlicht; stattdessen läuft es nur hinter einer API, und auf Seite 31 des Papers ist das komplette Modell als Pseudocode hineinkopiert. Die Hoffnung ist, dass Google/Demis/Sergei wenigstens die Parameter freigeben. Mit einem so kleinen Modell, das nur hinter einer API steckt, wird man kaum Krebs heilen, und große GCloud-Umsätze wird es wohl auch nicht bringen.
Es besteht die Hoffnung auf einen Durchbruch bei der Zellsimulation, sodass Simulationen möglich werden, die so nützlich wie Molekulardynamik sind und zugleich auf modernen Supercomputern realisierbar bleiben. Dass man nicht sehen kann, was im Inneren passiert, wird als großes Hindernis für die lebenswissenschaftliche Forschung angesehen.
- Arc arbeitet tatsächlich an genau dieser Aufgabe; Details finden sich in den entsprechenden Neuigkeiten auf arcinstitute.org.
- Dieses Problem könnte aus Sicht eines Kommentars durch Quantencomputing gelöst werden, allerdings wohl erst in etwa zehn Jahren; bei AI-bedingter Beschleunigung sei die Entwicklung schwer vorherzusagen.
- Es wird der Wunsch geäußert, dass mehr an wirklich deterministischen Simulationen gearbeitet wird. Wichtiger als Blackboxen, die nur Resultate zeigen, seien Ansätze, die den inneren Ablauf offenlegen.
DeepMind ist nicht die einzige Organisation, die AI-Anwendungsforschung mit hoher Wirkung betreibt, aber es fällt auf, wie stark sie in diesem Bereich heraussticht. Es wird gefragt, ob das vor allem an starkem Tech-Marketing liegt oder andere Gründe hat.
- Dieses Paper sei gut gemacht, wirke aber nicht wie eine bahnbrechende Innovation; ähnliche Versuche gebe es schon lange.
- DeepMind arbeite schon seit Langem daran, gestützt durch die enormen Ressourcen von Google. Laut perplexity habe der Aufbau der Alphafold-2-Datenbank „Millionen von GPU-Stunden“ benötigt.
- Im Bereich Life Sciences betreibt das Arc Institute derzeit sehr frische Forschung; unter den Pharmakonzernen liefern Genentech oder GSK mit ihren AI-Gruppen hervorragende Ergebnisse.
- Als Organisation unter Google profitiert DeepMind nach Ansicht eines Kommentars von mehr als nur Marketing: die Unterstützung eines Unternehmens mit 2 Billionen Dollar Marktwert bringt klare Vorteile.
Es ist interessant, sich vorzustellen, die Eingabegröße auf die Größe des menschlichen Genoms von 3,2 Gbp zu erweitern; dabei könnten spannende Wechselwirkungen sichtbar werden. Ebenfalls interessant ist, dass U-Net und Transformer im Zentrum der Forschung stehen.
- Tatsächlich seien wahrscheinlich nicht mehr als 2 Megabasen nötig, da das Genom keine einzige zusammenhängende Sequenz ist, sondern physisch nach Chromosomen und topologically associated domains getrennt bzw. organisiert wird. Etwa 2 Megabasen deckten fast den gesamten Bereich wesentlicher Interaktionen zwischen cis-regulatorischen Elementen und Effektor-Genen ab.
- Zur Bemerkung, dass „sich alles um U-Net und Transformer dreht“, wird die Perspektive des „Menschen mit nur einem Hammer“ erwähnt.
Es wird vermutet, dass innerhalb von Unternehmen auch Ideen entstehen werden, Genomdaten zur Steigerung der Werbeeffizienz zu nutzen: Erkennt man etwa ein Risiko für Darmkrebs, könnte Werbung für „Nahrungsergänzungsmittel für die Darmgesundheit“ ausgespielt werden. Ebenso wären Marketingstrategien denkbar wie: genetische Informationen zur Neigungsanalyse zu verwenden und dann zu sagen, „dieses Gen korreliert mit einer Vorliebe für schwarzen Humor; bewerben wir den neuen Film bei Menschen mit diesem Gen“.
Der große Sprung bei der RNA-Vorhersageleistung dürfte mRNA-Laboren große Chancen eröffnen.
- (Direkt anschließende Antwort: Das könnte sich außerhalb der USA noch deutlicher zeigen.)
Kurz nach dem Eintritt bei Google im Jahr 2008 habe ein Kommentator dafür plädiert, stark in die Lebenswissenschaften zu investieren. Er sei überzeugt gewesen, dass Google mit seinen Fähigkeiten in Datenverarbeitung und ML weltweit führende Ergebnisse erzielen und zugleich dafür sorgen könne, dass andere Biologen diese Methoden nachvollziehen können. Tatsächlich seien über exacycle interessante Resultate bei Proteinfaltung und -design erzielt worden, später mit Cloud Genomics auch Dienste zum Speichern und Analysieren großer Datensätze. DeepMind habe die Ziele, die er sich damals vorgestellt habe, letztlich auf weit beeindruckendere Weise verwirklicht. Das aktuelle Paper biete enorm viel Stoff, sodass die Community wohl Zeit brauchen werde, um alles zu verarbeiten.
- Der Einschätzung, Sundar sei als Google-CEO kein inspirierender Anführer, wird zugestimmt; zugleich habe er aber das Wachstum vom Quartalsgewinn von 3B im Jahr 2015 vor Amtsantritt auf 35B im ersten Quartal 2025 verzehnfacht und mit seinem Festhalten am Werbegeschäft die heutige Profitabilität ermöglicht. Beim AI-Wechsel sei Google etwas spät gewesen, gelte mit Gemini und anderem aber weiterhin als wettbewerbsfähig. Auch DeepMind liefere enorme Leistungen. Das Urteil lautet: „Sundar erzeugt wenig Hype, aber liefert starke Ergebnisse.“
- Die Bemerkung, man freue sich, dass „ein lang gehegter Wunsch wahr geworden ist“, wirkt für einen anderen Kommentar ziemlich selbstverliebt. Viele Menschen hätten großartige Ideen, würden aber kaum sagen: „Endlich! Meine Idee ist in der Welt angekommen …“
- Es wird gefragt, ob es früher einmal ein Gespräch zu diesem Thema im Santa-Cruz-Shuttle gegeben habe; die damalige Unterhaltung sei sehr interessant gewesen, und auch mit AlphaGenome sei die Begeisterung noch da.
- Aus Sicht eines aktuellen Googlers sei die Einschätzung zu Sundar sehr gemischt. Dass früh in Infrastruktur und Werkzeuge für AI investiert wurde, wird anerkannt; mehr Anerkennung gebühre nach dieser Sicht aber Jeff Dean als Demis.
Enttäuschend sei, dass das Paper eines der größten Probleme ausklammert: die Unterscheidung zwischen tatsächlich kausalen und nicht-kausalen Varianten in hoch korrelierten DNA-Abschnitten, also das, was in der Genetik fine mapping genannt wird. Für wirksame Wirkstoffziele sei es entscheidend, die zentralen regulatorischen Bereiche präzise einzugrenzen. Ein aktuelles Nature-Paper zeige ein Beispiel für dieses Problem und verknüpfe es sogar mit Kandidatenwirkstoffen zur Regulierung der Makrophagenfunktion bei Autoimmunität.
- Es wird gefragt, ob die aktuellen Resultate in diese Richtung einen Schritt näher bringen. Das Fachwissen sei nicht tiefgehend, aber wenn die Funktionsvorhersage besser werde, dürfte es leichter werden, wirklich wichtige von bedeutungslosen Varianten zu unterscheiden. Der nächste Schritt wäre aus Sicht des Kommentars die Integration mit soliden statistischen Fine-Mapping-Methoden.