- Google DeepMind hat ein neues DNA-Sequenz-KI-Modell namens AlphaGenome vorgestellt
- Das Modell erhöht die Präzision bei der Vorhersage der Effekte regulatorischer genetischer Varianten und kann verschiedene Prozesse der Genregulation vorhersagen
- Es zeichnet sich dadurch aus, dass es lange DNA-Sequenzen von bis zu 1 Million Basenpaaren als Eingabe verarbeiten und verschiedene biologische Phänomene in hoher Auflösung vorhersagen kann
- Anders als bestehende Modelle kann es die Auswirkungen von Varianten für verschiedene biologische Gewebe und Zelltypen in einem Durchgang bewerten
- Es wird erwartet, dass AlphaGenome Forschenden dabei hilft, Genfunktionen und die Biologie von Krankheiten besser zu verstehen und die Entdeckung neuer Therapien zu beschleunigen
Einführung in AlphaGenome
- Google DeepMind hat ein neues DNA-Sequenz-KI-Modell namens AlphaGenome vorgestellt
- Indem das Modell die Effekte einzelner Varianten oder Mutationen, die die Genregulation beeinflussen, präzise vorhersagt, markiert es einen wichtigen Wendepunkt für die Erforschung der Genomfunktion und das Verständnis von Krankheiten
- Es ist über eine API vorab für Forschungszwecke verfügbar, und das Modell soll später ebenfalls veröffentlicht werden
Funktionsweise von AlphaGenome
- AlphaGenome nimmt lange DNA-Sequenzen von bis zu 1 Million Basenpaaren als Eingabe und sagt verschiedene molekulare Eigenschaften voraus
- Zu den vorhersagbaren Eigenschaften gehören Tausende Merkmale wie Genpositionen, RNA-Produktion, DNA-Zugänglichkeit und Protein-Bindungsstellen
- Das Modell wurde mit großen öffentlich verfügbaren Datensätzen wie ENCODE, GTEx, 4D Nucleome und FANTOM5 trainiert
- Intern erkennt es mit Convolution-Layern zunächst kurze Muster, kombiniert dann mit einem Transformer Informationen über die gesamte Sequenz und erzeugt daraus verschiedene Vorhersagewerte
- In einer verteilten TPU-Umgebung verarbeitet es große Rechenlasten, um die Trainingseffizienz zu erhöhen
- Es baut auf dem früheren Enformer-Modell auf und analysiert im Unterschied zu AlphaMissense, das auf protein-kodierende Bereiche spezialisiert ist, auch nicht-kodierende Bereiche umfassend mit ein (98 % des gesamten Genoms)
Wodurch sich AlphaGenome unterscheidet
- Ultrahochauflösende Analyse langer Sequenzen: Es analysiert auf der Ebene von 1 Million Basenpaaren und liefert Ergebnisse mit Präzision auf Einzelbasen-Niveau
- Es ist trainingseffizienter als bestehende Modelle und lernt schneller mit weniger Ressourcen
- Integrierte multimodale Vorhersage: Informationen aus verschiedenen Stufen der Genregulation werden in einem Modell gleichzeitig vorhergesagt
- Effiziente Variantenscoring: Mutierte und normale Sequenzen werden unmittelbar verglichen, um den Einfluss von Varianten auf verschiedene biologische Phänomene schnell zu berechnen
- Innovative Modellierung von Spleißstellen: Es sagt Gen-Spleißpositionen und Expressionsniveaus direkt voraus und trägt damit auch zur Erforschung seltener Krankheiten bei
Fortschrittliche Leistung und Benchmark-Ergebnisse
- AlphaGenome erreichte in 22 von 24 Genomvorhersage-Benchmarks und in 24 von 26 Bewertungen regulatorischer Varianteneffekte Leistungen, die führende externe Modelle übertrafen oder ihnen entsprachen
- Im Unterschied zu auf Einzelaufgaben spezialisierten Modellen ist es das einzige Modell, das verschiedene Arten biologischer Merkmale gleichzeitig mit einem einzigen API-Aufruf vorhersagen kann
Vorteile eines integrierten Modells
- Da es mehrere Modalitäten integriert behandeln kann, können Wissenschaftler:innen verschiedene Hypothesen und Experimente schnell iterieren
- Es lernt eine allgemeine Repräsentation von DNA-Sequenzen, was zusätzliches Training und Optimierung in der Community erleichtert
- Es bietet Flexibilität und Skalierbarkeit, sodass sich Daten und Anwendungsbereiche erweitern lassen
Bedeutung als leistungsfähiges Forschungswerkzeug
- Krankheitsverständnis: Potenziell einsetzbar zur Aufklärung von Krankheitsursachen wie seltenen Varianten und zur Suche nach therapeutischen Zielen
- Synthetische Biologie: Kann für das Design synthetischer DNA mit bestimmten Funktionen genutzt werden
- Grundlagenforschung: Unterstützt das Mapping zentraler funktionaler Elemente des Genoms und die Identifizierung zellspezifischer regulatorischer Elemente
- Tatsächlich sagte AlphaGenome für eine mit T-ALL (akute lymphoblastische Leukämie) assoziierte Variante voraus, dass durch die Bildung eines MYB-DNA-Bindungsmotivs das benachbarte TAL1-Gen aktiviert wird, und reproduzierte damit erfolgreich den Wirkmechanismus dieser Variante auf das Krankheitsgen
Aktuelle Grenzen
- Die Erfassung von Effekten sehr weit entfernter regulatorischer Elemente, die mehr als 100.000 Basen auseinanderliegen, bleibt weiterhin eine Herausforderung
- Auch die Erkennung zell- und gewebespezifischer Muster erfordert weitere Forschung
- Für Vorhersagen individueller Genome (personalisierte Diagnostik und Prognose) ist das Modell derzeit nicht vorgesehen
- Es kann nur Vorhersagen auf molekularer Ebene treffen und erklärt nicht vollständig die komplexen Ursachen aller Krankheiten
- Es befindet sich derzeit im Stadium einer Forschungsankündigung; eine direkte klinische Eignungsbewertung oder therapeutische Anwendung ist noch nicht möglich
Community-Unterstützung und Ausblick
- Die API kann sofort für nicht-kommerzielle Forschungszwecke genutzt werden, und es ist geplant, den Nutzen von AlphaGenome durch breite Zusammenarbeit mit der Forschungsgemeinschaft zu erhöhen
- Über Community-Foren werden Feedback und Anwendungsfälle gesammelt
- Es soll zu einer erweiterten Version mit mehr Daten, Arten und Modalitäten weiterentwickelt werden
- Es wird erwartet, neue Innovationen in Medizin und Biowissenschaften rund um die Genominterpretation zu fördern
Fazit
- AlphaGenome ist ein neues KI-basiertes Werkzeug zur Genomanalyse, das die Bedeutung genetischer Varianten aus verschiedenen Perspektiven gleichzeitig interpretiert und Grundlagen- wie klinische Forschung beschleunigen kann
- In Zusammenarbeit mit externen Expertengruppen soll datenbasierte Innovation auf Grundlage von Genomdaten möglichst vielen Menschen zugänglich gemacht werden
2 Kommentare
Ich habe mich gefragt, welche Modalitäten die Multimodalität eines KI-Modells umfasst, das sich mit Genvorhersagen befasst. Also habe ich o3 gefragt, und es erklärte mir, dass dazu unter anderem Transkriptionsmenge, Positionen von Transkriptionsstart und -ende, Spleißen usw. als Modalitäten zählen.
Hacker-News-Kommentare
Man sieht daran ein Zeichen dafür, dass der Druck in Unternehmen zunimmt: Obwohl es sich um ein Modell handelt, das auf einer einzelnen A100 laufen kann, werden weder Code noch Parameter veröffentlicht; stattdessen läuft es nur hinter einer API, und auf Seite 31 des Papers ist das komplette Modell als Pseudocode hineinkopiert. Die Hoffnung ist, dass Google/Demis/Sergei wenigstens die Parameter freigeben. Mit einem so kleinen Modell, das nur hinter einer API steckt, wird man kaum Krebs heilen, und große GCloud-Umsätze wird es wohl auch nicht bringen.
Es besteht die Hoffnung auf einen Durchbruch bei der Zellsimulation, sodass Simulationen möglich werden, die so nützlich wie Molekulardynamik sind und zugleich auf modernen Supercomputern realisierbar bleiben. Dass man nicht sehen kann, was im Inneren passiert, wird als großes Hindernis für die lebenswissenschaftliche Forschung angesehen.
DeepMind ist nicht die einzige Organisation, die AI-Anwendungsforschung mit hoher Wirkung betreibt, aber es fällt auf, wie stark sie in diesem Bereich heraussticht. Es wird gefragt, ob das vor allem an starkem Tech-Marketing liegt oder andere Gründe hat.
Es ist interessant, sich vorzustellen, die Eingabegröße auf die Größe des menschlichen Genoms von 3,2 Gbp zu erweitern; dabei könnten spannende Wechselwirkungen sichtbar werden. Ebenfalls interessant ist, dass U-Net und Transformer im Zentrum der Forschung stehen.
Es wird vermutet, dass innerhalb von Unternehmen auch Ideen entstehen werden, Genomdaten zur Steigerung der Werbeeffizienz zu nutzen: Erkennt man etwa ein Risiko für Darmkrebs, könnte Werbung für „Nahrungsergänzungsmittel für die Darmgesundheit“ ausgespielt werden. Ebenso wären Marketingstrategien denkbar wie: genetische Informationen zur Neigungsanalyse zu verwenden und dann zu sagen, „dieses Gen korreliert mit einer Vorliebe für schwarzen Humor; bewerben wir den neuen Film bei Menschen mit diesem Gen“.
Der große Sprung bei der RNA-Vorhersageleistung dürfte mRNA-Laboren große Chancen eröffnen.
Kurz nach dem Eintritt bei Google im Jahr 2008 habe ein Kommentator dafür plädiert, stark in die Lebenswissenschaften zu investieren. Er sei überzeugt gewesen, dass Google mit seinen Fähigkeiten in Datenverarbeitung und ML weltweit führende Ergebnisse erzielen und zugleich dafür sorgen könne, dass andere Biologen diese Methoden nachvollziehen können. Tatsächlich seien über exacycle interessante Resultate bei Proteinfaltung und -design erzielt worden, später mit Cloud Genomics auch Dienste zum Speichern und Analysieren großer Datensätze. DeepMind habe die Ziele, die er sich damals vorgestellt habe, letztlich auf weit beeindruckendere Weise verwirklicht. Das aktuelle Paper biete enorm viel Stoff, sodass die Community wohl Zeit brauchen werde, um alles zu verarbeiten.
Enttäuschend sei, dass das Paper eines der größten Probleme ausklammert: die Unterscheidung zwischen tatsächlich kausalen und nicht-kausalen Varianten in hoch korrelierten DNA-Abschnitten, also das, was in der Genetik fine mapping genannt wird. Für wirksame Wirkstoffziele sei es entscheidend, die zentralen regulatorischen Bereiche präzise einzugrenzen. Ein aktuelles Nature-Paper zeige ein Beispiel für dieses Problem und verknüpfe es sogar mit Kandidatenwirkstoffen zur Regulierung der Makrophagenfunktion bei Autoimmunität.