3 Punkte von GN⁺ 2024-09-05 | 1 Kommentare | Auf WhatsApp teilen
  • Die Gründer von Ligo Biosciences haben eine Open-Source-Implementierung von AlphaFold3 geteilt, dem neuesten Modell zur Vorhersage von Proteinstrukturen
  • Google DeepMind und ihr neues Startup Isomorphic Labs bauen ihr Geschäft in die Arzneimittelentwicklung aus
    • Sie haben AlphaFold3 entwickelt, um die Arzneimittelentwicklung zu beschleunigen und Nachfrage bei Pharmaunternehmen zu schaffen
    • Bereits Verträge im Wert von 3 Milliarden US-Dollar mit Novartis und Eli Lilly abgeschlossen
  • AlphaFold3 ist ein Modell zur Vorhersage biomolekularer Strukturen und erfüllt drei Hauptfunktionen
    • Vorhersage von Proteinstrukturen
    • Vorhersage der Struktur von Wirkstoff-Protein-Interaktionen
    • Vorhersage der Struktur von Nukleinsäure-Protein-Komplexen
  • AlphaFold3 ist für die Wissenschaft sehr wichtig, weil es die Kartierung von Proteinstrukturen enorm beschleunigt
    • Während eine einzelne Doktorandin oder ein einzelner Doktorand während der gesamten Promotion eine einzige Struktur untersucht, lassen sich mit AlphaFold3 in wenigen Minuten Vorhersagen erzielen, die mit experimenteller Genauigkeit vergleichbar sind
  • Das Problem ist, dass DeepMind AlphaFold3 im Mai vorgestellt hat, den Code aber nicht veröffentlicht
    • Das hat Fragen zur Reproduzierbarkeit und Unmut in der Wissenschaftsgemeinschaft ausgelöst
  • AlphaFold3 ist ein grundlegender Fortschritt in der Strukturmodellierung, von dem die gesamte Biotech-Branche profitieren kann, und die Einsatzmöglichkeiten sind sehr breit
    • CRISPR-Geneditierung: Wissenschaftler können genau sehen, wie DNA mit dem Scherenprotein Cas interagiert
    • Krebsforschung: Es lässt sich vorhersagen, wie potenzielle Wirkstoffe an Krebsziele binden. Einer der Höhepunkte des DeepMind-Papers ist die Vorhersage der Komplexstruktur eines klinischen KRAS-Inhibitors mit seinem Ziel
    • Vorhersage von Antikörpern/Nanobodies und ihren Zielen: AlphaFold3 verdoppelt die Genauigkeit für diese Molekülklasse gegenüber den zweitbesten Tools
  • Leider kann es wegen der nicht-kommerziellen Lizenz von keinem Unternehmen genutzt werden
  • Deshalb wurde eine Open-Source-Implementierung von AlphaFold3 veröffentlicht
    • Das vollständige Modell, trainiert auf einzelkettigen Proteinen, wird veröffentlicht; die beiden anderen Funktionen sollen bald trainiert und veröffentlicht werden
    • Auch der Trainingscode ist enthalten
    • Die Gewichte sollen veröffentlicht werden, sobald Training und Benchmarking abgeschlossen sind
    • Mit der Apache-2.0-Lizenz soll es zu echtem Open Source werden
  • DeepMind hat über das Paper die gesamte Architektur des Modells zusammen mit Pseudocode für jede Komponente offengelegt
    • Das wurde vollständig nach PyTorch übersetzt, wofür deutlich mehr Reverse Engineering nötig war als erwartet
  • Beim ersten Aufbau wurden mehrere Probleme im DeepMind-Paper entdeckt, die das Training behindern könnten. Das dürfte für die Deep-Learning-Community interessant sein
    • Die MSE-Loss-Skalierung unterscheidet sich von Karras et al. (2022). Mit den im Paper angegebenen Gewichten sinkt der Loss bei hohem Rauschniveau nicht
    • Im Paper fehlt eine residual layer
      • Das Hinzufügen der fehlenden residual layer brachte Vorteile für gradient flow und Konvergenz
      • Es stellt sich die Frage, warum DeepMind die residual connection im DiT-Block weggelassen hat
    • In der aktuellen Form des MSA-Moduls gibt es eine dead layer
      • Das letzte pair weighted averaging und die transition layer können nicht zur pair representation beitragen, sodass sich keine Gradienten ausbreiten
      • Dies wurde durch eine Reihenfolge wie in AlphaFold2s ExtraMsaStack ersetzt
      • Die Verwendung von Weight Sharing könnte ebenfalls eine Alternative sein, aber das Paper bleibt dabei unklar
  • Ligo (YC S24) nutzt die Ideen von AlphaFold3 für das Enzymdesign
  • Die Open-Source-Veröffentlichung von AlphaFold3 wird als ergänzende Mission gesehen, um der Community zu helfen

Meinung von GN⁺

  • AlphaFold3 ist eine bahnbrechende Technologie im Bereich der Proteinstrukturvorhersage und dürfte die Arzneimittelentwicklung und die Biowissenschaften stark beeinflussen
  • Dass DeepMind den Code nicht veröffentlicht hat, kann jedoch als Verhalten gesehen werden, das dem Geist wissenschaftlicher Reproduzierbarkeit und Zusammenarbeit widerspricht
  • Open-Source-Projekte mit ähnlichen Funktionen wie AlphaFold3 sind unter anderem OpenFold und RoseTTAFold
  • Bei der Einführung von AlphaFold3 sollten Modellgenauigkeit, Grenzen und Anforderungen an Rechenressourcen sorgfältig geprüft werden
  • Durch das Erscheinen einer Open-Source-Implementierung können mehr Forschende und Unternehmen von AlphaFold3 profitieren, doch für die Kommerzialisierung bestehen weiterhin Einschränkungen

1 Kommentare

 
GN⁺ 2024-09-05
Hacker-News-Kommentare
  • DeepMind und AlphaFold wechseln offenbar zu Closed Source

    • Isomorphic Labs wurde als Abteilung von Alphabet gegründet und konzentriert sich auf Closed-Source-Arbeit
    • Eine Open-Source-Version eines akademischen Werkzeugs klingt theoretisch gut
    • Ich bin mit diesem Bereich nicht vertraut genug, um konkrete Vorteile benennen zu können
    • Ich frage mich, was der Plan des Unternehmens ist
    • Ich frage mich, ob weiter an Open-Source-Projekten als Teil des Geschäftsmodells gearbeitet wird oder ob das eine einmalige Sache ist
    • Die Website ist sehr vage in Bezug auf das, was verkauft werden soll
  • Ich frage mich, wie die Vorhersagen validiert werden

    • Ich frage mich, ob nach der Vorhersage weiterhin experimentelle Techniken wie Röntgenkristallographie oder Kryo-Elektronenmikroskopie eingesetzt werden müssen
    • Ich frage mich, ob die Vorhersagen so nah an der Realität sind, dass man ohne Experimente fortfahren kann
  • Ich frage mich, ob geplant ist, eine Arbeit über die Implementierung zu veröffentlichen

    • Das würde spätere Zitate in der Literatur erleichtern
    • Ich frage mich, ob große Journale eine solche Arbeit annehmen würden
    • Wenn es Fragen zur Reproduzierbarkeit gibt, würden sie sie wohl annehmen
  • Ich freue mich, dass diese offene Version in kommerziellen Umgebungen verwendet werden kann

    • Ein großartiger Weg, ein Unternehmen zu gründen
  • Es wäre wohl besser, den Namen dieser Implementierung zu ändern

    • Denn es ist nicht wirklich AlphaFold3
    • Es könnte eine Unterlassungsaufforderung von DM wegen der Namensnutzung geben
  • Der Modellcode selbst ist nur ein kleiner Teil der Herausforderung

    • Trainings-Compute und Trainingsdaten sind ein viel größerer Teil
    • Google hat wahrscheinlich mehr Zugang zu großskaligem Trainings-Compute als jeder andere
  • Ich habe kurz Erfahrung mit Computational Proteomics gemacht

    • Das Feld ist wirklich auf dem nächsten Level
  • Wer hätte gedacht, dass es nicht ausreicht, nur Pseudocode zu veröffentlichen

    • Ich freue mich, das wissenschaftliche Immunsystem im Kampf gegen Closed Science zu sehen
    • Ich bin gespannt auf Googles nächsten Schritt
  • Ich frage mich, ob ihr mit ColabFold vertraut seid

  • Ich frage mich, was der nächste Schritt ist

    • Ich frage mich, warum entschieden wurde, sich auf Enzymdesign zu konzentrieren