1 Punkte von GN⁺ 2024-07-14 | 1 Kommentare | Auf WhatsApp teilen

Einführung

Für wen dieser Artikel lesenswert ist

  • Für alle, die verstehen möchten, wie AlphaFold3 funktioniert
  • Für alle, die komplexe Strukturen visuell verstehen möchten
  • Für alle, die mit Machine Learning vertraut sind

Architekturüberblick

  • AlphaFold3 sagt die Struktur von Proteinen, Nukleinsäuren, kleinen Molekülen usw. vorher
  • Um komplexe Eingabetypen zu verarbeiten, wird ein komplexeres Verfahren zur Featurisierung/Tokenisierung verwendet

Vorbereitung der Eingaben

Tokenisierung

  • Standard-Aminosäuren: 1 Token
  • Standard-Nukleotide: 1 Token
  • Nicht standardmäßige Aminosäuren/Nukleotide: 1 Atom pro Token
  • Sonstige Moleküle: 1 Atom pro Token

Suche (MSA- und Template-Erstellung)

  • Ähnliche Sequenzen finden und MSA sowie Templates erzeugen
  • Euklidische Distanzen berechnen und anschließend in Distogramme umwandeln

Erzeugung von Repräsentationen auf Atomebene

  • Für jede Aminosäure, jedes Nukleotid und jeden Liganden eine „Referenzstruktur“ erzeugen
  • Einzelrepräsentationen (q) und Paarrepräsentationen (p) auf Atomebene erzeugen

Aktualisierung von Repräsentationen auf Atomebene (Atom Transformer)

  • q und p aktualisieren, um bessere Repräsentationen zu erzeugen
  • Adaptive LayerNorm, Attention with Pair Bias, Conditioned Gating, Conditioned Transition verwenden

Aggregation von Atomebene zu Token-Ebene

  • Repräsentationen auf Atomebene in Repräsentationen auf Token-Ebene umwandeln
  • MSA und vom Nutzer bereitgestellte Informationen hinzufügen

Repräsentationslernen

Template-Modul

  • z mithilfe von Templates aktualisieren

MSA-Modul

  • MSA und z aktualisieren
  • Outer Product Mean, Row-wise Gated Self-Attention Using Only Pair Bias verwenden

Pairformer-Modul

  • s und z aktualisieren
  • Triangle Updates, Triangle Attention verwenden

Strukturvorhersage

Grundprinzipien der Diffusion

  • Ein Diffusionsmodell zur Strukturvorhersage verwenden
  • Rauschen hinzufügen und entfernen, um die endgültige Struktur zu erzeugen

Zusammenfassung von GN⁺

  • AlphaFold3 sagt komplexe Strukturen von Proteinen, Nukleinsäuren, kleinen Molekülen usw. vorher
  • Die komplexe Modellarchitektur wird mit visuellen Diagrammen erklärt und dadurch leichter verständlich
  • Das Modell ist ein wichtiger Fortschritt in den Bereichen Machine Learning und Biotechnologie
  • Zu den Projekten mit ähnlichen Funktionen zählt unter anderem RosettaFold

1 Kommentare

 
GN⁺ 2024-07-14
Hacker-News-Kommentare
  • Ich bin dankbar, dass dieser Beitrag die Arbeit übersetzt, damit Strukturbiologen das Paper verstehen können.

  • Ich habe erfahren, dass AF3 mit einer begrenzten Anzahl an PTMs alle Atome als einzelne Tokens behandeln muss.

  • Das liegt wahrscheinlich daran, dass PTMs im PDB nur sehr selten vorkommen.

  • Das ist ein Beitrag, der einen Einblick gibt, wie neuronale Netze und KI-Technologien künftig umgesetzt werden könnten.

  • Viel Engineering und clevere Nutzung bestehender Techniken werden mit einem leistungsstarken und gut trainierten Modell kombiniert.

  • Dinge wie ChatGPT befinden sich derzeit in der ersten Phase des Aufbaus von Foundation Models für Datengeneralisierung und -verarbeitung.

  • Es wird noch nicht viel daran gearbeitet, Eingaben so aufzubereiten, dass das Modell sie optimal verstehen kann.

  • Es gibt grundlegende Forschung in diesem Bereich, aber noch nichts so Ausgereiftes wie AlphaFold.

  • Die Leute kombinieren LLMs und verwenden System Prompts, um die Verarbeitung der Eingaben zu unterstützen.

  • Wenn komplexere Systeme entstehen, könnten wir etwas sehen, das echter AGI ähnelt.

  • Sehr komplex.

  • Ich hatte noch nicht von den MSA-Algorithmen gehört, die zum Alignen von Proteinsequenzen verwendet werden.

  • Erstaunlicher Beitrag, danke.

  • Ich werde ihn noch genauer lesen.