- SimpleFold ist Apples erstes flow-matching-basiertes Modell zur Vorhersage der Proteinfaltung sowie ein Open-Source-Framework für die Vorhersage von Proteinstrukturen
- Statt bisheriger komplexer, domänenspezifischer Entwürfe erreicht es hohe Leistung allein mit allgemeinen Transformer-Layern und generativem Training per Flow Matching
- Es wurde mit 3B (3 Milliarden) Parametern trainiert, ist damit das bislang größte Modell seiner Art und zeigt in öffentlichen Benchmarks Wettbewerbsfähigkeit gegenüber SOTA-Modellen
- Da komplexe strukturelle Module (Triple Attention, Paar-Repräsentationen usw.) fehlen, ist es effizient und für die Skalierung auf große Datensätze vorteilhaft
- Das Modell kann mit benutzerspezifischen Daten feinabgestimmt und neu trainiert werden und bietet dadurch hohen praktischen Nutzen in Bioinformatik, Pharma und weiteren Bereichen
Einführung und Bedeutung von SimpleFold
- SimpleFold ist das von Apple vorgestellte erste flow-matching-basierte Modell zur Vorhersage der Proteinfaltung
- Anders als bisherige führende Modelle verwendet es keine komplexe Triangle Attention und keine Biases für Paar-(
pair)Repräsentationen, sondern ausschließlich allgemeine Transformer-Layer
- Es wird mit einem generativen Flow-Matching-Ziel trainiert und zeigt dadurch nicht nur bei Einzelkonfigurationen, sondern auch bei Ensemble-Vorhersagen starke Leistung
- Es skaliert auf bis zu 3B Parameter und wurde großflächig mit mehr als 8,6 Millionen Proteindaten sowie experimentellen PDB-Daten trainiert
- Damit ist es das bislang veröffentlichte größte Modell für Proteinfaltung
Hauptfunktionen und Vorteile
- Allgemeinheit: Ohne Einschränkungen auf verschiedene Domänen und Datensätze anwendbar
- Effizienz: Da komplexe domänenspezifische Komponenten fehlen, ist es bei Trainings- und Inferenzgeschwindigkeit sowie Modellgröße im Vorteil
- Skalierbarkeit: Verschiedene Größen von 100M bis 3B Parametern verfügbar, Unterstützung für GPU und MLX (PyTorch/Apple-Hardware)
- Generatives Training: Unterstützt Ensemble-Vorhersagen, bei denen mehrere Vorhersageergebnisse auf einmal erzeugt werden
- Unterstützung benutzerspezifischer Daten: Freies Retraining, Tuning und individuelle Nutzung mit eigenen Datensätzen
Anwendungsbeispiele und Unterstützung
- Es wird ein Beispiel als Jupyter Notebook (
sample.ipynb) bereitgestellt, mit dem sich anhand realer Proteinsequenzeingaben sofort Strukturvorhersagen durchführen lassen
- Hochleistungs-Inferenz: Über die Kommandozeilenschnittstelle lassen sich Modellgröße auswählen, Inferenz-Backend (MLX, PyTorch) festlegen sowie Ergebnisdateien und Vertrauensmetriken (
pLDDT) ausgeben
- Ergebnisse auf Benchmark-Datensätzen: Vorhersageergebnisse von SimpleFold für Standard-Evaluationssets (CAMEO22, CASP14 usw.) werden bereitgestellt und offen veröffentlicht
- Evaluierung: Es werden Evaluierungsskripte bereitgestellt, die mit bestehenden Tools wie OpenStructure und TMscore verbunden sind und vielfältige Bewertungen von Strukturvorhersagen ermöglichen
Training und Datenvorbereitung
- Als Trainingsdaten werden mehr als 8,6 Millionen bereinigte Proteinstrukturen aus experimentellen PDB-Daten, AFDB SwissProt/AFESM/AFESM-E usw. genutzt
- Datenlisten (Target-Listen) und Beispieldateien werden ebenfalls veröffentlicht und unterstützen Forschende beim Aufbau maßgeschneiderter Datensätze
- Mit MMCIF-Dateivorverarbeitung, Redis-Nutzung und Hydra-basierten Konfigurationsdateien lässt sich die Experimentierumgebung leicht aufbauen
- Beispiel-Trainingsskripte (
train.py, train_fsdp.py) und Konfigurationen werden bereitgestellt
Open Source und Zitation
- Veröffentlichung unter MIT-Lizenz, freie Nutzung für Forschung und kommerzielle Zwecke überall möglich
- Code und Modelle enthalten Beiträge aus mehreren Open-Source-Projekten und von Mitwirkenden; Details dazu finden sich in
ACKNOWLEDGEMENTS
- Bei Nutzung bitte das Arxiv-Paper zitieren: Arxiv:2509.18480
Fazit
- SimpleFold präsentiert der Branche ein neues Paradigma, indem es die komplexen Strukturen bisheriger Modelle zur Proteinstrukturvorhersage durch einen einfachen, aber leistungsfähigen Ansatz ersetzt
- Besonders die Kombination aus allgemeiner Transformer-Architektur und generativem Training lässt vielfältige kreative Anwendungen in Lebenswissenschaften, Wirkstoffentwicklung und Bioinformatik erwarten
1 Kommentare
Hacker-News-Kommentare
Was man hier leicht übersieht, ist, dass das „einfache“ Modell das Falten in den experimentellen Strukturen nicht tatsächlich direkt gelernt hat. Der Großteil der Trainingsdaten stammt aus AlphaFold-artigen Vorhersagen, also aus Millionen von Proteinstrukturen, die bereits von riesigen, MSA-basierten und aufwendig konstruierten Modellen erzeugt wurden. Man kann also nicht einfach alle induktiven Biases und MSA-Tools wegwerfen; irgendjemand musste diese Modelle bauen und ausführen, um die Trainingsdaten zu erzeugen
Meine Lehre daraus ist Einfachheit und Skalierbarkeit. Im Machine Learning sieht man oft, wie immer komplexere Module auftauchen, um die Leistung zu steigern, und dann kommt plötzlich ein Durchbruch, bei dem ein einfaches Modell mit den komplexen Modellen mithalten kann. Dass eine solche „einfache“ Architektur für sich genommen so gut funktioniert, bedeutet auch, dass man durch erneutes Hinzufügen von Komplexität vielleicht noch weiter kommen kann. Ich frage mich jetzt, ob man MSA wieder einbauen könnte und wie weit man damit käme. So wie ich es verstehe, erzeugt ein „grobes“ generatives Modell mehrere brauchbare Vermutungen, und etwas formellere „Validatoren“ sorgen dann dafür, dass die Gesetze der Physik und Geometrie eingehalten werden. KI verkleinert den unvorstellbar großen Suchraum, sodass teure Simulationen nicht an nutzlosen Stellen verschwendet werden. Wenn das Vermutungsnetz besser wird, beschleunigt sich der gesamte Prozess. Rückblickend erinnert mich das an Redcurrent-Netzwerke mit immer komplexeren Transferfunktionen, an komplexe Vorverarbeitungsketten vor Skip-Forward-Layern, an zusammengesetzte Normalisierungsziele vor ReLU, an GAN-Netzwerke mit komplexen Zielen vor Diffusion und an komplexe Multi-Pass-Modelle vor vollkonvolutionellen Netzwerken. Gerade deshalb begeistert mich diese Arbeit sehr – nicht weil sie die optimale Architektur ist, sondern eher weil sie es nicht ist
Ich weiß nicht, ob das so ungewöhnlich ist. Fast alles Einfache galt früher einmal als komplex. Genau das ist Emergenz, und normalerweise muss man erst die ganze Komplexität durchdringen, bevor man eine verallgemeinerte und einfache Formel findet. Dass Naturphänomene letztlich aus relativ einfachen Regeln hervorgehen, ist doch offensichtlich. Es ist ein bisschen so, als würde man bei Game of Life die Regeln und Anfangswerte rückwärts herleiten. Wer behauptet, das sei leicht, ist übermäßig selbstsicher. Aber kaum jemand dürfte wirklich glauben, dass P=NP ist
AlphaFold ist ein Modell, das anhand experimentell per Röntgenbeugung beobachteter gefalteter Proteine validiert wurde
Genau. Für alle, die es nicht wissen: MSA wird verwendet, um von bestehenden PDB-Strukturen auf neue Sequenzen zu generalisieren. Wenn man auf AlphaFold2-Ergebnissen trainiert, steckt diese Generalisierung bereits in den Daten, sodass das Modell diese Fähigkeit gar nicht mehr selbst braucht. Dann reicht im Grunde schon Auswendiglernen. Diese einfache Schlussfolgerung scheint den Autorinnen und Autoren der Arbeit entgangen zu sein
Ich bin dem Proteinfalten zum ersten Mal im Folding@Home-Projekt (https://foldingathome.org) begegnet, damals im Studentenwohnheim, als Strom praktisch kostenlos war und ich einen überschüssigen Medienserver hatte. Ich bin kein Experte, aber mich würde interessieren, ob Proteinfalten auf heutiger Hardware inzwischen viel einfacher geworden ist oder ob das nur für bestimmte Probleme gilt. Das Folding@Home-Projekt scheint es jedenfalls immer noch zu geben
Soweit ich weiß, war Folding@Home ein physikbasierter Simulationssolver, während AlphaFold und seine Nachfolger – einschließlich dessen, worüber hier gesprochen wird – statistische Verfahren sind. Statistische Verfahren sind rechnerisch viel günstiger, aber weil sie auf bereits existierenden Proteinfaltungen beruhen, sagen sie bei Proteinen, die dem Trainingssatz nicht ähneln, weniger gut voraus. Es gibt also einen Trade-off zwischen Geschwindigkeit und Allgemeingültigkeit, aber die Leistung ist inzwischen so gut geworden, dass man die Faltstruktur des gewünschten Proteins meistens herausbekommt. Was früher bei der Faltungsvorhersage nahezu unmöglich war, ist heute Teil des normalen Workflows geworden
Ich mochte auch SETI@Home, und auch wenn ich nie zu 100 % verstand, was das Ergebnis bedeutete, machte allein die Visualisierung sichtbar Spaß
Laut einem Blogbeitrag von F@H (Link) ist es weiterhin wichtig, nicht nur die endgültige gefaltete Form zu kennen, sondern auch die Faltungsdynamik. Auch per ML vorhergesagte Proteine sind wichtige Ziele für Simulationen, zur Validierung und um zu verstehen, wie sie funktionieren
Folding@Home wird weiterhin aktiv betrieben und hat in der Zwischenzeit viele großartige Entdeckungen hervorgebracht (Paper-/Ergebnislink)
In der Arbeit steht im Grunde: „Unser Ansatz ist einfacher als State-of-the-Art-Modelle.“ Aber dass er „bei allen Messgrößen deutlich hinter dem State of the Art zurückliegt“, wird nicht groß betont. Papers zu veröffentlichen ist nicht leicht, aber wenn ein großer Konzernname darauf steht und es als Preprint hochgeladen wird, zieht das offenbar eher Aufmerksamkeit auf sich
Das mit diesem Beitrag verlinkte GitHub-Repository ist auf jeden Fall lesenswert (arXiv-Link)
Schon aus dem Abstract heraus – wenn ich es richtig gelesen habe – lautet die Aussage: „KI braucht man weiterhin, aber deutlich weniger davon als bei anderen Ansätzen“
Ich teile auch noch den GitHub-Link für Interessierte (apple/ml-simplefold)
Ich frage mich, warum Apple sich überhaupt mit Proteinfaltung beschäftigt
Apple hat auch eine ML-Forschungsgruppe. Dort geht es nicht nur um Forschung, die typisch nach Apple klingt, sondern um verschiedene Themen wie allgemeine Optimierung oder Grundlagenforschung (Apple Machine Learning Research)
Ich weiß es auch nicht. Aber ich würde mich gern auf eine R&D-Stelle bewerben, bei der man nicht direkt Umsatz liefern muss. Vielleicht dienen Projekte wie dieses auch einfach dazu, die eigenen KI-Chips zu testen und zu verfeinern
Ich denke, es geht um lokale Inferenz. Apple scheint daran interessiert zu sein, solche State-of-the-Art-Modelle zu verkleinern, damit sie auf dem Desktop schnell inferieren können. In der Arbeit werden in Abbildung 1E sogar Inferenzresultate auf einem M2 Max 64GB gezeigt. Eigentlich ist diese Idee großartig. Selbst kleine Pharmafirmen könnten dank schneller lokaler Inferenz viele Hürden leicht überwinden. Mit generierten Sequenzen könnte man auch bayessche Optimierung oder RL ausprobieren. Im Vergleich dazu braucht AlphaFold ziemlich viele Ressourcen. Außerdem ist die Nutzung von Multiple-Sequence-Alignment an sich etwas gezwungen, die Leistung leidet, wenn es keine ähnlichen Proteine gibt, und die Vorverarbeitung ist enorm aufwendig. Metas ESM hat schon vor einigen Jahren gezeigt, dass es auch ohne Alignment gut funktioniert. AlphaFold hat keine besondere Magie; es ist letztlich einfach ein seq2seq-Problem, und viele verschiedene Ansätze funktionieren gut. Einschließlich attention-freier SSMs.
Um Computer zu verkaufen? Noch vor 20 Jahren hatte Apple auf der WWDC wissenschaftliche Postersessions und bemühte sich darum, PyMol auf den Mac zu portieren. Die Proteinabbildungen in der Arbeit wurden mit PyMol erstellt, und mehr als die Hälfte der Bilder in wissenschaftlichen Papers der letzten 15 Jahre dürfte mit PyMol gemacht worden sein
Ich weiß nicht, ob das der wahre Grund ist, aber ein erheblicher Teil solcher „AI for Science“-Projekte ist in Wahrheit Marketing. Selbst wenn sie dem Produkt des Unternehmens keinen direkten Nutzen bringen oder keine greifbaren Ergebnisse liefern, wirken solche Projekte sehr positiv auf das „Markenimage“
Seit der Veröffentlichung von AlphaFold frage ich mich, ob klassische Molekulardynamik-(MD-)Simulationen im Bereich Proteinfaltung inzwischen nutzlos geworden sind. Ich frage mich, ob Forschung aus Häusern wie DESRES direkt mit Proteinfaltung zusammenhängt oder ob dort an ganz anderen Dingen gearbeitet wird
MD befasst sich mit der Bewegung von Atomen, während AlphaFold nur einen Schnappschuss des Ergebnisses liefert. AlphaFold behandelt also keine Dynamik. Bei MD geht es nach wie vor zentral um Bewegung
Ich habe nachgeschaut, weil ich interessant fand, dass die Parameter von AlphaFold V3 nur an bestimmte Organisationen ausgegeben werden und auf nicht-kommerzielle Nutzung beschränkt sind, also nicht für alle verfügbar sind (V3-Parameter), während AlphaFold V2 für alle herunterladbar ist (V2-Parameter)
MD war eigentlich nie eine wirklich praktikable Methode für Strukturvorhersage. Es ist nicht so, dass AlphaFold MD nutzlos gemacht hätte; MD eignet sich von Haus aus eher dazu, das Proteinfalten selbst zu untersuchen – also den Prozess vor der Endstruktur oder die systematische Bewegung nach dem Falten
Ich habe nachgesehen, welches Protein in der Abbildung des Papers gezeigt wird: „Figure 1 SimpleFold prediction results … actual in bright emerald, prediction in dark teal.“ Jetzt frage ich mich allerdings noch mehr, warum man ausgerechnet diese Farbkombination gewählt hat
Ich würde gern eine Einschätzung von jemandem mit Fachkenntnis dazu hören, was dieser Ansatz für die Proteinfaltungsforschung bedeuten könnte. Die Arbeit wirkt cool, aber ich kann nicht gut beurteilen, welchen tatsächlichen Einfluss sie haben wird
Dieses Modell ist in seiner Darstellung einfach und verwendet einfach nur Transformer. Man kann also alle möglichen auf Transformer zugeschnittenen Theorien und Werkzeuge direkt anwenden, und vor allem lässt sich das Modell leicht skalieren. Noch wichtiger ist aber vielleicht, dass AlphaFold keine Magie hatte. Es ging weniger um Details der Architektur oder des Trainingsverfahrens als darum, große Modelle auf große Datensätze zu trainieren. Viele, die experimentell mit AlphaFold gearbeitet haben, haben beobachtet, dass es ähnlich wie LLMs funktioniert: bei Eingaben, die dem Trainingsdatensatz ähneln, ist es gut, bei echter Generalisierung jedoch kaum
Vielleicht wird es künftig Veränderungen an den Modellen geben. Dazu könnte eine Einschätzung hilfreich sein (SimpleFold und die Zukunft der Proteinstrukturvorhersage). Aber Forschung braucht immer Zeit, und den realen Impact kann man oft erst nach Monaten oder Jahren beurteilen. Zukunftsprognosen sind begrenzt
Es ist zwar nichts völlig Neues, aber ich finde es äußerst beeindruckend, diesen Trend zu immer einfacheren Proteinfaltungsmodellen zu beobachten. Schon von AF2 zu AF3 wurde das Modell weniger komplex, und diese Arbeit geht in dieser Entwicklung noch einen Schritt weiter und setzt die „bitter lesson“ in die Praxis um
Die in der Arbeit behandelte Flow-Matching-Technik ist wirklich faszinierend. Ich habe sie im Kontext generativer KI kennengelernt, und es ist erstaunlich, dass eine Methode, die sich thermodynamische Konzepte und Brownsche Bewegung leiht, nun so perfekt zur Lösung des Proteinfaltungsproblems eingesetzt wird