- Arbeiten zur Vorhersage von Enzymfunktionen mit Deep-Learning-Modellen erhalten viel Aufmerksamkeit und werden häufig zitiert, während Arbeiten, die per Faktenprüfung auf Fehler hinweisen, fast keine Beachtung finden
- Eine Studie, die mit einem Transformer-basierten Modell 22 Millionen Enzymdatensätze trainierte und 450 unbestätigte Enzymfunktionen vorhersagte, wurde in Nature Communications veröffentlicht
- Eine spätere Arbeit zeigte jedoch Hunderte fehlerhafter Vorhersagen, Datenüberschneidungen und biologisch unmögliche Schlussfolgerungen auf
- Ohne die tiefgehende Analyse von Fachleuten ist die Zuverlässigkeit von AI-Ergebnissen schwer zu bewerten, und das Risiko steigt, dass fehlerhafte Daten weiterverbreitet werden
- Statt auf spektakuläre AI-Modelle sollte wieder stärker auf grundlegende Datenvalidierung und die Integration von Domänenwissen geachtet werden
Deep learning gets the glory, deep fact checking gets ignored
- Eine Arbeit zur Enzymfunktionsvorhersage auf Deep-Learning-Basis trainierte auf 22 Millionen Enzymdatensätzen und sagte mit einem Transformer-Modell 450 unbestätigte Enzymfunktionen voraus; die Veröffentlichung in Nature Communications erhielt große Aufmerksamkeit
- Eine spätere Arbeit fand jedoch Hunderte fehlerhafte Vorhersagen, Überschneidungen mit bestehenden Datenbanken, biologisch unmögliche Ergebnisse und zahlreiche wiederkehrende Fehler
- So sagte die AI etwa die Funktion eines bestimmten Gens in E. coli falsch voraus, obwohl frühere Forschung bereits gezeigt hatte, dass es diese Funktion nicht hat
- Die Arbeit, die diese Fehler aufdeckte, wurde auf bioRxiv veröffentlicht, erhielt aber nur wenige Aufrufe und Zitationen, was Probleme in den Publikationsanreizen sichtbar macht
- Fachleute betonen die Notwendigkeit von Datenvalidierung und Domänenexpertise statt bloßer AI-Modellierung und warnen davor, dass falsche Informationen über Datenbanken erneut verbreitet werden können
The Problem of Determining Enzyme Function
- Enzyme fördern wichtige Reaktionen in Lebewesen, und ihre verschiedenen Funktionen werden über Enzyme-Commission-(EC)-Nummern klassifiziert
- Die Aufgabe, aus Aminosäuresequenzen EC-Nummern vorherzusagen, gilt wegen klar definierter Ein- und Ausgaben als gut für Machine Learning geeignet
- In der UniProt-Datenbank sind mehr als 22 Millionen Enzyme mit EC-Nummern erfasst, sodass reichlich Trainingsdaten vorhanden sind
An Approach with Transformers (AI model)
- Das Forschungsteam verwendete ein Modell aus Transformer-, Convolution- und linearen Layern, um die Funktion unbestätigter Enzyme vorherzusagen
- Bemerkenswert ist, dass zur Interpretierbarkeit des Modells analysiert wurde, ob Regionen mit hoher Attention biologisch sinnvoll sind
- Von den 450 unbestätigten Enzymen wurden nur 3 experimentell (in vitro) überprüft, woraufhin die Forschenden behaupteten, die Genauigkeit belegt zu haben
The Errors
- Von den 450 in der Nature-Arbeit präsentierten „neuen“ Ergebnissen waren 135 bereits in bestehenden Datenbanken vorhanden
- 148 Ergebnisse zeigten starke Wiederholungen; dabei wurde dieselbe Enzymfunktion mehrfach vorhergesagt, und es wurden zahlreiche biologisch unmögliche Fehler bestätigt
- Es gab auch viele Fälle, in denen fälschlich Syntheseenzyme für Stoffe vorhergesagt wurden, die E. coli gar nicht produziert, oder in denen die Vorhersagen früheren Experimenten widersprachen
- Zudem wurde die Möglichkeit von Data Leakage aufgeworfen; besonders in Bereichen ohne tatsächliche Ground Truth traten häufig Fehler auf
The Microbiology Detective
- Dr. de Crécy-Lagard aus der Folgearbeit bestätigte, dass eine der Vorhersagen der Nature-Arbeit für ein Enzym (yciO) eindeutig im Widerspruch zu früheren Studien stand
- Zwar sind yciO und TsaC evolutionär verwandt, doch tatsächliche Experimente zeigten wiederholt, dass yciO die Funktion von TsaC nicht ersetzen kann
- Das macht die Grenzen von Algorithmen deutlich, die allein aufgrund struktureller Ähnlichkeit auf identische Funktionen schließen
- Bei der Bestimmung von Enzymfunktionen müssen verschiedene Belege wie Genumfeld, Substratbindung und Stoffwechselwege zusammen betrachtet werden
Hundreds of Likely Erroneous Results
- Das Team der Folgearbeit bestätigte, dass von 450 Vorhersagen der Nature-Arbeit 135 bereits in der Datenbank registriert waren
- 148 Fälle wurden als Probleme analysiert, die durch wiederholte Vorhersagen derselben Funktion, Datenverzerrungen, fehlende Merkmale und Grenzen der Architektur entstanden
- Bei mehreren Ergebnissen ließ sich der Fehler durch biologischen Kontext oder die bestehende Fachliteratur belegen
Rethinking Enzyme Classification and “True Unknowns”
- Bei der Vorhersage von Enzymfunktionen werden zwei Aufgaben vermischt: die Weitergabe bekannter Funktionen (propagation) und die Entdeckung wirklich unbekannter Funktionen (discovery)
- Supervised ML hat bei der Vorhersage tatsächlich unbekannter Funktionen grundsätzlich Grenzen
- Es entsteht ein Kreislauf von Fehlern, wenn falsche Vorhersagen in Datenbanken wie UniProt eingetragen und Modelle anschließend erneut mit diesen Daten trainiert werden
Need for Domain Expertise
- Im Gegensatz zur AI-Forschung mangelt es bei Datenvalidierung und tiefgehender Analyse durch Domänenexpertinnen und -experten an Anreizen, weshalb sie weniger Aufmerksamkeit erhalten
- Tatsächlich zeigt die Arbeit, dass eine Ursache für das Scheitern von AI-Projekten mit hohem Risiko die unzureichende Anwendung von Domänenwissen ist
- Die meisten Deep-Learning-Arbeiten durchlaufen keine detaillierte Prüfung durch Domänenfachleute; dadurch können selbst auf den ersten Blick beeindruckende Veröffentlichungen in der Praxis viele Fehler enthalten
Fazit und Empfehlungen
- Die Bedeutung von grundlegender Datenvalidierung und der Integration von Domänenwissen wird stärker hervorgehoben als die Entwicklung spektakulärer AI-Modelle
- Es wird gefordert, Forschungsanreize und Unterstützung stärker auf substantielle Validierungsforschung zu konzentrieren
- Das deutet darauf hin, dass Fehlerprüfung und eine bessere Datenqualität langfristig einen größeren Beitrag zum Fortschritt der AI leisten können
1 Kommentare
Hacker-News-Kommentare
Ich denke, man vergisst oft, dass Datenleckage möglich ist. Man sollte immer davon ausgehen, dass es Datenleckage gibt, solange es keine starken Belege für das Gegenteil gibt, und die Beweislast dafür, dass keine Leckage vorliegt, liegt bei den Autoren. Bei kleinen Datensätzen ist Leckage viel einfacher, weil man die Daten direkt komplett durchsehen kann, wodurch sie paradoxerweise leichter entsteht. Es kommt sehr häufig vor, dass Daten durch subtile Fehler beschädigt werden. Inzwischen sind Datensätze so riesig, dass kein Mensch sie vollständig prüfen kann, und obwohl alle wissen, dass das Filtering unvollständig ist, kann man nicht ernsthaft glauben, es gäbe keine Leckage. Man kann sagen, dass gefiltert wurde, aber nicht, dass es wirklich keine Leckage gibt. Selbst in Datensätzen, auf die wir tatsächlich zugreifen können, finden wir oft Probleme. Ich verstehe nicht, warum man nach all diesen Erfahrungen weiterhin annimmt, die Daten seien in Ordnung. Vielleicht ist das einfach Selbsttäuschung aus übertriebenem Optimismus. Wenn man das Problem beheben will, muss man die Realität klar sehen
Jedes System hat Fehler. Die eigentliche Frage ist, wie viele Fehler akzeptabel sind. Zum Beispiel lag die Betrugsquote bei Medicare und Medicaid bei 7,66 %; das ist finanziell enorm, bedeutet aber nicht, dass das gesamte System gescheitert ist, denn die übrigen 93 % funktionierten korrekt. Bei AI-Modellen ist es ähnlich: Eine Fehlerquote von 10 % bedeutet nicht automatisch, dass das ganze System schlecht ist, sondern dass man diskutieren muss, ob dieser Anteil akzeptabel ist. Siehe Quelle
Die Frage, wo die Beweislast liegt, ist meiner Meinung nach für viele Menschen nicht so richtungsweisend für ihre Überzeugungen, wie oft angenommen wird
Bevor AI Forschung betreibt, sollte sie zuerst bestehende Forschung erfolgreich reproduzieren. Wenn man einer AI zum Beispiel ein Deep-Learning-Paper gibt und sie es implementieren lässt, könnte man ihre tatsächlichen Fähigkeiten beurteilen. Wenn schon diese Grundlage fehlt, kann man kaum neue Ideen erwarten
Ich dachte zuerst, man würde vorschlagen: „Geben wir der AI nur den ersten Teil des Papers und lassen sie den Rest vervollständigen.“ Wenn nicht einmal so eine Validierung derzeit möglich ist, glaube ich nicht, dass AI zu innovativen Entdeckungen fähig ist
OpenAI hat dazu einen Benchmark erstellt: paperbench-Link
Man braucht ein vollständig transparentes, überprüfbares Aufzeichnungssystem und muss sogar garantieren können, dass das Paper dem Datensatz nicht schon vorher ausgesetzt war. In Papers kommt wissenschaftliches Fehlverhalten zwar selten, aber doch gelegentlich vor, und LLMs erzeugen mühelos falsche Informationen
Als Beispiel könnte man einer AI die statistischen Versuchsdaten aus einem Paper geben und sie die Rohdaten rekonstruieren lassen
Diese Idee ist nicht nur interessant genug, sondern könnte auch das Problem der Reproduzierbarkeitsprüfung teilweise lösen. Allerdings müssten auch von AI reproduzierte Studien am Ende weiterhin sorgfältig von Menschen geprüft werden. Realistisch betrachtet gibt es schon jetzt verschiedene Rollen, in denen heutige LLMs nützlich sein können, etwa zur Unterstützung bei der Prüfung von Datenverarbeitungscode im Peer-Review-Prozess, bei der Literaturrecherche oder beim Brainstorming von Ideen
„Nature Communications“ und „Nature“ haben ein völlig unterschiedliches Gewicht. Man sollte nicht so tun, als wären sie gleichgestellt. Und Altmetrics sind weitgehend bedeutungslose Kennzahlen. Wenn man nicht gerade das öffentliche Interesse messen will, haben sie mit wissenschaftlichen Zitationen nur wenig zu tun
Wenn man sich die meisten Deep-Learning-Papers ansieht, werden die Ergebnisse nur selten von Domänenexperten wirklich bis ins Detail validiert. Ich frage mich, wie viele der beeindruckend wirkenden Papers eine strenge Prüfung nicht bestehen würden. In meinem Bereich scheint es allerdings so zu sein, dass AI-Papers nicht nur von mir selbst, sondern auch von vielen anderen Experten gründlich gelesen werden. Gleichzeitig habe ich den Eindruck, dass sich Ergebnisse aus Informatik oder Software leichter validieren lassen als in der Biologie (oder vielleicht wirkt das nur so, weil ich mich in Bio weniger auskenne)
Im Biobereich dauert allein die Validierung der Gültigkeit von Labels oft Jahre. Auch der vom OP genannte Fall ist ein ausgesprochen glückliches Beispiel, weil zufällig bereits jemand über Jahre hinweg genau diese Vorhersagewerte vorab validiert hatte. Die meisten setzen nicht 3 bis 5 Jahre ihrer Karriere darauf, zufällige Modellvorhersagen zu validieren
In meinem Fachgebiet ist es üblich, dass Leute eine Methode in einem Paper sehr genau prüfen und Kritik äußern. Das Problem ist, dass Menschen aus anderen Fachgebieten diese Kritik oft nicht ernst nehmen
Ich behaupte, dass AI ein Subsystem zur „Realitätsprüfung“ braucht. Bei LLMs ist es, als würde ständig das Rauschen unseres Unbewussten ungefiltert herausströmen. Unser Gehirn hat tatsächlich eine Art internen Filter nach dem Motto: „Ist das, was ich gerade gesagt habe, eine widerlegbare Wahrheit?“ und sortiert dadurch Lügen aus. (Mit dem scherzhaften Zusatz, dass das natürlich nicht bei allen Menschen funktioniert)
Stimme voll zu. Vor ein paar Monaten lag ich spät nachts halb schlafend da und bemerkte, wie mein Gehirn unaufhörlich verschiedene Formulierungen und Gedanken erzeugte. Oft konnte ich geradezu lebhaft spüren, wie all diese Ideen durch einen Filter gingen und zu Sätzen geformt wurden. Es ist vielleicht eine seltsame persönliche Erfahrung, aber ich habe dabei stark empfunden, dass AI genau so einen Algorithmus unbedingt braucht. Wenn ich promovieren sollte, würde ich das gern als Forschungsthema verfolgen
Das menschliche „Realitätsprüfer“-System ähnelt in GANs dem Discriminator, wird aber stark von Emotionen beeinflusst. Wie psychologische Forschung zeigt, beginnt die menschliche Schaltung zur Wahr/Falsch-Beurteilung immer mit emotionalen Signalen, und ihre Wurzel liegt in Überzeugungen. Wenn jemand etwas sagt, das stark meinen Überzeugungen widerspricht, kommt zuerst die emotionale Reaktion und erst danach die rationale Beurteilung
Das deckt sich mit meiner Erfahrung als Forscher im Umgang mit LLMs. Ihre Fähigkeit zum Textverständnis und zur Textgenerierung hat mich tief beeindruckt, aber es war immer enttäuschend zu sehen, wie schnell sie bei viel schwierigeren, ungelösten Problemen Antworten ausspucken. Komplexe Fragen brauchen Zeit zum Nachdenken, doch LLMs neigen dazu, ohne diese Tiefe oder Überlegung selbstbewusst Antworten zu geben, auch wenn sie völlig falsch sind
Ein großartiger Artikel von Rachel Thomas. Er bestätigt erneut die These, dass Deep Learning letztlich ein [generatives] Information-Retrieval-Tool ist. Die Trainingsdaten spiegeln zwar reale Domänen wider, sind aber im Kern hochgradig verlustbehaftete Datensätze. So repräsentieren etwa Gendaten und Labels die tatsächliche Struktur der Biologie nicht perfekt, weshalb die Ergebnisse oft falsch oder unsinnig sein können. Wenn etwas seltsam gut passt, sollte man im Fall von LLMs als bewusst so entworfenen Information-Retrieval-Tools auch die Möglichkeit von Datenleckage in Betracht ziehen. Informationstheoretisch betrachtet sind die Grenzen des Datensatzes ein gemeinsamer unbekannter Risikofaktor für alle Modelle. Mein Fazit ist daher, dass das Problem nicht im Algorithmus, sondern im Trainingsdatensatz liegt. Wir funktionieren im Bereich der natürlichen Sprache extrem flexibel, und selbst ein Kind kann beim Lesen oft beurteilen, ob etwas sinnvoll klingt. Dass LLMs im NLP-Bereich erfolgreich sind, liegt an genau solchen Daten. In komplexeren Bereichen dagegen, in denen die Ausgangsdaten das Wesen der Sache nicht treu abbilden, gibt es weit mehr Grenzen
Ich mache mir Sorgen, dass Desinformation inzwischen auch in die Wissenschaft einsickert. Die Tatsache, dass unbelegte, provokante Aussagen mehr Aufmerksamkeit bekommen als sauber belegte Forschung, zeigt sich in der Wissenschaft immer mehr ähnlich wie in sozialen Medien. Dennoch kann man Twitter nicht mit der Zeitschrift Nature gleichsetzen, und ich hatte Vertrauen darin, dass renommierte Journale und das Peer-Review-System als „letzte Bastion“ gegen solche Probleme dienen. Daher frage ich mich, ob dieser Vorfall nicht tatsächlich ein Versagen von Nature ist
Man sollte sich daran erinnern, dass es Statistiken gibt, nach denen Journale mit hoher Wirkung häufiger Rücknahmen und unvalidierte Arbeiten aufweisen. Über die grundlegenden Ursachen lässt sich streiten, aber ein einzelnes Paper beweist keine Wahrheit; der eigentliche Maßstab für Vertrauen ist, dass verschiedene Forschungseinrichtungen und mehrere Teams die Ergebnisse unabhängig verifizieren
Das Problem von Desinformation in der Wissenschaft ist nicht erst jetzt groß geworden; die Debatte über die „Reproduzierbarkeitskrise“ läuft schon seit Jahren
Fälle wie das ML-Quantum-Wormhole-Paper sind frustrierend, weil fehlerhafte Forschung inzwischen nicht nur in populärwissenschaftlichen Artikeln, sondern sogar in renommierten Fachjournalen erscheint. Meiner Meinung nach handelt es sich weniger um Versehen als um zu viele Fälle, in denen sowohl Forscher als auch Reviewer auf echte Validierung verzichtet haben. Ich war dem traditionellen Journalsystem ohnehin skeptisch gegenüber eingestellt und hoffte auf freiere wissenschaftliche Publikation, aber inzwischen habe ich eher den Eindruck, dass die Journale selbst ihre Glaubwürdigkeit untergraben. Am meisten beunruhigt mich jedoch, dass so etwas letztlich das öffentliche Vertrauen in die Wissenschaft beschädigt. Die feinen internen Debatten der Wissenschaft sind für die Öffentlichkeit schwer wahrnehmbar, und solche Vorfälle liefern dem antiwissenschaftlichen Lager nur weiteres Futter
Das erinnert mich an das Bullshit asymmetry principle (Brandolinis Gesetz): Link zu diesem Prinzip
Wir neigen dazu, den einen spektakulären ML/AI-Erfolg, der wunderbar funktioniert hat, dramatisch zu vermarkten und die Dutzenden gescheiterten Versuche zu ignorieren