Deep Learning bekommt Aufmerksamkeit, Deep Fact-Checking wird ignoriert

(rachel.fast.ai)

3 Punkte von GN⁺ 2025-06-04 | 1 Kommentare | Auf WhatsApp teilen

Eine Studie, die einen Transformer mit 22 Millionen Enzymdaten trainierte und die Funktionen von 450 unbekannten Enzymen vorhersagte, wurde in Nature Communications veröffentlicht und erreichte in Altmetric die oberen 5 % der Aufmerksamkeit; ein nachfolgender Preprint, der umfangreiche Fehler überprüfte, fand jedoch deutlich weniger Beachtung
Die Vorhersage von Enzymfunktionen wirkt wie ein Problem, bei dem aus Aminosäuresequenzen die passende EC-Nummer bestimmt wird. In der Praxis erfordert die Beurteilung aber neben struktureller Ähnlichkeit auch biologische Evidenz wie den genetischen Umgebungskontext, Substrat-Docking und das gemeinsame Auftreten in Stoffwechselwegen
Von 450 „neuartigen“ Vorhersagen waren 135 bereits in UniProt vorhanden, und 148 zeigten biologisch ungewöhnliche Muster, etwa dass dieselbe sehr spezifische Funktion bis zu 12-mal wiederholt wurde
Der Fall yciO zeigt, dass Test-Set-Performance und einige wenige in-vitro-Validierungen nicht ausreichen; yciO ist strukturell TsaC ähnlich, doch frühere Forschung und Unterschiede in der Enzymaktivität deuten darauf hin, dass es nicht dieselbe Kernfunktion ausübt
Modelle des überwachten Lernens können nützlich sein, um bekannte Funktionslabels innerhalb derselben Funktionsfamilie weiterzugeben, haben aber Grenzen bei der Entdeckung wirklich unbekannter Funktionen; falsche Labels können sich über Datenbanken wie UniProt in das Training späterer Modelle weiterverbreiten

Kontrast zwischen einem Paper zur KI-basierten Enzymvorhersage und der nachfolgenden Validierung

Die ursprüngliche Studie trainierte und evaluierte ein Transformer-basiertes Modell mit einem Datensatz aus 22 Millionen Enzymen samt EC-Nummern und sagte anschließend die Funktionen von rund 450 Enzymen mit unbekannter Funktion voraus
Sie erschien unter Functional annotation of enzyme-encoding genes using deep learning with transformer layers | Nature Communications, verzeichnete 22.000 Aufrufe und lag laut Altmetric bei der Aufmerksamkeit unter den oberen 5 % aller Forschungsergebnisse
Das nachfolgende Validierungspapier Limitations of Current Machine-Learning Models in Predicting Enzymatic Functions for Uncharacterized Proteins | bioRxiv fand in den Vorhersagen des ursprünglichen Papers gravierende Fehler und Hunderte wahrscheinlich falsche Ergebnisse, erhielt aber bei Weitem nicht so viele Aufrufe oder Zitationen wie das Originalpaper
Dieser Fall zeigt, dass sich die Validität von KI-Ergebnissen in der Biologie ohne tiefgehende Domänenexpertise nur schwer beurteilen lässt

Warum die Vorhersage von Enzymfunktionen schwierig ist

Enzyme katalysieren Reaktionen in Lebewesen, und Enzyme-Commission(EC)-Nummern klassifizieren Tausende Enzymfunktionen hierarchisch
Da die Eingabe die Aminosäuresequenz eines Proteins ist und die Ausgabe eine EC-Nummer, wirkt das Problem wie gut geeignet für Machine Learning
UniProt enthält mehr als 22 Millionen Enzyme mit EC-Nummern und kann daher als großer Trainingsdatensatz genutzt werden
Die Bestimmung von Enzymfunktionen lässt sich jedoch nicht allein über Sequenz- oder Strukturähnlichkeit leisten; evolutionäre Beziehungen, in denen sich Funktionen auseinanderentwickelt haben, sind eine häufige Falle

Transformer-Ansatz und scheinbare Erfolge

Das Nature-Communications-Paper nutzte ein Transformer-Deep-Learning-Modell, um Funktionen von Enzymen vorherzusagen, deren Funktion zuvor unbekannt war
Die Modellarchitektur übernahm den aus BERT bekannten Ansatz und bestand aus zwei Transformer-Encodern, zwei Convolutional Layers und einem Linear Layer
Die Forschenden prüften, ob Bereiche mit hoher Attention biologisch aussagekräftig waren, und kamen zu dem Schluss, dass das Modell grundlegende Bedeutung gelernt habe und auch Interpretierbarkeit biete
Sie nutzten eine standardmäßige Aufteilung in Trainings-, Validierungs- und Testdaten auf einem Datensatz mit Millionen Einträgen und wandten das Modell auf einen Datensatz ohne Ground Truth an, wodurch rund 450 neue Vorhersagen entstanden
Drei davon wurden zufällig ausgewählt und in vitro getestet; dabei wurden die Vorhersagen als korrekt bestätigt

Aufgedeckte Fehler und wiederkehrende Muster

Die nachfolgende Analyse kam zu dem Schluss, dass Hunderte der „neuartigen“ Vorhersagen im Nature-Communications-Paper mit hoher Wahrscheinlichkeit fehlerhaft waren
Das ursprüngliche Paper erzielte auf dem zurückgehaltenen Test-Set gute Ergebnisse, doch spätere Untersuchungen fanden Hinweise auf mögliche Datenleckage
Von den 450 „neuartigen“ Ergebnissen:
- waren 135 bereits in UniProt eingetragen und damit tatsächlich nicht neu
- zeigten 148 ein ungewöhnliches Muster, bei dem dieselbe sehr spezifische Enzymfunktion in E.-coli-Genen bis zu 12-mal wiederholt wurde
Solche Wiederholungen sind biologisch nicht plausibel; Bias, Datenungleichgewicht, fehlende relevante Merkmale, Architekturgrenzen und mangelnde Unsicherheitskalibrierung können dazu führen, dass ein Modell häufige Labels aus den Trainingsdaten erzwungen ausgibt
YjhQ wurde als Mycothiol-Synthase vorhergesagt, aber E. coli synthetisiert kein Mycothiol
Für YrhB wurde vorhergesagt, eine bestimmte Verbindung zu synthetisieren; dieselbe Verbindung wurde jedoch bereits als Produkt des Enzyms QueD vorhergesagt, und QueD-mutante E. coli können diese Verbindung nicht synthetisieren, was zeigt, dass dies nicht die Funktion von YrhB ist

Was der Fall yciO über die Rolle von Domänenwissen zeigt

yciO, eines der in vitro getesteten Ziele, war ein Enzym, das Dr. de Crécy-Lagard seit mehr als zehn Jahren erforscht hatte
Das ursprüngliche Paper kam zu dem Schluss, dass yciO dieselbe Funktion wie TsaC habe, doch frühere Forschung stützt diese Annahme nicht
TsaC ist in E. coli ein essenzielles Gen; yciO kommt im selben Genom vor, und selbst eine Überexpression von yciO hebt die Essenzialität von TsaC nicht auf
Die von Kim et al. berichtete yciO-Aktivität ist um mehr als vier Größenordnungen, also über 10.000-mal, schwächer als die von TsaC
yciO und TsaC sind strukturell ähnlich, und yciO entwickelte sich aus einem TsaC-Vorfahren; nach Genduplikationen ist funktionelle Diversifizierung jedoch in der Protein- und Enzymevolution üblich
Für die Klassifikation von Enzymfunktionen sind neben Strukturähnlichkeit auch folgende Evidenzen wichtig
- der neighborhood context von Genen
- Substrat-Docking
- gemeinsames Auftreten von Genen innerhalb eines Stoffwechselwegs
- weitere Merkmale des Enzyms

Unterscheidung zwischen „Weitergabe bekannter Funktionen“ und „Entdeckung wirklich unbekannter Funktionen“

Bei der Identifikation von Enzymfunktionen werden zwei unterschiedliche Probleme vermischt
- die Weitergabe bekannter Funktionslabels an Enzyme derselben Funktionsfamilie
- die Entdeckung wirklich unbekannter Funktionen
Modelle des überwachten Machine Learning können konstruktionsbedingt nicht zur Funktionsvorhersage von true unknowns verwendet werden
Machine Learning kann nützlich sein, um bekannte Funktionen auf weitere Enzyme zu übertragen
Dabei können jedoch folgende Fehler auftreten
- Labels, die weitergegeben werden sollten, werden nicht weitergegeben
- Labels, die nicht weitergegeben werden sollten, werden weitergegeben
- Kurationsfehler
- experimentelle Fehler
Wenn falsche Funktionen in zentrale Online-Datenbanken wie UniProt gelangen, können sie als Trainingsdaten für spätere Vorhersagemodelle genutzt werden und sich weiter verbreiten
Dieses Problem kann mit der Zeit größer werden

Geringe Anerkennung für Datenvalidierungsforschung

Der Aufbau von KI-Modellen erhält mehr Anerkennung und Unterstützung als die sorgfältige Prüfung der zugrunde liegenden Daten und die Integration tiefgehenden Domänenwissens
Everyone Wants to do the Model Work, not the Data Work behandelte Dutzende Machine-Learning-Praktiker, die an Hochrisiko-KI-Projekten beteiligt waren, und nennt unzureichende Expertise im Anwendungsbereich als eine der Hauptursachen schwerwiegender Fehlschläge
Die Bewertung von KI-Ergebnissen außerhalb des eigenen Fachgebiets kann sehr schwierig oder unmöglich sein
Viele Deep-Learning-Paper werden gelesen, ohne dass Domänenexperten die Qualität der Ergebnisse im Detail geprüft haben
Die Überprüfung Hunderter Enzymvorhersagen ist weniger glamourös als der Bau eines KI-Modells, kann für die Ergebnisqualität aber wichtiger sein
Ein Anreizsystem, das sich unverhältnismäßig stark auf glänzende KI-Lösungen konzentriert, kann hochwertige Ergebnisse opfern

1 Kommentare

GN⁺ 2025-06-04

Meinungen auf Hacker News

Ich habe früher etwas Ähnliches erlebt. Ich habe BERT auf Enzymdaten losgelassen; in der Auswertung sah es ordentlich aus, in der realen Umgebung ist es komplett gescheitert. Ein klassischer Fall von „auf die Stimmung overfittet“
Ehrlich gesagt würde ich bei einfacher Klassifikation jederzeit SVM oder logistische Regression wählen. Transformer sind beeindruckend, aber wenn die Daten nicht sehr sauber sind, halluzinieren sie mit großer Selbstsicherheit. Das ist ähnlich, wie wenn man GPT einen absurden Multiple-Choice-Test gibt: Es wählt irgendetwas aus und sagt es sehr überzeugend
Heutzutage gehe ich eher dazu über, nur Embeddings aus großen Modellen zu nehmen und einen einfachen Klassifikator daraufzusetzen. Funktioniert besser, ist schneller und macht weniger Lärm
- Transformer bekommen im Testset Bestnoten und kippen um, sobald sie auf die Realität treffen. Ich habe auch erst getanzt nach dem Motto „Wow, 92 % Accuracy!“, nur um später festzustellen, dass ich lediglich einen Pattern Matcher gebaut hatte, der selbstbewusst triviale Merkmale des Datensatzes erkannte
- Vielleicht weißt du das schon, aber der Ansatz, Embeddings aus großen Modellen zu nehmen und einen Klassifikator daraufzusetzen, ist im weiteren Sinne als Transfer Learning bekannt
- Stimmt, aber damit nutzt man trotzdem indirekt Transformer
- Ironischerweise liest sich dieser Kommentar selbst so, als wäre er von einem Transformer, genauer von ChatGPT, erzeugt worden
- Eine etwas andere Frage: Wie nützlich hältst du SVMs in der Produktion? Ich hatte meist das Gefühl, dass sie im Vergleich zu anderen Algorithmen zu langsam sind und sich deshalb weniger lohnen
Bevor man KI Forschung betreiben lässt, sollte man sie wohl zuerst Forschung reproduzieren lassen. Zum Beispiel, indem man ihr ein Paper zu einer Deep-Learning-Methode gibt und sie eine Implementierung dieses Papers erstellen lässt
Wenn sie das nicht kann, erwarte ich nicht, dass sie neue Ideen hervorbringen kann
- Reproduzierbarkeit ist die Baseline. Solange ein Modell bestehende Forschung nicht zuverlässig lesen, verstehen und korrekt implementieren kann, ist „KI-Wissenschaftler“ weitgehend Branding
- OpenAI hat dafür einen Benchmark erstellt: https://openai.com/index/paperbench/
- Für LLMs braucht man einen sehr vollständigen Audit Trail und muss außerdem sicherstellen, dass das betreffende Paper in keinem Datensatz enthalten ist
  Wissenschaftlicher Betrug ist selten, aber es gibt ihn. LLMs erfinden Daten und lügen, sobald sich ihnen auch nur eine kleine Lücke bietet
- Ich dachte, du wolltest sagen: „Geben wir der KI den Anfang des Papers, also den Prompt, und lassen sie den Rest vervollständigen, um zu prüfen, ob sie Wissenschaft auf dem Niveau der Forschungsergebnisse erzeugen kann.“ Wenn sie das nicht kann, erwarte ich nicht, dass sie neue Ideen hervorbringen kann
- Oder man könnte ihr ein Paper voller Statistiken zu experimentellen Beobachtungen geben und sie die Rohdaten reproduzieren lassen
Ich habe gehört, dass ein Forscher sechs Monate damit verbracht hat, die Ergebnisse eines veröffentlichten Papers zu überprüfen. Am Ende bekam er nur ein „Danke für den Hinweis“
Er sagte leise: „Manche Arbeit ist nicht wichtig, weil sie sichtbar ist, sondern weil sie andere davon abhält, in die falsche Richtung zu gehen“
Wenn wir nicht einmal bereit sind, sorgfältig zu prüfen, ob Vorhersagen zur Realität passen, dann ist Technologie, so beeindruckend sie auch aussehen mag, nur eine vorübergehende Illusion
- Einen Nobelpreis wird er dafür nicht bekommen, aber gemessen an Leistung und dem Wert, den er der Menschheit hinzugefügt hat, liegt er weit vor den meisten Angestellten in Unternehmen. Es wäre schön, wenn wir das auch über unsere Arbeit der letzten zehn Jahre sagen könnten
Der Teil „spätere Untersuchungen deuten darauf hin, dass es Datenlecks gegeben haben könnte“ wird offenbar oft vergessen. Bis starke Gegenbelege auftauchen, sollte man grundsätzlich von Data Leakage ausgehen
Nicht Leser oder Skeptiker tragen die Verantwortung zu beweisen, dass es ein Leck gibt; die Autoren tragen die Verantwortung nachzuweisen, dass es keines gibt
In kleinen Datensätzen entsteht Data Leakage leicht. Selbst in Datensätzen, die man vollständig mit den Augen durchsehen kann, schleichen sich Lecks sehr leicht ein, meist ohne dass man es merkt. Subtile Faktoren können Daten schnell ruinieren
Inzwischen arbeiten wir mit riesigen Datensätzen, die kein Mensch vollständig durchsehen kann. Wir wissen außerdem, dass Filtermethoden unvollkommen sind. Wie kommt man da dazu zu glauben, es gebe keine Lecks? Man kann sagen, dass gefiltert wurde, aber nicht, dass es keine Lecks gibt
Zudem finden wir selbst in zugänglichen Datensätzen immer wieder Kontamination. Es gibt also fortlaufend Belege dafür, dass so etwas tatsächlich häufig passiert
Warum nimmt man dann weiter an, es gebe keine Kontamination? Wegen des Hypes? Ehrlich gesagt klingt das nach einer Lüge, die man sich selbst erzählt, weil man daran glauben will. Solche Probleme lassen sich nicht beheben, wenn man sich dabei selbst täuscht
- Jedes System hat Probleme. Die bessere Frage ist, wo der akzeptable Schwellenwert liegt
  Zum Beispiel lag die Quote unzulässiger Zahlungen bei Medicare und Medicaid bei 7,66 %. Das betrifft Milliarden Dollar und es gibt Verbesserungsbedarf, aber es bedeutet nicht, dass das ganze System gescheitert ist. In 93 % der Fälle wird die Absicherung wie vorgesehen gewährt
  Bei solchen Modellen kann es ähnlich sein. Wenn die Kontaminationsrate 10 % beträgt, ist dann das ganze System schlecht, oder ist das ein hinnehmbares Niveau?
  [1]: https://www.cms.gov/newsroom/fact-sheets/fiscal-year-2024-im...
- Wo die Beweislast liegt, ist online nicht so sehr ein entscheidendes Kriterium dafür, was man glauben sollte, wie oft angenommen wird
Genau das ist passiert, was ich vorhergesagt hatte: https://news.ycombinator.com/context?id=44041114 https://news.ycombinator.com/context?id=41786908
Es ist wie bei „KI kann programmieren“. Wenn das Problem nicht im Trainingsset enthalten ist, scheitert sie immer wieder spektakulär, und die Leute sind jedes Mal überrascht
- Bei „KI kann programmieren“ kommt man mit Umwegen immerhin ziemlich weit. Man kann den Workflow echter Software Engineers ergänzen und Sicherheitsnetze wie Linter und Tests einziehen
  Die schwierigen Teile wie Architektur, Design und Review schafft sie nicht, aber sie kann einen enormen Anteil der repetitiven, bereits gelösten Aufgaben übernehmen, die den Großteil der Zeit von Engineers fressen. Da Menschen die Qualitätssicherung übernehmen, sind Produktivitätssteigerungen um das 2- bis 5-Fache ohne Qualitätsverlust durchaus möglich
  Ohne Steuerung und Kontrolle kann sie aber die gesamte Arbeit eines Menschen nicht zuverlässig ersetzen. Davon sind wir noch überhaupt nicht nah dran
„In den meisten Deep-Learning-Papers, die ich gelesen habe, hat kein Domain-Experte die Ergebnisse sorgfältig durchgesehen und die Qualität der Outputs geprüft. Wie viele der auf den ersten Blick beeindruckenden Papers würden einer gründlichen Überprüfung wohl nicht standhalten?“
Ist das wirklich so? Ich habe einige AI-Papers aus meinem Fachgebiet gelesen und weiß, dass auch viele andere Domain-Experten solche Arbeiten gelesen haben. Allerdings scheinen computerwissenschaftliche und softwarebasierte Aufgaben im Allgemeinen leichter zu verifizieren zu sein als Biologie. Oder es liegt daran, dass ich von Biologie kaum etwas verstehe.
- Die Validierung biologischer Labels kann leicht Jahre dauern. Das Beispiel im Originaltext war eher ein riesiger glücklicher Zufall, bei dem jemand bereits Jahre in eines der vorhergesagten Protein-Labels investiert hatte.
  Niemand wird 3 bis 5 Jahre seiner Karriere darauf setzen, eine beliebige Modellvorhersage zu validieren.
- Ein Paper zu lesen, Ergebnisse zu überprüfen und Korrektheit zu zertifizieren sind unterschiedliche Dinge. Ich lese auch viele Papers, schaue mir aber normalerweise nur dann die zugrunde liegenden Daten an, wenn ich diese Daten für einen anderen Zweck wiederverwenden will.
  Dann findet man Fehler in den Ground-Truth-Labels meist ziemlich schnell. Natürlich sind die meisten Modelle nicht gut genug, als dass solche Fehler die Ergebnisse stark beeinflussen würden.
- In der Linguistik habe ich den Eindruck, dass Leute Papers, die solche Methoden verwenden, recht gründlich lesen und auch Kritik daran äußern. Allerdings nehmen die Leute Linguisten nicht ernst, sodass Personen aus den relevanten Nachbarfeldern diese Kritik ignorieren.
Nature Communications sollte man nicht „Nature“ nennen. Das Prestige ist völlig anders. Und Altmetrics sind auch nicht besonders relevant, außer vielleicht, wenn man öffentliche Überhitzung messen will.
- Update: Der Autor scheint das gelesen und korrigiert zu haben.
Das passt gut zu meiner begrenzten LLM-Erfahrung als Forscher. Das oberflächliche Verständnis geschriebener Sprache und die Formulierung von Sätzen sind sehr beeindruckend.
Aber die bestmögliche Antwort auf Fragen zu finden, die insbesondere noch ungelöst sind, ist etwas anderes. Antworten, die nahezu sofort auf Fragen kommen, bei denen man selbst nach einem halben Tag vielleicht zu keinem Ergebnis käme, sind selten zufriedenstellend.
Komplexe Fragen brauchen Zeit zur Exploration. Bisher neigen LLMs selbst in Situationen, in denen sie wegen fehlender Fähigkeiten eigentlich zu keinem Schluss kommen dürften, eher dazu, selbstbewusst wirkende, manchmal völlig falsche Antworten zu geben, statt den ungelösten Zustand einzugestehen.
Ein hervorragender Artikel von Rachel Thomas.
Das wirkt wie ein weiteres Argument dafür, dass Deep Learning, weil es auf Trainingsdaten angewiesen ist, die eine sehr verlustbehaftete Repräsentation der zugrunde liegenden Domain darstellen, letztlich nur als generative Informationssuche funktioniert. Mit anderen Worten: ein stochastischer Papagei.
Weil Gendaten oder Labels die zugrunde liegende Domain Biologie nicht immer perfekt abbilden, können Outputs falsch, ungültig oder unsinnig sein.
Wenn es sehr gut funktioniert, liegt Datenleckage vor. Denn LLMs sind vom Design her Werkzeuge zur Informationssuche. Aus informationstheoretischer Sicht gibt es in jedem Modell ein fundamentales „nicht wissen, dass man etwas nicht weiß“.
Mein Fazit ist, dass eher der Trainingsdatensatz schuld ist als der Algorithmus.
Menschen funktionieren im Bereich natürlicher Sprache flexibel, und selbst Kinder können Texte lesen und beurteilen, ob sie Sinn ergeben. Das erklärt den Erfolg von Modellen, die mit Natural Language Processing trainiert wurden.
In Bereichen, in denen die Trainingsdaten die zugrunde liegende Domain verlustbehaftet darstellen, müssen sie jedoch zwangsläufig unvollständig sein.
- Das Paradox moderner LLMs besteht darin, dass sie die zugrunde liegende Domain zwar nicht direkt repräsentieren, aber Informationen repräsentieren können, die sich als Text darstellen lassen. Sie repräsentieren also bestimmte Informationen, aber es ist nicht immer klar, was genau das ist und wie es repräsentiert wird.
  Der Embedding-Raum kann Beziehungen zwischen Wörtern, Sätzen und Absätzen repräsentieren, und diese können Informationen über die zugrunde liegende Domain enthalten. Fragt man diese Beziehungen in Textform ab, erhält man daher plausible Antworten. Das Problem ist, dass Text eine unsaubere Codierungsform ist und deshalb nicht immer klar ist, was diese Beziehungen repräsentieren.
  Eine weitere Schwäche liegt im Generativen. Um es generativ zu machen, werden nicht alle möglichen Fragen und Antworten hart in einer Datenbank codiert, sondern ein Teil der Daten wird an den Algorithmus ausgelagert, also an die Vorhersage des nächsten Tokens. Dadurch werden unpräzise, aber probabilistische Fragen und Prompts möglich, und es entsteht der Vorteil, alles fragen zu können.
  Aber kein einzelner Algorithmus kann alle möglichen Antworten auf alle möglichen Fragen einer Domain exakt codieren. Daher geht ein Teil der Informationspräzision verloren. So sehe ich heutige LLMs.
- Selbst wenn man die Diskussion vereinfacht und annimmt, dass die Aussage, LLMs seien generative Informationssuche, völlig zutrifft, werden LLMs bleiben.
  Man muss nur daran denken, wie unterdurchschnittliche oder durchschnittliche Junior-Entwickler beim Programmieren arbeiten. Sie „suchen“ Informationen zur Problemlösung auf Stack Overflow oder in Tutorials.
  Allen Entwicklern ein gut gemachtes KI-Automatisierungstool zu geben, ist ungefähr so, als würde man jedem einen Junior-Entwickler zur Seite stellen, dem man langweilige und einfache Aufgaben delegieren kann. Man muss auch nicht befürchten, dass der Junior wegen der einfachen Aufgaben nicht wächst. Wenn dazu genügend Werkzeuge wie statische Codeanalyse und Tests vorhanden sind, wird das KI-Tool den Zyklus aus Arbeiten, Tools ausführen und Probleme beheben ziemlich gut bewältigen.
  Kostet dieses Tool nicht ungefähr ein Dreißigstel eines Junior-Entwicklers? Dann bleibt mehr Zeit für wichtige Dinge, einschließlich der Ausbildung echter Junior-Entwickler.
  Ich glaube nicht, dass AI schon ganz dort angekommen ist, aber die aktuellen Foundation Models könnten, wenn man sie richtig verbindet und kombiniert, bereits ausreichen, um dorthin zu gelangen.
- Ich frage mich, ob der Gedankengang, der zu der von Rachel Thomas beschriebenen Situation führt, bis zu einem gewissen Grad auch in anderen Bereichen funktioniert. Ein wichtiger Text, dem ich zustimme.
Das benennt gut eines der Kernprobleme des aktuellen AI-Hype-Zyklus. Wir optimieren nicht auf Genauigkeit, sondern auf Aufmerksamkeit.
Und das ist kein Problem, das nur die Biologie betrifft. Ähnliche Muster sieht man bei Machine-Learning-Anwendungen in vielen Bereichen, von Klimawissenschaft über Recht bis Medizin.

Deep Learning bekommt Aufmerksamkeit, Deep Fact-Checking wird ignoriert

Kontrast zwischen einem Paper zur KI-basierten Enzymvorhersage und der nachfolgenden Validierung

Warum die Vorhersage von Enzymfunktionen schwierig ist

Transformer-Ansatz und scheinbare Erfolge

Aufgedeckte Fehler und wiederkehrende Muster

Was der Fall yciO über die Rolle von Domänenwissen zeigt

Unterscheidung zwischen „Weitergabe bekannter Funktionen“ und „Entdeckung wirklich unbekannter Funktionen“

Geringe Anerkennung für Datenvalidierungsforschung

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News