Was ich daraus gelernt habe, auf den KI-für-die-Wissenschaft-Hype hereinzufallen

(understandingai.org)

3 Punkte von GN⁺ 2025-05-21 | 1 Kommentare | Auf WhatsApp teilen

Der Autor, der in Princeton Plasmaphysik erforschte, änderte 2018 seine Richtung, weil er glaubte, KI könne die physikalische Forschung beschleunigen. Tatsächlich erwies sich KI zum Lösen von PDEs jedoch als deutlich fragiler als erwartet
PINNs wirkten wie ein einfacher und allgemeiner Ansatz, doch schon kleine Änderungen an leichten Beispielen machten es schwer, korrekte Lösungen zu erhalten; Stabilität ließ sich auch durch Tuning nicht erreichen
Bei der Prüfung von 76 Arbeiten zu PDEs in der Strömungsmechanik zeigte sich: Von den Papers, die behaupteten, besser als Standardverfahren der numerischen Mathematik zu sein, verwendeten 60 Arbeiten, 79 % schwache Baselines, und große Speedup-Beispiele stützten sich auf unfaire Vergleiche
Der Einsatz von KI in der Wissenschaft stieg von 2 % im Jahr 2015 auf fast 8 % im Jahr 2022, doch dieser Anstieg könnte stärker mit Anreizen für Zitationen, Karriere und Mittelakquise zusammenhängen als mit der Wissenschaft selbst
KI kann bei Proteinfaltung, Wettervorhersage und Wirkstoffentwicklung Erfolge erzielen, doch die allgemeine Behauptung, sie beschleunige die Wissenschaft revolutionär, sollte wegen Survivorship Bias, Data Leakage, schwachen Baselines und Cherry-Picking mit Vorsicht betrachtet werden

Warum ich von der Plasmaphysik zur KI wechselte

2018, im zweiten Jahr seiner Promotion in Plasmaphysik in Princeton, verlagerte der Autor seinen Forschungsschwerpunkt auf Machine Learning
- Es gab kein konkretes Projekt, aber er dachte, dass er größeren Einfluss haben könnte, wenn KI die physikalische Forschung beschleunigt
- Er sagt auch, dass die hohen Gehälter im KI-Bereich ein Motiv waren
Danach machte er das Problem, partielle Differentialgleichungen (PDEs) mit KI zu lösen, das Yann LeCun als „pretty hot topic“ bezeichnet hatte, zu seinem Forschungsgegenstand
PDEs sind mathematische Gleichungen zur Modellierung physikalischer Systeme und sind in Computational Physics und Engineering-Simulationen wichtig
- Das Labor des Autors nutzte PDEs, um das Verhalten von Plasma im Inneren von Fusionsreaktoren und im interstellaren Medium zu modellieren
Die KI-Modelle zum Lösen von PDEs waren spezialisierte Deep-Learning-Modelle, eher AlphaFold als ChatGPT

Die Schwächen, die PINN-Experimente offenlegten

Der erste ausprobierte Ansatz war ein physics-informed neural network (PINN)
- Ein PINN stellt die Lösung einer PDE nicht als Pixelgitter dar, sondern als neuronales Netz und nimmt die Gleichung in die Loss Function auf
- Die frühen PINN-Papers behaupteten Erfolge bei klassischen Problemen wie Strömungen, Quantenmechanik, Reaktions-Diffusions-Systemen und nichtlinearen Flachwasserwellen und waren bereits Hunderte Male zitiert worden
Es wirkte wie eine einfache, elegante und allgemeine Methode, doch die tatsächlichen Experimente verliefen anders als erwartet
- Als eines der Beispiele aus dem einflussreichen ersten Paper, 1D Burgers’, durch eine andere einfache PDE, 1D Vlasov, ersetzt wurde, entstand keine korrekt wirkende Lösung
- Nach viel Tuning erzielte er zwar plausibel aussehende Ergebnisse, bekam aber bei etwas komplexeren PDEs wie 1D Vlasov-Poisson keine brauchbare Lösung
- Auch ein Freund an einer anderen Universität berichtete, dass er mit PINNs keine guten Ergebnisse erzielen konnte
Offenbar beobachteten auch die Autoren des ursprünglichen PINN-Papers, dass bestimmte Settings bei einer Gleichung beeindruckende Ergebnisse liefern, bei einer anderen aber scheitern können
- Im Paper tauchten jedoch keine PINN-Fehlschläge auf
- Auch der Autor selbst veröffentlichte seine gescheiterten Experimente nicht als Paper, sondern präsentierte sie nur als wenig beachtetes Konferenzposter

Die Lehren aus PINNs und die heutige Bewertung

Die erste Lehre lautet: KI-Forschungsergebnisse darf man nicht für bare Münze nehmen
- Die meisten Wissenschaftler wollen niemanden täuschen, doch die Anreize, vorteilhafte Ergebnisse zu präsentieren, sind stark und können Leser in die Irre führen
- Je einflussreicher ein Paper mit beeindruckenden Ergebnissen ist, desto skeptischer sollte man es betrachten
Die zweite Lehre ist, dass Fälle, in denen KI-Methoden scheitern, kaum veröffentlicht werden
- Es dauerte zwei Jahre, bis ein Paper zu den Failure Modes von PINNs erschien; dieses Paper wurde inzwischen mehr als 1.000-mal zitiert
- Das deutet darauf hin, dass viele Forschende ähnliche Probleme mit PINNs erlebt haben könnten
Die dritte Schlussfolgerung war, dass PINNs nicht der Ansatz waren, den der Autor verwenden wollte
- PINNs seien zwar einfach und elegant, aber zu instabil, zu heikel und zu langsam gewesen
Das ursprüngliche PINN-Paper kommt sechs Jahre später auf 14.000 Zitationen
- Nach Einschätzung des Autors ist es das meistzitierte Paper zur numerischen Mathematik des 21. Jahrhunderts; bis es das zweitmeistzitierte Paper der gesamten numerischen Mathematik wird, bleiben seiner Ansicht nach noch ein bis zwei Jahre
Beim direkten Lösen von PDEs gilt inzwischen weitgehend als akzeptiert, dass PINNs im Allgemeinen nicht mit Standardverfahren der numerischen Mathematik konkurrieren können; die Leistung bei inversen Problemen (inverse problems) ist jedoch weiterhin umstritten
- Befürworter behaupten, PINNs seien bei inversen Problemen besonders effektiv
- Einige Forschende widersprechen dieser Idee entschieden
- Der Autor weiß nicht, welche Seite recht hat, und hält es für möglich, dass PINNs später als riesige Zitationsblase bewertet werden

Übertriebener Optimismus durch schwache Baselines

In seiner Dissertation konzentrierte er sich auf Deep-Learning-Modelle, die PDE-Lösungen wie traditionelle Solver als Menge von Pixeln auf einem Gitter oder Graphen behandeln
- Dieser Ansatz schien für die komplexen zeitabhängigen PDEs, an denen sein Labor interessiert war, vielversprechender als PINNs
- Mehrere Papers behaupteten, PDEs um Größenordnungen schneller lösen zu können als Standardverfahren der numerischen Mathematik
Besonders Beispiele zu PDEs der Strömungsmechanik wie den Navier-Stokes-Gleichungen motivierten den Autor und seinen Betreuer
- Die Gleichungen, die Plasma in Fusionsreaktoren beschreiben, haben eine ähnliche mathematische Struktur, sodass ähnliche Beschleunigungen zu erwarten schienen
- Theoretisch könnte man größere Systeme simulieren, Designs schneller optimieren und die Forschung beschleunigen
Doch Zuverlässigkeit und Robustheit der KI-Modelle konnten zu gravierenden Problemen werden
- Wenn schnellere Simulationen weniger verlässlich sind, musste geprüft werden, ob dieser Trade-off lohnend ist
- Versuche, die Modelle verlässlicher zu machen, scheiterten meist und ließen Zweifel an dem Potenzial von KI zur PDE-Beschleunigung selbst aufkommen
Hochkarätige Papers behaupteten, KI habe Navier-Stokes-Gleichungen um Größenordnungen schneller gelöst als Standardverfahren der numerischen Mathematik, doch die Baselines waren nicht die schnellsten numerischen Verfahren
- Im Vergleich mit weiterentwickelten numerischen Verfahren war KI nicht schneller oder höchstens geringfügig schneller

Ergebnis der Prüfung von 76 Arbeiten: 79 % mit schwachen Baselines

Der Autor und sein Betreuer prüften systematisch Studien, die KI zum Lösen von PDEs der Strömungsmechanik verwendeten, und veröffentlichten dazu ein Paper
Von 76 Arbeiten, die behaupteten, Standardverfahren der numerischen Mathematik zu übertreffen, nutzten 60 Arbeiten, 79 % schwache Baselines
- Entweder verglichen sie nicht mit weiterentwickelten numerischen Verfahren
- oder sie verglichen nicht unter identischen Bedingungen
Anteil schwacher Baselines: {p:79}
Alle Papers mit großen Geschwindigkeitsgewinnen verglichen gegen schwache Baselines
- Je beeindruckender das Ergebnis, desto wahrscheinlicher schien ein unfairer Vergleich
Die Prüfung bestätigte auch erneut Reporting Bias
- Forschende neigen dazu, negative Ergebnisse nicht zu berichten
- Schwache Baselines erzeugen übermäßig positive Ergebnisse, und Reporting Bias führt dazu, dass negative Ergebnisse unterberichtet werden
Das Paper löste in Computational Science und Engineering eine Debatte über KI aus
- Lorena Barba sah die Ergebnisse als Beleg für Sorgen über KI-Hype und unwissenschaftlichen Optimismus
- Stephan Hoyer von Google Research bewertete es als Paper, das gut zusammenfasst, warum er von AI for PDEs zu Wettervorhersage und Klimamodellierung wechselte
- Johannes Brandstetter entgegnete, dass KI in komplexeren Industrieanwendungen bessere Ergebnisse liefern könne und die Zukunft des Feldes weiterhin vielversprechend sei

Welche Validierung im PDE-Bereich nötig ist

KI kann in bestimmten Anwendungen rund um das Lösen von PDEs eines Tages nützlich werden
Derzeit gibt es wenig Grund zu Optimismus
- KI-Methoden fehlen die theoretischen Garantien von Standardverfahren der numerischen Mathematik
- Auch empirisch belegte Robustheit ist unzureichend
Zwei Richtungen erfordern mehr Anstrengung
- Forschung, die das Niveau der Zuverlässigkeit numerischer Verfahren erreichen will
- Red Teaming, das KI-Methoden aggressiv validiert
Förderinstitutionen sollten Wissenschaftlern Anreize geben, Challenge-Probleme für PDEs zu entwickeln
- Als mögliches Modell wird der alle zwei Jahre stattfindende Wettbewerb CASP genannt, der die Forschung zur Proteinfaltung über 30 Jahre hinweg synchronisiert und fokussiert hat

Reale Beispiele dafür, wie KI Wissenschaft beschleunigt hat – und ihre Grenzen

Proteinfaltung ist ein Paradebeispiel für KI-gestützte wissenschaftliche Innovation
- Sie wird als Beispiel im Zusammenhang mit der Pressemitteilung zum Chemie-Nobelpreis 2024 behandelt
Es gibt weitere Erfolgsbeispiele
- Wettervorhersage: KI-Prognosen waren bis zu 20 % genauer als traditionelle physikbasierte Vorhersagen, die Auflösung ist aber weiterhin niedrig
- Wirkstoffentwicklung: Vorläufige Daten zeigen, dass von KI entdeckte Medikamente in klinischen Phase-1-Studien erfolgreicher waren, in Phase 2 jedoch nicht
- Wenn dieser Trend anhält, könnte sich die Gesamt-Erfolgsquote bis zur Zulassung neuer Medikamente nahezu verdoppeln
KI-Unternehmen, Wissenschaft, Regierungsbehörden und Medien stellen KI zunehmend nicht nur als nützliches wissenschaftliches Werkzeug dar, sondern als Technologie mit „transformational impact“ auf die Wissenschaft
Aktuelle LLMs haben, wie DeepMind es formuliert, weiterhin Schwierigkeiten mit der tieferen Kreativität und dem Schlussfolgern, auf die menschliche Wissenschaftler angewiesen sind
Wenn ein hypothetisches fortgeschrittenes KI-System eines Tages den wissenschaftlichen Prozess vollständig automatisieren könnte, würde es Wissenschaft verändern und beschleunigen; der Autor erwartet jedoch nicht, dass dies bald oder überhaupt tatsächlich geschieht

Warum Wissenschaftler KI übernehmen

Allein aus der zunehmenden Nutzung von KI in der Wissenschaft lässt sich schwer schließen, dass KI für die Wissenschaft nützlich ist
Wissenschaftler könnten zur KI wechseln, weil sie eher ihnen selbst nützt als der Wissenschaft
- Auch der Autor glaubte 2018 aufrichtig, dass KI für die Plasmaphysik nützlich sein könnte, doch hohe Gehälter, gute Jobperspektiven und akademisches Prestige waren wichtige Motive
- Höhere Ebenen in Forschungseinrichtungen interessierten sich nach seiner Erfahrung oft stärker für die Möglichkeiten der Mittelakquise durch KI als für technische Erwägungen
Nachfolgende Forschung legt nahe, dass Wissenschaftler, die KI einsetzen, mit höherer Wahrscheinlichkeit hoch zitierte Papers veröffentlichen und im Durchschnitt dreimal so viele Zitationen erhalten
Selbst wenn KI innerhalb der Wissenschaft beeindruckende Ergebnisse liefert, heißt das nicht automatisch, dass sie der Wissenschaft tatsächlich nützliche Arbeit geleistet hat
- In vielen Fällen zeigt KI möglicherweise nur das Potenzial, später nützlich zu werden
Forschende, die KI untersuchen, arbeiten oft rückwärts: Statt ein Problem zu finden und dann eine Lösung zu suchen, nehmen sie KI als Lösung an und suchen dann nach einem passenden Problem
- Dieser „hammer in search of a nail“-Ansatz kann zu Problemen führen, die bereits gelöst sind oder kein neues wissenschaftliches Wissen schaffen

Survivorship Bias und Reproduzierbarkeitskrise

Um den Erfolg von AI for Science zu bewerten, muss man auf tatsächliche Wissenschaft schauen, doch allein der wissenschaftlichen Literatur kann man nur schwer vertrauen
Das erste Problem ist Survivorship Bias
- Es gibt die Einschätzung, dass negative Ergebnisse in der KI-Forschung kaum veröffentlicht werden
- Wenn Fehlschläge fehlen, verzerrt das Versuche, den Einfluss von KI auf die Wissenschaft zu bewerten
Das ähnelt einem bekannten Problem aus der Replikationskrise
- Wenn statistisch nicht signifikante Ergebnisse aus der Literatur herausgefiltert werden, werden Effekte wie Behandlungseffekte überschätzt
- Die abrupten Diskontinuitäten rund um -1,96 und 1,96 in der Verteilung von z-Werten medizinischer Forschung deuten darauf hin, dass Ergebnisse unterhalb der Signifikanzschwelle nicht veröffentlicht oder Daten angepasst wurden
Bei AI for Science ist das Auswahlkriterium weniger statistische Signifikanz als vielmehr, ob die vorgeschlagene Methode andere Ansätze geschlagen oder eine neue Aufgabe erfolgreich gelöst hat
- Daher werden erfolgreiche KI-Fälle häufig berichtet, während erfolglose Ergebnisse kaum veröffentlicht werden
Arvind Narayanan und Sayash Kapoor aus Princeton erstellten eine Sammlung methodischer Fehler namens Data Leakage in 648 Papers aus 30 Bereichen
- Data Leakage führte in jedem Fall zu übermäßig optimistischen Ergebnissen
- Sie sehen KI-basierte Wissenschaft mit einer Reproduzierbarkeitskrise konfrontiert

Vier Fallen, die übertriebenen Optimismus erzeugen

Auch veröffentlichte Erfolgsfälle können zu Schlussfolgerungen führen, die das wissenschaftliche Potenzial von KI überschätzen
Die Details und die Schwere unterscheiden sich je nach Feld, doch die wichtigsten Fallen lassen sich in vier Kategorien einteilen
- Data Leakage
  - Wenn Trainings- und Evaluationsdaten falsch vermischt werden, wirkt die Modellleistung höher, als sie tatsächlich ist
- Schwache Baselines
  - Wenn KI nicht gegen moderne numerische Verfahren, sondern gegen schwache Vergleichsgegner antritt, wird der Leistungsunterschied übertrieben
- Cherry-Picking
  - Wenn nur erfolgreiche Settings gezeigt werden, verschwinden Failure Modes und Grenzen der Anwendbarkeit aus der Literatur
- Falsches Reporting
  - Ein zentrales Problem bleibt der Interessenkonflikt, wenn die Personen, die ein KI-Modell bewerten, zugleich von dieser Bewertung profitieren
  - DeepMind behauptete 2023, 2,2 Millionen Kristallstrukturen entdeckt und die Menge der der Menschheit bekannten stabilen Materialien um eine Größenordnung erweitert zu haben
  - Später analysierten Materialwissenschaftler diese Verbindungen, bewerteten sie als „mostly junk“ und schlugen höflich vor, dass das Paper keine neuen Materialien berichtet habe
  - Das Paper des MIT-Doktoranden Aidan Toner-Rodgers zur KI-basierten Entdeckung neuer Materialien war im Entwurf als Erfolgsbeispiel enthalten, wurde aber entfernt, nachdem MIT angekündigt hatte, wegen Bedenken zur Forschungsintegrität eine Rücknahme anzustreben
  - Offensichtliche Betrugsvorwürfe unterscheiden sich von den subtilen methodischen Problemen, die im Text behandelt werden; doch die große mediale Aufmerksamkeit für dieses Paper zeigt die vielfältigen Anreize, die Wirksamkeit von KI-Techniken zu übertreiben

Fazit: Eher ein ungleichmäßiges inkrementelles Werkzeug als eine Revolution

Der Einsatz von KI in der wissenschaftlichen Forschung wächst schnell
- Der Anteil der wissenschaftlichen Veröffentlichungen mit KI-Nutzung stieg von 2 % im Jahr 2015 auf fast 8 % im Jahr 2022
- KI-Nutzungsrate: {l:2,8}
- Nicht nur in der Informatik, sondern auch in Physik, Chemie, Biologie, Medizin und Sozialwissenschaften nimmt die Verbreitung rasch zu
Es lässt sich anerkennen, dass KI wissenschaftliche Durchbrüche ermöglichen kann
- Die Sorge betrifft Größe und Häufigkeit dieser Durchbrüche
- Unklar ist, ob sie tatsächlich genug Potenzial gezeigt hat, um die starke Verschiebung von Talent, Ausbildung, Zeit und Geld in Richtung eines einzigen Paradigmas zu rechtfertigen
Da jedes wissenschaftliche Feld KI anders erlebt, ist bei Verallgemeinerungen Vorsicht geboten
Dennoch lassen sich drei Lehren aus den Erfahrungen des Autors auf viele Bereiche übertragen
- Die zunehmende KI-Nutzung entsteht teilweise, weil sie Wissenschaftlern stärker nützt als der Wissenschaft
- Da negative Ergebnisse kaum veröffentlicht werden, leidet AI for Science unter Survivorship Bias
- Veröffentlichte positive Ergebnisse neigen dazu, das Potenzial von KI übermäßig optimistisch darzustellen
Ob KI den Rückgang der wissenschaftlichen Produktivität und die Stagnation wissenschaftlichen Fortschritts umkehren wird, ist unklar
- Ohne einen bedeutenden Durchbruch bei fortgeschrittener KI scheint KI eher ein gewöhnliches Werkzeug für inkrementellen und ungleichmäßigen wissenschaftlichen Fortschritt zu sein als ein revolutionäres Werkzeug

1 Kommentare

GN⁺ 2025-05-21

Hacker-News-Kommentare

Interessanter Artikel. Es besteht immer das Risiko, dass neue aufkommende Methoden übermäßige Aufmerksamkeit erhalten, die ihren tatsächlichen Wert übersteigt.
Der Kernsatz im Artikel ist: „Die meisten Wissenschaftler versuchen nicht, irgendjemanden zu täuschen, aber weil es einen starken Anreiz gibt, vorteilhafte Ergebnisse zu zeigen, besteht für Leser weiterhin das Risiko, getäuscht zu werden.“ Zu verstehen, in welcher Anreizstruktur Menschen sprechen, hilft oft dabei, ihre Aussagen einzuordnen.
- Manche haben erkannt, dass man viel Geld verdienen und Forschungsgelder bekommen kann, wenn man das Wort AI dranhängt. Aber letztlich steckt doch in fast jeder Software bis zu einem gewissen Grad Machine Learning, es ist also nichts wirklich Neues, und die aktuellen Implementierungen sind auch nicht besonders beeindruckend oder präzise.
Das scheint im Großen und Ganzen nur ein bestehendes Problem der Wissenschaft zu wiederholen. Es geht nicht mehr um die Suche nach Wahrheit, sondern um Zitationszahlen und Karrierismus, und AI ist nur ein weiteres Thema, auf dem sich das zeigt.
- Ich will nicht verallgemeinern, aber da ich zwischen mehreren HPC-Zentren in Deutschland unterwegs bin, sehe ich ein Muster: Dort sammeln sich viele Leute, die in der Physik nicht untergekommen sind, und ein erheblicher Teil der verteilten AI-Forschungsgelder wird von ihnen absorbiert. Das führt dann zu vielen ML4Science-Projekten.
  Ich finde das persönlich schade. HPC-Zentren existieren nicht nur für Physiker, und gerade wenn es in Deutschland AI-Fördergelder gibt, sollte meiner Ansicht nach mehr AI-Grundlagenforschung betrieben werden.
- Fairerweise würde ich sagen, dass das Problem des Karrierismus eher ein Nebeneffekt davon ist, dass die Wissenschaft sich zunehmend vom Privatsektor hat verführen lassen und dabei auch dessen Probleme übernommen hat.
  Wenn ich als Softwareentwickler eines gelernt habe, dann dass alle Entscheidungen aus einer karrieristischen und egoistischen Perspektive getroffen werden. Es zählt nicht, was am besten ist, sondern was am beeindruckendsten wirkt und die eigene Karriere voranbringt. Sobald die Arbeit erledigt ist, ist es nicht mehr ihr Problem, und ehrlich gesagt kann man es ihnen kaum verdenken. Diese Denkweise ist so weit verbreitet, dass man zum Dummen wird, wenn man nicht mitmacht. Die anderen werden es tun und dich am Ende überholen. Das Ergebnis bleibt gleich, nur du stehst schlechter da.
- Ich verstehe nicht, in welchem Sinn man das als „es geht nicht mehr um die Suche nach Wahrheit“ lesen kann. Ist das nicht vielmehr ein sehr klares Beispiel dafür, dass Wahrheit gefunden und entdeckt wurde?
- Ich verstehe wirklich nicht, warum hier „nicht mehr“ steht.
Ich hatte glücklicherweise die Gelegenheit, einige AI-basierte FEM-ähnliche Struktur-Analyser auszuprobieren.
Im besten Fall sind sie bei linearen Problemen mit kleinen Verformungen halbwegs brauchbar. Man bekommt dann in etwa 30 Sekunden eine ziemlich grobe Lösung statt in etwa 5 Minuten ein Modell mit Ergebnissen nahe an der exakten Lösung. Sobald man nichtlineare Elemente hinzunimmt, bricht das Ganze einfach zusammen.
Für konzeptionelle Entscheidungen auf sehr hohem Niveau mag das ausreichen, aber selbst dafür ist es nicht besonders gut. Bei einigen bin ich ziemlich sicher, dass sie im Grunde nur Krümmungsdetektoren sind: Gerade Linien werden blau, Stellen mit hoher Krümmung rot, und der Rest wird interpoliert.
- Könnte man solche Modelle als Preconditioner für iterative Lösungsverfahren verwenden?
- Dann wäre es wohl eher ein Solver nach dem „Prinzip zwei“. Die Struktur ist nicht in der Lage, etwas zu synthetisieren, das sie nicht schon gesehen hat.
Ich bin überhaupt kein AI-Verfechter, aber leider ist das Problem, dass negative Ergebnisse nicht veröffentlicht werden und alle in Forschungsarbeiten ihre Resultate übertreiben, nicht auf AI beschränkt. Es ist eine Folge davon, wie Wissenschaftler bewertet werden, und der Wissenschaftsverlagsindustrie, die wie traditionelle Medien nach Audience giert.
Wie auch immer, der Winter kommt doch wohl, oder?
- Genau, das ist kein Problem nur von AI. Aber in AI-Papers sieht man tatsächlich oft Formulierungen, die in Wirklichkeit bedeuten: „Wenn man 1 Billion GPUs hineinschüttet und es ewig laufen lässt, bekommt man {magischen Benchmark}.“ Oder: „Wenn wir auf unserem streng geheimen realen Datensatz evaluieren, von dem wir behaupten, ihn auf Anfrage bereitzustellen, Anfragen aber in Wirklichkeit ignorieren werden, kann man ein Diagramm sehen, das zeigt, wie schlau wir sind.“
  Natürlich sind das oft Pionierarbeiten, aber wenn solche Papers von großen Unternehmen kommen, kann man sie selbst bei offensichtlichen Mängeln nicht einfach ignorieren.
  Letztlich ist es ein Wettbewerb um Ressourcen. Als ehemaliger Forscher an einer Universität mit kleinem Budget können wir da nicht mithalten. Wir werden praktisch dazu gezwungen, Zahlen zu glauben, die ohne Reproduzierbarkeit als „Benchmark“ in die Literatur eingehen.
- Nachdem ich vor etwas mehr als 15 Jahren meine ersten Papers über praktische Anwendungen von AI veröffentlicht hatte, bin ich in ein anderes Feld gewechselt und wurde kürzlich wieder hineingezogen.
  Ich stimme zu, dass es ein generelles Problem der Wissenschaft ist, aber AI scheint besonders viele Forscher anzuziehen, die Ruhm und Geld hinterherjagen. Nach meiner begrenzten Erfahrung wirken überzogene Behauptungen und Data Cherry Picking extremer, und selbst verantwortungsbewusste Forscher übertreiben nach und nach ein wenig, um konkurrenzfähig zu bleiben.
- AI ist einfach der aktuelle überhitzte Hype-Magnet, deshalb sind die Risse deutlicher sichtbar.
- Aber AI macht es einfacher, Papers zu schreiben, die plausibel aussehen.
Ich verstehe nicht ganz, warum die Wahrnehmung von AI/ML an Orten wie HN so stark auseinandergeht.
So etwas habe ich früher nie gesehen. Es gab praktisch keine Systeme oder Methoden, die Dinge wie Codegenerierung auf Basis von Texteingaben leisten konnten.
Noch letzte Woche habe ich nach einem Bildsegmentierungs-Skript mit einfacher UI gefragt, und Claude hat es in unter einer Minute erstellt.
Man könnte sehr viele Beispiele nennen, die man als revolutionär bezeichnen würde. Der gesamte Image-Generation-Stack ist völlig neu.
Dieser Blogbeitrag ist hinreichend fair, und es stimmt auch, dass es bei diesem Thema Überhitzung gibt. Aber selbst wenn man nur auf alle Forschenden schaut, die für ihre Arbeit Code schreiben müssen, macht AI sie schon jetzt deutlich effizienter.
Darüber hinaus sind wir meiner Ansicht nach in ein neues Zeitalter eingetreten. Ein Zeitalter, in dem Daten wieder sehr ernst genommen werden. Vor ein paar Jahren hieß es noch: „Das Internet vergisst nie“, aber bald wurde klar, dass auch das Internet zu vergessen beginnt. Google löschte Seiten und entfernte die Cache-Funktion, und es wirkte, als wisse man nicht mehr, was man mit Daten anfangen soll, und kümmere sich deshalb nicht mehr darum.
Dann kam AI, und Daten wurden nicht nur wieder zum König, sondern wir befinden uns jetzt mitten in einem Zeitalter der Verstärkung. Man gibt Feedback, und das System übernimmt dieses Feedback ins Training.
Das Thema AI/ML wird unter allen Aspekten bearbeitet: Hardware, Algorithmen, Use Cases, Daten, Tools, Protokolle und mehr. Wir integrieren es, bauen dafür und darauf auf, und es braucht nur etwas Zeit. Trotzdem ist das Tempo des Fortschritts wahnsinnig atemlos.
Ob es wirklich eine harte Obergrenze gibt, werden wir erst in ein paar Jahren wissen. Um sehr viel mehr mit AI-Architekturen und Algorithmus-Experimenten zu machen, braucht es mehr GPUs und größere Rechenzentren. Der Engpass ist offensichtlich. Selbst große Unternehmen trainieren ein einziges großes Modell über Wochen oder Monate.
- Der Teil „Noch letzte Woche habe ich nach einem Bildsegmentierungs-Skript mit einfacher UI gefragt, und Claude hat es in unter einer Minute erstellt“ kommt uns eher vor wie ein cooles Copy-and-paste von Stack Overflow. Es klingt daher ein bisschen wie: „Ich habe Google nach Restaurants in der Nähe gefragt, und es hat sie in 500 ms gefunden. Mein C64 konnte das nicht.“
  Eindrucksvoll und tatsächlich nützlich ist es schon. Aber es klingt wie „Es hat gelernt, sich in der realen Welt zurechtzufinden und kann deshalb alle verwandten Probleme lösen“, obwohl es in Wirklichkeit „elegantes Nachschlagen in einer GIS-Datenbank“ gelöst hat. Wenn die Neuheit verfliegt, beginnt man die tatsächliche Gestalt zu sehen statt dessen, was man sich vorgestellt hat.
  Um den Punkt klarer zu machen: Bei „Claude hat es generiert“ stellst du dir darunter vor, dass die AI „gedacht“, eine Ontologie aufgebaut und darauf basierend geschlussfolgert hat, dass dieses Skript die richtige Ausgabe ist. Was tatsächlich passiert ist: Die Eingabe korreliert nach Mustern, die es in Billionen von Beispielen gesehen hat, mit genau dieser Ausgabe. Es gibt keine Ontologie und kein Schlussfolgern. Natürlich ist das immer noch beeindruckend und sehr nützlich, aber mit der Zeit wird der Zauber verschwinden. Die Grenzen sind schon jetzt klar.
- Wenn man sagt: „Ich verstehe nicht, warum die Wahrnehmung von AI/ML an Orten wie HN so stark auseinandergeht“, dann deshalb, weil aus der jeweiligen Perspektive alle rationale Akteure sind. Sowohl die, die AI hochjubeln, als auch die, die den Hype kleinreden, haben jeweils nachvollziehbare Gründe.
  Es gibt Gründe, diese neue Technologie als bahnbrechend zu sehen, und ebenso Gründe, bei massivem Datendiebstahl und Missachtung der Privatsphäre alarmiert zu sein.
  Zuerst muss man anerkennen und respektieren, dass es zu jedem Thema unterschiedliche Ansichten gibt. Man sollte sich selbst kurz aus der Gleichung herausnehmen und die andere Seite verstehen. Wirklich verstehen.
  Man muss lange in den Schuhen der anderen gehen.
- Zur Aussage „Schon allein für alle Forschenden, die für ihre Arbeit Code schreiben müssen, macht AI sie bereits deutlich effizienter“: Was Wissenschaftler brauchen, ist nicht Effizienz, sondern Korrektheit. Softwarefehler sind bereits eine große Ursache für wissenschaftliche Fehler und mangelnde Reproduzierbarkeit; ein Beispiel dafür ist hier: https://www.vice.com/en/article/a-code-glitch-may-have-cause...
  Die Qualität von Programmierung in Forschungsumgebungen ist, wie in der Industrie, berüchtigt uneinheitlich, aber in der Forschung kann schon ein kleiner Fehler das Gesamtergebnis ruinieren. In Umgebungen wie Laboren kann man Software nicht wie ein impressionistischer Maler benutzen, oder wie dessen AI-Version. Man muss tatsächlich wissen, was man eingibt.
  Wenn es dir egal ist, ob es stimmt, dann kann AI dich effizienter machen. Für Bilder eines sommerlichen Beachvolleyball-Events mag das großartig sein, aber für das Schreiben von Code in wissenschaftlichen Umgebungen ist es eine katastrophale Idee.
- Umgekehrt wirkt die Erzählung „AI wird die Wissenschaft revolutionieren“ so, als sei sie dem, was die Evidenz trägt, weit voraus.
- HN ist immer gespalten darüber, wie viel an einer aktuell überhitzten Technologie real ist und wie viel übertrieben.
  Ich habe das schon oft erlebt und je nach Technologie und Zeitpunkt auch schon auf unterschiedlichen Seiten gestanden.
  Für mich ist das einfach dieselbe Szene wie immer.
Der Text wirkt anfangs so, als wolle er andeuten, dass AI in der Wissenschaft insgesamt, oder zumindest in dem Fachgebiet des Autors, durchweg übertrieben sei. Tatsächlich scheint sich der Unmut aber gegen eine bestimmte Architektur, nämlich PINN, zu richten, und am Ende heißt es sogar, dass andere Deep-Learning-Modelle erfolgreich eingesetzt wurden, um PDEs schneller zu berechnen als mit klassischen numerischen Verfahren
- Das ist ein deutlich breiteres Problem als PINN. Dass PINN schlecht ist, ist schon lange weithin bekannt. Das allgemeinere Scheitern von Machine Learning bei physikalischen Problemen ist aber viel weiter verbreitet.
  Machine Learning glänzt meist dann, wenn es ziemlich viele experimentelle Daten für einen relativ eng abgegrenzten Bereich gibt. Interatomare Machine-Learning-Potenziale, die es schon seit den 1990er Jahren gibt, sind so ein Fall. Wettermodellierung könnte ebenfalls dazugehören, dazu möchte ich aber nichts sagen. Oder wenn die Datenmenge absurd groß ist und wirklich riesige Modelle trainiert werden. Das ist das, was wir AI nennen. Im Grunde ist das auch der Grund, warum AlphaFold erfolgreich war, und auch AlphaFold liefert keine guten Ergebnisse, wenn man Eingaben verwendet, die weit von allen Punkten in den Trainingsdaten entfernt sind
  Die meisten Machine-Learning-Ansätze für physikalische Probleme liegen jedoch irgendwo dazwischen. Es gibt zu wenig experimentelle Daten, und Simulationsdaten sind in der Erzeugung zu teuer, um in ausreichender Menge vorzuliegen. Die Modelle sind auch nicht groß genug, weil sie sonst bei der Inferenz ohnehin zu langsam wären. Trotzdem erwartet man von ihnen, dass sie einen sehr breiten Bereich von Physik lernen
  Danach springt jeder auf den Hype-Zug auf. Denn es ist viel zu leicht, es einfach auszuprobieren. Alle bekommen dieselben Nieten als Resultat und veröffentlichen trotzdem. Wenn das Labor oder der PI bekannt genug ist oder wenn man das Problem auf eine einzigartige und wissenschaftlich-mathematisch wirkende Weise formuliert, landet es in guten Journals oder auf Konferenzen und wird viel zitiert. Am Ende bleibt das Ergebnis aber gleich: Die Trainingsdaten werden bis zu einem gewissen Grad nachgebildet, und beim Generalisierungsproblem lautet die Schlussfolgerung, dass da eben noch mehr Forschung nötig sei
- Der Autor hat sogar eine ganze Arbeit veröffentlicht, die eine systematische Analyse mehrerer Modelle bietet. Dazu gibt es einen eigenen Abschnitt. Es geht also nicht nur um PINN
- Wenn man PINN durch irgendeine andere „AI“-Lösung ersetzt, wäre es immer noch übertrieben.
  Bislang besteht eine realistische Einschätzung von „AI“ nur darin anzuerkennen, dass sie Experten dabei hilft, langweilige Arbeit etwas abzukürzen, und dass man die Ausgaben dreimal gegenprüfen muss
Der Teil „Nach mehreren Wochen des Scheiterns schrieb ich einem Freund an einer anderen Universität, und er sagte, dass er ebenfalls PINN ausprobiert habe, aber keine guten Ergebnisse bekommen habe“ hat zwar weniger direkt mit AI zu tun, erinnert aber an eine Lehre, die ich in der Forschung an der Universität viel zu spät gelernt habe. Kontinuierliche Zusammenarbeit ist wichtig. Denn sie hilft dabei, nicht erneut in Bereiche hineinzulaufen, in denen andere bereits gescheitert sind
- Könnte man das nicht auch als Hinweis auf die Notwendigkeit sehen, dass Forschende fehlgeschlagene Experimente veröffentlichen sollten?
- Das ist ein weiterer Grund, warum mir die Idee von AI-Agenten für die Wissenschaft nie besonders sinnvoll erschien. Forschung ist ein Bündel extrem kollaborativer Aktivitäten. Wie großartig kann ein Forscher sein, der zwar sehr gut Literatur auswertet, aber mit niemandem tatsächlich spricht und nie auf Konferenzen geht?
Die Analyse ist hervorragend und die Beispiele sind treffend. Ein weiteres Problem bei AI-bezogener Forschung ist, dass ein erheblicher Teil der Arbeiten weder neu ist noch an wirklich „richtigen“ Orten veröffentlicht wurde, aber trotzdem, schon wenn man nur Google Scholar ansieht, ständig überall zitiert wird.
Es ist schwer, Ergebnisse zu reproduzieren und die Gültigkeit mancher Aussagen zu überprüfen, und hinzu kommt, dass in einer vier Jahre alten Studie ein Satz von Modellen verwendet wurde, während bei heutigen Tests ein anderer Satz von Modellen mit anderen Trainingsdaten eingesetzt wird. Es ist schwer festzustellen, was die Ergebnisse tatsächlich beeinflusst und ob die Schlussfolgerungen nur für bestimmte Eigenschaften veralteter Modelle gelten oder verallgemeinerbar sind
- Ich bin zwar kein Wissenschaftler oder Forscher, aber alles, was auf Statistik und Dateninterpretation beruht, macht mich sofort misstrauisch
Wurde der Titel geändert, oder beginne ich zu halluzinieren?
Der Titel lautet „I got fooled by AI-for-science hype—here's what it taught me“
- Er wurde tatsächlich geändert. Ich persönlich finde die neue Version schlechter. Er wurde vom ursprünglichen Titel abgeändert.
  Hier sollte man den Originaltitel bevorzugen, solange es kein ernstes Problem damit gibt
  Mit diesem Originaltitel gab es kein ernstes Problem. Es sei denn, eine vorsichtige Kritik eines Doktoranden an fragwürdigen AI-Beiträgen zur wissenschaftlichen Forschung treffend zusammenzufassen wäre ein ernstes Problem
- Keine Halluzination: https://web.archive.org/web/20250520152757/https://news.ycom...
Dieser Text wirkt weniger wie ein Text über AI als vielmehr wie eine Geschichte darüber, wie man eine der weniger besprochenen Funktionen des Doktorats entwickelt: die Fähigkeit, wissenschaftliche Behauptungen zu lesen
Die Behauptungen in Artikeln sind nicht überraschend. Sie sind das natürliche Ergebnis eines Geflechts von Anreizstrukturen, das wir mit der Zeit „Wissenschaft“ nennen. Es braucht Übung über längere Zeit, um die Ergebnisse der Wissenschaft in den richtigen Kontext zu setzen und zu verstehen, dass ein Paper das Produkt eines soziotechnischen Systems mit all der dazugehörigen Komplexität ist

Was ich daraus gelernt habe, auf den KI-für-die-Wissenschaft-Hype hereinzufallen

Warum ich von der Plasmaphysik zur KI wechselte

Die Schwächen, die PINN-Experimente offenlegten

Die Lehren aus PINNs und die heutige Bewertung

Übertriebener Optimismus durch schwache Baselines

Ergebnis der Prüfung von 76 Arbeiten: 79 % mit schwachen Baselines

Welche Validierung im PDE-Bereich nötig ist

Reale Beispiele dafür, wie KI Wissenschaft beschleunigt hat – und ihre Grenzen

Warum Wissenschaftler KI übernehmen

Survivorship Bias und Reproduzierbarkeitskrise

Vier Fallen, die übertriebenen Optimismus erzeugen

Data Leakage

Schwache Baselines

Cherry-Picking

Falsches Reporting

Fazit: Eher ein ungleichmäßiges inkrementelles Werkzeug als eine Revolution

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare