3 Punkte von GN⁺ 2025-05-21 | 1 Kommentare | Auf WhatsApp teilen
  • Entgegen den Erwartungen an den Einsatz von AI in der Plasma-Physikforschung drehten sich die tatsächlichen Anwendungsergebnisse vor allem um übertriebene Leistungsversprechen und Grenzen
  • AI-basierte Verfahren zum Lösen von PDEs (partiellen Differentialgleichungen, z. B. PINN) bieten hinsichtlich Zuverlässigkeit und Leistung keinen klaren Vorsprung gegenüber klassischen numerischen Methoden
  • Wegen schwacher Baselines und Reporting Bias bewerten die meisten Arbeiten zu AI-Leistungen die Ergebnisse deutlich positiver, als es die Realität rechtfertigt
  • Die wissenschaftliche Nutzung von AI nimmt zwar stark zu, doch statt ein Werkzeug zu sein, das wissenschaftlichen Fortschritt revolutioniert, dürfte sie eher schrittweise und begrenzte Beiträge leisten
  • Aufgrund der Struktur wissenschaftlicher Publikationen und der Anreizsysteme für Forschende werden Misserfolge nicht veröffentlicht und Ergebnisse überzeichnet berichtet, weshalb bei der Bewertung des wissenschaftlichen Einflusses von AI eine grundsätzlich skeptische Perspektive nötig ist

Einleitung und Forschungshintergrund

  • Der Autor Nick McGreivy promovierte in Princeton in Plasma-Physik und wechselte anschließend in die Forschung mit Machine Learning, getrieben von der Erwartung, dass AI die wissenschaftliche Forschung, insbesondere die Physik, revolutionieren könnte
  • Er interessierte sich dafür, ob AI die Wissenschaft insgesamt so grundlegend verändern könnte wie universelle Technologien wie Elektronik, das Internet und integrierte Schaltkreise
  • In der Praxis machte er jedoch in der Forschung zum Lösen von PDEs mit AI die Erfahrung, dass die tatsächlichen Resultate deutlich hinter den in bekannten Arbeiten veröffentlichten Erfolgen zurückblieben

Erfahrungen mit dem Einsatz von PINN (Physics-Informed Neural Network)

  • Im Bereich des AI-gestützten Lösens von PDEs stieg PINN rasch zu einer repräsentativen Methode auf, und auch der Autor testete diesen Ansatz experimentell
  • Frühere Arbeiten berichteten, dass PINN für PDE-Probleme in verschiedenen Bereichen wie klassischer Strömungsmechanik, Quantenmechanik und Reaktions-Diffusions-Systemen effektive Lösungen liefere; in der Praxis zeigte sich jedoch, dass die Ergebnisse selbst bei sehr einfachen PDEs (wie 1D Vlasov) instabil waren oder deutlich an Zuverlässigkeit fehlte
  • Durch einfaches Tuning ließ sich das Problem kaum verbessern, und bei komplexeren PDEs (wie 1D Vlasov-Poisson) gelang es überhaupt nicht, eine brauchbare Lösung abzuleiten
  • Auch Forschende in seinem Umfeld machten ähnliche Misserfolgserfahrungen, doch solche negativen Ergebnisse werden kaum als Paper veröffentlicht

Lehren aus den PINN-Experimenten

  • Selbst Autoren einflussreicher Grundlagenarbeiten wussten, dass PINN in bestimmten Settings scheitert, veröffentlichten jedoch nur die überzeugenden Resultate
  • Im Ökosystem wissenschaftlicher Publikationen verstärken Berichte mit Fokus auf positive Ergebnisse und die Praxis, gescheiterte AI-Experimente nicht offenzulegen, den Survivorship Bias
  • Der PINN-Ansatz ist numerisch ein elegantes Konzept, doch der Autor berichtet, dass er sich wegen Instabilität, schwieriger Feinabstimmung und geringerer Verarbeitungsgeschwindigkeit gegen seinen Einsatz entschied
  • Die ursprüngliche Arbeit wurde über 14.000-mal zitiert und ist eine der meistzitierten Veröffentlichungen im Bereich numerischer Methoden, bietet beim tatsächlichen Lösen von PDEs jedoch keinen Wettbewerbsvorteil gegenüber bestehenden Verfahren
  • In jüngerer Zeit wird zwar argumentiert, dass PINN in bestimmten Bereichen wie inverse problems wirksam sein könne, doch darüber gibt es unter Forschenden weiterhin Streit

Übertriebener Optimismus durch ungeeignete Vergleichsmaßstäbe

  • Der Autor versuchte später einen Deep-Learning-Ansatz, der PDE-Lösungen ähnlich wie klassische numerische Verfahren als Gitter oder Mengen von Graph-Pixeln behandelt
  • In vielen Arbeiten wurde berichtet, AI könne PDEs um mehrere Tausend bis Zehntausend Male schneller lösen als bestehende Verfahren; in Wirklichkeit war jedoch in den meisten Fällen bereits die verwendete Baseline als Vergleichsmaßstab schwach
  • Die Analyse repräsentativer Arbeiten ergab, dass von 76 Papers, in denen AI als überlegen dargestellt wurde, 60 (79 %) keinen fairen Vergleich mit ausreichend leistungsfähigen klassischen numerischen Methoden vorgenommen hatten
  • Durch solche schwachen Vergleichsmaßstäbe und die Nichtveröffentlichung negativer Ergebnisse wird die Bewertung, AI liefere „revolutionäre Resultate“, offenbar stärker aufgebläht als gerechtfertigt
  • Die entsprechenden Forschungsergebnisse lösten in Wissenschaft und Industrie Kontroversen aus: Einige betonen die Richtung künftiger Forschung und das Potenzial von AI, andere warnen verstärkt vor der gegenwärtigen Überbewertung

Rolle und Grenzen von AI in der Wissenschaft

  • Zu den bekannten Erfolgsbeispielen zählen AlphaFold zur Vorhersage der Proteinfaltung, Wettervorhersagen (mit bis zu 20 % höherer Prognosegenauigkeit) und die Wirkstoffentwicklung (mit steigenden Erfolgsraten in Phase 1); insgesamt handelt es sich jedoch eher um ergänzende und schrittweise Fortschritte als um breit angelegte Umwälzungen
  • Big Tech, Medien und Wissenschaft verpacken AI häufig als „revolutionäres Werkzeug für die Wissenschaft“ oder als treibende Kraft eines Paradigmenwechsels in der Forschung, doch bei AI auf dem heutigen Stand sind die Grenzen grundlegender Innovation klarer, als der Hype vermuten lässt

Motive für die AI-Einführung und strukturelle Probleme des Forschungsökosystems

  • Der Hauptgrund, warum Wissenschaftlerinnen und Wissenschaftler AI einführen, liegt oft weniger im Fortschritt der Wissenschaft selbst als in persönlichen Vorteilen wie höherem Gehalt, Karrierechancen, mehr Zitationen oder dem Einwerben von Forschungsgeldern
  • Tatsächlich zeigt sich, dass Forschende, die AI einsetzen, beim Zugang zu häufig zitierten Arbeiten und wissenschaftlicher Wettbewerbsfähigkeit günstigere Bedingungen haben als andere Wissenschaftler
  • Forschende mit AI-Fokus geraten strukturell in die Falle, nicht zuerst eine wissenschaftliche Fragestellung, die gelöst werden muss, zu definieren, sondern rückwärts nach einer Aufgabe zu suchen, die sich mit AI lösen lässt
  • Dadurch liegt der Fokus oft eher auf der Demonstration des Potenzials von AI als auf echtem wissenschaftlichem Fortschritt, und häufig entstehen nur Resultate zu bereits gelösten Problemen oder bloße Nebeneffekte

Strukturelle Grenzen wissenschaftlicher Berichterstattung und Optimismus-Bias in der Forschung

  • Weil negative Ergebnisse nicht berichtet werden (Survivorship Bias), häufen sich nur Erfolgsgeschichten zum AI-Einsatz, während Fehlschläge unsichtbar bleiben, was die Bewertung der Gesamteffekte verzerrt
  • Bedingt durch die Struktur wissenschaftlicher Paper treten systematische Fehler und Verzerrungen wie Data Leakage, schwache Baselines, Cherry-Picking und Nichtberichterstattung immer wieder auf
  • Da Evaluierende und Interessengruppen derselben Community angehören, erfolgt die Leistungsbewertung in einer Interessenkonflikt-Struktur, in der Ergebnisse direkt mit eigenem Nutzen verknüpft sind
  • Bei der Bewertung des Einflusses von AI auf die Wissenschaft brauche es deshalb eine Haltung grundsätzlicher Skepsis und kritischer Prüfung — ähnlich wie man auch in der Ernährungsforschung Ergebnisse einzelner Studien nicht unbesehen akzeptiert

Fazit

  • Kurzfristig ist AI in der Wissenschaft wahrscheinlich eher kein revolutionäres Werkzeug, sondern ein Mittel zur schrittweisen und selektiven Ergänzung bestehender Verfahren
  • Wegen struktureller Anreize, Überbewertung, nicht berichteter Misserfolge und schwacher Vergleichsmaßstäbe ist es notwendig, die tatsächlichen wissenschaftlichen Leistungen von AI stets aus einer kritischen und skeptischen Perspektive zu beurteilen
  • Die Botschaft lautet, dass für eine ideale AI-Innovation auch strukturelle Reformen nötig sind, etwa bei der Formulierung von Herausforderungen, der Veröffentlichung von Misserfolgen und der Entwicklung fairer Vergleichssysteme

1 Kommentare

 
GN⁺ 2025-05-21
Hacker-News-Kommentare
  • Es herrscht Verwirrung darüber, ob der Titel geändert wurde; der aktuelle Titel lautet „I got fooled by AI-for-science hype—here's what it taught me“

    • Der Titel wurde tatsächlich gegenüber der ursprünglichen Fassung geändert, und persönlich wirkt er dadurch eher schlechter; der ursprüngliche Titel war vorzuziehen, und am Originaltitel der Arbeit gab es meiner Meinung nach kein Problem. Es geht darum, dass ein Doktorand fragwürdige Beispiele dafür kritisch analysiert, wie AI angeblich zur wissenschaftlichen Forschung beiträgt.

    • Nein, das ist keine Einbildung, der Titel wurde wirklich geändert; sogar ein Archiv-Link wird als Beispiel genannt.

  • Ich hatte das „Glück“, einen AI-basierten FEM-artigen Solver für Strukturanalysen auszuprobieren. Für lineare Probleme mit kleinen Deformationen ist er halbwegs brauchbar, aber sobald es komplex wird, bricht die Leistung stark ein. Während klassische Verfahren in 5 Minuten eine exakte Lösung liefern, kommt hier in 30 Sekunden nur eine grobe Näherung heraus. Bei nichtlinearen Anwendungen versagt er komplett. Man kann ihn höchstens für sehr grobe Auswahl auf oberster Konzeptebene nutzen, und selbst dafür ist er unzureichend. Manche Modelle sind im Grunde nur Krümmungsdetektoren: Gerade Bereiche werden blau, stark gekrümmte rot, und der Rest ist bloß Interpolation.

    • Am Ende fühlt es sich eher wie ein Solver nach „second principles“ an, mit der klaren Grenze, dass er Situationen, die er noch nie gesehen hat, überhaupt nicht neu lösen kann.

    • Ich frage mich, ob man solche Modelle als Preconditioner in iterativen Lösungsverfahren einsetzen könnte.

  • Wenn neue und heiße Technologien übermäßige Aufmerksamkeit bekommen, ist das immer riskant. Ein wichtiges Zitat aus dem Artikel lautet sinngemäß: „Die meisten Wissenschaftler wollen andere nicht absichtlich täuschen, aber sie stehen stark unter Druck, vorteilhafte Ergebnisse zu zeigen, und können dadurch letztlich in die Irre führen.“ Es wird betont, wie nützlich es ist, die Anreize der Beteiligten zu verstehen, um Informationen richtig einzuordnen.

    • Es gibt Leute, die allein mit dem Wort AI Geld und Förderung suchen. Tatsächlich ist es meistens einfach nur Software mit etwas Machine Learning darin, also etwas, das es schon lange gibt. Ich habe nicht den Eindruck, dass die Technik selbst besonders groß oder präzise ist.
  • Letztlich ist das nur die Wiederholung eines chronischen Problems der Wissenschaft: Statt nach Wahrheit zu suchen, konzentriert man sich stärker auf Zitationszahlen und Karriere. AI ist nur eines von vielen Themen, an denen sich das zeigt.

    • Ich will nicht zu stark verallgemeinern, aber in einigen HPC-Zentren in Deutschland habe ich ein Muster gesehen: Viele dort haben ursprünglich Physik studiert und sind damit nicht richtig weitergekommen, holen sich nun den Großteil der AI-Budgets und produzieren massenhaft ML4Science-Projekte. HPC-Zentren sind ursprünglich nicht nur für Physiker da, daher ist diese Budgetverschiebung bedauerlich. Deutschland sollte meiner Meinung nach stärker in eigentliche AI-Forschung investieren.

    • Realistisch betrachtet ist dieses Karrierismus-Problem ein Nebeneffekt davon, dass die Wissenschaft zunehmend die Logik des privaten Marktes übernimmt. Was ich als Softwareentwickler gelernt habe: Fast alle Entscheidungen drehen sich um Eigeninteresse und Karriere. Jeder kümmert sich nur darum, worin er selbst gut aussieht, und wenn etwas schiefgeht, ist es die Schuld der anderen. Wenn man sich dieser Denkweise nicht anpasst, ist man eher im Nachteil. Am Ende kommt man zum gleichen Ergebnis und schadet nur sich selbst.

    • Ich verstehe ehrlich gesagt nicht, warum hier der Ausdruck „no longer“ verwendet wurde.

  • Bei der Stelle „Nach einigen Wochen des Scheiterns kontaktierte ich einen Freund an einer anderen Universität, und auch er hatte mit PINNs keine guten Ergebnisse erzielt“ wird deutlich, wie wichtig in der Forschung — unabhängig von AI — ständige Zusammenarbeit ist. Sie hilft dabei, nicht noch einmal Wege zu gehen, an denen andere bereits gescheitert sind.

    • Es wird die Notwendigkeit angesprochen, dass Forscher auch gescheiterte Experimente als Paper veröffentlichen sollten.

    • Das ist für mich noch ein weiterer Grund, warum mich das Konzept eines wissenschaftlichen AI-Agenten nicht überzeugt. Forschung ist ihrem Wesen nach ein stark kollaborativer Prozess. Selbst wenn man Literaturrecherche perfekt beherrscht, ist fraglich, ob man ohne echte Begegnungen und Gespräche ein guter Forscher sein kann.

  • Ich bin kein AI-Booster, aber dass negative Resultate nicht publiziert werden und dass jeder sein eigenes Paper überhöht darstellt, ist kein reines AI-Problem. Es ist ein Problem der Bewertung von Wissenschaftlern und der Struktur der Journal-Industrie. Wie in traditionellen Medien besteht eine Fixierung darauf, Aufmerksamkeit anzuziehen. Jedenfalls fühlt es sich so an, als käme der Winter.

    • In AI-Papern liest man oft nur Dinge wie: „Wenn man Milliarden von GPUs und unendlich viel Zeit einsetzt, funktioniert es auf magische Weise“ oder „Auf einem proprietären realen Datensatz waren wir die Besten“. Bei Papern großer Unternehmen kann man selbst offensichtliche Schwächen nicht einfach ignorieren. Letztlich ist es ein Kampf um Ressourcen. Forscher an kleinen Universitäten mit wenig Budget können solche Arbeiten nicht einmal reproduzieren und müssen die im Paper genannten Zahlen einfach glauben.

    • Vor 15 Jahren habe ich ein praxisorientiertes AI-Paper geschrieben, bin dann in ein anderes Feld gewechselt und kürzlich zurückgekehrt. Das Problem gibt es in allen Disziplinen, aber AI zieht besonders stark Forscher an, die Ruhm und Geld hinterherlaufen. Überzogene Behauptungen und zurechtgebogene Daten scheinen dort noch verbreiteter zu sein. Selbst verantwortungsvolle Forscher müssen ein gewisses Maß an Übertreibung einsetzen, um konkurrenzfähig zu bleiben.

    • AI ist einfach nur der Magnet des aktuellen Hypes, weshalb die Probleme deutlicher sichtbar werden.

    • AI macht es besonders leicht, „plausibel wirkende Paper“ zu schreiben.

  • Ich frage mich, warum die Wahrnehmung von AI/ML auf HN so extrem gespalten ist. Es ist ein neues Gebiet, wie wir es bisher nicht gesehen haben; dass allein aus Texteingaben sogar Code erzeugt wird, gab es früher nicht. Kürzlich habe ich claude gebeten, ein Skript zur Bildsegmentierung inklusive UI zu erstellen, und nach einer Minute war es da. Solche innovativen Beispiele gibt es nicht nur ein oder zwei. Auch Bildgenerierung ist eine völlig neue Welt. Selbst wenn dieser Blogartikel übertreibt, ist aus Sicht eines Forschers allein die Produktivitätssteigerung bei der Code-Erstellung durch AI schon sehr groß. Noch interessanter ist die veränderte Wahrnehmung von Daten. Früher hieß es: „Das Internet vergisst nie“, heute werden Seiten tatsächlich gelöscht und Caches verschwinden, und wir haben zunehmend vergessen, wie man mit Daten umgeht. Mit dem Aufkommen von AI ist der Wert von Daten wieder in den Vordergrund gerückt. Wir treten in ein Zeitalter der Verstärkung ein, in dem Feedback gegeben und in Ergebnisse eingearbeitet wird. Bei Hardware, Algorithmen, Daten, Tools und Protokollen gibt es Fortschritte in alle Richtungen. Es braucht noch mehr Experimente, mehr GPUs und große Rechenzentren; im Moment stecken wir in einem Flaschenhals, während große Unternehmen über Wochen und Monate große Modelle trainieren.

    • Die Aussage „es hat Bildsegmentierungs-Code erzeugt“ ist in Wahrheit eher ein glamouröses Copy-and-paste von Stack-Overflow-Daten. Früher suchte man Informationen eben mit Google; es ist derselbe Zusammenhang. Es sieht neu und beeindruckend aus, bleibt im Kern aber eher auf dem Niveau von „ein Restaurant im GIS finden“. In der Praxis gibt es überhaupt kein echtes Reasoning, sondern nur die Ausgabe von Korrelationen auf Basis von Daten. Trotzdem bleibt es nützlich, nur sind die Grenzen klar.

    • Dass die Stimmung zu AI/ML auf HN so anders ist als bei anderen Technologien, sollte man aus der jeweils rationalen Perspektive der Einzelnen verstehen. Sowohl die Sicht, dass es revolutionär ist, als auch die Sorgen über Datendiebstahl und Gleichgültigkeit gegenüber Privatsphäre haben eine rationale Grundlage. Wichtig ist, zunächst anzuerkennen, dass es verschiedene Perspektiven gibt, und die eigene Position kurz beiseitezulegen, um die Haltung der anderen wirklich zu verstehen.

    • Die grundlegende Rolle eines Programmierers besteht darin, menschliche Sprache in Computersprache zu übersetzen. LLMs überschreiten diese Grenze eindeutig. Wie tief sie eindringen werden, ist unklar, aber die Barriere ist bereits gefallen. Diese Situation kann von Angst bis zu einem ausgeprägten Krisenbewusstsein sehr unterschiedlich gedeutet werden. Es bedroht eine hochbezahlte Fähigkeit, die über Jahre hinweg mühsam aufgebaut wurde. Selbst wenn Programmierer nicht vollständig ersetzt werden, reicht schon die Aussicht, nur noch mit Mühe Gehälter von mehreren Hunderttausend Dollar zu halten, als Bedrohung.

    • HN war schon immer entlang der Frage gespalten, ob eine gerade trendige Technologie echt oder nur Illusion ist. Solche Debatten wiederholen sich bei vielen Technologien. Manchmal habe ich meine eigene Position dazu auch geändert. Am Ende scheint es mir nicht so anders zu sein als sonst.

    • Umgekehrt wirkt die Erzählung, dass „AI die Wissenschaft revolutionieren wird“, so, als sei sie den Belegen viel zu weit voraus.

  • Am Anfang des Artikels könnte es so wirken, als sei AI insgesamt überbewertet, tatsächlich kritisiert er aber eine bestimmte Architektur, nämlich PINN. Gegen Ende wird auch erwähnt, dass es Erfolge dabei gibt, PDEs mit DL-Modellen schneller zu lösen.

    • Das ist nicht nur ein Problem von PINN, sondern viel breiter. Dass PINN nicht besonders gut ist, weiß man schon lange, aber auch das allgemeinere Scheitern von ML in physikalischen Problemen ist weit verbreitet. ML funktioniert gut, wenn (1) extrem viele Daten in einem eng umrissenen Bereich vorhanden sind, etwa bei MLIP, oder (2) riesige Datenmengen und große Modelle eingesetzt werden, etwa bei Alphafold. Die meisten ML-Anwendungen für Physik liegen aber irgendwo dazwischen: zu wenig experimentelle Daten, teure Simulationen, und sowohl Datensätze als auch Modelle sind von unklarer Größe. Also probieren es alle, scheitern und veröffentlichen trotzdem ein Paper. Wenn das Labor bekannt ist, der PI renommiert oder das Ganze irgendwie ungewöhnlich aussieht, landet es in guten Journalen und sammelt nur weitere Zitationen. Am Ende bleibt bloß die Begrenzung, einen Teil der Daten zu reproduzieren, während andere dann versuchen müssen, die Generalisierbarkeit zu verbessern.

    • Was der Autor gemacht hat, war nicht auf PINN beschränkt. Er hat auch ein Paper geschrieben, das verschiedene Modelle systematisch analysiert, und es gibt dafür sogar einen eigenen Abschnitt.

    • Man kann PINN durch irgendeine andere AI-Lösung ersetzen und wird immer noch überzogene Aspekte finden. Realistisch betrachtet liegt der praktische Nutzen von AI bisher auf dem Niveau von „einfache Routinearbeit für Experten automatisieren & dreifache Überprüfung notwendig“.

  • Hervorragende Analyse und Beispiele. Ein weiteres Problem ist, dass AI-Paper oft neu sind und nur zu einem kleinen Teil in „offiziellen“ Journalen erscheinen, aber trotzdem viele Zitationen erhalten. Reproduktion oder Überprüfung der Behauptungen ist wirklich schwierig, weil sich Methoden und Daten jedes Jahr verändern. Es bleibt unklar, ob die Schlussfolgerung an Eigenschaften eines älteren Modells liegt oder ob sie verallgemeinerbar ist.

    • Ich bin weder Wissenschaftler noch Forscher, aber bei Ergebnissen, die auf Statistik oder Dateninterpretation beruhen, bin ich grundsätzlich immer erst einmal skeptisch.
  • Als ich den Namen des Blog-Besitzers („Timothy B. Lee“) sah, war ich erstaunt, dass der über 70 Jahre alte Erfinder von HTTP und dem Web so einen modernen Blog betreibt.