- Nach der Veröffentlichung des Preprints „Artificial Intelligence, Scientific Discovery, and Product Innovation“ auf arXiv im November 2024 wurden Fragen zur Genauigkeit und Integrität der Studie aufgeworfen
- MIT führte eine interne nicht öffentliche Untersuchung durch, kam zu dem Schluss, dass das Paper nicht vertrauenswürdig ist, und stellte offiziell bei arXiv und The Quarterly Journal of Economics einen Antrag auf Rückzug
- Laut einem öffentlichen Schreiben im Namen des MIT-Committee on Discipline besteht überhaupt kein Vertrauen in Herkunft, Verlässlichkeit und Genauigkeit der Daten des Papers; zudem gebe es kein Vertrauen in die Forschungsergebnisse selbst
- Nach den arXiv-Richtlinien können nur Autorinnen und Autoren einen Rückzug beantragen, doch da der Autor dies nicht getan hat, stellte MIT stattdessen einen offiziellen Antrag und möchte, dass das Paper so schnell wie möglich zurückgezogen und dabei klar gekennzeichnet wird
Einfluss des Papers und Reaktion des MIT
- Ein Preprint ist eine Studie, die noch kein Peer Review durchlaufen hat
- Das betreffende Paper übt in den akademischen Debatten zu KI und Wissenschaft bereits erheblichen Einfluss aus
- MIT treibt den formellen Rückzug voran, um die negativen Auswirkungen ungenauer Inhalte auf die Debatte zu begrenzen
- Der Autor ist nicht mehr an MIT tätig
Bedeutung wissenschaftlicher Integrität
- Wissenschaftliche Integrität ist ein zentraler Wert des MIT und gehört zu seiner Kernmission
- MIT unterhält vertrauliche Verfahren und entsprechende Richtlinien, um auf Probleme durch wissenschaftliches Fehlverhalten schnell zu reagieren
- Die einschlägigen Richtlinien und Verfahren sind auf der offiziellen MIT-Website einsehbar
Offizielle Stellungnahme der Professoren
- Professor Daron Acemoglu und Professor David Autor wurden in einer Fußnote des Papers erwähnt und veröffentlichten die folgende offizielle Erklärung
- Das betreffende Paper stammt von einem ehemaligen Doktoranden im zweiten Jahr des wirtschaftswissenschaftlichen Promotionsprogramms und wurde noch nicht in einer begutachteten Fachzeitschrift veröffentlicht, wird jedoch bereits in der Literatur zu KI und Wissenschaft intensiv diskutiert
- Im Lauf der Zeit kamen Zweifel an der Validität der Forschung auf, woraufhin der Fall den zuständigen Stellen gemeldet wurde
- Im Februar 2024 leitete MIT gemäß seinen internen Richtlinien eine nicht öffentliche Untersuchung ein
- Wegen Einschränkungen bei der Offenlegung von Informationen könnten die Ergebnisse nicht bekannt gegeben werden; zugleich werde jedoch erneut betont, dass überhaupt kein Vertrauen in Daten sowie in Herkunft, Verlässlichkeit und Integrität der Forschung bestehe
- Der Grund für die Veröffentlichung dieser Informationen sei, dass das Paper trotz fehlender Publikation bereits die Debatte über den Einfluss von KI auf die Wissenschaft präge
- MIT misst einem korrekten wissenschaftlichen Forschungsnachweis große Bedeutung bei und stellt klar, dass es unangemessen ist, sich in Wissenschaft und öffentlicher Debatte auf die Ergebnisse dieses Papers zu stützen
Schlussfolgerung und Empfehlung
- MIT empfiehlt Wissenschaft und Öffentlichkeit, das betreffende Paper nicht als wissenschaftliche Referenz zu verwenden
- Die Sicherstellung von Genauigkeit und Verlässlichkeit in der Forschung hat oberste Priorität
1 Kommentare
Hacker-News-Kommentare
Es wird erklärt, dass einen Antrag auf Rückzug eines arXiv-Papers nur die Autorin oder der Autor stellen kann und MIT die Autorin bzw. den Autor zwar um Rückzug gebeten hat, dieser aber bislang nicht erfolgt ist; die Darstellung läuft daher in Form einer Stellungnahme, die diesen Stand erläutert. Dabei wird die Art, wie MIT Informationen vermittelt und dabei die Privatsphäre einigermaßen schützt, aber den Verlauf der Sache dennoch teilweise offenlegt, als ganz vernünftig bewertet. Es wird auch spekuliert, dass der Autor das Paper stehen ließ und MIT freiwillig verließ, in der Hoffnung, dass sich daraus neue Chancen ergeben könnten, und dass er wohl nicht erwartet hatte, dass MIT dazu eine offizielle Stellungnahme veröffentlichen würde
Es wird behauptet, MIT schiebe die gesamte Verantwortung auf den Studenten und versuche, eigenes Versagen zu verbergen. Der Autor habe Empfehlungen von berühmten und wohlhabenden MIT-Professoren erhalten, und es erscheine unwahrscheinlich, dass ein Doktorand im zweiten Jahr ohne Industriekontakte eigenständig einen derart großen Forschungsbetrug aufziehen konnte. Bereits die in der Zusammenfassung genannten Zahlen — „AI entdeckte 44 % mehr neue Materialien, 39 % mehr Patentanmeldungen und 17 % mehr nachgelagerte Innovation“ — wirkten vor dem Hintergrund realer industrieller Forschungspraxis schon allein anhand der Größenordnung verdächtig. Bei solchen Werten müsse man mit einem Mindestmaß an Gespür erkennen, dass es sich um Betrug handeln könnte
Es wird zudem darauf hingewiesen, dass der Autor zur Verschleierung seiner Spuren eine gefälschte Website erstellt und sogar eine Domain registriert habe, um so zu tun, als habe er bei einem Unternehmen namens Corning gearbeitet. In diesem Zusammenhang wird auch ein Vorfall verlinkt, bei dem Corning die Domain über die WIPO zwangsweise übertragen ließ
Außerdem wird Videomaterial geteilt, in dem der Autor per Zoom ein Seminar zu seinem eigenen Paper hält. Rückblickend falle auf, dass er beim Lügen den Blick weder auf den Bildschirm noch in die Kamera richte; es wird die Unruhe geäußert, dass solches improvisiertes Lügen womöglich bereits zu einer alltäglichen Gewohnheit geworden sein könnte
Als erster Eindruck wird geschildert, dass die Plot-Daten des Papers übertrieben sauber aussähen und daher eher manipuliert als real wirkten. Insbesondere bleibe ungeklärt, wie ein Doktorand im zweiten Jahr im Mai 2022 — also nur sechs Monate vor dem Erscheinen von chatGPT — ein großes Unternehmen mit Materialforschungslabor dazu gebracht haben soll, Experimente im Maßstab von tausend Personen durchzuführen. Auch die Modellbeschreibung bleibe vage, etwa mit Andeutungen wie GAN+diffusion, ohne konkrete Details; aus praktischer Erfahrung in Großunternehmen wird betont, dass eine so groß angelegte Einführung in so kurzer Zeit absolut nicht vorkomme
Weil das Experimentdesign des Papers in der Realität kaum durchführbar erscheine, wird eine Ähnlichkeit zum Forschungsbetrug um Michael LaCour erwähnt. Damals seien bereits die Antworten und Rücklaufquoten bei Panel-Umfragen völlig lebensfremd gewesen, und sogar Unternehmen, die grundsätzlich die Fähigkeit zur Durchführung solcher Studien gehabt hätten, hätten erklärt, dass ein derartiges Verfahren praktisch nicht machbar sei
Es wird auch darauf hingewiesen, dass der Autor behauptet habe, von der MIT IRB eine Genehmigung für Menschenversuche erhalten zu haben und sogar eine Nummer nannte, obwohl er zu diesem Zeitpunkt noch nicht einmal im Promotionsprogramm eingeschrieben gewesen sei
In der Q&A-Session habe der Autor behauptet, nicht GAN, sondern GNN (Graph Neural Network) verwendet zu haben; zugleich wird geteilt, dass auch das Publikum bei dem Vortrag offenbar nicht in einer Stimmung gewesen sei, die Validität des Papers ernsthaft zu hinterfragen
Wenn ein Paper schwer reproduzierbar ist und das Fachgebiet selbst sehr groß, stelle sich die Frage, wann es überhaupt jemals wirklich überprüft werden könne; zugleich müsse man sich stärker damit befassen, wie viele betrügerische Papers es in solchen Feldern gebe. Aus persönlicher Erfahrung wird ergänzt, dass es im ML-Bereich durchaus einige Leute gegeben habe, die Zahlen einfach erfunden hätten
Die Vorstellung, man habe per automatischer Textanalyse Daten zur monatlichen Arbeitszeitverteilung von Wissenschaftlern über das Jahr hinweg nahezu konstant erhalten, wird von vornherein als absurd bezeichnet. Für solche Daten müsste die Qualität jenseits jeder realistischen Erwartung liegen, was in der Praxis unmöglich sei
Es wird berichtet, dass bekannte MIT-Ökonomen eher auf der Seite jener standen, die Zweifel an der Glaubwürdigkeit des Papers hatten; nachdem sie Innovationsfälle eines real existierenden großen Materialunternehmens überprüft hatten, konnten sie die Widersprüche nicht ausräumen und übergaben die Untersuchung deshalb an MIT. Es sei nicht damit getan, nur den Studenten auszuschließen; wenn Professoren das Paper aktiv gefördert hätten und tatsächlich am Projekt beteiligt gewesen seien, hätten sie zumindest grundlegende Dinge prüfen müssen, etwa ob es dieses mysteriöse Labor mit tausend Personen wirklich gab und ob die behaupteten AI-Tools tatsächlich eingesetzt wurden
Es wird spitz angemerkt, dass unter den 21 Personen in der Danksagung offenbar niemand die Herkunft der Daten hinterfragt habe. Eine dieser Personen habe sogar einen populären Twitter-Thread über die Forschung verfasst und auf aktuelle Nachfragen zum Vorfall nur knapp geantwortet, die Daten des Papers schienen wohl nicht vertrauenswürdig zu sein
Weiter wird beklagt, dass es in der Wissenschaft viele Professoren mit großem Namen gebe, die Papers nicht einmal richtig lesen; der Kommentierende sagt, er habe dies selbst erlebt. Auch wenn keine Namen genannt werden könnten, sehe man die Lage dank eines guten Co-Betreuers noch einigermaßen positiv
Auf die Frage nach den zitierten Quellen wird geantwortet, es handle sich um Artikel der Washington Post und des WSJ
Hervorgehoben wird, dass das Paper bereits fast 50-mal zitiert worden sei. In traditionellen Journals hätte man früher zumindest eine Notiz zu Problemen des Papers hinterlassen können; bei arXiv dagegen könne man einem Paper folgen, ohne überhaupt zu erfahren, dass es dazu Kontroversen oder Streit gebe. Darin wird eine Schwäche von Preprint-Servern gesehen
Es wird ergänzt, dass die meisten dieser 50 Zitate aus Preprints auf arXiv oder aus Quellen wie ResearchGate stammten. Die Zahl der Zitate in tatsächlich peer-reviewten Journals sei der realistischere Maßstab. arXiv sei im Grunde kaum mehr als ein PDF-Blog ohne Begutachtung, mit nur einem schwachen Schutz durch ein leichtes Einladungssystem; in diesem Zusammenhang wird auch ein früherer Fall eines seltsamen kryptografischen Papers erwähnt
Diese Schwäche liege im fehlenden Review begründet; arXiv habe eher eine Art Moderation, sei aber kein Ort, dem man echtes Vertrauen entgegenbringen könne. Einem Paper zu vertrauen bedeute, entweder den Autorinnen und Autoren zu vertrauen oder es selbst zu prüfen; auch bei einem Rückzug bleibe kein separater Grund dauerhaft vermerkt, sodass jede Person den Vorgang selbst nachverfolgen müsse. Als Beispiel wird eine Rückzugsmeldung zitiert, die der Kommentierende gesehen habe
Es wird geteilt, dass dieses Paper schon vor einigen Monaten auf HN diskutiert wurde
Es wird betont, dass bereits damals jemand Verdacht geschöpft habe, zusammen mit einem ergänzenden Link
Zusätzlich werden Titel und Link des damaligen Diskussionsposts genannt
Statt das Paper vollständig zu löschen, sei es besser, dem Forschungs-Preprint eine Notiz über die Probleme und die Möglichkeit von Betrug hinzuzufügen. Da es bereits zitiert worden sei, könne später der Bedarf entstehen, seine tatsächlichen Auswirkungen nachzuvollziehen; wenn das Paper einfach verschwinde, bleibe nur eine Lücke zurück
Es wird darauf hingewiesen, dass bei einem Rückzug frühere Versionen erhalten blieben und dass MIT einen Rückzugsantrag gestellt habe. Der Titel des Presseartikels sei in dieser Hinsicht etwas irreführend
Es wird die Ansicht geäußert, dass auch zitierende Arbeiten mit Warnmarkierungen oder Ähnlichem versehen werden sollten, damit ein betrügerisches Paper nicht weiter unbemerkt Wirkung entfaltet
Ebenso wird der Wunsch geäußert, arXiv möge zumindest eine Seite anzeigen wie „Hier befand sich einmal ein Paper, das zurückgezogen wurde“
Es wird bezweifelt, dass MIT wirklich nur vom Fehlverhalten eines Doktoranden spricht und damit jede Möglichkeit von VC-Finanzierung, Hinterzimmerabsprachen oder organisierter Korruption ausschließt. Die Sichtweise lautet, dass das Paper möglicherweise trotz absehbarer Enttarnung den Marktwert und die Erwartungen rund um AI mit angeheizt habe, um maximale Vorteile mitzunehmen, und man bei größer werdender Kontroverse am Ende mit geringem Preis und einer Entschuldigung davonkomme. Es wird angemerkt, dass Pharmaunternehmen den Markt mitunter auf ähnliche Weise nutzten. Weil selbst in vertrauenswürdig wirkenden Institutionen oder Publikationen viele falsche oder leicht verzerrte Papers existierten, garantiere das bloße Zitieren von Presseartikeln noch keine logische Stichhaltigkeit
Es wird angemerkt, dass die offizielle MIT-Erklärung nur wenige Details enthalte, während der WSJ-Artikel etwas mehr Informationen biete, aber ebenfalls in vielen Punkten vage bleibe. Erneut wird mitgeteilt, dass MIT-Ökonomen, die das Paper aktiv bekannt gemacht hatten, nach Hinweisen eines externen Informatikers eine interne Untersuchung anstoßen ließen
Es wird die Meinung geäußert, dass schon die Formulierung „ehemaliger Doktorand im zweiten Jahr“ erkennen lasse, dass die Person ausgeschlossen wurde