Neue arXiv-Richtlinie: 1 Jahr Sperre bei halluzinierten Literaturangaben
(twitter.com/tdietterich)- Der arXiv Code of Conduct legt fest, dass Personen, die als Autor:innen aufgeführt sind, unabhängig von der Art der Erstellung für die gesamte Arbeit verantwortlich sind
- Auch wenn von generativer KI erzeugte unangemessene Sprache, Plagiate, Verzerrungen, Fehler oder falsche Literaturangaben in einer Arbeit enthalten sind, liegt die Verantwortung bei den Autor:innen
- arXiv betrachtet die gesamte Arbeit als nicht vertrauenswürdig, wenn es eindeutige Belege dafür gibt, dass Autor:innen die von einem LLM erzeugten Inhalte nicht überprüft haben
- Die Sanktion ist ein 1-jähriges Nutzungsverbot für arXiv; spätere Einreichungen müssen zunächst von einem renommierten peer-reviewten wissenschaftlichen venue angenommen worden sein
- Halluzinierte Literaturangaben oder LLM-Meta-Kommentare wie „mit den tatsächlichen Zahlen aus den Experimenten füllen“ gelten als eindeutige Belege
Verantwortung und Sanktionen für arXiv-Autor:innen
- Der arXiv Code of Conduct legt fest, dass die Nennung als Autor:in einer Arbeit bedeutet, unabhängig von der Art der Inhaltserstellung die Verantwortung für die gesamte Arbeit zu tragen
- Wenn von generativen KI-Tools erzeugte unangemessene Sprache, plagiierten Inhalte, verzerrten Inhalte, Fehler, Irrtümer, falsche Literaturangaben oder irreführende Inhalte in wissenschaftlichen Arbeiten enthalten sind, tragen die Autor:innen die Verantwortung
- arXiv geht davon aus, dass keinem Teil einer Einreichung vertraut werden kann, wenn sich darin eindeutige Belege finden, dass die Autor:innen die von einem LLM erzeugten Ergebnisse nicht überprüft haben
- Die Sanktion ist ein 1-jähriges Nutzungsverbot für arXiv; um danach wieder bei arXiv einreichen zu können, muss die Arbeit zuvor an einem renommierten peer-reviewten wissenschaftlichen venue angenommen worden sein
- Zu den eindeutigen Belegen gehören halluzinierte Literaturangaben und Meta-Kommentare eines LLM
- Beispiel: „here is a 200 word summary; would you like me to make any changes?”
- Beispiel: „the data in this table is illustrative, fill it in with the real numbers from your experiments”
1 Kommentare
Hacker-News-Kommentare
Wenn die Strafe nicht nur ein 1-jähriges arXiv-Verbot ist, sondern danach zusätzlich gilt, dass weitere Einreichungen erst von einer angesehenen begutachteten Publikationsstelle angenommen worden sein müssen, wäre das wirklich gut für die Wissenschaft.
arXiv ist kostenlos, aber eher ein Privileg als ein Recht.
Allerdings ist das auf https://info.arxiv.org/help/policies/index.html nicht klar zu erkennen, also ist es vielleicht noch in Planung, oder ich habe nicht gründlich genug gesucht.
Wie ein Doktor einmal sagte: Der entscheidende Punkt an einer Weltuntergangsmaschine ist, dass es sinnlos ist, sie zu verstecken.
Für die Prüfung von Referenzen wäre das nützlich, aber es würde wohl kaum die schlechte Wissenschaft selbst reduzieren, die mit halluzinierten Referenzen einhergeht.
arXiv prüft Einreichungen doch gar nicht so gründlich — wie will man das also feststellen?
Man spricht von „Fehlern, Irrtümern“, aber ob die grundlegenden Anforderungen erfüllt sind, wird nur durch ein automatisches System und gelegentlich oberflächliche menschliche Prüfung kontrolliert; alle Referenzen in großem Maßstab zu verifizieren ist unmöglich.
Das wäre der Versuch, in einem Preprint-Archiv, das hundertmal mehr Einsendungen als Journale erhält, etwas Ähnliches wie Peer Review zu machen.
Außerdem besteht ein gewaltiger Unterschied zwischen einer Veröffentlichung auf arXiv und dem Bestehen eines Peer Reviews.
Ich persönlich habe im Bereich Mathematik wahrscheinlich mehr als zehn Peer-Review-Ablehnungen erhalten, konnte aber problemlos in arXiv math veröffentlichen.
Beim Peer Review geht es nicht nur darum, ob etwas neu und korrekt ist, sondern auch darum, ob es „für die Mathematik-Community interessant“ ist; das ist inhärent subjektiv und viel schwieriger als eine Veröffentlichung auf arXiv.
Ein bekannter Professor für Zahlentheorie lobte die Arbeit bei der Bürgschaft, und ein anderer Professor empfahl per E-Mail ebenfalls die Veröffentlichung, trotzdem wurde sie dreimal abgelehnt und ich warte noch immer.
Wenn eine Veröffentlichung in einem Peer-Review-Journal verlangt wird, könnte arXiv für viele Forschende auf Dauer verschlossen sein, und das widerspricht auch dem Zweck eines Preprints.
Es geht nur um eine einzige halluzinierte Referenz, nicht um Betrug oder Ähnliches.
Das spiegelt weder den Inhalt noch die Qualität der Forschung dieser Person wider.
Für einen solchen kleinen ersten Fehler scheint schon ein einjähriges Verbot auszureichen.
Menschen machen Fehler, und viele können aus ihnen lernen.
Es ist nicht nötig, den Lebensweg oder die Fähigkeit eines Menschen, zur Menschheit beizutragen, dauerhaft zu beschädigen, nur weil eine KI einmal in seinem Leben eine Referenz halluziniert hat.
Das ist eher strafend als rehabilitierend.
Das ist zwar eine begrüßenswerte Maßnahme, aber im Kern würde ich mir eher wünschen, dass das Problem gelöst wird, korrekte BibTeX-Einträge für zitierte Arbeiten einfach zu erzeugen.
Die Zitationsdaten eines bestimmten Papers können aus vielen Quellen stammen: Zeitschriften verschiedener Verlage, Konferenzseiten, Preprints usw.
Dasselbe Paper kann an mehreren Orten liegen, etwa auf arXiv und auf einer Konferenz-Website, und die Details können leicht voneinander abweichen.
Dank Tools wie Zotero ist es viel einfacher geworden, Zitate von Publikations-Webseiten zu extrahieren, aber die extrahierten BibTeX-Details haben immer noch Probleme.
Autorennamen und Titel werden meist gut übernommen, aber ob Verlag, Jahr, Band, Ausgabe, Seiten, URL usw. korrekt extrahiert wurden und in LaTeX richtig dargestellt werden, muss noch immer manuell geprüft werden.
Außerdem kann sich der Zitierstil je nach Publikation unterscheiden.
Weil es keinen einheitlichen integrierten Weg gibt, konsistente Zitationsdaten leicht zu extrahieren, greifen manche leider möglicherweise zur Abkürzung über KI-generierte Zitationsdaten.
Ich bin mir nicht sicher, ob halluzinierte Zitate im Haupttext entstehen oder in einer separaten BibTeX-Datei, daher könnte mein Verständnis hier etwas danebenliegen.
https://zbib.org/
https://xcancel.com/tdietterich/status/2055000956144935055
Die Frage ist, wie man halluzinierte Referenzen in großem Maßstab erkennt.
Ich weiß nicht, ob das durch manuelle Stichproben oder automatische DOI-Prüfung geschehen soll.
Die politische Richtung wirkt richtig, aber die Durchsetzung ist schwierig.
Gut so.
Wenn du keine Zeit hast, LLM-Ausgaben sorgfältig zu prüfen, habe ich auch keine Zeit, sie zu lesen.
Hast du je zufällig eins ausgewählt und es wirklich tiefgehend durchgearbeitet?
Bisher sehe ich hier noch nichts zu der Bedingung „angesehen“.
Nach welchen Kriterien wird festgelegt, was eine angesehene Begutachtung ist?
Vor solchen Sanktionen braucht es eine sorgfältige Verifikation.
Wenn jemand ohne ausdrückliche Erlaubnis den Namen anderer einträgt und einreicht, werden dann alle gesperrt?
Ich stimme zu, dass es in die richtige Richtung geht, wenn es sauber umgesetzt wird.
Dann könnte man mit einem Ein-Satz-Paper theoretisch alle bei arXiv sperren lassen.
Dass die überhitzten LLM-Befürworter, die man auf Twitter ständig sieht, auf diese Maßnahme wütend mit Antworten reagieren, ist ein ziemlich aufschlussreiches Signal.
Wie auch bei Kommentaren zu Beiträgen über LLM-Verschmutzung können manche Leute offenbar nicht akzeptieren, dass es Menschen gibt, die LLMs nicht mögen, und sie werden wütend, sobald es auch nur ein kleines Hindernis für eine schnelle Übernahme gibt.
Man könnte fast meinen, der HN-Konsens sei, die Einführung von LLMs überall überhitzt zu beschleunigen.
Das ist absurd, aber gleichzeitig auch irgendwie sehr typisch für HN.
Gut. Die wissenschaftliche Literatur steckt wegen aller Arten von minderwertigem Müll in einer Krise.
Für leicht erkennbare Halluzinationen Verantwortung einzufordern, kann nur gut sein.
Ich habe vor etwa 40 Jahren in Physik promoviert, und schon damals waren fehlerhafte Referenzen ein Problem.
Ein Kollege hat ein Paper eingereicht und dabei buchstäblich KI-Müllsätze im Haupttext stehen lassen, woraufhin eine gnadenlose Überarbeitungsaufforderung kam.
Man sollte Entwürfe vor der Einreichung prüfen.
Gutachter finden so etwas.
Ich bin Screenreader-Nutzer und lese Papers normalerweise im rohen TeX, und ich habe schon alles Mögliche gesehen.
Abwertende Bezeichnungen, Beleidigungen gegen Gutachter und Professoren, Eingeständnisse von Betrug, sogar Anweisungen an Mitautoren vor der Einreichung, weiteren Betrug zu begehen, um früheren Betrug zu vertuschen.
Das kommt viel seltener vor, als man denkt — unter 1 % der Papers — aber es existiert wirklich.
Es wäre vermutlich nützlich, einmal eine LLM-basierte Betrugserkennung über die TeX-Quellen neuer arXiv-Papers laufen zu lassen.
Man würde nicht alles finden, aber man könnte einige der dümmsten Betrüger erwischen.
Es gibt auch positive Seiten: Man findet stärkere Behauptungen, die die Begutachtung nicht überstanden haben, zusätzliche Erklärungen, die wegen Seitenlimits auf Konferenzseiten herausfielen, oder Versuchsergebnisse, die die Autoren nicht für wertvoll genug hielten, um sie aufzunehmen.
Solche Dinge sollte man sehr vorsichtig lesen, aber manchmal sind sie tatsächlich nützlich.