- GPTZero hat in den ICLR-2026-Einreichungspapieren mehr als 50 fehlerhafte Zitate und falsche Autorenangaben entdeckt
- Für jedes Paper wurde die tatsächliche Existenz und die Übereinstimmung der Zitate zusammen mit dem OpenReview-Link überprüft
- In zahlreichen Fällen wurden nicht existierende Autoren, falsche Jahreszahlen und andere Paper-Titel festgestellt
- Einige Arbeiten stimmen nur teilweise mit realen Papieren überein, aber die Detail-Metadaten sind verzerrt
- Die Ergebnisse zeigen, dass das Problem der Halluzination durch KI-generierte Inhalte auch in akademischen Einreichungen weiter verbreitet ist
GPTZeros Ergebnisse zur Halluzinationserkennung bei ICLR 2026
- GPTZero hat die ICLR-2026-Einreichungspapiere einer automatisierten Prüfung von Zitaten und Autoreninformationen unterzogen
- Für jedes Paper werden ein OpenReview-Link, ein GPTZero-Verifizierungslink und die Zitationsdaten angegeben
- In den Prüfergebnissen wurden in über 50 Fällen falsche Zitate oder nicht existierende Autoren gefunden
Repräsentative Halluzinationsfälle
- Das Paper TamperTok ist tatsächlich vorhanden, jedoch sind alle Autorenangaben falsch
- Bei MixtureVitae stimmen die ersten drei Autoren überein, während die übrigen sieben nicht existieren
- OrtSAE, Principled Policy Optimization, IMPQ und weitere Arbeiten sind teils mit echten Papieren nicht passend, was Titel oder Autoren betrifft
- Bei PDMBench existiert ein ähnliches Paper, jedoch unterscheiden sich Jahr und Titel
- C3-OWD, GRF-LLM usw. wurden als teilweise Übereinstimmung eingestuft
Vollständig unpassende Fälle
- Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI und andere zitieren Paper, die nicht existieren
- SAFE-LLM, Typed Chain-of-Thought, MANTA usw. verweisen auf ähnliche Papiere, aber inkonsistente Metadaten
- AI-Assisted Medical Triage Assistant, QUART, KARMA und weitere verweisen auf völlig nicht verwandte Arbeiten
Verifizierungsverfahren und Ergebnistypen
- GPTZero vergleicht jede Zitation mit echten Datenbanken (z. B. arXiv, NeurIPS, ICLR, ACL usw.)
- Die Ergebnisse werden als „existiert“, „teilweise Übereinstimmung“, „nicht übereinstimmend“, „falscher Autor“ usw. klassifiziert
- Einige Einträge wurden als „echte Paper vorhanden, aber Autoren, Jahr und Titel unterscheiden sich vollständig“ markiert
Bedeutung und Implikationen
- Bei vielen ICLR-2026-Einreichungen sind Halluzinationsphänomene aus KI-generierten Texten direkt enthalten
- Bei der Erstellung wissenschaftlicher Paper wird der Bedarf an automatisierten Validierungswerkzeugen für Faktenprüfung zunehmend deutlich
- Die GPTZero-Ergebnisse zeigen die Notwendigkeit, die Sicherung der Verlässlichkeit von KI-generierten Inhalten zu stärken
4 Kommentare
Gibt es bei sich wiederholenden AIs mit ähnlichem Wissensniveau überhaupt noch viel Raum für weitere Fortschritte?
Wenn nicht, scheint es, als würde die Welt nur noch von denselben Texten geklonter Menschen überflutet werden, und es würde noch schwerer, darin die Spreu vom Weizen zu trennen.
Hacker-News-Kommentare
Ich halte so etwas für ein eindeutig berufsethisches Fehlverhalten
Wenn einer meiner Forschenden so etwas getan hätte, wäre er vermutlich vom Rauswurf bedroht gewesen
Als Reviewer kann ich, wenn ich sehe, dass ein Autor lügt, dem gesamten Paper nicht mehr vertrauen, und ethisch gesehen wäre eine sofortige Ablehnung angemessen
Fehler sind häufig, aber das hier ist eine ganz andere Kategorie
Im Westen sieht man die Ehrlichkeit des Einzelnen als Grundlage für das Vertrauen in die gesamte Wissenschaft, während man im Nahen Osten, in Indien und in China dazu neigt, ein solches Verhalten eher der Verantwortung des Journals zuzuschreiben
Wenn man diese Unterschiede nicht versteht, wird Zusammenarbeit schnell sehr verwirrend
Meiner Erfahrung nach ist das Hauptproblem, das die Qualität von Papers verschlechtert, falsches Zitieren
Schlimmer als fehlende Zitate ist oft, dass die zitierte Quelle das in Wirklichkeit gar nicht sagt oder der Kontext verzerrt wird
Solche Fehler zu finden kostet enorm viel Zeit, weil man die Originalquelle lesen und verstehen muss
Das ist nicht bloß ein Versehen, sondern führt zu einer Erosion des Wissens, daher braucht es Sanktionen wie „nach drei Verwarnungen Ausschluss“
Man könnte sie etwa nutzen, um Behauptungen im Paper automatisch mit der Literaturliste abzugleichen und zu prüfen, ob die Quellen sie tatsächlich stützen
In solchen Fällen geht es nicht um bloße Nachlässigkeit, sondern um interessengeleitete Manipulation
Nicht AI ist das Problem, sondern Faulheit und Nachlässigkeit
Wenn ein Wissenschaftler mit einem LLM ein Paper mit erfundenen Zitaten schreibt, dann ist das einfach ein schlechter Wissenschaftler
Wenn es für solches Verhalten keine sozialen Sanktionen gibt, wird es am Ende stillschweigend toleriert
Für technische Prüfungen braucht man erfahrene Prüfer
Letztlich ist AI selbst das Problem
Gerade weil es gut aussieht, verdeckt es das eigentliche Problem
Trotzdem haben die Halluzinationen im letzten Jahr abgenommen, und wenn man es auf verifizierte Papers beschränkt, ist es durchaus brauchbar
Wenn Forschende sich jedoch nicht auf solche Tools stützen sollen, muss sich zuerst die Struktur des ständigen Wettbewerbs um Fördergelder ändern
Bei LLMs ist es genauso: Sie geben dem Nutzer genau die Antwort zurück, die er hören will, und verstärken damit den Bestätigungsfehler
Ich glaube nicht, dass es einen sicheren Weg gibt, LLMs in der wissenschaftlichen Forschung einzusetzen
Wenn man die Papers tatsächlich direkt liest, sieht es oft nicht so aus, als hätte AI nur den Text geschrieben, sondern als wären die Ideen selbst AI-generiert
Oberflächlich wirkt es plausibel, inhaltlich ist es aber absurd
Wenn ein echter Forschender wegen eines simplen Fehlers in einer .bib-Datei in so einer Liste gelandet ist, wäre das bedauerlich
Avi Loeb (theoretischer Physiker in Harvard) erwähnte, dass die Zahl der Fälle stark zugenommen habe, in denen Studierende nicht existierende Papers zitieren
Sie glauben einfach die von LLMs erzeugten Fiktionen und überprüfen sie nicht einmal
Zugehöriger Artikel: How AI is making us dumber
Oben ein schlechtes Beispiel zu geben und dann die Leute darunter zu tadeln, ist schlechte Pädagogik
Ich frage mich, ob diese Studie alle fehlerhaften Zitate automatisch als Halluzinationen von LLMs eingestuft hat
Es bräuchte eine Baseline-Analyse, ob solche Fehler auch schon in Papers vor LLMs vorkamen
Ich würde gern wissen, welches Ergebnis herauskäme, wenn man dasselbe Werkzeug auf Papers aus den 2010er Jahren anwenden würde
Die meisten Journals prüfen Zitate über DOI, daher sollte man auch ältere Papers vergleichend analysieren
Schon wenn man nur ein Thema vorgibt, erzeugt ein LLM sehr ähnliche Papers
Ursache ist das unvollkommene menschliche Wissenssystem, nicht nur ein Problem von LLMs
Der Zweck von Peer Review ist nicht bloß, Fehler zu finden, sondern Neuheit und Vollständigkeit zu bewerten
Dann braucht es Anreize, um Nachlässigkeit zu verhindern
Beispielsweise könnten Verlage ein Prämiensystem einführen, das Personen belohnt, die gravierende Nachlässigkeit entdecken, oder eine Wall of Shame für wiederholt nachlässige Forschende betreiben
Ich nutze seit 15 Jahren Literaturverwaltungs-Tools wie Zotero, und es überrascht mich immer noch, wie viele Zitate falsche Autorennamen enthalten
Wenn die Einreichung von .bib-Dateien verpflichtend wäre, könnte man mit DOI-Prüfung zumindest eine grundlegende Qualitätskontrolle erreichen
Dass nicht einmal solche Basiskontrollen stattfinden, ist schockierend
Mitunter zitieren Autoren sogar ihre eigenen Papers falsch, und selbst wenn die DOI stimmt, sind Tippfehler in Autorennamen häufig
Dank solcher Tools ist die Zahl der Zitate gestiegen und die Fehlerquote gesunken, aber pro Paper bleibt meist immer noch mindestens ein Fehler übrig
Wenn von 20.000 Einreichungen nur 300 geprüft wurden und dabei bereits Hunderte halluzinierte Papers gefunden wurden, dann dürfte das tatsächliche Ausmaß viel größer sein
Halluzinationen von LLMs sind eine beabsichtigte Eigenschaft des Designs
Beim Erzeugen statistisch plausibler Ausgaben entstehen erfundene Zitate ganz natürlich
Dass Maschinen echte Zitate erzeugen, ist technisch durchaus möglich
Nur liefern heutige LLMs nicht die von uns geforderte „präzise Zitationserzeugung“, sondern Ergebnisse, die nur äußerlich ähnlich aussehen
Ich denke schon seit Langem, dass LLMs den Fortschritt der Menschheit eher behindern könnten, und in diesem Zusammenhang tritt nun genau das Problem zutage, an das ich gedacht hatte. Die kognitive Last zu verringern, wirkt aus menschlicher Sicht fast wie eine Droge. Ich forsche selbst, und auch im Team warnen wir davor, dass man sich umso mehr daran gewöhnt, nicht mehr selbst nachzudenken, je häufiger man LLM-Modelle nutzt. Vermutlich wird sich dieses Problem weiter verschärfen. Da das Volumen auf ein Niveau anwächst, das sich mit Peer Review kaum noch abdecken lässt, wird man wohl andere Methoden finden müssen. In letzter Zeit scheint die Zahl der Einreichungen bei bekannten Konferenzen stark zu steigen; ich vermute, dass das aus einem ähnlichen Grund geschieht.
Ich stimme zu. Wenn das so weitergeht, wird das menschliche Gehirn wohl immer weiter verkümmern.
Letztlich könnte das Szenario, in dem künstliche Intelligenz den Menschen beherrscht, sogar das höchstentwickelte Denken sein, zu dem wir heute überhaupt noch fähig sind. Künftig könnte es sein, dass wir nicht einmal mehr bis zu diesem Gedanken gelangen und es ohne neue Umwälzung nur noch einen Konvergenzbereich gibt, bis wir schlicht von der KI kontrolliert werden.