Über 50 Fälle von Halluzinationen in ICLR-2026-Einreichungen gefunden

(gptzero.me)

3 Punkte von GN⁺ 2025-12-08 | 4 Kommentare | Auf WhatsApp teilen

GPTZero hat in den ICLR-2026-Einreichungspapieren mehr als 50 fehlerhafte Zitate und falsche Autorenangaben entdeckt
Für jedes Paper wurde die tatsächliche Existenz und die Übereinstimmung der Zitate zusammen mit dem OpenReview-Link überprüft
In zahlreichen Fällen wurden nicht existierende Autoren, falsche Jahreszahlen und andere Paper-Titel festgestellt
Einige Arbeiten stimmen nur teilweise mit realen Papieren überein, aber die Detail-Metadaten sind verzerrt
Die Ergebnisse zeigen, dass das Problem der Halluzination durch KI-generierte Inhalte auch in akademischen Einreichungen weiter verbreitet ist

GPTZeros Ergebnisse zur Halluzinationserkennung bei ICLR 2026

GPTZero hat die ICLR-2026-Einreichungspapiere einer automatisierten Prüfung von Zitaten und Autoreninformationen unterzogen
- Für jedes Paper werden ein OpenReview-Link, ein GPTZero-Verifizierungslink und die Zitationsdaten angegeben
- In den Prüfergebnissen wurden in über 50 Fällen falsche Zitate oder nicht existierende Autoren gefunden

Repräsentative Halluzinationsfälle

Das Paper TamperTok ist tatsächlich vorhanden, jedoch sind alle Autorenangaben falsch
Bei MixtureVitae stimmen die ersten drei Autoren überein, während die übrigen sieben nicht existieren
OrtSAE, Principled Policy Optimization, IMPQ und weitere Arbeiten sind teils mit echten Papieren nicht passend, was Titel oder Autoren betrifft
Bei PDMBench existiert ein ähnliches Paper, jedoch unterscheiden sich Jahr und Titel
C3-OWD, GRF-LLM usw. wurden als teilweise Übereinstimmung eingestuft

Vollständig unpassende Fälle

Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI und andere zitieren Paper, die nicht existieren
SAFE-LLM, Typed Chain-of-Thought, MANTA usw. verweisen auf ähnliche Papiere, aber inkonsistente Metadaten
AI-Assisted Medical Triage Assistant, QUART, KARMA und weitere verweisen auf völlig nicht verwandte Arbeiten

Verifizierungsverfahren und Ergebnistypen

GPTZero vergleicht jede Zitation mit echten Datenbanken (z. B. arXiv, NeurIPS, ICLR, ACL usw.)
- Die Ergebnisse werden als „existiert“, „teilweise Übereinstimmung“, „nicht übereinstimmend“, „falscher Autor“ usw. klassifiziert
- Einige Einträge wurden als „echte Paper vorhanden, aber Autoren, Jahr und Titel unterscheiden sich vollständig“ markiert

Bedeutung und Implikationen

Bei vielen ICLR-2026-Einreichungen sind Halluzinationsphänomene aus KI-generierten Texten direkt enthalten
Bei der Erstellung wissenschaftlicher Paper wird der Bedarf an automatisierten Validierungswerkzeugen für Faktenprüfung zunehmend deutlich
Die GPTZero-Ergebnisse zeigen die Notwendigkeit, die Sicherung der Verlässlichkeit von KI-generierten Inhalten zu stärken

4 Kommentare

shakespeares 2025-12-09

Gibt es bei sich wiederholenden AIs mit ähnlichem Wissensniveau überhaupt noch viel Raum für weitere Fortschritte?
Wenn nicht, scheint es, als würde die Welt nur noch von denselben Texten geklonter Menschen überflutet werden, und es würde noch schwerer, darin die Spreu vom Weizen zu trennen.

GN⁺ 2025-12-08

Hacker-News-Kommentare

Ich halte so etwas für ein eindeutig berufsethisches Fehlverhalten
Wenn einer meiner Forschenden so etwas getan hätte, wäre er vermutlich vom Rauswurf bedroht gewesen
Als Reviewer kann ich, wenn ich sehe, dass ein Autor lügt, dem gesamten Paper nicht mehr vertrauen, und ethisch gesehen wäre eine sofortige Ablehnung angemessen
Fehler sind häufig, aber das hier ist eine ganz andere Kategorie
- Das wirkt auch wie eine Frage der kulturellen Unterschiede
  Im Westen sieht man die Ehrlichkeit des Einzelnen als Grundlage für das Vertrauen in die gesamte Wissenschaft, während man im Nahen Osten, in Indien und in China dazu neigt, ein solches Verhalten eher der Verantwortung des Journals zuzuschreiben
  Wenn man diese Unterschiede nicht versteht, wird Zusammenarbeit schnell sehr verwirrend
Meiner Erfahrung nach ist das Hauptproblem, das die Qualität von Papers verschlechtert, falsches Zitieren
Schlimmer als fehlende Zitate ist oft, dass die zitierte Quelle das in Wirklichkeit gar nicht sagt oder der Kontext verzerrt wird
Solche Fehler zu finden kostet enorm viel Zeit, weil man die Originalquelle lesen und verstehen muss
Das ist nicht bloß ein Versehen, sondern führt zu einer Erosion des Wissens, daher braucht es Sanktionen wie „nach drei Verwarnungen Ausschluss“
- Das könnte sogar ein Bereich sein, in dem LLMs gut sein könnten
  Man könnte sie etwa nutzen, um Behauptungen im Paper automatisch mit der Literaturliste abzugleichen und zu prüfen, ob die Quellen sie tatsächlich stützen
- Einige Forschende verzerren jedoch absichtlich Ergebnisse, um Geldgebern wie Exxon, Meta oder Pfizer das zu liefern, was diese sehen wollen
  In solchen Fällen geht es nicht um bloße Nachlässigkeit, sondern um interessengeleitete Manipulation
- Erfundenen Zitate sind nur die Spitze des Eisbergs; der Missbrauch von Zitaten ist ein viel älteres und schwerwiegenderes Problem
Nicht AI ist das Problem, sondern Faulheit und Nachlässigkeit
Wenn ein Wissenschaftler mit einem LLM ein Paper mit erfundenen Zitaten schreibt, dann ist das einfach ein schlechter Wissenschaftler
Wenn es für solches Verhalten keine sozialen Sanktionen gibt, wird es am Ende stillschweigend toleriert
- Ich bin Industrieelektriker, und schlechte Elektroarbeiten können oft nur Fachleute erkennen
  Für technische Prüfungen braucht man erfahrene Prüfer
- Aber „AI ist nicht das Problem“ klingt wie die Ausweichlogik in Waffendebatten: „Nicht die Waffe ist das Problem, sondern der Mensch“
  Letztlich ist AI selbst das Problem
- Um bei der Tischler-Analogie zu bleiben: Ein von einem LLM gebautes Regal sieht äußerlich ordentlich aus, ist aber strukturell mangelhaft
  Gerade weil es gut aussieht, verdeckt es das eigentliche Problem
- Ich suche selbst mit Gemini Pro nach Papers, aber die Zitate sind immer noch chaotisch
  Trotzdem haben die Halluzinationen im letzten Jahr abgenommen, und wenn man es auf verifizierte Papers beschränkt, ist es durchaus brauchbar
  Wenn Forschende sich jedoch nicht auf solche Tools stützen sollen, muss sich zuerst die Struktur des ständigen Wettbewerbs um Fördergelder ändern
- Wie Bruce Schneier sagt: Jeder kann einen Algorithmus bauen, den er selbst nicht verifizieren kann
  Bei LLMs ist es genauso: Sie geben dem Nutzer genau die Antwort zurück, die er hören will, und verstärken damit den Bestätigungsfehler
  Ich glaube nicht, dass es einen sicheren Weg gibt, LLMs in der wissenschaftlichen Forschung einzusetzen
Wenn man die Papers tatsächlich direkt liest, sieht es oft nicht so aus, als hätte AI nur den Text geschrieben, sondern als wären die Ideen selbst AI-generiert
Oberflächlich wirkt es plausibel, inhaltlich ist es aber absurd
Wenn ein echter Forschender wegen eines simplen Fehlers in einer .bib-Datei in so einer Liste gelandet ist, wäre das bedauerlich
Avi Loeb (theoretischer Physiker in Harvard) erwähnte, dass die Zahl der Fälle stark zugenommen habe, in denen Studierende nicht existierende Papers zitieren
Sie glauben einfach die von LLMs erzeugten Fiktionen und überprüfen sie nicht einmal
Zugehöriger Artikel: How AI is making us dumber
- Allerdings ist Loeb auch für seine UFO-Behauptungen bekannt, weshalb es Diskussionen über seine Glaubwürdigkeit gibt
- Manche halten ihn für eine nicht vertrauenswürdige Person
- Ich denke, dieses Phänomen entsteht aus einer Kultur der Verantwortungsvermeidung in der Führung
  Oben ein schlechtes Beispiel zu geben und dann die Leute darunter zu tadeln, ist schlechte Pädagogik
Ich frage mich, ob diese Studie alle fehlerhaften Zitate automatisch als Halluzinationen von LLMs eingestuft hat
Es bräuchte eine Baseline-Analyse, ob solche Fehler auch schon in Papers vor LLMs vorkamen
- Im Paper gibt es einen Abschnitt „Defining Hallucitations“, in dem die Definition falscher Zitate und das Problem von False Positives erläutert werden
  Ich würde gern wissen, welches Ergebnis herauskäme, wenn man dasselbe Werkzeug auf Papers aus den 2010er Jahren anwenden würde
- Ich selbst hatte in meiner Graduiertenzeit kleine Fehler in meiner .bib-Datei
  Die meisten Journals prüfen Zitate über DOI, daher sollte man auch ältere Papers vergleichend analysieren
- Wenn man sich tatsächlich veröffentlichte Papers ansieht, sind die Spuren AI-generierter Inhalte ziemlich deutlich
  Schon wenn man nur ein Thema vorgibt, erzeugt ein LLM sehr ähnliche Papers
- Tatsächlich haben Menschen auch schon vor LLMs Fehler gemacht, und Bücher wie Papers waren voller Fehler
  Ursache ist das unvollkommene menschliche Wissenssystem, nicht nur ein Problem von LLMs
- Kurz gesagt: Ihr Tool führt genau diese Art von Prüfung durch
Der Zweck von Peer Review ist nicht bloß, Fehler zu finden, sondern Neuheit und Vollständigkeit zu bewerten
Dann braucht es Anreize, um Nachlässigkeit zu verhindern
Beispielsweise könnten Verlage ein Prämiensystem einführen, das Personen belohnt, die gravierende Nachlässigkeit entdecken, oder eine Wall of Shame für wiederholt nachlässige Forschende betreiben
- Oder man führt bei der Einreichung eines Papers eine automatische Zitationsprüfung durch, die innerhalb von ein oder zwei Tagen auf Fehler hinweist
Ich nutze seit 15 Jahren Literaturverwaltungs-Tools wie Zotero, und es überrascht mich immer noch, wie viele Zitate falsche Autorennamen enthalten
Wenn die Einreichung von .bib-Dateien verpflichtend wäre, könnte man mit DOI-Prüfung zumindest eine grundlegende Qualitätskontrolle erreichen
Dass nicht einmal solche Basiskontrollen stattfinden, ist schockierend
- Aber auch Zotero ist nicht perfekt
  Mitunter zitieren Autoren sogar ihre eigenen Papers falsch, und selbst wenn die DOI stimmt, sind Tippfehler in Autorennamen häufig
  Dank solcher Tools ist die Zahl der Zitate gestiegen und die Fehlerquote gesunken, aber pro Paper bleibt meist immer noch mindestens ein Fehler übrig
Wenn von 20.000 Einreichungen nur 300 geprüft wurden und dabei bereits Hunderte halluzinierte Papers gefunden wurden, dann dürfte das tatsächliche Ausmaß viel größer sein
- 20.000 Einreichungen für eine einzige Konferenz sind schon an sich ein anormales Ausmaß
Halluzinationen von LLMs sind eine beabsichtigte Eigenschaft des Designs
Beim Erzeugen statistisch plausibler Ausgaben entstehen erfundene Zitate ganz natürlich
Dass Maschinen echte Zitate erzeugen, ist technisch durchaus möglich
Nur liefern heutige LLMs nicht die von uns geforderte „präzise Zitationserzeugung“, sondern Ergebnisse, die nur äußerlich ähnlich aussehen

dbs0829 2025-12-08

Ich denke schon seit Langem, dass LLMs den Fortschritt der Menschheit eher behindern könnten, und in diesem Zusammenhang tritt nun genau das Problem zutage, an das ich gedacht hatte. Die kognitive Last zu verringern, wirkt aus menschlicher Sicht fast wie eine Droge. Ich forsche selbst, und auch im Team warnen wir davor, dass man sich umso mehr daran gewöhnt, nicht mehr selbst nachzudenken, je häufiger man LLM-Modelle nutzt. Vermutlich wird sich dieses Problem weiter verschärfen. Da das Volumen auf ein Niveau anwächst, das sich mit Peer Review kaum noch abdecken lässt, wird man wohl andere Methoden finden müssen. In letzter Zeit scheint die Zahl der Einreichungen bei bekannten Konferenzen stark zu steigen; ich vermute, dass das aus einem ähnlichen Grund geschieht.