3 Punkte von GN⁺ 2025-12-08 | 4 Kommentare | Auf WhatsApp teilen
  • GPTZero hat in den ICLR-2026-Einreichungspapieren mehr als 50 fehlerhafte Zitate und falsche Autorenangaben entdeckt
  • Für jedes Paper wurde die tatsächliche Existenz und die Übereinstimmung der Zitate zusammen mit dem OpenReview-Link überprüft
  • In zahlreichen Fällen wurden nicht existierende Autoren, falsche Jahreszahlen und andere Paper-Titel festgestellt
  • Einige Arbeiten stimmen nur teilweise mit realen Papieren überein, aber die Detail-Metadaten sind verzerrt
  • Die Ergebnisse zeigen, dass das Problem der Halluzination durch KI-generierte Inhalte auch in akademischen Einreichungen weiter verbreitet ist

GPTZeros Ergebnisse zur Halluzinationserkennung bei ICLR 2026

  • GPTZero hat die ICLR-2026-Einreichungspapiere einer automatisierten Prüfung von Zitaten und Autoreninformationen unterzogen
    • Für jedes Paper werden ein OpenReview-Link, ein GPTZero-Verifizierungslink und die Zitationsdaten angegeben
    • In den Prüfergebnissen wurden in über 50 Fällen falsche Zitate oder nicht existierende Autoren gefunden

Repräsentative Halluzinationsfälle

  • Das Paper TamperTok ist tatsächlich vorhanden, jedoch sind alle Autorenangaben falsch
  • Bei MixtureVitae stimmen die ersten drei Autoren überein, während die übrigen sieben nicht existieren
  • OrtSAE, Principled Policy Optimization, IMPQ und weitere Arbeiten sind teils mit echten Papieren nicht passend, was Titel oder Autoren betrifft
  • Bei PDMBench existiert ein ähnliches Paper, jedoch unterscheiden sich Jahr und Titel
  • C3-OWD, GRF-LLM usw. wurden als teilweise Übereinstimmung eingestuft

Vollständig unpassende Fälle

  • Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI und andere zitieren Paper, die nicht existieren
  • SAFE-LLM, Typed Chain-of-Thought, MANTA usw. verweisen auf ähnliche Papiere, aber inkonsistente Metadaten
  • AI-Assisted Medical Triage Assistant, QUART, KARMA und weitere verweisen auf völlig nicht verwandte Arbeiten

Verifizierungsverfahren und Ergebnistypen

  • GPTZero vergleicht jede Zitation mit echten Datenbanken (z. B. arXiv, NeurIPS, ICLR, ACL usw.)
    • Die Ergebnisse werden als „existiert“, „teilweise Übereinstimmung“, „nicht übereinstimmend“, „falscher Autor“ usw. klassifiziert
    • Einige Einträge wurden als „echte Paper vorhanden, aber Autoren, Jahr und Titel unterscheiden sich vollständig“ markiert

Bedeutung und Implikationen

  • Bei vielen ICLR-2026-Einreichungen sind Halluzinationsphänomene aus KI-generierten Texten direkt enthalten
  • Bei der Erstellung wissenschaftlicher Paper wird der Bedarf an automatisierten Validierungswerkzeugen für Faktenprüfung zunehmend deutlich
  • Die GPTZero-Ergebnisse zeigen die Notwendigkeit, die Sicherung der Verlässlichkeit von KI-generierten Inhalten zu stärken

4 Kommentare

 
shakespeares 2025-12-09

Gibt es bei sich wiederholenden AIs mit ähnlichem Wissensniveau überhaupt noch viel Raum für weitere Fortschritte?
Wenn nicht, scheint es, als würde die Welt nur noch von denselben Texten geklonter Menschen überflutet werden, und es würde noch schwerer, darin die Spreu vom Weizen zu trennen.

 
GN⁺ 2025-12-08
Hacker-News-Kommentare
  • Ich halte so etwas für ein eindeutig berufsethisches Fehlverhalten
    Wenn einer meiner Forschenden so etwas getan hätte, wäre er vermutlich vom Rauswurf bedroht gewesen
    Als Reviewer kann ich, wenn ich sehe, dass ein Autor lügt, dem gesamten Paper nicht mehr vertrauen, und ethisch gesehen wäre eine sofortige Ablehnung angemessen
    Fehler sind häufig, aber das hier ist eine ganz andere Kategorie

    • Das wirkt auch wie eine Frage der kulturellen Unterschiede
      Im Westen sieht man die Ehrlichkeit des Einzelnen als Grundlage für das Vertrauen in die gesamte Wissenschaft, während man im Nahen Osten, in Indien und in China dazu neigt, ein solches Verhalten eher der Verantwortung des Journals zuzuschreiben
      Wenn man diese Unterschiede nicht versteht, wird Zusammenarbeit schnell sehr verwirrend
  • Meiner Erfahrung nach ist das Hauptproblem, das die Qualität von Papers verschlechtert, falsches Zitieren
    Schlimmer als fehlende Zitate ist oft, dass die zitierte Quelle das in Wirklichkeit gar nicht sagt oder der Kontext verzerrt wird
    Solche Fehler zu finden kostet enorm viel Zeit, weil man die Originalquelle lesen und verstehen muss
    Das ist nicht bloß ein Versehen, sondern führt zu einer Erosion des Wissens, daher braucht es Sanktionen wie „nach drei Verwarnungen Ausschluss“

    • Das könnte sogar ein Bereich sein, in dem LLMs gut sein könnten
      Man könnte sie etwa nutzen, um Behauptungen im Paper automatisch mit der Literaturliste abzugleichen und zu prüfen, ob die Quellen sie tatsächlich stützen
    • Einige Forschende verzerren jedoch absichtlich Ergebnisse, um Geldgebern wie Exxon, Meta oder Pfizer das zu liefern, was diese sehen wollen
      In solchen Fällen geht es nicht um bloße Nachlässigkeit, sondern um interessengeleitete Manipulation
    • Erfundenen Zitate sind nur die Spitze des Eisbergs; der Missbrauch von Zitaten ist ein viel älteres und schwerwiegenderes Problem
  • Nicht AI ist das Problem, sondern Faulheit und Nachlässigkeit
    Wenn ein Wissenschaftler mit einem LLM ein Paper mit erfundenen Zitaten schreibt, dann ist das einfach ein schlechter Wissenschaftler
    Wenn es für solches Verhalten keine sozialen Sanktionen gibt, wird es am Ende stillschweigend toleriert

    • Ich bin Industrieelektriker, und schlechte Elektroarbeiten können oft nur Fachleute erkennen
      Für technische Prüfungen braucht man erfahrene Prüfer
    • Aber „AI ist nicht das Problem“ klingt wie die Ausweichlogik in Waffendebatten: „Nicht die Waffe ist das Problem, sondern der Mensch“
      Letztlich ist AI selbst das Problem
    • Um bei der Tischler-Analogie zu bleiben: Ein von einem LLM gebautes Regal sieht äußerlich ordentlich aus, ist aber strukturell mangelhaft
      Gerade weil es gut aussieht, verdeckt es das eigentliche Problem
    • Ich suche selbst mit Gemini Pro nach Papers, aber die Zitate sind immer noch chaotisch
      Trotzdem haben die Halluzinationen im letzten Jahr abgenommen, und wenn man es auf verifizierte Papers beschränkt, ist es durchaus brauchbar
      Wenn Forschende sich jedoch nicht auf solche Tools stützen sollen, muss sich zuerst die Struktur des ständigen Wettbewerbs um Fördergelder ändern
    • Wie Bruce Schneier sagt: Jeder kann einen Algorithmus bauen, den er selbst nicht verifizieren kann
      Bei LLMs ist es genauso: Sie geben dem Nutzer genau die Antwort zurück, die er hören will, und verstärken damit den Bestätigungsfehler
      Ich glaube nicht, dass es einen sicheren Weg gibt, LLMs in der wissenschaftlichen Forschung einzusetzen
  • Wenn man die Papers tatsächlich direkt liest, sieht es oft nicht so aus, als hätte AI nur den Text geschrieben, sondern als wären die Ideen selbst AI-generiert
    Oberflächlich wirkt es plausibel, inhaltlich ist es aber absurd
    Wenn ein echter Forschender wegen eines simplen Fehlers in einer .bib-Datei in so einer Liste gelandet ist, wäre das bedauerlich

  • Avi Loeb (theoretischer Physiker in Harvard) erwähnte, dass die Zahl der Fälle stark zugenommen habe, in denen Studierende nicht existierende Papers zitieren
    Sie glauben einfach die von LLMs erzeugten Fiktionen und überprüfen sie nicht einmal
    Zugehöriger Artikel: How AI is making us dumber

    • Allerdings ist Loeb auch für seine UFO-Behauptungen bekannt, weshalb es Diskussionen über seine Glaubwürdigkeit gibt
    • Manche halten ihn für eine nicht vertrauenswürdige Person
    • Ich denke, dieses Phänomen entsteht aus einer Kultur der Verantwortungsvermeidung in der Führung
      Oben ein schlechtes Beispiel zu geben und dann die Leute darunter zu tadeln, ist schlechte Pädagogik
  • Ich frage mich, ob diese Studie alle fehlerhaften Zitate automatisch als Halluzinationen von LLMs eingestuft hat
    Es bräuchte eine Baseline-Analyse, ob solche Fehler auch schon in Papers vor LLMs vorkamen

    • Im Paper gibt es einen Abschnitt „Defining Hallucitations“, in dem die Definition falscher Zitate und das Problem von False Positives erläutert werden
      Ich würde gern wissen, welches Ergebnis herauskäme, wenn man dasselbe Werkzeug auf Papers aus den 2010er Jahren anwenden würde
    • Ich selbst hatte in meiner Graduiertenzeit kleine Fehler in meiner .bib-Datei
      Die meisten Journals prüfen Zitate über DOI, daher sollte man auch ältere Papers vergleichend analysieren
    • Wenn man sich tatsächlich veröffentlichte Papers ansieht, sind die Spuren AI-generierter Inhalte ziemlich deutlich
      Schon wenn man nur ein Thema vorgibt, erzeugt ein LLM sehr ähnliche Papers
    • Tatsächlich haben Menschen auch schon vor LLMs Fehler gemacht, und Bücher wie Papers waren voller Fehler
      Ursache ist das unvollkommene menschliche Wissenssystem, nicht nur ein Problem von LLMs
    • Kurz gesagt: Ihr Tool führt genau diese Art von Prüfung durch
  • Der Zweck von Peer Review ist nicht bloß, Fehler zu finden, sondern Neuheit und Vollständigkeit zu bewerten
    Dann braucht es Anreize, um Nachlässigkeit zu verhindern
    Beispielsweise könnten Verlage ein Prämiensystem einführen, das Personen belohnt, die gravierende Nachlässigkeit entdecken, oder eine Wall of Shame für wiederholt nachlässige Forschende betreiben

    • Oder man führt bei der Einreichung eines Papers eine automatische Zitationsprüfung durch, die innerhalb von ein oder zwei Tagen auf Fehler hinweist
  • Ich nutze seit 15 Jahren Literaturverwaltungs-Tools wie Zotero, und es überrascht mich immer noch, wie viele Zitate falsche Autorennamen enthalten
    Wenn die Einreichung von .bib-Dateien verpflichtend wäre, könnte man mit DOI-Prüfung zumindest eine grundlegende Qualitätskontrolle erreichen
    Dass nicht einmal solche Basiskontrollen stattfinden, ist schockierend

    • Aber auch Zotero ist nicht perfekt
      Mitunter zitieren Autoren sogar ihre eigenen Papers falsch, und selbst wenn die DOI stimmt, sind Tippfehler in Autorennamen häufig
      Dank solcher Tools ist die Zahl der Zitate gestiegen und die Fehlerquote gesunken, aber pro Paper bleibt meist immer noch mindestens ein Fehler übrig
  • Wenn von 20.000 Einreichungen nur 300 geprüft wurden und dabei bereits Hunderte halluzinierte Papers gefunden wurden, dann dürfte das tatsächliche Ausmaß viel größer sein

    • 20.000 Einreichungen für eine einzige Konferenz sind schon an sich ein anormales Ausmaß
  • Halluzinationen von LLMs sind eine beabsichtigte Eigenschaft des Designs
    Beim Erzeugen statistisch plausibler Ausgaben entstehen erfundene Zitate ganz natürlich
    Dass Maschinen echte Zitate erzeugen, ist technisch durchaus möglich
    Nur liefern heutige LLMs nicht die von uns geforderte „präzise Zitationserzeugung“, sondern Ergebnisse, die nur äußerlich ähnlich aussehen

 
dbs0829 2025-12-08

Ich denke schon seit Langem, dass LLMs den Fortschritt der Menschheit eher behindern könnten, und in diesem Zusammenhang tritt nun genau das Problem zutage, an das ich gedacht hatte. Die kognitive Last zu verringern, wirkt aus menschlicher Sicht fast wie eine Droge. Ich forsche selbst, und auch im Team warnen wir davor, dass man sich umso mehr daran gewöhnt, nicht mehr selbst nachzudenken, je häufiger man LLM-Modelle nutzt. Vermutlich wird sich dieses Problem weiter verschärfen. Da das Volumen auf ein Niveau anwächst, das sich mit Peer Review kaum noch abdecken lässt, wird man wohl andere Methoden finden müssen. In letzter Zeit scheint die Zahl der Einreichungen bei bekannten Konferenzen stark zu steigen; ich vermute, dass das aus einem ähnlichen Grund geschieht.

 
shakespeares 2025-12-09

Ich stimme zu. Wenn das so weitergeht, wird das menschliche Gehirn wohl immer weiter verkümmern.
Letztlich könnte das Szenario, in dem künstliche Intelligenz den Menschen beherrscht, sogar das höchstentwickelte Denken sein, zu dem wir heute überhaupt noch fähig sind. Künftig könnte es sein, dass wir nicht einmal mehr bis zu diesem Gedanken gelangen und es ohne neue Umwälzung nur noch einen Konvergenzbereich gibt, bis wir schlicht von der KI kontrolliert werden.