GPTZero entdeckt 100 neue halluzinierte Zitate in angenommenen NeurIPS-2025-Papers

(gptzero.me)

1 Punkte von GN⁺ 2026-01-23 | 1 Kommentare | Auf WhatsApp teilen

Das Hallucination-Check-Tool von GPTZero analysierte 4.841 von 5.290 für NeurIPS 2025 angenommenen Papers und bestätigte mehr als 100 „halluzinierte Zitate“ (hallucinated citations)
In zahlreichen Papers wurden nicht existierende Autor:innen, falsche DOI·URL und erfundene Titel sowie weitere Spuren von KI-Generierung gefunden
GPTZero bezeichnet solche Fehler als „vibe citing“ und beschreibt sie als Zitate, die reale Paper-Informationen mischen oder abwandeln, damit sie plausibel wirken
Alle Fälle wurden von menschlichen Expert:innen verifiziert; das Tool weist eine sehr niedrige Falsch-Negativ-Rate auf (99 % Erkennung) und markiert Verdachtsfälle bewusst konservativ
Der Fall gilt als Beispiel dafür, dass im Prozess des Schreibens und Prüfens von Forschungsarbeiten eine Automatisierung der Erkennung von KI-bedingten Zitationsfehlern notwendig ist

Ergebnisse von GPTZeros Analyse der NeurIPS-2025-Papers

GPTZero scannte 4.841 von 5.290 angenommenen Papers für NeurIPS 2025 und fand mehr als 100 halluzinierte Zitate
- Jeder Fall wurde durch menschliche Prüfung als tatsächlich nicht existierendes Zitat bestätigt
- Beispielsweise wurden zahlreiche Zitate gefunden, die nicht existierende Journalnamen, Autorennamen und DOI enthielten
GPTZero ordnet solche Zitationsfehler als Spuren von KI-Generierung (vibe citing) ein
- Typisch sind gefälschte Zitate, die reale Paper-Titel und Autor:innen kombinieren oder abwandeln
- Einige verwenden Titel, die realen Papers ähneln, lassen sich aber an abweichenden Jahren, Quellen oder Autor:innen als fehlerhaft erkennen

Definition und Typen von „Vibe Citing“

GPTZero definiert „vibe citing“ als „Zitate, die generative KI durch Kombination oder Abwandlung realer Quellen erzeugt“
- Dazu gehören Fälle mit manipulierten oder synthetisierten Autorennamen, Titeln, Verlagen und DOI
- In manchen Fällen werden real existierende Papers nur teilweise zitiert, in anderen werden gefälschte Journalnamen erzeugt
Dagegen werden einfache Tippfehler, tote Links oder fehlende Seitenzahlen als menschliche Fehler betrachtet und ausgeschlossen
GPTZero stellt die Unterschiede zwischen echten, fehlerhaften und halluzinierten Zitaten in einer Vergleichstabelle dar
- Beispiel: Wenn das Paper „Deep learning“ zu „Samuel LeCun Jackson. Deep learning. Science & Nature, 2021.“ umgeformt wird, wird es als halluziniertes Zitat eingestuft

Funktionen des Hallucination-Check-Tools

Hallucination Check ist ein KI-basiertes Erkennungssystem, das die Prüfung von Zitaten automatisiert
- Es markiert automatisch Zitate, die sich online nicht verifizieren lassen
- Es unterstützt Autor:innen, Herausgeber:innen und Gutachter:innen dabei, Zitationsfehler schnell zu prüfen
Einsatzphasen
1. Autor:innen prüfen die Zitate ihrer Papers vor der Einreichung automatisch
2. Gutachter:innen identifizieren nicht verifizierte Zitate schnell
3. Konferenz- und Journal-Redaktionen können zusammen mit dem AI Detector gleichzeitig Spuren von KI-generiertem Schreiben und Zitationsfehler erkennen

Genauigkeit von GPTZeros Prüfung

Hallucination Check hat eine sehr niedrige Falsch-Negativ-Rate (99 % Erkennungsgenauigkeit)
- Das heißt, die Wahrscheinlichkeit, ein tatsächlich halluziniertes Zitat zu übersehen, ist extrem gering
- Dafür ist die Falsch-Positiv-Rate aufgrund der konservativen Erkennung etwas höher
GPTZero fand mit derselben Methode auch in ICLR 2026, Deloitte-Berichten und anderen Quellen Dutzende KI-bedingte Zitationsfehler

Bedeutung für Wissenschaft und Publikationsökosystem

Der Fall NeurIPS 2025 macht zusammen mit der zunehmenden Nutzung von KI-Tools beim Verfassen von Papers das Problem einer sinkenden Zuverlässigkeit von Zitaten sichtbar
GPTZero arbeitet mit dem ICLR-Organisationskomitee zusammen, um ein automatisches Prüfsystem für künftige Einreichungen aufzubauen
Solche Versuche dürften zu mehr Effizienz und Transparenz im Begutachtungsprozess sowie zu stärkeren Prüfmechanismen für KI-generierte Inhalte führen

1 Kommentare

GN⁺ 2026-01-23

Hacker-News-Kommentare

Ich habe bei Google stichprobenartig eine Arbeit geprüft, an der ein Kollege als Mitautor beteiligt war
Bei der beanstandeten Arbeit handelt es sich um ein ICLR-2024-Paper, bei dem zwei zitierte Autoren fehlten und ein anderer (Kyle Richardson) fälschlich hinzugefügt worden war
Das Zitat stand im Hintergrundteil, nicht im Kern der Arbeit, und ist höchstwahrscheinlich nur ein einfacher Fehler, der beim AI-Autocomplete entstanden ist
Im Datensatz mag es auch schwerwiegende Fälle geben, aber was ich gesehen habe, war ein kleiner Fehler, der sich sofort per DOI-Prüfung korrigieren ließ
Dass solche Arbeiten mit einem einzelnen Fehler aufgenommen wurden, wirkt für mich so, als solle der Werbeeffekt für das Produkt der Autoren maximiert werden
- Solche Fehler sind ein typisches Anzeichen für Halluzinationen, das auch Nichtfachleute leicht erkennen können
  Das Problem ist, dass man nicht weiß, ob dies der einzige Fehler ist
  Dass es einen solchen Fehler gibt, ist ein Signal dafür, dass die Arbeit ohne ausreichende Prüfung eingereicht wurde, und eine Spur unachtsamer LLM-Nutzung
  Um den Rest zu verifizieren, braucht es Fachwissen und Reproduktionsexperimente
  Wenn sich dieses Phänomen ausbreitet, droht die Vertrauensbasis der Forschung selbst zu erodieren
- In der Analyse fehlt ein Vergleich mit Konferenzen vor dem LLM-Zeitalter (2022–2023), um die Falsch-Positiv-Rate des Tools zu zeigen
- Wenn man normalerweise Literaturverzeichnisse per Copy-and-paste übernimmt, sind falsche Autorennamen eher unwahrscheinlich
  In diesem Fall waren sie aber falsch
  Dass Halluzinationen im Literaturverzeichnis auftreten, ist für mich ein starkes Signal dafür, dass die gesamte Arbeit mit AI geschrieben wurde
- Interessant ist, dass solche Fehler leicht entstehen und schwer entdeckt werden
  Schon eine DOI-Prüfung würde das herausfiltern, aber derzeit ist die Überprüfung von Zitaten kein Kernbestandteil des Begutachtungsprozesses
  Das Vertrauensmodell, das Zitate weiterhin als bloßen „narrativen Text“ behandelt, ist nicht mehr skalierbar
  Ich arbeite an der Duke University an einem Projekt, das Zitations- und Prüfprozesse zu einer maschinell verifizierbaren Infrastruktur machen soll: Liberata
- Ich glaube nicht, dass der Datensatz der Autoren Behauptungen über die konkreten Auswirkungen von Halluzinationen aufgestellt hat
  Eher wäre es irreführender gewesen, die „harmlosen Fälle“ zu entfernen
  Es ist ehrlicher, die Daten für sich selbst sprechen zu lassen
Dieses Phänomen dürfte der wissenschaftlichen Forschung schweren Schaden zufügen
Es gibt bereits Probleme mit Datenmanipulation, und wenn LLMs nun auch noch plausibel wirkende Papers erzeugen, wird die Lage schlimmer
Vielleicht führt das aber immerhin dazu, dass Reproduzierbarkeit (reproducibility) ernster genommen wird
- Die Wurzel des Reproduzierbarkeitsproblems ist Geldmangel
  Es gibt kaum Förderinstitutionen, die einen Antrag finanzieren würden, der sagt: „Um ein verdächtiges Paper vom letzten Jahr zu überprüfen, brauchen wir zwei Jahre und 1 Million Dollar“
  Ohne Änderungen an der Struktur der Wissenschaftsfinanzierung ist das schwer zu lösen
- Die meisten Wissenschaftler erkennen die Reproduzierbarkeitskrise an, aber das Problem liegt in der Anreizstruktur
  Wenn nach Anzahl der Papers bewertet wird, gibt es eine Flut minderwertiger Arbeiten; wenn nach Zitierungen bewertet wird, wird nur entdeckungsorientierte Forschung gefördert
  Reproduktionsstudien werden wenig zitiert, und da Ansehen und Lebensunterhalt letztlich an „Entdeckungen“ hängen, investiert niemand in Reproduktion
- AI könnte ein Auslöser sein, diese strukturellen Probleme sichtbar zu machen
  Projekte wie Liberata wollen die Publikationskultur von einem Fokus auf „Neuheit“ hin zu „Prüfung und Reproduktion“ verschieben
  Wenn dieser Wandel gelingt, könnte das heutige Chaos ein notwendiger Korrekturprozess sein
- Manche behaupten, Reproduzierbarkeit selbst werde überschätzt
  Aus dieser Sicht würden auch vollständig reproduzierbare Papers die Grundprobleme der Wissenschaft nicht lösen
  Dazu passend: Replication studies can’t fix science
- Ich frage mich, ob das Problem gelöst wurde, dass Papers weiterhin bereits widerlegte Forschung zitieren
NeurIPS erklärt, dass eine halluzinierte Referenz (reference hallucination) nicht automatisch das gesamte Paper entwertet
Laut dem vollständigen Fortune-Artikel entwickelt sich die LLM-Nutzung schnell weiter, und 2025 bekamen Reviewer die Anweisung, Halluzinationen zu markieren
Die Position ist, dass selbst bei 1,1 % der Arbeiten mit Zitierfehlern der Inhalt der Arbeit dadurch nicht automatisch ungültig wird
- Das wirkt aber wie eine viel zu großzügige Reaktion
  Es entsteht der Eindruck, als suche man sich einen möglichst harmlosen Grund heraus, um das Gesamtproblem zu überdecken
  Die Wissenschaft steckt bereits in einer Reproduzierbarkeitskrise, und jetzt kommt auch noch das Halluzinationsproblem hinzu
  In einer Situation, in der der Einfluss privater Unternehmen wächst, wirkt die Zukunft von Open Science düster
- Ohne Strafen wird das so weitergehen
  Selbst ein Rückzug eines Papers hat kaum echte Nachteile, und die Erwartungswerte von Fehlverhalten sind positiv
  Wenn sich die Anreize nicht ändern, wird es nur schlimmer
- Manche meinen, alle Einreichungen sollten mit Tools wie GPTZero geprüft und bei Halluzinationen sofort abgelehnt werden
- Ein Zitierfehler bedeutet zwar nicht automatisch, dass der Inhalt falsch ist, aber eine einzige Manipulation zerstört das Gesamtvertrauen
  Wenn man LLMs die Bearbeitung von Zitaten überlässt, ist der Weg nicht weit, ihnen auch die Dateninterpretation zu überlassen, und das kann zu halluzinierten Ergebnissen führen
- Ich finde, schon ein einziges entdecktes LLM-Halluzinationsproblem sollte zum Rückzug des Papers und zu einem Einreichungsverbot für die Autoren führen
Ironischerweise enthalten Forschungsarbeiten Literaturrecherchen, um einen Wissensdialog mit früherer Forschung zu führen
Wer mit LLMs Zitate manipuliert, steht nicht „auf den Schultern von Giganten“, sondern auf den Schultern einer Illusion
- Deshalb machte jemand den Witz, das bedeute, „auf den Schultern von Lügen“ zu stehen
- Philosophisch bleibt die Frage, ob LLMs neuen Müll erzeugen oder nur die bestehende Müllproduktionsstruktur verstärken
Ich habe bei einem WACV-Review 2024 eine vollständig von AI geschriebene Rezension bekommen
Der Reviewer hatte in vier Textfelder (Zusammenfassung, Stärken, Schwächen, Gesamturteil) jeweils völlig unterschiedliche Reviews geschrieben, die sich gegenseitig widersprachen
Diese Situation ist Folge einer Überlastung der Reviewer, und wir brauchen mehr Freiwillige
(Wer Papers begutachten kann, sollte den Program Chair einer bevorzugten Konferenz direkt kontaktieren)
- Die einzige Reaktion war: „Wow …“
Manche Papers enthalten in den Zitaten falsche Namen wie „Firstname Lastname“, „John Doe“ oder „Jane Smith“, und niemand merkt es
- Ich hoffe trotzdem, dass so etwas wenigstens im Nachhinein entdeckt und bestraft wird
- Jemand sagte zynisch, „das ist eben die Methode der Zukunft“
Für einen Doktoranden mit dem ersten NeurIPS-Paper ist der finanzielle Gewinn enorm
Die meisten Big-Tech-Praktika betrachten eine Erstautorenschaft bei NeurIPS/ICML/ICLR faktisch als Voraussetzung
Wenn man einmal durchkommt, verdoppelt oder verdreifacht sich das Gehalt, und es ist kaum übertrieben zu sagen, dass sich damit die Karriere öffnet
Dass in so einer Struktur Fehlverhalten entsteht, ist nicht überraschend
- Tatsächlich ist der Marktwert eines einzelnen Papers viel höher
  Ein NeurIPS-Paper kann selbst ohne Promotion für eine Forschungsstelle qualifizieren, mit Gehältern von über 300.000 Dollar
  Bei einem Spotlight- oder Oral-Vortrag könnte der Wert sogar siebenstellig sein
Alle sind sich einig, dass die aktuelle Anreizstruktur ein solches Verhalten hervorbringt
Deshalb frage ich mich, ob man statt der Karotte nicht die Peitsche einsetzen sollte
Vorgeschlagen wird, bei entdeckten LLM-Halluzinationen oder Datenmanipulation Sanktionen auf karrierezerstörendem Niveau zu verhängen
- Aber je härter die Strafen, desto mehr braucht es ein faires Verfahren (due process)
  AI-Erkennungstools sind noch nicht verlässlich genug, und es gibt auch schlichte BibTeX-Fehler oder Irrtümer, die bei Grammatik-Korrekturen entstehen
  Harte Strafen halte ich nur dann für gerechtfertigt, wenn vorsätzliches Fehlverhalten wie eindeutige Datenmanipulation nachgewiesen ist
Es wäre interessant zu analysieren, wie viel Quellenmanipulation es auch schon in Papers vor 2020 gab
- Mich würde auch interessieren, wie oft AI-Detektoren Papers aus der Zeit vor LLMs fälschlich als AI-geschrieben einstufen
  Ich vertraue weder LLMs noch AI-Detektoren vollständig
- Letztlich gab es solche Probleme wahrscheinlich schon früher
  Nur hat sich ihre Häufigkeit jetzt beschleunigt
Das Problem von Zitierfehlern wird verschwinden, wenn AI-Suche und die Kosten für Datensammlung 100-mal günstiger sind als heute
Aber dann wird es womöglich sogar schwer zu unterscheiden sein, ob von AI geschriebene Papers die Realität überhaupt noch abbilden,
und wir geraten in eine Art Zeitalter des „stochastischen Spiegels“ (stochastic mirror)

GPTZero entdeckt 100 neue halluzinierte Zitate in angenommenen NeurIPS-2025-Papers

Ergebnisse von GPTZeros Analyse der NeurIPS-2025-Papers

Definition und Typen von „Vibe Citing“

Funktionen des Hallucination-Check-Tools

Genauigkeit von GPTZeros Prüfung

Bedeutung für Wissenschaft und Publikationsökosystem

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare