1 Punkte von GN⁺ 2026-01-23 | 1 Kommentare | Auf WhatsApp teilen
  • Das Hallucination-Check-Tool von GPTZero analysierte 4.841 von 5.290 für NeurIPS 2025 angenommenen Papers und bestätigte mehr als 100 „halluzinierte Zitate“ (hallucinated citations)
  • In zahlreichen Papers wurden nicht existierende Autor:innen, falsche DOI·URL und erfundene Titel sowie weitere Spuren von KI-Generierung gefunden
  • GPTZero bezeichnet solche Fehler als „vibe citing“ und beschreibt sie als Zitate, die reale Paper-Informationen mischen oder abwandeln, damit sie plausibel wirken
  • Alle Fälle wurden von menschlichen Expert:innen verifiziert; das Tool weist eine sehr niedrige Falsch-Negativ-Rate auf (99 % Erkennung) und markiert Verdachtsfälle bewusst konservativ
  • Der Fall gilt als Beispiel dafür, dass im Prozess des Schreibens und Prüfens von Forschungsarbeiten eine Automatisierung der Erkennung von KI-bedingten Zitationsfehlern notwendig ist

Ergebnisse von GPTZeros Analyse der NeurIPS-2025-Papers

  • GPTZero scannte 4.841 von 5.290 angenommenen Papers für NeurIPS 2025 und fand mehr als 100 halluzinierte Zitate
    • Jeder Fall wurde durch menschliche Prüfung als tatsächlich nicht existierendes Zitat bestätigt
    • Beispielsweise wurden zahlreiche Zitate gefunden, die nicht existierende Journalnamen, Autorennamen und DOI enthielten
  • GPTZero ordnet solche Zitationsfehler als Spuren von KI-Generierung (vibe citing) ein
    • Typisch sind gefälschte Zitate, die reale Paper-Titel und Autor:innen kombinieren oder abwandeln
    • Einige verwenden Titel, die realen Papers ähneln, lassen sich aber an abweichenden Jahren, Quellen oder Autor:innen als fehlerhaft erkennen

Definition und Typen von „Vibe Citing“

  • GPTZero definiert „vibe citing“ als „Zitate, die generative KI durch Kombination oder Abwandlung realer Quellen erzeugt“
    • Dazu gehören Fälle mit manipulierten oder synthetisierten Autorennamen, Titeln, Verlagen und DOI
    • In manchen Fällen werden real existierende Papers nur teilweise zitiert, in anderen werden gefälschte Journalnamen erzeugt
  • Dagegen werden einfache Tippfehler, tote Links oder fehlende Seitenzahlen als menschliche Fehler betrachtet und ausgeschlossen
  • GPTZero stellt die Unterschiede zwischen echten, fehlerhaften und halluzinierten Zitaten in einer Vergleichstabelle dar
    • Beispiel: Wenn das Paper „Deep learning“ zu „Samuel LeCun Jackson. Deep learning. Science & Nature, 2021.“ umgeformt wird, wird es als halluziniertes Zitat eingestuft

Funktionen des Hallucination-Check-Tools

  • Hallucination Check ist ein KI-basiertes Erkennungssystem, das die Prüfung von Zitaten automatisiert
    • Es markiert automatisch Zitate, die sich online nicht verifizieren lassen
    • Es unterstützt Autor:innen, Herausgeber:innen und Gutachter:innen dabei, Zitationsfehler schnell zu prüfen
  • Einsatzphasen
    1. Autor:innen prüfen die Zitate ihrer Papers vor der Einreichung automatisch
    2. Gutachter:innen identifizieren nicht verifizierte Zitate schnell
    3. Konferenz- und Journal-Redaktionen können zusammen mit dem AI Detector gleichzeitig Spuren von KI-generiertem Schreiben und Zitationsfehler erkennen

Genauigkeit von GPTZeros Prüfung

  • Hallucination Check hat eine sehr niedrige Falsch-Negativ-Rate (99 % Erkennungsgenauigkeit)
    • Das heißt, die Wahrscheinlichkeit, ein tatsächlich halluziniertes Zitat zu übersehen, ist extrem gering
    • Dafür ist die Falsch-Positiv-Rate aufgrund der konservativen Erkennung etwas höher
  • GPTZero fand mit derselben Methode auch in ICLR 2026, Deloitte-Berichten und anderen Quellen Dutzende KI-bedingte Zitationsfehler

Bedeutung für Wissenschaft und Publikationsökosystem

  • Der Fall NeurIPS 2025 macht zusammen mit der zunehmenden Nutzung von KI-Tools beim Verfassen von Papers das Problem einer sinkenden Zuverlässigkeit von Zitaten sichtbar
  • GPTZero arbeitet mit dem ICLR-Organisationskomitee zusammen, um ein automatisches Prüfsystem für künftige Einreichungen aufzubauen
  • Solche Versuche dürften zu mehr Effizienz und Transparenz im Begutachtungsprozess sowie zu stärkeren Prüfmechanismen für KI-generierte Inhalte führen

1 Kommentare

 
GN⁺ 2026-01-23
Hacker-News-Kommentare
  • Ich habe bei Google stichprobenartig eine Arbeit geprüft, an der ein Kollege als Mitautor beteiligt war
    Bei der beanstandeten Arbeit handelt es sich um ein ICLR-2024-Paper, bei dem zwei zitierte Autoren fehlten und ein anderer (Kyle Richardson) fälschlich hinzugefügt worden war
    Das Zitat stand im Hintergrundteil, nicht im Kern der Arbeit, und ist höchstwahrscheinlich nur ein einfacher Fehler, der beim AI-Autocomplete entstanden ist
    Im Datensatz mag es auch schwerwiegende Fälle geben, aber was ich gesehen habe, war ein kleiner Fehler, der sich sofort per DOI-Prüfung korrigieren ließ
    Dass solche Arbeiten mit einem einzelnen Fehler aufgenommen wurden, wirkt für mich so, als solle der Werbeeffekt für das Produkt der Autoren maximiert werden

    • Solche Fehler sind ein typisches Anzeichen für Halluzinationen, das auch Nichtfachleute leicht erkennen können
      Das Problem ist, dass man nicht weiß, ob dies der einzige Fehler ist
      Dass es einen solchen Fehler gibt, ist ein Signal dafür, dass die Arbeit ohne ausreichende Prüfung eingereicht wurde, und eine Spur unachtsamer LLM-Nutzung
      Um den Rest zu verifizieren, braucht es Fachwissen und Reproduktionsexperimente
      Wenn sich dieses Phänomen ausbreitet, droht die Vertrauensbasis der Forschung selbst zu erodieren
    • In der Analyse fehlt ein Vergleich mit Konferenzen vor dem LLM-Zeitalter (2022–2023), um die Falsch-Positiv-Rate des Tools zu zeigen
    • Wenn man normalerweise Literaturverzeichnisse per Copy-and-paste übernimmt, sind falsche Autorennamen eher unwahrscheinlich
      In diesem Fall waren sie aber falsch
      Dass Halluzinationen im Literaturverzeichnis auftreten, ist für mich ein starkes Signal dafür, dass die gesamte Arbeit mit AI geschrieben wurde
    • Interessant ist, dass solche Fehler leicht entstehen und schwer entdeckt werden
      Schon eine DOI-Prüfung würde das herausfiltern, aber derzeit ist die Überprüfung von Zitaten kein Kernbestandteil des Begutachtungsprozesses
      Das Vertrauensmodell, das Zitate weiterhin als bloßen „narrativen Text“ behandelt, ist nicht mehr skalierbar
      Ich arbeite an der Duke University an einem Projekt, das Zitations- und Prüfprozesse zu einer maschinell verifizierbaren Infrastruktur machen soll: Liberata
    • Ich glaube nicht, dass der Datensatz der Autoren Behauptungen über die konkreten Auswirkungen von Halluzinationen aufgestellt hat
      Eher wäre es irreführender gewesen, die „harmlosen Fälle“ zu entfernen
      Es ist ehrlicher, die Daten für sich selbst sprechen zu lassen
  • Dieses Phänomen dürfte der wissenschaftlichen Forschung schweren Schaden zufügen
    Es gibt bereits Probleme mit Datenmanipulation, und wenn LLMs nun auch noch plausibel wirkende Papers erzeugen, wird die Lage schlimmer
    Vielleicht führt das aber immerhin dazu, dass Reproduzierbarkeit (reproducibility) ernster genommen wird

    • Die Wurzel des Reproduzierbarkeitsproblems ist Geldmangel
      Es gibt kaum Förderinstitutionen, die einen Antrag finanzieren würden, der sagt: „Um ein verdächtiges Paper vom letzten Jahr zu überprüfen, brauchen wir zwei Jahre und 1 Million Dollar“
      Ohne Änderungen an der Struktur der Wissenschaftsfinanzierung ist das schwer zu lösen
    • Die meisten Wissenschaftler erkennen die Reproduzierbarkeitskrise an, aber das Problem liegt in der Anreizstruktur
      Wenn nach Anzahl der Papers bewertet wird, gibt es eine Flut minderwertiger Arbeiten; wenn nach Zitierungen bewertet wird, wird nur entdeckungsorientierte Forschung gefördert
      Reproduktionsstudien werden wenig zitiert, und da Ansehen und Lebensunterhalt letztlich an „Entdeckungen“ hängen, investiert niemand in Reproduktion
    • AI könnte ein Auslöser sein, diese strukturellen Probleme sichtbar zu machen
      Projekte wie Liberata wollen die Publikationskultur von einem Fokus auf „Neuheit“ hin zu „Prüfung und Reproduktion“ verschieben
      Wenn dieser Wandel gelingt, könnte das heutige Chaos ein notwendiger Korrekturprozess sein
    • Manche behaupten, Reproduzierbarkeit selbst werde überschätzt
      Aus dieser Sicht würden auch vollständig reproduzierbare Papers die Grundprobleme der Wissenschaft nicht lösen
      Dazu passend: Replication studies can’t fix science
    • Ich frage mich, ob das Problem gelöst wurde, dass Papers weiterhin bereits widerlegte Forschung zitieren
  • NeurIPS erklärt, dass eine halluzinierte Referenz (reference hallucination) nicht automatisch das gesamte Paper entwertet
    Laut dem vollständigen Fortune-Artikel entwickelt sich die LLM-Nutzung schnell weiter, und 2025 bekamen Reviewer die Anweisung, Halluzinationen zu markieren
    Die Position ist, dass selbst bei 1,1 % der Arbeiten mit Zitierfehlern der Inhalt der Arbeit dadurch nicht automatisch ungültig wird

    • Das wirkt aber wie eine viel zu großzügige Reaktion
      Es entsteht der Eindruck, als suche man sich einen möglichst harmlosen Grund heraus, um das Gesamtproblem zu überdecken
      Die Wissenschaft steckt bereits in einer Reproduzierbarkeitskrise, und jetzt kommt auch noch das Halluzinationsproblem hinzu
      In einer Situation, in der der Einfluss privater Unternehmen wächst, wirkt die Zukunft von Open Science düster
    • Ohne Strafen wird das so weitergehen
      Selbst ein Rückzug eines Papers hat kaum echte Nachteile, und die Erwartungswerte von Fehlverhalten sind positiv
      Wenn sich die Anreize nicht ändern, wird es nur schlimmer
    • Manche meinen, alle Einreichungen sollten mit Tools wie GPTZero geprüft und bei Halluzinationen sofort abgelehnt werden
    • Ein Zitierfehler bedeutet zwar nicht automatisch, dass der Inhalt falsch ist, aber eine einzige Manipulation zerstört das Gesamtvertrauen
      Wenn man LLMs die Bearbeitung von Zitaten überlässt, ist der Weg nicht weit, ihnen auch die Dateninterpretation zu überlassen, und das kann zu halluzinierten Ergebnissen führen
    • Ich finde, schon ein einziges entdecktes LLM-Halluzinationsproblem sollte zum Rückzug des Papers und zu einem Einreichungsverbot für die Autoren führen
  • Ironischerweise enthalten Forschungsarbeiten Literaturrecherchen, um einen Wissensdialog mit früherer Forschung zu führen
    Wer mit LLMs Zitate manipuliert, steht nicht „auf den Schultern von Giganten“, sondern auf den Schultern einer Illusion

    • Deshalb machte jemand den Witz, das bedeute, „auf den Schultern von Lügen“ zu stehen
    • Philosophisch bleibt die Frage, ob LLMs neuen Müll erzeugen oder nur die bestehende Müllproduktionsstruktur verstärken
  • Ich habe bei einem WACV-Review 2024 eine vollständig von AI geschriebene Rezension bekommen
    Der Reviewer hatte in vier Textfelder (Zusammenfassung, Stärken, Schwächen, Gesamturteil) jeweils völlig unterschiedliche Reviews geschrieben, die sich gegenseitig widersprachen
    Diese Situation ist Folge einer Überlastung der Reviewer, und wir brauchen mehr Freiwillige
    (Wer Papers begutachten kann, sollte den Program Chair einer bevorzugten Konferenz direkt kontaktieren)

    • Die einzige Reaktion war: „Wow …“
  • Manche Papers enthalten in den Zitaten falsche Namen wie „Firstname Lastname“, „John Doe“ oder „Jane Smith“, und niemand merkt es

    • Ich hoffe trotzdem, dass so etwas wenigstens im Nachhinein entdeckt und bestraft wird
    • Jemand sagte zynisch, „das ist eben die Methode der Zukunft“
  • Für einen Doktoranden mit dem ersten NeurIPS-Paper ist der finanzielle Gewinn enorm
    Die meisten Big-Tech-Praktika betrachten eine Erstautorenschaft bei NeurIPS/ICML/ICLR faktisch als Voraussetzung
    Wenn man einmal durchkommt, verdoppelt oder verdreifacht sich das Gehalt, und es ist kaum übertrieben zu sagen, dass sich damit die Karriere öffnet
    Dass in so einer Struktur Fehlverhalten entsteht, ist nicht überraschend

    • Tatsächlich ist der Marktwert eines einzelnen Papers viel höher
      Ein NeurIPS-Paper kann selbst ohne Promotion für eine Forschungsstelle qualifizieren, mit Gehältern von über 300.000 Dollar
      Bei einem Spotlight- oder Oral-Vortrag könnte der Wert sogar siebenstellig sein
  • Alle sind sich einig, dass die aktuelle Anreizstruktur ein solches Verhalten hervorbringt
    Deshalb frage ich mich, ob man statt der Karotte nicht die Peitsche einsetzen sollte
    Vorgeschlagen wird, bei entdeckten LLM-Halluzinationen oder Datenmanipulation Sanktionen auf karrierezerstörendem Niveau zu verhängen

    • Aber je härter die Strafen, desto mehr braucht es ein faires Verfahren (due process)
      AI-Erkennungstools sind noch nicht verlässlich genug, und es gibt auch schlichte BibTeX-Fehler oder Irrtümer, die bei Grammatik-Korrekturen entstehen
      Harte Strafen halte ich nur dann für gerechtfertigt, wenn vorsätzliches Fehlverhalten wie eindeutige Datenmanipulation nachgewiesen ist
  • Es wäre interessant zu analysieren, wie viel Quellenmanipulation es auch schon in Papers vor 2020 gab

    • Mich würde auch interessieren, wie oft AI-Detektoren Papers aus der Zeit vor LLMs fälschlich als AI-geschrieben einstufen
      Ich vertraue weder LLMs noch AI-Detektoren vollständig
    • Letztlich gab es solche Probleme wahrscheinlich schon früher
      Nur hat sich ihre Häufigkeit jetzt beschleunigt
  • Das Problem von Zitierfehlern wird verschwinden, wenn AI-Suche und die Kosten für Datensammlung 100-mal günstiger sind als heute
    Aber dann wird es womöglich sogar schwer zu unterscheiden sein, ob von AI geschriebene Papers die Realität überhaupt noch abbilden,
    und wir geraten in eine Art Zeitalter des „stochastischen Spiegels“ (stochastic mirror)