Führende KI-Konferenzen: KI-verfasste Gutachten überfluten den Review-Prozess

(nature.com)

3 Punkte von GN⁺ 2025-12-01 | 2 Kommentare | Auf WhatsApp teilen

Bei den Paper-Gutachten der internationalen Konferenz ICLR 2026 wurde festgestellt, dass 21 % vollständig von künstlicher Intelligenz verfasst wurden
Das KI-Detektionswerkzeug von Pangram Labs analysierte 75.800 Gutachten und entdeckte bei mehr als der Hälfte Spuren von KI-Nutzung
Einige Forschende äußerten Bedenken, nachdem sie übermäßig langatmiges oder ungenaues Feedback erhalten hatten, und sahen darin ein mögliches Zeichen für KI-generierte Bewertungen
Die Konferenz erklärte, dass sie automatisiert prüfen werde, ob die Richtlinien zur KI-Nutzung im Review-Prozess verletzt wurden, und arbeitet an einem Verfahren zur Wiederherstellung des Vertrauens
Der Fall zeigt, wie dringend Transparenz und Vertrauen in wissenschaftliche Begutachtungen wiederhergestellt werden müssen

KI-Nutzung in den ICLR-2026-Paper-Gutachten

Bei den Paper-Gutachten der internationalen Konferenz ICLR 2026 wurden rund 21 % vollständig von KI erstellt und bei mehr als der Hälfte ein KI-Einfluss festgestellt
- Die Analyse wurde von Pangram Labs durchgeführt und umfasste insgesamt 19.490 Papers sowie 75.800 Gutachten
- Pangram veröffentlichte die Ergebnisse mithilfe eines KI-generierten-Text-Detektors
Die Konferenz kündigte an, mit automatisierten Tools zu prüfen, ob KI-Einsatz die Review-Richtlinien verletzt
- Der Programmverantwortliche von ICLR 2026 nannte dies den ersten groß angelegten Fall, in dem ein Problem mit KI-Bewertungen in großem Umfang aufgedeckt wurde

Reaktionen von Forschenden und der Untersuchungsablauf

Mehrere Forschende veröffentlichten auf sozialen Plattformen Gutachten, die sie als KI-generiert vermuteten
- Einige dieser Bewertungen enthielten „halluzinierte Zitate“ oder vage, umständliche Rückmeldungen
Graham Neubig von der Carnegie Mellon University bat um eine Prüfung, ob ungewöhnliche Gutachten wirklich KI-generiert seien
- Er veröffentlichte auf X (ehemals Twitter) eine Bounty-Ausschreibung, worauf Max Spero von Pangram Labs darauf reagierte und eine Vollprüfung durchführte
- Pangram berichtete, innerhalb von nur zwölf Stunden einen Code geschrieben zu haben, der den Text aller Einreichungen analysierte

Ergebnisse von Pangram Labs

Das Tool von Pangram arbeitet mit einem Verfahren, das Texte vorhersagt, die von einem LLM (Large Language Model) generiert oder bearbeitet wurden
- Laut Auswertung wurden 15.899 Gutachten vollständig KI-generiert eingestuft, sowie 199 Papers (1 %) als vollständig KI-generiert
- 61 % der Papers wurden als menschlich verfasst klassifiziert, 9 % enthielten zu über 50 % KI-generierten Text
Pangram reichte das eigene Modell als Preprint bei ICLR 2026 ein; auch einige der Gutachten zu diesem Paper wurden als KI-generiert klassifiziert

Reaktionen von Forschenden

Desmond Elliott von der Universität Kopenhagen wies darauf hin, dass eine der Gutachten zu seinem eingereichten Paper den Kern der Arbeit missverstanden und falsche Zahlen genannt habe
- Sein Doktorand vermutete, dass diese Bewertung von einem LLM verfasst wurde
- Pangrams Analyse bestätigte, dass dieses Gutachten tatsächlich vollständig KI-generiert war
- Dem Gutachten wurde die niedrigste Bewertung gegeben, wodurch das Paper an der Schwelle zur Annahme landete

Reaktion der Konferenz und weitere Aufgaben

Die Konferenz kündigte die Einführung automatisierter KI-Erkennungs-Tools an, um die Verlässlichkeit der Gutachten zurückzugewinnen
Der Programmverantwortliche sagte, der Prozess zeige, dass eine Neuformulierung des Vertrauenskonzepts notwendig sei
Der Vorfall gilt als Beispiel dafür, dass KI tief in den akademischen Peer-Review-Prozess eingedrungen ist und die Sicherung von Transparenz bei der Forschungsbewertung zur zentralen Aufgabe wurde

2 Kommentare

yuntae 2025-12-01

Es gibt wirklich viele interessante Beispiele für Reviews.
https://reddit.com/r/MachineLearning/…

GN⁺ 2025-12-01

Hacker-News-Meinungen

Ich denke zwar, dass die Abhängigkeit von KI beim Schreiben zunimmt, aber die in diesem Artikel verwendete Methodik wirkt wie Werbung für Pangram
KI-Detektoren sind größtenteils nicht vertrauenswürdig und für Menschen, die nie mit LLMs gearbeitet haben, eher schädlich
Eine relevante Diskussion dazu gibt es unter diesem Link
- Ich bin Mitgründer von Pangram. Wir haben in diesem Bereich echte Fortschritte erzielt
  Wenn du an veraltete Detektoren wie GPTZero denkst, hast du die jüngsten Leistungsverbesserungen nicht gesehen
  Laut einer Arbeit von Ökonomen der University of Chicago gab es bei 1.992 von Menschen geschriebenen Dokumenten 0 False Positives, bei einer Erkennungsrate von über 99 % für KI-Dokumente
- KI-Detektoren sind nur dann schädlich, wenn sie dazu benutzt werden, Menschen zu bestrafen
  Für statistische Analysen wie in dieser Studie ist ihr Einsatz unproblematisch
  Tatsächlich gibt es kaum mit KI geschriebene Papers, und dass sie vor allem bei Reviews stark genutzt wird, ist ein naheliegendes Ergebnis
- Manche misstrauen LLMs, nutzen sie aber bereitwillig, wenn eine Studie damit die eigenen Vorurteile bestätigt
  Dieser Doppelstandard ist interessant
Ob die Zahl von 20 % nun exakt stimmt oder nicht: Den Qualitätsverlust bei Reviews auf Top-Konferenzen spüren alle
In manchen Bereichen gibt es tatsächlich Absprachen unter Reviewern, teils sogar unter Beteiligung von ACs
Inzwischen reviewt niemand mehr sorgfältig, nur weil es ‘prinzipiell das Richtige’ ist
- Früher wurde auch ohne explizite Anreize gewissenhaft reviewt, aber diese Kultur ist völlig verschwunden
- Wenn KI-Forscher mit sehr hohen Gehältern abgeworben werden, ist es nur natürlich, dass das System verzerrt wird
- Man kann dieses Phänomen auch als eine Art Marktanpassung sehen
  Es gibt zu viele Papers für den Lebenslauf, also kümmern sich Reviewer weniger darum
Laut Pangrams Analyse sind 21 % der ICLR-Reviews vollständig KI-generiert, und mehr als die Hälfte enthält Spuren von KI
Aber es ist fraglich, was hier mit „Beweis“ gemeint ist und wie man nachweisen will, dass etwas KI-generiert ist
- Die Formulierung „Beweis“ war unpassend. Aber statistische Analysen können objektiv sein
  Für diesen Zweck sind solche Tools geeignet
- Tatsächlich haben sie eine Arbeit geschrieben, in der sie ihre Methodik erklären
- Vielleicht ist der KI-Detektor selbst KI
- Ich habe beim Korrigieren von Studentenaufgaben ein ähnliches Problem
  Meistens merkt man, dass es mit KI geschrieben wurde, aber beweisen kann man es nicht, also kann man nichts unternehmen
- Tatsächlich ist eine Unterscheidung allein anhand des Textes unmöglich
  Ohne Zusatzinformationen wie Metadaten ist es sinnlos, überhaupt beurteilen zu wollen, ob ein LLM es geschrieben hat oder nicht
Die Schlagzeile könnte stimmen, aber die Zuverlässigkeit von KI-Detektoren ist weiterhin gering
Es gibt keine Belege dafür, dass Pangrams Tool diesen Ruf hinter sich gelassen hat
- Als Mitgründer von Pangram sage ich: Unsere False-Positive-Rate liegt bei 1 zu 10.000
  In diesem Blogbeitrag wird das ausführlich erklärt
  Von 10.202 ICLR-Reviews aus dem Jahr 2022 waren 10.190 von Menschen geschrieben, nur 12 zeigten Spuren von KI-Bearbeitung
- Konferenz-Papers folgen ohnehin einem stark formalisierten Stil, deshalb ist es schwer, KI-Nutzung zu erkennen
- Wenn bei Papers 1 % und bei Reviews 20 % KI sind, liegt das vermutlich einfach daran, dass Reviewer stärker auf KI zurückgreifen
  Man kann keine Einzelpersonen verurteilen, aber man kann sich ziemlich sicher sein, dass viele Reviews an KI delegiert wurden
Als ich die Überschrift „21 % der Reviews sind KI-generiert“ sah, war mein Eindruck eher, dass das weniger als erwartet ist
- Wenn 21 % vollständig KI-generiert sind, dann ist das schlicht eindeutiges Fehlverhalten
  Wie bei Unfalluntersuchungen, wenn sich die Löcher im „Swiss-Cheese-Modell“ ausrichten, ist das das Ergebnis kumulierter Pflichtvernachlässigung
Zuerst war ich überrascht, aber 21 % ist eher eine schockierend niedrige Zahl
Außerdem stammt diese Zahl von einem Unternehmen, das KI-Detektoren verkauft, also besteht auch die Möglichkeit von False Positives
Entscheidend ist nicht, ob ein Review von KI geschrieben wurde, sondern die Genauigkeit des Reviews
- Nein, das ist nicht der Punkt
  Die Konferenz wirbt mit „Peer Review“, und selbst eine hervorragende KI ist kein Peer
- Wenn die Forschung tatsächlich nützlich und korrekt ist, dann ist das wichtiger
  Es wirkt, als wolle Pangram mit KI-Detektion Empörung erzeugen und auf Clickbait setzen
- Die Realität sieht so aus
  1. Ein Wissenschaftler erstellt Forschung mit eingebauten Vorurteilen
  2. Der Reviewer erzeugt mit KI ein oberflächlich plausibles Review
  3. Am Ende entsteht ein bizarrer Kreislauf, in dem der Forscher sein eigenes Review noch einmal selbst machen muss
Letztlich sind die ersten Opfer des von KI geschaffenen Monsters jene Wissensarbeiter, die es erschaffen haben, etwa Programmierer, Forscher und Universitäten
Diese Konferenz war schon früher der Ort, an dem durch einen OpenReview-Bug kurzzeitig die Identität aller Reviewer offengelegt wurde
Laut diesem Artikel wurden die Bewertungen danach zurückgesetzt und neue ACs trafen die Entscheidungen erneut
Künftig wäre es vielleicht besser, für alle Papers standardmäßig KI-Reviews bereitzustellen und menschliche Reviewer diese Ergebnisse ergänzen zu lassen
So würden Reviewer die Ergebnisse der KI prüfen, und Autoren bekämen ebenfalls vorhersehbares Feedback
Natürlich könnten menschliche Reviewer dann wieder KI einsetzen, aber das gilt ebenso für die Autoren