- Bei den Paper-Gutachten der internationalen Konferenz ICLR 2026 wurde festgestellt, dass 21 % vollständig von künstlicher Intelligenz verfasst wurden
- Das KI-Detektionswerkzeug von Pangram Labs analysierte 75.800 Gutachten und entdeckte bei mehr als der Hälfte Spuren von KI-Nutzung
- Einige Forschende äußerten Bedenken, nachdem sie übermäßig langatmiges oder ungenaues Feedback erhalten hatten, und sahen darin ein mögliches Zeichen für KI-generierte Bewertungen
- Die Konferenz erklärte, dass sie automatisiert prüfen werde, ob die Richtlinien zur KI-Nutzung im Review-Prozess verletzt wurden, und arbeitet an einem Verfahren zur Wiederherstellung des Vertrauens
- Der Fall zeigt, wie dringend Transparenz und Vertrauen in wissenschaftliche Begutachtungen wiederhergestellt werden müssen
KI-Nutzung in den ICLR-2026-Paper-Gutachten
- Bei den Paper-Gutachten der internationalen Konferenz ICLR 2026 wurden rund 21 % vollständig von KI erstellt und bei mehr als der Hälfte ein KI-Einfluss festgestellt
- Die Analyse wurde von Pangram Labs durchgeführt und umfasste insgesamt 19.490 Papers sowie 75.800 Gutachten
- Pangram veröffentlichte die Ergebnisse mithilfe eines KI-generierten-Text-Detektors
- Die Konferenz kündigte an, mit automatisierten Tools zu prüfen, ob KI-Einsatz die Review-Richtlinien verletzt
- Der Programmverantwortliche von ICLR 2026 nannte dies den ersten groß angelegten Fall, in dem ein Problem mit KI-Bewertungen in großem Umfang aufgedeckt wurde
Reaktionen von Forschenden und der Untersuchungsablauf
- Mehrere Forschende veröffentlichten auf sozialen Plattformen Gutachten, die sie als KI-generiert vermuteten
- Einige dieser Bewertungen enthielten „halluzinierte Zitate“ oder vage, umständliche Rückmeldungen
- Graham Neubig von der Carnegie Mellon University bat um eine Prüfung, ob ungewöhnliche Gutachten wirklich KI-generiert seien
- Er veröffentlichte auf X (ehemals Twitter) eine Bounty-Ausschreibung, worauf Max Spero von Pangram Labs darauf reagierte und eine Vollprüfung durchführte
- Pangram berichtete, innerhalb von nur zwölf Stunden einen Code geschrieben zu haben, der den Text aller Einreichungen analysierte
Ergebnisse von Pangram Labs
- Das Tool von Pangram arbeitet mit einem Verfahren, das Texte vorhersagt, die von einem LLM (Large Language Model) generiert oder bearbeitet wurden
- Laut Auswertung wurden 15.899 Gutachten vollständig KI-generiert eingestuft, sowie 199 Papers (1 %) als vollständig KI-generiert
- 61 % der Papers wurden als menschlich verfasst klassifiziert, 9 % enthielten zu über 50 % KI-generierten Text
- Pangram reichte das eigene Modell als Preprint bei ICLR 2026 ein; auch einige der Gutachten zu diesem Paper wurden als KI-generiert klassifiziert
Reaktionen von Forschenden
- Desmond Elliott von der Universität Kopenhagen wies darauf hin, dass eine der Gutachten zu seinem eingereichten Paper den Kern der Arbeit missverstanden und falsche Zahlen genannt habe
- Sein Doktorand vermutete, dass diese Bewertung von einem LLM verfasst wurde
- Pangrams Analyse bestätigte, dass dieses Gutachten tatsächlich vollständig KI-generiert war
- Dem Gutachten wurde die niedrigste Bewertung gegeben, wodurch das Paper an der Schwelle zur Annahme landete
Reaktion der Konferenz und weitere Aufgaben
- Die Konferenz kündigte die Einführung automatisierter KI-Erkennungs-Tools an, um die Verlässlichkeit der Gutachten zurückzugewinnen
- Der Programmverantwortliche sagte, der Prozess zeige, dass eine Neuformulierung des Vertrauenskonzepts notwendig sei
- Der Vorfall gilt als Beispiel dafür, dass KI tief in den akademischen Peer-Review-Prozess eingedrungen ist und die Sicherung von Transparenz bei der Forschungsbewertung zur zentralen Aufgabe wurde
2 Kommentare
Es gibt wirklich viele interessante Beispiele für Reviews.
https://reddit.com/r/MachineLearning/…
Hacker-News-Meinungen
Ich denke zwar, dass die Abhängigkeit von KI beim Schreiben zunimmt, aber die in diesem Artikel verwendete Methodik wirkt wie Werbung für Pangram
KI-Detektoren sind größtenteils nicht vertrauenswürdig und für Menschen, die nie mit LLMs gearbeitet haben, eher schädlich
Eine relevante Diskussion dazu gibt es unter diesem Link
Wenn du an veraltete Detektoren wie GPTZero denkst, hast du die jüngsten Leistungsverbesserungen nicht gesehen
Laut einer Arbeit von Ökonomen der University of Chicago gab es bei 1.992 von Menschen geschriebenen Dokumenten 0 False Positives, bei einer Erkennungsrate von über 99 % für KI-Dokumente
Für statistische Analysen wie in dieser Studie ist ihr Einsatz unproblematisch
Tatsächlich gibt es kaum mit KI geschriebene Papers, und dass sie vor allem bei Reviews stark genutzt wird, ist ein naheliegendes Ergebnis
Dieser Doppelstandard ist interessant
Ob die Zahl von 20 % nun exakt stimmt oder nicht: Den Qualitätsverlust bei Reviews auf Top-Konferenzen spüren alle
In manchen Bereichen gibt es tatsächlich Absprachen unter Reviewern, teils sogar unter Beteiligung von ACs
Inzwischen reviewt niemand mehr sorgfältig, nur weil es ‘prinzipiell das Richtige’ ist
Es gibt zu viele Papers für den Lebenslauf, also kümmern sich Reviewer weniger darum
Laut Pangrams Analyse sind 21 % der ICLR-Reviews vollständig KI-generiert, und mehr als die Hälfte enthält Spuren von KI
Aber es ist fraglich, was hier mit „Beweis“ gemeint ist und wie man nachweisen will, dass etwas KI-generiert ist
Für diesen Zweck sind solche Tools geeignet
Meistens merkt man, dass es mit KI geschrieben wurde, aber beweisen kann man es nicht, also kann man nichts unternehmen
Ohne Zusatzinformationen wie Metadaten ist es sinnlos, überhaupt beurteilen zu wollen, ob ein LLM es geschrieben hat oder nicht
Die Schlagzeile könnte stimmen, aber die Zuverlässigkeit von KI-Detektoren ist weiterhin gering
Es gibt keine Belege dafür, dass Pangrams Tool diesen Ruf hinter sich gelassen hat
In diesem Blogbeitrag wird das ausführlich erklärt
Von 10.202 ICLR-Reviews aus dem Jahr 2022 waren 10.190 von Menschen geschrieben, nur 12 zeigten Spuren von KI-Bearbeitung
Man kann keine Einzelpersonen verurteilen, aber man kann sich ziemlich sicher sein, dass viele Reviews an KI delegiert wurden
Als ich die Überschrift „21 % der Reviews sind KI-generiert“ sah, war mein Eindruck eher, dass das weniger als erwartet ist
Wie bei Unfalluntersuchungen, wenn sich die Löcher im „Swiss-Cheese-Modell“ ausrichten, ist das das Ergebnis kumulierter Pflichtvernachlässigung
Zuerst war ich überrascht, aber 21 % ist eher eine schockierend niedrige Zahl
Außerdem stammt diese Zahl von einem Unternehmen, das KI-Detektoren verkauft, also besteht auch die Möglichkeit von False Positives
Entscheidend ist nicht, ob ein Review von KI geschrieben wurde, sondern die Genauigkeit des Reviews
Die Konferenz wirbt mit „Peer Review“, und selbst eine hervorragende KI ist kein Peer
Es wirkt, als wolle Pangram mit KI-Detektion Empörung erzeugen und auf Clickbait setzen
Letztlich sind die ersten Opfer des von KI geschaffenen Monsters jene Wissensarbeiter, die es erschaffen haben, etwa Programmierer, Forscher und Universitäten
Diese Konferenz war schon früher der Ort, an dem durch einen OpenReview-Bug kurzzeitig die Identität aller Reviewer offengelegt wurde
Laut diesem Artikel wurden die Bewertungen danach zurückgesetzt und neue ACs trafen die Entscheidungen erneut
Künftig wäre es vielleicht besser, für alle Papers standardmäßig KI-Reviews bereitzustellen und menschliche Reviewer diese Ergebnisse ergänzen zu lassen
So würden Reviewer die Ergebnisse der KI prüfen, und Autoren bekämen ebenfalls vorhersehbares Feedback
Natürlich könnten menschliche Reviewer dann wieder KI einsetzen, aber das gilt ebenso für die Autoren