3 Punkte von GN⁺ 2025-12-01 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Bei den Paper-Gutachten der internationalen Konferenz ICLR 2026 wurde festgestellt, dass 21 % vollständig von künstlicher Intelligenz verfasst wurden
  • Das KI-Detektionswerkzeug von Pangram Labs analysierte 75.800 Gutachten und entdeckte bei mehr als der Hälfte Spuren von KI-Nutzung
  • Einige Forschende äußerten Bedenken, nachdem sie übermäßig langatmiges oder ungenaues Feedback erhalten hatten, und sahen darin ein mögliches Zeichen für KI-generierte Bewertungen
  • Die Konferenz erklärte, dass sie automatisiert prüfen werde, ob die Richtlinien zur KI-Nutzung im Review-Prozess verletzt wurden, und arbeitet an einem Verfahren zur Wiederherstellung des Vertrauens
  • Der Fall zeigt, wie dringend Transparenz und Vertrauen in wissenschaftliche Begutachtungen wiederhergestellt werden müssen

KI-Nutzung in den ICLR-2026-Paper-Gutachten

  • Bei den Paper-Gutachten der internationalen Konferenz ICLR 2026 wurden rund 21 % vollständig von KI erstellt und bei mehr als der Hälfte ein KI-Einfluss festgestellt
    • Die Analyse wurde von Pangram Labs durchgeführt und umfasste insgesamt 19.490 Papers sowie 75.800 Gutachten
    • Pangram veröffentlichte die Ergebnisse mithilfe eines KI-generierten-Text-Detektors
  • Die Konferenz kündigte an, mit automatisierten Tools zu prüfen, ob KI-Einsatz die Review-Richtlinien verletzt
    • Der Programmverantwortliche von ICLR 2026 nannte dies den ersten groß angelegten Fall, in dem ein Problem mit KI-Bewertungen in großem Umfang aufgedeckt wurde

Reaktionen von Forschenden und der Untersuchungsablauf

  • Mehrere Forschende veröffentlichten auf sozialen Plattformen Gutachten, die sie als KI-generiert vermuteten
    • Einige dieser Bewertungen enthielten „halluzinierte Zitate“ oder vage, umständliche Rückmeldungen
  • Graham Neubig von der Carnegie Mellon University bat um eine Prüfung, ob ungewöhnliche Gutachten wirklich KI-generiert seien
    • Er veröffentlichte auf X (ehemals Twitter) eine Bounty-Ausschreibung, worauf Max Spero von Pangram Labs darauf reagierte und eine Vollprüfung durchführte
    • Pangram berichtete, innerhalb von nur zwölf Stunden einen Code geschrieben zu haben, der den Text aller Einreichungen analysierte

Ergebnisse von Pangram Labs

  • Das Tool von Pangram arbeitet mit einem Verfahren, das Texte vorhersagt, die von einem LLM (Large Language Model) generiert oder bearbeitet wurden
    • Laut Auswertung wurden 15.899 Gutachten vollständig KI-generiert eingestuft, sowie 199 Papers (1 %) als vollständig KI-generiert
    • 61 % der Papers wurden als menschlich verfasst klassifiziert, 9 % enthielten zu über 50 % KI-generierten Text
  • Pangram reichte das eigene Modell als Preprint bei ICLR 2026 ein; auch einige der Gutachten zu diesem Paper wurden als KI-generiert klassifiziert

Reaktionen von Forschenden

  • Desmond Elliott von der Universität Kopenhagen wies darauf hin, dass eine der Gutachten zu seinem eingereichten Paper den Kern der Arbeit missverstanden und falsche Zahlen genannt habe
    • Sein Doktorand vermutete, dass diese Bewertung von einem LLM verfasst wurde
    • Pangrams Analyse bestätigte, dass dieses Gutachten tatsächlich vollständig KI-generiert war
    • Dem Gutachten wurde die niedrigste Bewertung gegeben, wodurch das Paper an der Schwelle zur Annahme landete

Reaktion der Konferenz und weitere Aufgaben

  • Die Konferenz kündigte die Einführung automatisierter KI-Erkennungs-Tools an, um die Verlässlichkeit der Gutachten zurückzugewinnen
  • Der Programmverantwortliche sagte, der Prozess zeige, dass eine Neuformulierung des Vertrauenskonzepts notwendig sei
  • Der Vorfall gilt als Beispiel dafür, dass KI tief in den akademischen Peer-Review-Prozess eingedrungen ist und die Sicherung von Transparenz bei der Forschungsbewertung zur zentralen Aufgabe wurde

Noch keine Kommentare.

Noch keine Kommentare.