11 Punkte von GN⁺ 2025-11-02 | 1 Kommentare | Auf WhatsApp teilen
  • Die Informatik-Kategorie (CS) von arXiv führt neue Prüfpraktiken für Review-(Survey-)Artikel und Positionspapiere ein
  • Solche Arbeiten können nun nur noch bei arXiv eingereicht werden, nachdem sie in einer Fachzeitschrift oder auf einer Konferenz ein Peer Review durchlaufen haben und angenommen wurden
  • Bei der Einreichung müssen Unterlagen zum Nachweis eines erfolgreichen Peer Reviews (z. B. Journalreferenz, DOI-Metadaten) zwingend beigefügt werden
  • Einreichungen ohne Nachweisdokumente werden mit hoher Wahrscheinlichkeit abgelehnt; dies ist eine Reaktion auf den jüngsten übermäßigen Zustrom von Arbeiten durch generative KI
  • Mit dieser Änderung will arXiv nur qualitativ hochwertige Übersichtsarbeiten teilen und sich auf die Verbreitung zentraler Forschungsarbeiten konzentrieren

Geänderte Einreichungsanforderungen

  • Review-Artikel und Positionspapiere können nur nach Annahme durch eine Fachzeitschrift oder Konferenz und abgeschlossenem Peer Review bei arXiv eingereicht werden
    • Bei der Einreichung müssen Nachweisdokumente für ein erfolgreiches Peer Review beigefügt werden
    • Ohne Nachweis ist eine Ablehnung wahrscheinlich
  • Begutachtungen auf Workshop-Niveau gelten nicht als traditionelles Peer Review und erfüllen die Einreichungsanforderungen nicht

Hintergrund der Richtlinie

  • Nach der offiziellen Richtlinie von arXiv sind Review-Artikel und Positionspapiere formal keine zulässigen Inhaltstypen
    • In der Vergangenheit wurden nur wenige hochwertige Arbeiten nach Ermessen der Moderatoren akzeptiert
  • Durch die jüngste Verbreitung von generativer KI und Large Language Models (LLMs) hat die Zahl minderwertiger Review-Artikel stark zugenommen
    • Die meisten bestehen lediglich aus einer Auflistung von Literatur und bieten kaum neue Forschungsdiskussionen
  • Dadurch ist die Prüflast für die Moderatoren übermäßig gestiegen und beeinträchtigt den Kernzweck von arXiv (das Teilen von Forschungsarbeiten)

Ziel der Änderung

  • Es soll unterstützt werden, dass auf arXiv nur wertvolle, von Expertinnen und Experten verfasste Review- und Positionspapiere leicht auffindbar sind
  • Entlastung der Moderatoren und stärkere Konzentration auf die Prüfung offizieller Inhaltstypen
  • Bewahrung von arXivs Kernziel, schnelle und freie wissenschaftliche Entdeckungen zu fördern

Unterschiede zwischen früher und heute

  • Früher wurden Review-Artikel oft auf Anfrage von einer kleinen Zahl renommierter Forschender oder offiziellen Institutionen (z. B. Annual Reviews, IEEE, Computing Surveys) verfasst und waren daher qualitativ hochwertig
  • Auch Positionspapiere wurden meist von Konferenzen oder staatlichen Forschungsorganisationen (z. B. Computing Research Association, National Academies) erstellt
  • Heute werden jeden Monat Hunderte von Review-Artikeln eingereicht, und die Qualitätskontrolle hat ein schwer beherrschbares Niveau erreicht

Nutzung externer Begutachtungsinstanzen

  • arXiv verfügt nicht über genügend Personal und Ressourcen, um die Qualitätsprüfung selbst durchzuführen
  • Stattdessen erkennt es die Prüfung durch vertrauenswürdige externe Begutachtungsinstanzen (Konferenzen und Fachzeitschriften) an
    • Diese Institutionen führen eingehende Prüfungen zu KI-bezogenen Themen wie Privatsphäre, Ethik, Sicherheit und Security durch
  • So kann arXiv nur Arbeiten teilen, deren Qualität gesichert ist

Wiedereinreichung und Ausnahmen

  • Arbeiten, die wegen unvollständigem Peer Review abgelehnt wurden, können nach Abschluss der Begutachtung über ein Einspruchsverfahren (appeal) erneut eingereicht werden
    • Eine erneute Einreichung ohne genehmigten Einspruch ist jedoch nicht möglich
  • Forschungsarbeiten zu den gesellschaftlichen Auswirkungen von Wissenschaft und Technik (cs.CY, physics.soc-ph usw.) sind von dieser Änderung nicht betroffen

Möglichkeit der Ausweitung auf andere Kategorien

  • Jede Kategorie bei arXiv wird unabhängig von fachkundigen Moderatoren betrieben
  • Zwar gelten in allen Kategorien dieselben Richtlinien, doch Review-Artikel sind grundsätzlich ein inoffizieller Inhaltstyp
  • Wenn es auch in anderen Fachbereichen zu einem starken Anstieg von LLM-basierten Arbeiten kommt, könnten ähnliche verschärfte Prüfmaßnahmen eingeführt werden
  • Sollten solche Änderungen erfolgen, werden sie offiziell angekündigt

1 Kommentare

 
GN⁺ 2025-11-02
Hacker-News-Kommentare
  • Es wird darauf hingewiesen, dass die Struktur problematisch ist, nach der Menge dessen belohnt wird, was Menschen produzieren
    Wenn Forschende Anreize nach der Zahl ihrer Veröffentlichungen erhalten, missbrauchen sie zwangsläufig das System, indem sie mit minimaler Qualität möglichst viele Papers herauspumpen
    Vergütungen auf Basis von Aufrufen oder Werbeeinblendungen führen ebenso zu verzerrtem Verhalten
    Letztlich ist die Online-Welt ein System, das nicht für Menschen, sondern für Algorithmus-Optimierung entworfen wurde

    • Ähnliche Strukturen gebe es, so habe man gehört, auch in der Hilfsindustrie für Obdachlose
      In San Francisco hänge die Finanzierung von NGOs davon ab, wie viele Obdachlose sie „unterstützen“, was letztlich einen Anreiz schaffe, Obdachlosigkeit eher zu erhalten als zu verringern
    • Man solle nicht die LLMs verantwortlich machen
      Das Problem seien Menschen und Anreizsysteme, nicht das Werkzeug selbst
    • Der Reiz von LLMs liege gerade in der „schnellen Ausgabe“
      Eine Kultur, die Leistung anhand sinnloser Metriken wie Codezeilen oder Commit-Zahlen messe, sei bereits grundsätzlich falsch
      Es wirke, als lebten wir heute in der „Goodhart-Hölle“ — einer Welt, in der das Manipulieren von Kennzahlen selbst zum Ziel geworden ist
      Halb im Scherz wird gesagt, dass ein solches kennzahlengetriebenes Management die Unternehmensrealität großer Ausfälle satirisch vorwegnehme
    • Man frage sich, wie ein qualitätsorientiertes Vergütungssystem eigentlich aussehen sollte
      Es wird gefragt, wie eine menschenzentrierte Online-Welt aussehen könnte und wie Content-Ersteller darin vergütet werden sollten
    • Einige meinen, das Problem werde missverstanden
      Nicht die Zahl der Papers, sondern eingeworbene Fördergelder und die Qualität der Anträge seien der eigentliche Kern
  • Es gab das Missverständnis, dass arXiv Preprints nicht mehr annehme
    Tatsächlich wurde nur geändert, dass „Review-Papers“ und „Position Papers“ erst nach erfolgreicher Begutachtung in Journal oder Konferenz eingereicht werden können

    • Es wird erklärt, dass eine solche Maßnahme nötig sei, weil LLMs ohne technischen Beitrag leicht meinungsartige Papers erzeugen können
    • Es handele sich nicht um eine neue Politik; solche Typen seien schon immer außerhalb des zulässigen Rahmens von arXiv gewesen
    • Die Journal-Version könne zwar nicht hochgeladen werden, aber inhaltlich dasselbe Dokument mit Ausnahme des Formats könne eingestellt werden
    • Manche meinen, arXiv entwickle sich zu einer Art Blog für den Lebenslauf, weshalb die Änderung eher positiv sein könne
    • Forschungspapiere können weiterhin eingereicht werden
  • Es wurde vorgeschlagen, bei arXiv ein Reputationssystem einzuführen
    Die Idee ist, dass Autoren zusammen mit ihrer Arbeit einen öffentlichen PGP-Schlüssel hochladen und so ein Vertrauensnetzwerk bilden

    • Auf Basis eines web-of-trust wird eine Struktur vorgeschlagen, in der jeder Papers empfehlen und aus dem Vertrauensnetzwerk Qualität berechnet werden kann
      Das könnte weniger geschlossen als bestehende Fachjournale sein und zugleich geordneter als vollständige Offenheit
    • Ebenfalls vorgeschlagen wurde ein Modell, bei dem arXiv kostenlose Preprints beibehält, aber kostenpflichtige Experten-Review-Services anbietet
    • Von einem Professor wird berichtet, er habe extrem vorgeschlagen, „Forschende außerhalb der Ivy League auszuschließen“ — eine sarkastische Zuspitzung zur Unfairness von Reputation
  • Es wird auf Qualitätskontrollprobleme bei arXiv hingewiesen
    Allein im Oktober gab es 26.000 Einreichungen (Statistik-Link), und es gebe eine Flut unüberprüfter Papers
    Vorgeschlagen wird, eine kleine Einreichungsgebühr zu verlangen, um Spam zu reduzieren

    • Andere meinen jedoch, statt aller Nutzer sollten direkt die LLM-Nutzer sanktioniert werden
    • Einer Analyse zufolge geht es nicht um Geld, sondern um reale Vorteile wie Jobs, Zulassung und Visa, die sich über Papers erzielen lassen
    • Falls es eine Einreichungsgebühr gäbe, sollte sie zumindest die Kosten einer einfachen Prüfung decken; zudem wurde vorgeschlagen, je nach Prüfniveau zwischen „ungeprüft“, „einfach geprüft“, „vollständig geprüft“ und „Reproduzierbarkeit verifiziert“ zu unterscheiden
    • Es wurde auch die Ansicht geäußert, dass schon eine 1-Dollar-Anmeldegebühr wie bei Metafilter Spam wirksam eindämmen könnte
  • Es wurde angemerkt, dass der Titel des HN-Posts irreführend sei
    Präziser wäre eigentlich: „Wegen des starken Anstiegs von von KI verfassten Review-Papers verlangt arXiv im CS-Bereich Peer Review für Review-Papers

    • Das ursprüngliche „Due to LLMs“ im Titel konnte so missverstanden werden, als seien von LLMs geschriebene Papers gemeint
    • Da der ursprüngliche Zweck von arXiv die Veröffentlichung vor der Begutachtung ist, untergräbt diese Maßnahme diesen Wert nicht
    • Manche bedauern, dass man nun den seltsamen Humor von LLM-Papers weniger genießen könne
  • Es wird nach der Motivation derjenigen gefragt, die vollständig KI-generierte Papers bei arXiv hochladen
    Der Einreichungsprozess sei umständlich, daher frage man sich, warum sich jemand überhaupt die Mühe mache

    • Es wird erklärt, dass die alte akademische Praxis, die Zahl der Papers zur Manipulation des h-Index zu erhöhen, durch LLMs beschleunigt werde
    • Da bei etwa dem EB-1-Visum „Autor wissenschaftlicher Publikationen“ ein Bewertungskriterium ist, hat schon ein formal eingestelltes Paper großen Wert
    • Es wird auch vermutet, dass manche es schlicht zum Vorzeigen von Leistung gegenüber Familie oder Arbeitgebern tun
  • Es wird darauf hingewiesen, dass die meisten minderwertigen Papers KI-bezogene Themen behandeln
    Viele Menschen machen beim ersten Kontakt mit LLMs selbstreferenzielle Experimente nach dem Motto: „Lassen wir ein LLM über LLMs schreiben“
    Das Ergebnis sind dann zusammengewürfelte Zusammenfassungen der Quelldaten

    • KI-generierte Papers finden sich auch außerhalb von CS; einige zitieren sogar nicht existierende Papers
    • Man hofft, dass arXiv sich nicht auf „nur neue Forschung“ verengt. Schon jetzt gibt es KI-generierte Forschungspapiere, und diese seien noch schwerer zu erkennen
    • Der Wert von arXiv liege in frühem Feedback und Offenheit, daher bedeute „nur peer-reviewte Papers zulassen“ praktisch: „Kommt gar nicht erst herein“
  • Die aktuelle Maßnahme von arXiv wird positiv bewertet
    Gerade in sich schnell verändernden Bereichen wie multi-agent systems oder agentic LLMs seien klare Standards nötig
    Wenn maschinenlesbare Metadaten zu Papiertyp, Daten-/Code-Links und Benchmark-Umfang verlangt würden, könne das die Vertrauenswürdigkeit erhöhen
    Würden Tags wie „Survey“ oder „Position“ sowie eine Reproduzierbarkeits-Checkliste standardisiert, ließe sich Qualität sichern, ohne frühe Ideen zu blockieren

  • arXiv hat schon seit Langem ein Problem mit minderwertigen Papers zur Selbstvermarktung
    Dieses Phänomen existierte bereits vor den LLMs

    • Gleichzeitig wird gesagt, arXiv sei seinem Wesen nach eine Plattform zum schnellen Teilen von Ergebnissen, sodass Qualitätsverlust weniger ein „Schmerz“ als vielmehr eine Struktur sei, in der Nutzer selbst filtern und auswählen müssen