7 Punkte von GN⁺ 2024-09-09 | 2 Kommentare | Auf WhatsApp teilen
  • In Google Scholar lassen sich leicht zahlreiche verdächtige Publikationen finden, die offenbar mit gängigen GPT-Modellen erzeugt wurden.
  • Diese Arbeiten werden überwiegend mit weit verbreiteten allgemeinen KI-Anwendungen, insbesondere ChatGPT, erstellt und ahmen wissenschaftliches Schreiben nach.
  • Google Scholar listet solche verdächtigen Publikationen neben renommierten und qualitätsgesicherten Forschungsarbeiten auf.
  • Die Analyse einer Stichprobe verdächtiger, in Google Scholar gefundener wissenschaftlicher GPT-Publikationen zeigt, dass viele Arbeiten Anwendungsfelder wie Umwelt, Gesundheit und Computing behandeln, die anfällig für digitale Desinformation sind.
  • Die wachsende Möglichkeit böswilliger Beweismanipulation in politisch stark umkämpften Bereichen ist ein zunehmend besorgniserregendes Problem.

Erkenntnisse

Erkenntnis 1: 139 verdächtige, von GPT erzeugte Publikationen werden in den Google-Scholar-Suchergebnissen als normale Arbeiten gelistet. Viele stammen aus nicht indexierten Journals.

  • Die meisten verdächtigen Publikationen stammten aus nicht indexierten Journals oder waren Working Papers, einige wurden jedoch auch in angesehenen Journals, Publikationen, Konferenzen und Repositorien gefunden.
  • Insgesamt wurden 139 Arbeiten gefunden, bei denen der Verdacht besteht, dass ChatGPT oder ähnliche LLM-Anwendungen täuschend eingesetzt wurden.
  • Davon erschienen 19 in indexierten Journals, 89 in nicht indexierten Journals, 19 waren studentische Arbeiten in Universitätsdatenbanken und 12 waren Working Papers, meist in Preprint-Datenbanken.
  • Publikationen zu Umwelt- und Gesundheitsthemen machten etwa 34 % der Stichprobe aus, von denen 66 % in nicht indexierten Journals erschienen.

Erkenntnis 2: Verdächtige, von GPT erzeugte Publikationen werden online verbreitet und sind über die gesamte Infrastruktur wissenschaftlicher Kommunikation verteilt; häufig existieren mehrere Kopien. Es dominieren Anwendungsfelder mit praktischen Implikationen.

  • 27 Arbeiten zu Umweltthemen wurden unter 56 URLs auf 26 eindeutigen Domains gefunden.
  • 20 Arbeiten zu Gesundheitsthemen wurden unter 46 URLs auf 20 eindeutigen Domains gefunden.
  • Die meisten identifizierten Arbeiten liegen in mehreren Kopien vor und haben sich bereits über verschiedene Archive, Repositorien und soziale Medien verbreitet.
  • Ihre Entfernung aus dem wissenschaftlichen Bestand dürfte schwierig oder unmöglich sein.

Erkenntnis 3: Google Scholar präsentiert Ergebnisse aus qualitätskontrollierten und nicht qualitätskontrollierten Zitationsdatenbanken in derselben Oberfläche, wodurch ein uneingeschränkter Zugang zu verdächtigen, von GPT erzeugten Publikationen möglich ist.

  • Die zentrale Stellung von Google Scholar in der öffentlich zugänglichen Infrastruktur wissenschaftlicher Kommunikation sowie das Fehlen von Standards, Transparenz und Rechenschaftspflicht bei den Aufnahmekriterien können das öffentliche Vertrauen in die Wissenschaft erheblich beeinträchtigen.
  • Das erhöht das Missbrauchspotenzial von Google Scholar für Evidence Hacking und beeinflusst Versuche, Fake-Publikationen an der Originalquelle zurückzuziehen oder zu löschen.
  • Jede Lösung muss die gesamte Infrastruktur wissenschaftlicher Kommunikation sowie das Zusammenspiel unterschiedlicher Akteure, Interessen und Motivationen berücksichtigen.

Meinung von GN⁺

Diese Problematik ist aus folgenden Gründen besorgniserregend:

  1. Von GPT erzeugte Publikationen könnten das System wissenschaftlicher Kommunikation überfluten und die Integrität des wissenschaftlichen Bestands bedrohen. Das würde das bestehende Problem der Paper Mills weiter verschärfen.

  2. Wissenschaftlich überzeugend wirkende, mit KI erzeugte Inhalte könnten in Wahrheit täuschend generiert worden sein. Das kann das öffentliche Vertrauen in wissenschaftliches Wissen untergraben und erhebliche gesellschaftliche Risiken verursachen.

  3. Die Aufnahmekriterien von Google Scholar sind intransparent und es fehlt an Rechenschaftspflicht. Das hängt mit dem Problem zusammen, dass Zitationsdatenbanken, die Standards erfüllen, und solche, die dies nicht tun, in den Suchergebnissen ohne Unterscheidung präsentiert werden.

  4. Da sich Fake-Publikationen über verschiedene Plattformen verbreiten, ist es selbst nach einem Rückzug des Originals schwer, sie nachzuverfolgen und zu entfernen. Das kann in den betreffenden Forschungsfeldern langfristig negative Auswirkungen haben.

  5. Viele von GPT erzeugte Publikationen wurden zu gesellschaftlich sensiblen und wichtigen Themen wie Gesundheit und Umwelt gefunden. Das kann politische Entscheidungen erheblich verwirren und birgt Potenzial für politischen Missbrauch.

Um auf dieses Problem zu reagieren, müssen technische, bildungsbezogene und institutionelle Ansätze gleichzeitig berücksichtigt werden. Zum Beispiel:

  • Bereitstellung von Filteroptionen in wissenschaftlichen Suchmaschinen, etwa nach Peer-Review-Status
  • Integration von Bewertungswerkzeugen in die Oberfläche und den Crawler wissenschaftlicher Suchmaschinen
  • Aufbau einer kostenlosen wissenschaftlichen Suchmaschine, die nicht aus kommerziellen Gründen, sondern im öffentlichen Interesse betrieben wird
  • Bildungsinitiativen für politische Entscheidungsträger, Wissenschaftskommunikatoren und Journalisten

Grundsätzlich sollte dieses Problem im größeren Kontext der Probleme des wissenschaftlichen Publikationssystems, der Kultur des „publish or perish“, des Monopols von Google und ideologischer Konflikte rund um Informationskontrolle betrachtet werden. Rein technische Lösungen reichen nicht aus.

2 Kommentare

 
xguru 2024-09-09

alphaXiv - Öffentliche Diskussionen über arXiv-Papers

Wenn man diese Plattform zusammen mit diesem Artikel sieht, fühlt es sich an, als gäbe es da eine gewisse Verbindung

 
GN⁺ 2024-09-09
Hacker-News-Kommentare
  • Auf dem APS March Meeting machen sich Herausgeber wissenschaftlicher Journale mehr Sorgen um von LLMs erzeugte Reviews als um von LLMs erzeugte Arbeiten

    • LLMs sind besser darin, Inhalte zusammenzufassen, als lange logische Schlussfolgerungen zu ziehen
    • Reviews werden nicht veröffentlicht, wodurch die Hemmschwelle geringer ist
  • Das Python-Skript der Autoren könnte Bugs enthalten

    • Wenn der Schlüssel bib in der API-Antwort fehlt, können die Spalten des DataFrames inkonsistent werden
    • Ein Flag-Array könnte verwendet werden, um schlechte Ergebnisse zu entfernen, wird im Code aber nicht verwendet
  • GPT kann die Manipulation wissenschaftlicher Arbeiten erleichtern, aber Menschen haben das auch ohne AI schon gut geschafft

    • Ein interessanter Videolink zum Thema wird geteilt
  • Bei Arbeiten zu LLMs wäre eine ausgefeiltere Methode der Datenerhebung wünschenswert

    • Die Auswirkungen der LLM-Nutzung auf Wissenschaft und Gesellschaft gehen weit über Korrekturlesen hinaus
    • Der Umfang von Korrekturlesen ist je nach Person unterschiedlich
  • Fachleute in verwandten Bereichen können gefälschte Ergebnisse leicht erkennen

    • Inhalte ohne Neuheitswert sind schwerer zu unterscheiden
    • Das Problem der Ehrlichkeit von Forschern existierte schon vor AI
    • Für Nichtfachleute ist es schwer, die Echtheit von Informationen zu beurteilen
  • In einer früheren Diskussion stellte sich heraus, dass Arbeiten, bei denen GPT-Nutzung vermutet wurde, tatsächlich vor OpenAI verfasst worden waren

  • ChatGPT versteht Wahrheit nicht

    • Bei der Nutzung von ChatGPT in einem Forschungsprojekt zu Data Lakes gab es viele gefälschte Links und Zusammenfassungen von Marketingmaterial
  • Es wird positiv bewertet, dass das Artikelbild nicht AI-generiert ist

  • GPT-generierte Arbeiten könnten von Nicht-Muttersprachlern des Englischen verfasst worden sein, um ihr Englisch zu verbessern

  • Es fühlt sich an, als würden wir in dunkle Zeiten eintreten