14 Punkte von GN⁺ 2025-03-09 | 5 Kommentare | Auf WhatsApp teilen
  • In jüngster Zeit finden AI-Tools Fehler in Forschungsarbeiten bei Berechnungen, Methodik und Literaturverweisen
  • Im vergangenen Jahr wurde über eine Studie berichtet, wonach schwarze Kunststoff-Küchenutensilien krebserregende Chemikalien enthalten
    • Aufgrund eines mathematischen Fehlers in der Studie stellte sich jedoch heraus, dass die tatsächliche Chemikalienkonzentration zehnmal niedriger als der Sicherheitsgrenzwert war
    • Ein Modell der künstlichen Intelligenz (AI) konnte diesen Fehler in wenigen Sekunden entdecken

AI-basierte Projekte zur Erkennung von Fehlern in Forschungsarbeiten

Black Spatula Project

  • Open-Source-AI-Tool, das etwa 500 Arbeiten analysiert hat, um Fehler zu erkennen
  • Das Projekt wird von dem unabhängigen kolumbianischen AI-Forscher Joaquin Gulloso koordiniert; beteiligt sind 8 Entwickler und Hunderte Berater
  • Die Fehlerliste ist nicht öffentlich, und bei entdeckten Fehlern werden die Forschenden direkt kontaktiert, um Korrekturen anzustoßen

YesNoError

  • Ein vom Black Spatula Project inspiriertes Projekt
  • Geleitet vom Gründer und AI-Unternehmer Matt Schlicht
  • Wird durch eine eigene Kryptowährung finanziert
  • Bisher wurden in zwei Monaten rund 37.000 Arbeiten analysiert
  • Arbeiten, in denen Fehler gefunden wurden, werden auf der Website markiert, die meisten davon sind jedoch noch nicht von Fachleuten überprüft
  • Langfristig ist geplant, gemeinsam mit ResearchHub (belohnt promovierte Forschende mit Kryptowährung) die Fehler zu verifizieren

Forschende und Journale zum Einsatz von AI-Tools ermutigen

  • Forschende sollen vor der Einreichung, Journale vor der Veröffentlichung AI-Tools einsetzen, um Fehler im Voraus zu erkennen
  • Dadurch werden eine stärkere wissenschaftliche Verlässlichkeit sowie die Vermeidung von Fehlern und wissenschaftlichem Fehlverhalten erwartet

Reaktionen und Bedenken in der Wissenschaft

  • Expertinnen und Experten für Forschungsintegrität reagieren vorsichtig positiv auf die Projekte
  • Die Forscherin Michèle Nuijten von der Universität Tilburg äußerte folgende Sorge:
    • Wenn die Genauigkeit der AI-Tools nicht klar validiert ist, könnten falsche Fehlerhinweise den Ruf schädigen
  • Der forensische Metawissenschaftler James Heathers von der Linné-Universität unterstützte dies mit den Worten:
    • "Eine miserable Arbeit zurückzuziehen ist viel schwieriger, als sie zu schreiben"
    • AI könne nützlich sein, um Arbeiten zu sichten und weitere Prüfungen anzustoßen

So funktionieren die AI-Tools

  • Einsatz von Large Language Models (LLM) zur Erkennung von Fehlern in Arbeiten
    • Informationen wie Tabellen und Bilder werden aus den Arbeiten extrahiert, danach werden komplexe Anweisungen (Prompts) erzeugt
    • Das AI-Modell analysiert eine Arbeit mehrfach, sucht nach verschiedenen Fehlertypen und führt eine Kreuzvalidierung der Ergebnisse durch
    • Kosten der Analyse: je nach Länge der Arbeit und Komplexität des Prompts zwischen 15 Cent und mehreren Dollar

Problem der False Positives

  • Black Spatula Project → etwa 10 % False Positives
    • Alle Fehler müssen von Fachleuten überprüft werden → der Mangel an Expertinnen und Experten ist der größte Engpass
  • YesNoError → Bei 10.000 Arbeiten wurden 100 mathematische Fehler überprüft, mehr als 90 % davon bestätigten sich als echte Fehler
    • YesNoError arbeitet daran, die False-Positive-Rate zu senken, und nimmt fortlaufend Feedback aus der Wissenschaft auf

Kritik am Problem der False Positives

  • Der Forscher Nick Brown von der Linné-Universität:
    • In 14 von 40 von YesNoError analysierten Arbeiten wurden False Positives bestätigt → meist Schreibprobleme
    • Durch geringfügige Fehler könnte unnötige Belastung für die Wissenschaft entstehen
    • "Solange sich die Technik nicht deutlich verbessert, wird viel Arbeit ohne klaren Nutzen nötig sein"

Künftige Aufgaben und Erwartungen an AI-Tools

  • YesNoError plant die Einführung eines Systems, bei dem Inhaber der Kryptowährung priorisieren, welche Arbeiten überprüft werden
    • Es besteht die Möglichkeit, dass Arbeiten zu politisch sensiblen Themen (z. B. Klimawissenschaft) ins Visier geraten
  • Forscher Brown: "Wenn AI-Tools echte Wirkung zeigen, könnte es in bestimmten Forschungsfeldern zu großen Veränderungen kommen"

5 Kommentare

 
dbs0829 2025-03-10

Zwar würden minderwertige Arbeiten herausgefiltert, zugleich befürchte ich aber, dass dadurch auch die Hürden für gute Arbeiten steigen und sie im Vergleich weniger kreativ werden könnten. Selbst wenn es logische Lücken gibt, entstehen daraus manchmal neue Ideen, deshalb persönlich begrüße ich das nicht besonders.

 
mcdasa 2025-03-09

AI kann sich zwar irren, aber ich frage mich, wie man überprüfen soll, dass die von der AI aufgezeigten Punkte tatsächlich nicht falsch sind.

 
ndrgrd 2025-03-09

Mit der Verbreitung von LLMs gibt es offenbar enorme Veränderungen in Bereichen, in denen die Nachfrage bisher größtenteils aus Informationsungleichgewichten entstand.

 
bus710 2025-03-09

Ich frage mich, was herauskäme, wenn man damit verschiedene heilige Schriften der Menschheit analysieren ließe, haha

 
GN⁺ 2025-03-09
Hacker-News-Kommentar
  • Wenn KI offensichtliche Fehler in veröffentlichten Artikeln finden kann, könnte sie als Teil des Begutachtungsprozesses eingesetzt werden. Autoren könnten sie vor der Einreichung auf ihre eigene Arbeit anwenden und so die Qualität der Artikel deutlich erhöhen

    • Entscheidend ist, dass Experten, also Autoren und Peer-Reviewer, an diesem Prozess beteiligt sind. Sie können falsch positive Ergebnisse leicht ignorieren, aber bei statistischen Fehlern oder bei Aspekten außerhalb ihres Fachgebiets gewarnt werden
  • Die YesNoError-Website enthält derzeit viele falsch positive Ergebnisse. Nick Brown, Forscher an der Linnaeus University, erklärte, dass 14 von 40 problematischen Artikeln falsch positive Ergebnisse seien

    • Die meisten Probleme scheinen Schreibprobleme zu sein, und viele Erkennungen seien fehlerhaft
    • Er warnt, dass diese Technik, sofern sie nicht deutlich verbessert wird, viel Arbeit ohne klaren Nutzen erzeugen wird
  • Da derzeit KI die treibende Kraft ist, könnten Menschen denken, dass sie auf Betrug oder fehlerhafte Logik prüft. Tatsächlich prüft sie Selbstkonsistenz und Konsistenz mit den Trainingsdaten

    • Für Tippfehler, missverständliche Formulierungen sowie die Gegenprüfung von Fakten und Diagrammen kann sie nützlich sein, aber bei erfundenen Daten oder plausibel klingenden, aber falschen Schlussfolgerungen wird sie kaum viel beitragen
  • Vorschlag einer Idee, KI zu nutzen, um die Auswirkungen zurückgezogener Artikel zu kartieren. Man könnte Schlussfolgerungen identifizieren, die durch zurückgezogene Artikel nicht mehr gestützt werden, und prüfen, wo sie in nachgelagerten Artikeln auftauchen

  • Ist unser kollektives Gedächtnis zu kurz? Haben wir die Probleme vergessen, die durch von KI erzeugte Bug-Reports verursacht wurden?

  • Im Black-Spatula-Projekt werden zwei Beispiele genannt, in denen wesentliche Fehler erkannt wurden

    • Es war keine komplexe Multi-Agenten-Pipeline nötig; solche Fehler konnten mit einem einzelnen Prompt erkannt werden
  • Die Idee ist gut, und ich würde sie gern auf Berichte in meiner eigenen Firma anwenden, um offensichtliche Fehler zu erkennen, bevor ich sie an meinen Chef schicke

    • Es werden jedoch zwei Ansätze hervorgehoben. Der eine ist ein kleinerer Ansatz, bei dem man nicht zuerst veröffentlicht, sondern die Autoren vertraulich kontaktiert. Der andere veröffentlicht zuerst, hat keine menschliche Prüfung und besitzt eine eigene Kryptowährung
  • YesNoError plant, Kryptowährungsinhaber darüber entscheiden zu lassen, welche Artikel zuerst überprüft werden

  • Diese Idee ist eine sehr schlechte Idee. Man sollte den ersten Abschnitt überspringen und den Abschnitt über "falsch positive Ergebnisse" lesen

  • Ich bin hinsichtlich des Nutzens äußerst skeptisch. Durch KI-"Reviews" ist bereits Zeit verschwendet worden, auf unbegründete Behauptungen zu reagieren. Solche Behauptungen gab es vielleicht schon früher, aber Textgeneratoren wissen, wie man in den richtigen Begriffen halluziniert, um normale Menschen und Amateure zu überzeugen, und sind daher noch lästiger zu behandeln