- In jüngster Zeit finden AI-Tools Fehler in Forschungsarbeiten bei Berechnungen, Methodik und Literaturverweisen
- Im vergangenen Jahr wurde über eine Studie berichtet, wonach schwarze Kunststoff-Küchenutensilien krebserregende Chemikalien enthalten
- Aufgrund eines mathematischen Fehlers in der Studie stellte sich jedoch heraus, dass die tatsächliche Chemikalienkonzentration zehnmal niedriger als der Sicherheitsgrenzwert war
- Ein Modell der künstlichen Intelligenz (AI) konnte diesen Fehler in wenigen Sekunden entdecken
AI-basierte Projekte zur Erkennung von Fehlern in Forschungsarbeiten
Black Spatula Project
- Open-Source-AI-Tool, das etwa 500 Arbeiten analysiert hat, um Fehler zu erkennen
- Das Projekt wird von dem unabhängigen kolumbianischen AI-Forscher Joaquin Gulloso koordiniert; beteiligt sind 8 Entwickler und Hunderte Berater
- Die Fehlerliste ist nicht öffentlich, und bei entdeckten Fehlern werden die Forschenden direkt kontaktiert, um Korrekturen anzustoßen
YesNoError
- Ein vom Black Spatula Project inspiriertes Projekt
- Geleitet vom Gründer und AI-Unternehmer Matt Schlicht
- Wird durch eine eigene Kryptowährung finanziert
- Bisher wurden in zwei Monaten rund 37.000 Arbeiten analysiert
- Arbeiten, in denen Fehler gefunden wurden, werden auf der Website markiert, die meisten davon sind jedoch noch nicht von Fachleuten überprüft
- Langfristig ist geplant, gemeinsam mit ResearchHub (belohnt promovierte Forschende mit Kryptowährung) die Fehler zu verifizieren
Forschende und Journale zum Einsatz von AI-Tools ermutigen
- Forschende sollen vor der Einreichung, Journale vor der Veröffentlichung AI-Tools einsetzen, um Fehler im Voraus zu erkennen
- Dadurch werden eine stärkere wissenschaftliche Verlässlichkeit sowie die Vermeidung von Fehlern und wissenschaftlichem Fehlverhalten erwartet
Reaktionen und Bedenken in der Wissenschaft
- Expertinnen und Experten für Forschungsintegrität reagieren vorsichtig positiv auf die Projekte
- Die Forscherin Michèle Nuijten von der Universität Tilburg äußerte folgende Sorge:
- Wenn die Genauigkeit der AI-Tools nicht klar validiert ist, könnten falsche Fehlerhinweise den Ruf schädigen
- Der forensische Metawissenschaftler James Heathers von der Linné-Universität unterstützte dies mit den Worten:
- "Eine miserable Arbeit zurückzuziehen ist viel schwieriger, als sie zu schreiben"
- AI könne nützlich sein, um Arbeiten zu sichten und weitere Prüfungen anzustoßen
So funktionieren die AI-Tools
- Einsatz von Large Language Models (LLM) zur Erkennung von Fehlern in Arbeiten
- Informationen wie Tabellen und Bilder werden aus den Arbeiten extrahiert, danach werden komplexe Anweisungen (Prompts) erzeugt
- Das AI-Modell analysiert eine Arbeit mehrfach, sucht nach verschiedenen Fehlertypen und führt eine Kreuzvalidierung der Ergebnisse durch
- Kosten der Analyse: je nach Länge der Arbeit und Komplexität des Prompts zwischen 15 Cent und mehreren Dollar
Problem der False Positives
- Black Spatula Project → etwa 10 % False Positives
- Alle Fehler müssen von Fachleuten überprüft werden → der Mangel an Expertinnen und Experten ist der größte Engpass
- YesNoError → Bei 10.000 Arbeiten wurden 100 mathematische Fehler überprüft, mehr als 90 % davon bestätigten sich als echte Fehler
- YesNoError arbeitet daran, die False-Positive-Rate zu senken, und nimmt fortlaufend Feedback aus der Wissenschaft auf
Kritik am Problem der False Positives
- Der Forscher Nick Brown von der Linné-Universität:
- In 14 von 40 von YesNoError analysierten Arbeiten wurden False Positives bestätigt → meist Schreibprobleme
- Durch geringfügige Fehler könnte unnötige Belastung für die Wissenschaft entstehen
- "Solange sich die Technik nicht deutlich verbessert, wird viel Arbeit ohne klaren Nutzen nötig sein"
Künftige Aufgaben und Erwartungen an AI-Tools
- YesNoError plant die Einführung eines Systems, bei dem Inhaber der Kryptowährung priorisieren, welche Arbeiten überprüft werden
- Es besteht die Möglichkeit, dass Arbeiten zu politisch sensiblen Themen (z. B. Klimawissenschaft) ins Visier geraten
- Forscher Brown: "Wenn AI-Tools echte Wirkung zeigen, könnte es in bestimmten Forschungsfeldern zu großen Veränderungen kommen"
5 Kommentare
Zwar würden minderwertige Arbeiten herausgefiltert, zugleich befürchte ich aber, dass dadurch auch die Hürden für gute Arbeiten steigen und sie im Vergleich weniger kreativ werden könnten. Selbst wenn es logische Lücken gibt, entstehen daraus manchmal neue Ideen, deshalb persönlich begrüße ich das nicht besonders.
AI kann sich zwar irren, aber ich frage mich, wie man überprüfen soll, dass die von der AI aufgezeigten Punkte tatsächlich nicht falsch sind.
Mit der Verbreitung von LLMs gibt es offenbar enorme Veränderungen in Bereichen, in denen die Nachfrage bisher größtenteils aus Informationsungleichgewichten entstand.
Ich frage mich, was herauskäme, wenn man damit verschiedene heilige Schriften der Menschheit analysieren ließe, haha
Hacker-News-Kommentar
Wenn KI offensichtliche Fehler in veröffentlichten Artikeln finden kann, könnte sie als Teil des Begutachtungsprozesses eingesetzt werden. Autoren könnten sie vor der Einreichung auf ihre eigene Arbeit anwenden und so die Qualität der Artikel deutlich erhöhen
Die YesNoError-Website enthält derzeit viele falsch positive Ergebnisse. Nick Brown, Forscher an der Linnaeus University, erklärte, dass 14 von 40 problematischen Artikeln falsch positive Ergebnisse seien
Da derzeit KI die treibende Kraft ist, könnten Menschen denken, dass sie auf Betrug oder fehlerhafte Logik prüft. Tatsächlich prüft sie Selbstkonsistenz und Konsistenz mit den Trainingsdaten
Vorschlag einer Idee, KI zu nutzen, um die Auswirkungen zurückgezogener Artikel zu kartieren. Man könnte Schlussfolgerungen identifizieren, die durch zurückgezogene Artikel nicht mehr gestützt werden, und prüfen, wo sie in nachgelagerten Artikeln auftauchen
Ist unser kollektives Gedächtnis zu kurz? Haben wir die Probleme vergessen, die durch von KI erzeugte Bug-Reports verursacht wurden?
Im Black-Spatula-Projekt werden zwei Beispiele genannt, in denen wesentliche Fehler erkannt wurden
Die Idee ist gut, und ich würde sie gern auf Berichte in meiner eigenen Firma anwenden, um offensichtliche Fehler zu erkennen, bevor ich sie an meinen Chef schicke
YesNoError plant, Kryptowährungsinhaber darüber entscheiden zu lassen, welche Artikel zuerst überprüft werden
Diese Idee ist eine sehr schlechte Idee. Man sollte den ersten Abschnitt überspringen und den Abschnitt über "falsch positive Ergebnisse" lesen
Ich bin hinsichtlich des Nutzens äußerst skeptisch. Durch KI-"Reviews" ist bereits Zeit verschwendet worden, auf unbegründete Behauptungen zu reagieren. Solche Behauptungen gab es vielleicht schon früher, aber Textgeneratoren wissen, wie man in den richtigen Begriffen halluziniert, um normale Menschen und Amateure zu überzeugen, und sind daher noch lästiger zu behandeln