Gefälschte Krankheit bei AI-Chatbots abgefragt – sie antworteten: „Das ist eine echte Krankheit“

(nature.com)

9 Punkte von darjeeling 22 일 전 | 4 Kommentare | Auf WhatsApp teilen

Eine schwedische Forscherin erfand die vollständig fiktive Krankheit „Bixonimania“ und testete, ob AI-Chatbots sie wie eine reale Krankheit behandeln würden. Das Ergebnis war schockierend. Große AI-Systeme wie ChatGPT, Google Gemini, Microsoft Copilot und Perplexity beschrieben diese erfundene Krankheit allesamt so, als sei sie echt – und schließlich wurde die gefälschte Studie sogar in einer realen Fachzeitschrift zitiert.

Was bei dem Experiment geschah

Die Medizinforscherin Almira Osmanovic Thunström von der Universität Göteborg entwarf dieses Experiment, um zu prüfen, ob große Sprachmodelle (LLMs) Fehlinformationen übernehmen und als vertrauenswürdige Gesundheitsinformationen ausgeben.

Sie wählte den Namen „Bixonimania“, weil die Kombination einer Augenerkrankung mit dem psychiatrischen Begriff „mania“ für medizinische Fachleute sofort seltsam wirken müsse. Sie erklärte, den Namen bewusst absurd gewählt zu haben.

Im April und Mai 2024 stellte sie unter dem Namen des fiktiven Forschers „Lazljiv Izgubljenovic“, dessen Profilbild AI-generiert war, zwei gefälschte Preprints in das wissenschaftliche soziale Netzwerk SciProfiles ein.

In den Arbeiten waren an mehreren Stellen Hinweise versteckt, dass sie gefälscht waren. In den Danksagungen wurde einem „Labor an Bord der USS Enterprise“, der „Starfleet Academy“ und der „Universität Herr der Ringe“ gedankt, und im Haupttext stand sogar der Satz: „Diese gesamte Arbeit ist erfunden.“

Die Reaktionen der AIs

Schon wenige Tage nach der Veröffentlichung der Falschinformation begannen große AI-Chatbots, Bixonimania als echte Krankheit zu beschreiben. Am 13. April 2024 nannte Microsofts Copilot sie eine „interessante und seltene Erkrankung“, und Google Gemini empfahl noch am selben Tag wegen einer „durch übermäßige Blaulicht-Exposition verursachten Erkrankung“ einen Besuch beim Augenarzt. Perplexity nannte sogar eine Prävalenz von 1 zu 90.000.

Auch im März 2026 hatte sich die Lage kaum verbessert. Microsoft Copilot antwortete, es handele sich „noch nicht um eine breit anerkannte Diagnosebezeichnung, werde aber als gutartige Erkrankung im Zusammenhang mit Blaulichtexposition beschrieben“, während Perplexity von einem „neu aufkommenden Begriff“ sprach.

Das noch gravierendere Problem: Verunreinigung von Fachzeitschriften

Die gefälschte Studie wurde auch in einer echten Fachzeitschrift zitiert. Ein indisches Forschungsteam zitierte Bixonimania in einem im Springer-Nature-Journal Cureus veröffentlichten Paper als „neue Form der blaulichtbedingten periorbitalen Hyperpigmentierung“ und behandelte sie als Tatsache. Der betreffende Artikel wurde nach einer Anfrage von Nature am 30. März 2026 zurückgezogen.

Alex Ruani vom UCL, der zu Desinformation im Gesundheitsbereich forscht, bezeichnete das Experiment als „Lehrbuchbeispiel dafür, wie Falsch- und Desinformation funktionieren“. Er warnte, dass man „unser Vertrauen wie Gold hüten“ müsse – auch deshalb, weil nicht nur AIs, sondern auch menschliche Forschende auf die gefälschte Studie hereingefallen seien.

Warum passiert so etwas?

Laut einer Studie von Mahmud Omar, einem Experten für AI und Medizin an der Harvard Medical School, neigen LLMs eher dazu, Falschinformationen zu erzeugen und weiter auszuschmücken, wenn sie professionell formatierte Texte wie Krankenhaus-Entlassungsberichte oder klinische Fachartikel verarbeiten, als bei Social-Media-Posts. „Je mehr der Text wie von einem Arzt geschrieben aussieht, desto höher ist die Halluzinationsrate“, sagte er.

Die Erklärungen der Unternehmen

OpenAI: „Die Modelle, die ChatGPT heute antreiben, haben sich bei der Genauigkeit medizinischer Informationen deutlich verbessert, und Forschungsergebnisse auf Basis früherer Modelle unterscheiden sich von der heutigen Nutzererfahrung.“
Google: „Die Ergebnisse spiegeln die Grenzen früher Modelle wider; bei sensiblen medizinischen Informationen empfehlen wir die Konsultation von Fachleuten.“
Perplexity: „Genauigkeit ist eine unserer Kernstärken, aber wir behaupten nicht, zu 100 % korrekt zu sein.“
Microsoft: keine offizielle Stellungnahme

Was daraus folgt

Dieses Experiment zeigt eindrücklich, wie schnell sich schon eine einzige falsch gestaltete Information über AI verbreiten kann, in einer Realität, in der AI-Chatbots sich rasch als Anbieter medizinischer Informationen etablieren. Statt medizinische Aussagen von AI unkritisch zu übernehmen, wird es wichtiger denn je, seriöse Quellen selbst zu prüfen.

Original: Nature, 2026.04.07

4 Kommentare

kalista22 22 일 전

Das erinnert mich an den Srekovic-Zwischenfall von Park Moon-seong.

beepp 22 일 전

Es scheint zwar einen Prozess zu geben, der beurteilt, ob eine Quelle maßgeblich oder vertrauenswürdig ist, aber offenbar ist das System trotzdem noch anfällig.

cjinzy 22 일 전

Ich frage mich, warum Anthropic fehlt ''

baam12 21 일 전

Na gut, bei einer KI schon, aber hat das indische Forschungsteam es nicht einmal gelesen?