Neubewertung des Papers „Frontier AI schlägt medizinische Spezial-Tools“: Interrater-Übereinstimmung 0,10, Juroren sind zugleich Teilnehmer
(flamehaven.space)Kurzfassung
- In dem am 12. Juni 2026 in Nature Medicine veröffentlichten Paper „General-purpose large language models outperform specialized clinical AI tools on medical benchmarks“ wurde berichtet, dass allgemeine Frontier-Modelle wie GPT-5.2, Gemini 3.1 Pro und Claude Opus 4.6 medizinische Spezial-Tools wie OpenEvidence und UpToDate AI übertreffen
- OpenEvidence und UpToDate AI sind klinische Entscheidungsunterstützungs-Tools, mit denen Ärztinnen und Ärzte während der Behandlung in Echtzeit Evidenz recherchieren und nutzen; sie werden in Krankenhäusern bereits eingesetzt
- Direkt nach der Veröffentlichung verbreitete sich das Paper stark; anschließend wurden mögliche Interessenkonflikte bekannt, da der Autor selbst eine konkurrierende medizinische KI betreibt und in der Vergangenheit erfolglos API-Zugriff auf OpenEvidence angefragt hatte
- Bei einer eigenen Überprüfung der Methodik fand der Autor mehrere statistische Mängel, die es schwer machen, die Rangfolge selbst zu stützen
Aufbau des Papers und oberflächliches Fazit
- Die Bewertung erfolgte in drei Stufen
- Bewertung medizinischen Wissens mit 500 Fragen aus MedQA
- Bewertung der klinischen Ausrichtung mit 500 Fragen aus HealthBench
- Für 100 echte klinische Anfragen (RCQ) führten 12 US-Klinikerinnen und -Kliniker insgesamt 1.800 Bewertungen durch
- Das Fazit lautet, dass Frontier-Modelle in allen drei Bewertungen spezialisierten klinischen Tools voraus waren und dass Modellgröße und Alignment-Ansatz wichtigere Faktoren sein könnten als domänenspezifisches Tuning
Problem der Bewertungszuverlässigkeit
- Krippendorff's Alpha, ein Maß für die Übereinstimmung zwischen Bewertern, lag bei RCQ bei 0,10 bis 0,20
- Dieser Wert bedeutet bei 0 Zufallsniveau und bei 1 vollständige Übereinstimmung; für Rankings wird üblicherweise mindestens 0,67 verlangt
- Die zentrale Grafik des Papers (Figure 2c), die die Überlegenheit einzelner Modelle zeigt, basiert auf dem Durchschnitt solcher Scores mit geringer Übereinstimmung
Die Jury ist zugleich Gegenstand der Bewertung
- Bei HealthBench bewertet ein LLM die Antworten anderer LLMs; die Jury bestand jedoch ausschließlich aus den drei Modellen, die selbst bewertet wurden: GPT-5.2, Gemini 3.1 Pro und Claude Opus 4.6
- Klinische Spezial-Tools waren nicht Teil der Jury
- HealthBench ist ein von OpenAI erstellter Benchmark, und GPT-5.2 von OpenAI wurde auf demselben Benchmark bewertet
- Ein self-preference bias, bei dem das eigene Modell oder ähnliche Modellfamilien wohlwollender bewertet werden, ist ein bekanntes Phänomen; diese Struktur enthält keinen Mechanismus, um diese Verzerrung herauszufiltern
Ein Problem, das dem vorherigen Sehen der Prüfungsfragen ähnelt
- MedQA und HealthBench sind seit Langem im Internet öffentlich verfügbare Datensätze
- Da Frontier-Modelle auf riesigen Mengen von Internettext trainiert werden, besteht die Möglichkeit, dass sie diese Fragen und Antworten bereits während des Trainings gesehen haben
- Das Paper erkennt diese Möglichkeit zwar an, berechnet aber nicht, wie stark sie die Ergebnisse tatsächlich beeinflusst hat
Probleme bei der Statistik
- 1.704 Beobachtungen, bei denen mehrere Modelle und mehrere Bewerter dieselben Fragen bewerteten, wurden behandelt, als wären sie voneinander unabhängig
- Scores zur selben Frage hängen wegen der Schwierigkeit dieser Frage miteinander zusammen; ignoriert man das, entsteht Pseudoreplikation, wodurch Ergebnisse statistisch sicherer wirken, als sie tatsächlich sind
- Separat dazu wird im Paper für den Vergleich der Ablehnungsrate von UpToDate (19 %) mit der Ablehnungsrate von Google AI Overview (6 %) im Fisher's exact test ein Wert von P=0,10 angegeben
- Rechnet man mit den Rohdaten (19/100 gegenüber 6/100) direkt nach, ergibt sich ein p-Wert von etwa 0,009. Nach dem im Paper angegebenen Signifikanzniveau von 0,05 wäre das ein signifikanter Unterschied; ohne offengelegte Korrekturmethode muss diese Differenz erklärt werden
Unterschiedliche Bewertungsbedingungen
- Frontier-Modelle wurden deterministisch per API mit temperature 0 bewertet
- Klinische Tools wurden über Browser-Interfaces bewertet. Dabei können bei jedem Durchlauf andere Ergebnisse entstehen, und interne Prompts sind nicht offengelegt
- Abgelehnte Antworten wurden aus der Auswertung ausgeschlossen. UpToDate lehnte 19 % ab, sodass relativ gesehen nur Scores für einfachere Fragen übrig blieben; Frontier-Modelle lehnten nur 1–3 % ab, sodass ihre Scores die gesamte Fragenverteilung abbildeten
Andere Benchmarks liefern andere Ergebnisse
- Eine separate medRxiv-Studie wandte denselben Triage-Benchmark, der gezeigt hatte, dass ChatGPT Health 51,6 % echter Notfälle unterschätzt (undertriage), auf OpenEvidence an
- Die Undertriage-Rate von OpenEvidence lag bei 12,5 % und damit bei etwa einem Viertel des Werts von ChatGPT Health
- Selbst bei denselben Tools können die Ergebnisse stark davon abhängen, mit welchem Benchmark bewertet wird. Die Benchmark-Auswahl selbst ist eine Variable, die das Fazit bestimmt
Warum dieses Paper gerade jetzt wichtig ist
- OpenEvidence ist bereits ein Tool, das täglich von Zehntausenden Ärztinnen und Ärzten in den USA während der Behandlung genutzt wird. Dieser Vergleich ist keine akademische Frage, sondern eine Frage dazu, welche Tools Krankenhäuser heute einführen
- 2026 ist der Zeitpunkt, an dem Krankenhäuser und Versicherer tatsächlich Beschaffungsverträge für medizinische KI abschließen. Ein einzelnes Benchmark-Paper kann unmittelbar als Grundlage dafür dienen, ob ein Vertrag abgeschlossen und ein Tool eingeführt wird
- Ein Paper in Nature Medicine erhält sofort nach Veröffentlichung Autorität und verbreitet sich entsprechend. Die erneute Prüfung, die strukturelle Mängel aufzeigte, erschien zwar wenige Tage nach der Veröffentlichung, doch Klinikerinnen und Kliniker hatten ihre Schulungsinhalte an diesem Tag bereits geändert
- Sind solche Ergebnisse einmal in Beschaffungsentscheidungen oder Behandlungsleitlinien eingeflossen, kostet es Zeit und Geld, Verträge und Praktiken trotz später entdeckter Mängel zurückzudrehen
- Während medizinische KI-Benchmarks weiter in großer Zahl erscheinen, können Infrastruktur und Personal für unabhängige Replikation mit diesem Tempo nicht mithalten. Es geht nicht nur um ein einzelnes Paper, sondern um ein strukturelles Problem, das sich wiederholen wird
Fazit
- Dieser Text behauptet nicht, dass die Richtung des Papers falsch ist
- Allerdings fallen Jury-Selbstbewertung, geringe Interrater-Übereinstimmung, mögliche Kontamination der Trainingsdaten und Fehler in der statistischen Auswertung gleichzeitig zusammen. Ergebnisse mit einer solchen Häufung von Mängeln sollten nicht über Beschaffungsverträge und klinische Leitlinien entscheiden
- Das Paper formulierte sein Fazit mit großer Sicherheit, doch die Daten tragen diese Sicherheit nicht. Das Problem ist nicht die Absicht der Autoren, sondern eine Struktur, in der Gewissheit ohne ausreichende Prüfung zuerst zirkuliert
- Jetzt, da medizinische KI in Krankenhäuser einzieht, braucht es nicht zuerst ein weiteres Benchmark-Paper, sondern ein unabhängiges Audit-System, das solche Papers überprüft. Solange Behauptungen schneller zirkulieren als ihre Validierung, wird sich dasselbe beim nächsten Paper wiederholen
Noch keine Kommentare.