- 2017 vorgestellte KI-Modelle wie CheXNet zeigten bei der Diagnose von Lungenentzündungen eine höhere Genauigkeit als menschliche Radiologen, konnten diese Ergebnisse in der realen medizinischen Praxis jedoch nicht reproduzieren
- Obwohl in jüngster Zeit Hunderte von Radiologie-KI-Modellen eine FDA-Zulassung erhalten haben, erreichen Stellenangebote und Gehälter für Radiologen in den USA stattdessen Rekordwerte
- Zu den Grenzen von Medical AI zählen Datenmangel, Unterschiede zur realen Einsatzumgebung, regulatorische und versicherungstechnische Hürden sowie die Tatsache, dass menschliche Radiologen neben der Diagnose viele weitere Aufgaben übernehmen
- Statt vollständiger Automatisierung ist ein System aus Mensch und KI im Zusammenspiel zum Standard in der Gesundheitsbranche geworden, und selbst mit dem Fortschritt der KI sinkt der Bedarf an Radiologen nicht
- Das erste Jahrzehnt der Verbreitung von Medical AI zeigt das Paradox, dass KI zwar großes Potenzial zur Produktivitätssteigerung hat, in der Praxis aber mehr Nachfrage nach menschlicher Arbeit erzeugen kann
Einleitung: Einführung von KI und Erwartungen
- KI-Modelle wie CheXNet, die 2017 aufkamen, wurden mit mehr als 100.000 Thorax-Röntgenaufnahmen trainiert und erzielten bei der Erkennung von Lungenentzündungen bessere Resultate als menschliche Fachärzte
- Mehrere Unternehmen wie Annalise.ai, Lunit, Aidoc und Qure.ai haben KI-Systeme veröffentlicht, die Hunderte von Krankheiten erkennen können und sich auch in Krankenhaus-Informationssysteme integrieren lassen
- Es gibt mehr als 700 von der FDA zugelassene Radiologie-KI-Modelle, was 75 % aller Medical-AI-Geräte entspricht
- Die Radiologie galt wegen digitaler Eingaben, Mustererkennung und klar messbarer Ergebnisse als besonders geeignet für eine Ersetzung durch KI
- Tatsächlich erreicht die Nachfrage nach der Ausbildung von Radiologen jedoch ein Rekordniveau, und auch die Löhne sind gegenüber 2015 um 48 % gestiegen – die Nachfrage nach menschlichen Fachkräften nimmt also zu
Grenzen von KI-Systemen für radiologische Diagnostik
Unterschiede zwischen realer Umgebung und Trainingsdaten
- Radiologie-KI-Modelle liefern bei standardisierten Daten und unter bestimmten Bedingungen hervorragende Leistungen, in realen Krankenhausumgebungen sinkt die Performance jedoch aufgrund von Unterschieden zwischen Krankenhausdaten, Eigenschaften der Diagnosegeräte und mangelnder Diversität
- Die meisten Modelle erreichen nur für bestimmte Krankheiten und einen bestimmten Bildtyp hohe Genauigkeit; in vielfältigeren Fällen entsteht die Unbequemlichkeit, mehrere Modelle abwechselnd einsetzen zu müssen
- Selbst von der FDA zugelassene Algorithmen decken nur einen Teil der tatsächlichen Bildbefundung ab und konzentrieren sich meist auf einige wenige wichtige Erkrankungen wie Schlaganfall, Brustkrebs und Lungenkrebs
- Hinzu kommen Probleme durch fehlende Daten zu Kindern, Frauen und ethnischen Minderheiten sowie eine geringere Vorhersagekraft, wenn sich Krankheiten nur subtil zeigen oder mit anderen Erkrankungen vermischt auftreten
Lücke zwischen Benchmark und klinischer Anwendung
- In Benchmark-Tests erzielt KI hohe quantitative Kennzahlen, im tatsächlichen klinischen Umfeld erreichen menschliche Radiologen und unterstützende Systeme jedoch nicht die erwarteten guten Ergebnisse
- So erhöhte ein unterstützendes KI-System im Bereich der Mammografie zwar die Sensitivität der Befundung, steigerte aber nur die Zahl unnötiger Zusatzuntersuchungen und Biopsien, ohne die Krebsentdeckungsrate zu erhöhen
- Das „Doppelbefunden“, bei dem ein oder zwei menschliche Befunder gemeinsam lesen, zeigte eine höhere Krebserkennungsrate als KI-Unterstützung und zugleich eine niedrigere Quote unnötiger Nachuntersuchungen
Rechtliche und institutionelle Regulierung begrenzt das Tempo der Automatisierung
- Die FDA unterscheidet radiologische Software in „Assistenz-/Klassifikationstools“ und „vollautomatisierte Tools“
- Vollautomatisierung ist selten und wird nur unter einigen speziellen Bedingungen angewendet, etwa bei IDx-DR
- Bilder, die für KI schwer zu beurteilen sind, muss die Software selbstständig aussortieren und an medizinisches Personal weiterleiten
- Die regulatorischen Anforderungen sind hoch, und selbst bei jedem erneuten Training oder jeder Änderung eines Modells ist eine neue Zulassung erforderlich
- Versicherer gehen davon aus, dass automatisierte Tools bei Fehlern ein höheres Risiko kollektiver Schäden bergen, und neigen daher dazu, Befunde zu meiden, die ausschließlich durch KI erstellt wurden
- Rechtlich gilt als Standard oft, dass nur Befunde, die ein Arzt direkt interpretiert und unterschrieben hat, erstattungsfähig sind
Veränderung der Rolle menschlicher Radiologen
- Tatsächlich verwenden Radiologen nur 36 % ihrer Zeit auf die Bildinterpretation; den Rest widmen sie Beratungsgesprächen mit Patienten und Kollegen, der Überwachung von Untersuchungen, Ausbildung, Änderungen von Verordnungen und weiteren Aufgaben
- Selbst wenn die Zeit für Bildbefundung sinkt, kam es nicht zu unnötigen Entlassungen; vielmehr nahmen neue Aufgaben zu, und insgesamt stieg sogar das Volumen der Bildauswertung
- Beispielsweise stieg beim Wechsel von filmbasierten zu digitalen Systemen die Produktivität der Bildbefundung stark, doch es kam nicht zu einem Personalabbau; stattdessen nahm die Gesamtzahl der bildgebenden Untersuchungen um mehr als 60 % zu
- Eine höhere Geschwindigkeit bei der Bildverarbeitung führt zu vielfältigeren Einsatzmöglichkeiten im Gesundheitssystem, etwa zu kürzeren Wartezeiten für Untersuchungen und einer besseren Reaktionsfähigkeit in Notfällen
Ausblick: Lehren aus dem ersten Jahrzehnt der KI-Verbreitung
- In den vergangenen zehn Jahren verlief die Einführung in die Alltagsversorgung deutlich langsamer als der technische Fortschritt der KI-Modelle
- Nichttechnische Faktoren wie Regulierung, Versicherung, Patientengespräche und die Handlungsautonomie von Ärzten wirken als Barrieren gegen vollständige Ersetzung
- KI trägt im Grundmodell nicht zur Ersetzung von Personal bei, sondern zur Produktivitätssteigerung durch Zusammenarbeit mit Menschen
- Auf großen Plattformen (z. B. Facebook) mag das Automatisierungspotenzial durch KI hoch sein, doch je stärker Wissensarbeit aus vielfältigen Aufgaben besteht, desto eher erhöht die Einführung von Software die menschliche Arbeitsmenge, statt sie zu verringern
- Die Erfahrungen aus der Radiologie zeigen das paradoxe Ergebnis, dass KI menschliche Arbeit nicht sofort ersetzt, sondern zusammen mit sozialen, institutionellen und verhaltensbezogenen Veränderungen die Nachfrage nach menschlichen Fachkräften eher aufrechterhält oder sogar erhöht
1 Kommentare
Hacker-News-Kommentare
Ich bin interventioneller Radiologe und habe außerdem einen Master in Informatik. Außerhalb der Radiologie scheint man oft nicht gut zu verstehen, warum AI die Radiologie noch nicht ersetzt hat. Zur Erklärung: Auf die Frage, ob AI Bildbefunde besser erstellen kann als menschliche Radiologen, lautet die Antwort fast immer „ja“ oder „bald ja“. Aber auf die Frage, ob Radiologen ersetzt werden, lautet die Antwort fast immer „nein“. Der Grund ist das medizinrechtliche Risiko. Solange sich die Gesetze nicht ändern, muss ein Radiologe jeden Bericht final unterzeichnen. Selbst wenn AI die Bilder auswertet und perfekte Berichte schreibt, bleibt die abschließende Prüfung durch den Radiologen der Engpass. Radiologen lesen heute schon täglich mindestens 60 bis 100 Untersuchungen unterschiedlichster Art in hohem Tempo, und das liegt nahe an der menschlichen Belastungsgrenze. Selbst wenn AI alle Berichte schreibt, muss trotzdem alles geprüft und unterschrieben werden, also ist der Zeitgewinn gering. Natürlich mag es einzelne unverantwortliche Ärzte geben, die einfach nur auf „Unterschreiben“ klicken, aber dann wird es auch Anwälte geben, die genau darauf ihre Klagen vorbereiten.
Als Tesla 2016 ein Demo-Video zum vollautonomen Fahren veröffentlichte und behauptete, „der Fahrer sitzt nur aus rechtlichen Gründen dort und tut nichts, das Auto fährt selbst“, dachte ich, das Trucking-Geschäft würde sich für immer verändern, und überlegte mir den Einstieg in die Branche noch einmal. Aber 2025 steht praktisch vor der Tür, und die meisten Veränderungen sind langsam oder fast gar nicht eingetreten. Es gibt viel Optimismus darüber, wie stark Technologie die Welt verändern wird, aber in der Realität verläuft Wandel oft sehr langsam oder stagniert ganz.
Die beste Anekdote zu Machine Learning und Radiologie stammt für mich aus der Zeit, als alle versuchten, COVID-Infektionen anhand von Lungenröntgenbildern mit AI zu erkennen. Einer Forschungsgruppe gelang scheinbar eine recht gute Klassifikationsleistung, aber später stellte sich heraus, dass das Modell lediglich die unterschiedlichen Schriftarten der Wasserzeichen verschiedener Krankenhäuser im Datensatz gelernt hatte und nicht COVID, sondern „Fonts“ unterschied. Referenz: Nature Machine Intelligence Suchbegriff: „AI for radiographic COVID-19 detection selects shortcuts over signal“. Es gibt dazu auch frei zugängliche Paper.
Der Kern des Artikels sind diese drei Punkte: 1) Wenn man Modellen mehr Aufgaben übertragen will, stößt man auf gesetzliche Regulierung. 2) Regulierer und Versicherer genehmigen bzw. vergüten autonome Modelle nicht. 3) Der diagnostische Teil macht nur einen kleinen Anteil der radiologischen Arbeit aus; viel Zeit geht für Kommunikation mit Patienten und medizinischem Personal drauf. Selbst wenn ein Machine-Learning-Modell Diagnosen perfekt und kostenlos liefern würde, könnten Radiologen in dieser Struktur nicht sofort „ersetzt“ werden.
Allein heute habe ich eine Patientin zur Core-Needle-Biopsie in die Radiologie überwiesen, einen männlichen Patienten für eine Lendenwirbelsäuleninjektion, einen weiteren für eine Schulterinjektion, und vor einem Monat eine andere Patientin zur Embolisation wegen Endometriose. Als Nächstes plane ich noch eine Überweisung zur Embolisation eines Urinlecks nach Nephrektomie. Kann ein LLM solche Eingriffe durchführen? Wenn AI eine Fähigkeit breit verfügbar macht, weichen Fachgruppen auf andere Fähigkeiten aus und geben die kommoditisierten Tätigkeiten ab. Als zum Beispiel die ECG-Befundung in Geräte automatisiert wurde, brach die Vergütung stark ein, und ich habe diese Fähigkeit bewusst vernachlässigt und mich stattdessen auf Gehirn- und Bewegungsstörungen konzentriert. Wenn ein Patient also eine ECG-Interpretation braucht, schicke ich ihn einfach zum Kardiologen, der dann weitere Untersuchungen anordnet. Das kostet Patienten und dem Gesundheitssystem zusätzlich Zeit und Geld, aber so ist es nun einmal. Künftig könnte es so etwas wie „medizinische Wüsten“ in Bereichen geben, in denen AI-Spezialisten nicht arbeiten wollen, besonders bei älteren Menschen, auf dem Land oder in der Psychiatrie.
2016 sagte Geoffrey Hinton, man solle die Ausbildung von Radiologen nun einstellen. Hätte man einfach allen Aussagen von AI-Befürwortern geglaubt, wäre die Welt längst zusammengebrochen.
Ich bin Arzt und Full-Stack-Engineer, und deshalb habe ich kein Interesse daran, Radiologe zu werden oder noch mehr Weiterbildung zu machen. AI wird die Radiologie zuerst verstärken und danach beginnen, einige Tätigkeiten zu ersetzen. Bestehende Radiologen werden sich dann natürlich in neue Bereiche wie interventionelle Radiologie verlagern.
Im Mai dieses Jahres brachte auch die New York Times einen ähnlichen Artikel mit dem Tenor „AI ersetzt Radiologen nicht“. Zum NYT-Artikel Die Aussagen der Ärzte und von Hinton sind interessant: „AI wird unterstützen und quantifizieren, aber nicht die interpretative Schlussfolgerung der Technologie übernehmen.“ „In fünf Jahren wird es eher ein Kunstfehler sein, keine AI zu verwenden.“ „Aber am Ende werden Mensch und AI zusammengehen.“ Hinton räumte später per E-Mail ein, dass er zu stark verallgemeinert habe; er habe nur über Bildinterpretation gesprochen, mit der Richtung recht gehabt, aber beim Zeitplan falsch gelegen.
Die AI-Transformation der Radiologie sollte verpflichtend sein. Radiologen sollten jeden Tag einen festen Mindestanteil AI einsetzen und ihre Produktivität verdoppeln müssen; sonst sollten sie entlassen werden. Wie CEOs sagen, ist AI die revolutionärste Technologie, die wir je gesehen haben, also muss sie aus Angst unbedingt übernommen werden. Alles andere ist inakzeptabel.
Ich würde es nicht vertrauen, wenn Ärzte, die keine Radiologen sind, die Interpretation von AI-Befunden übernehmen müssten. Selbst wenn AI in Benchmarks hervorragend abschneidet, ist das wie bei einem 20-seitigen Fachpaper: Ohne das Hintergrundwissen für eine eigene Analyse kann man kaum beurteilen, ob man dem Ergebnis vertrauen sollte.