- Nach einem MRT wegen Schmerzen in der rechten Schulter kamen Zweifel an der Diagnose des Krankenhauses – Grade-III-Partialruptur – und dem schnellen Behandlungsplan auf; daher wurde mit Opus 4.8 eine erneute Bildauswertung versucht
- Das Krankenhaus sah an der „apical insertion“ der Subscapularis-Sehne eine Partialruptur über mehr als 50 % der Breite, während Opus 4.8 die Sehne als intakt beurteilte – die Schlussfolgerungen gingen also stark auseinander
- GPT 5.5 Pro stellte die Evidenz für die im Krankenhaus eingesetzte Stoßwellentherapie und Traumeel-Injektion infrage, was die Motivation erhöhte, die Diagnose selbst zu überprüfen
- Opus 4.8 analysierte in der Claude-Code-Umgebung Hunderte von DICOM-MRT-Dateien mit etwa 266 MB durch Paketinstallation und Codeausführung; anschließend wurde eine vermittelnde Analyse erneut durchgeführt, inklusive menschlichem Befundbericht und ChatGPT-Gespräch
- Das abschließende Vermittlungsergebnis lag eher bei „leichte Insertions-Tendinopathie, keine eindeutige Partial- oder Komplettruptur“, doch die Unsicherheit bleibt, wem man mehr vertrauen soll: medizinischen Fachleuten oder KI
Schnell durchgeführte MRT-Diagnose und Behandlung
- Über mehrere Wochen bestanden Schmerzen in der rechten Schulter; obwohl sich die Symptome zu bessern schienen, wurde die Meinung eines Orthopäden eingeholt
- Der Arzt empfahl ein MRT, das direkt in der Klinik durchgeführt werden konnte
- Das MRT-Ergebnis führte zur Diagnose einer Grade III (>50%-width) partial-thickness tear an der „apical insertion“ der Subscapularis-Sehne
- Das Krankenhaus begann wenige Minuten nach dem MRT mit der Behandlung und plante, dieselbe Behandlung insgesamt dreimal zu wiederholen
- Weil die Behandlung übermäßig schnell voranzuschreiten schien, wurden beim Verlassen der Klinik eine Kopie der MRT-Ergebnisse sowie eine Liste der durchgeführten und vorgeschlagenen Behandlungen angefordert
GPT 5.5 Pro weist auf Probleme bei der Behandlungsgrundlage hin
- Nachdem die MRT-Ergebnisse und die Behandlungsliste an GPT 5.5 Pro übergeben wurden, fielen sofort zwei Punkte auf
- Das Krankenhaus führte an der Schulter eine Stoßwellentherapie durch, obwohl aktuelle klinische Leitlinien sagen, dass Stoßwellentherapie bei nicht kalzifizierender Rotatorenmanschetten-Tendinopathie nicht eingesetzt bzw. nicht empfohlen werden sollte
- Während des Ultraschalls wurde gesagt, dass keine Verkalkung vorliege
- Das Krankenhaus injizierte Traumeel, ein homöopathisches Arzneimittel, das in Deutschland mit „keine therapeutische Indikation“ registriert ist
- Dadurch sank das Vertrauen in Diagnose und Behandlung des Krankenhauses weiter, und der Wunsch entstand, das MRT selbst zu analysieren
MRT-Analyse mit Opus 4.8 in Claude Code
- Das MRT-Paket war ein standardmäßiger DICOM-Export aus Hunderten von Dateien ohne Dateiendung; die Gesamtgröße betrug etwa 266 MB
- Für die Analyse wurde innerhalb von Claude Code Opus 4.8 (xhigh) verwendet
- Claude Code wurde gewählt, damit Code ausgeführt und Pakete installiert werden konnten
- Es wurde angewiesen, die für die Analyse benötigten Pakete vorab zu installieren
- Selbst bei Verwendung desselben Modells wurde der Unterschied zwischen Claude Code und dem Chat auf Claude.ai als sehr groß eingeschätzt
- Da kein MRT-Fachwissen vorhanden war, wurde Claude so eingerichtet, dass es zunächst einen detaillierten Plan erstellt und ihn dann ausführt
- Der anfänglich bereitgestellte medizinische Kontext bestand nur aus „Schmerzen in der rechten Schulter seit 2–3 Wochen“ und war nach eigener Einschätzung geringer als die Informationen, die der menschliche Arzt erhalten hatte
Erste Analyse: Uneinigkeit darüber, ob eine Ruptur vorliegt
- Nach etwa 1 Stunde gab Opus 4.8 einen Bericht zurück
- Die Befunde des Krankenhauses und von Opus 4.8 standen nahezu im direkten Gegensatz
- Das Krankenhaus sah an der apical insertion der Subscapularis-Sehne eine Grade-III-Partialruptur
- Opus 4.8 beurteilte die betreffende Sehne als intact tendon
- Erwartet worden war allenfalls, dass der Rupturgrad niedriger eingestuft würde; tatsächlich unterschied sich jedoch schon die Einschätzung, ob überhaupt eine Ruptur vorlag
Vermittlung zwischen menschlichem und KI-Befund
- Um die beiden Ergebnisse abzugleichen, wurde Opus 4.8 erneut mit einer Vergleichsanalyse beauftragt
- Dieses Mal wurden nicht nur der menschliche MRT-Bericht, sondern auch das Gespräch mit ChatGPT 5.5 Pro bereitgestellt
- Dieses Gespräch enthielt Bewegungen und Haltungen, die versucht wurden, um die Diagnose einzugrenzen
- Opus ging so vor, dass mehrere Subagenten eingesetzt wurden, um eine neue Analyse zu erhalten, die weniger durch den bestehenden Kontext verzerrt war
- Nach erneut etwa 1 Stunde lag ein neuer Bericht vor
- Das Vermittlungsergebnis kam zu dem Schluss, dass die Evidenz eher zugunsten von Reader A spricht, zusammengefasst mit „moderate-to-high confidence“
- Leichte Insertions-Tendinopathie
- Keine eindeutige Partial- oder Komplettruptur, einschließlich an der apical insertion
- Einige Streitpunkte zwischen den beiden Berichten seien nicht auflösbar, bei diesem Punkt fiel das Fazit jedoch vergleichsweise entschieden aus
- Leichte Insertions-Tendinopathie
Verbleibende Optionen nach der KI-Zweitmeinung
- Es gibt ein Gefühl von Sicherheit, wenn man sich einem vertrauenswürdigen Experten anvertraut, doch eine KI-gestützte Zweitmeinung kann dieses Gefühl unangenehm ins Wanken bringen
- Nach der KI-Analyse wirkten die ursprüngliche Diagnose und der Behandlungsplan im Verhältnis zur Faktenlage übereilt und interventionslastig, doch auch der KI selbst lässt sich nicht vollständig vertrauen
- Die verbleibenden Optionen sind, einen anderen Arzt aufzusuchen oder abzuwarten, ob sich die Schulter durch die derzeitige Rehabilitation bessert
- In einigen Generationen wird man hoffentlich einer KI-gestützten MRT-Überprüfung so vertrauen können wie heute der Korrektur von E-Mails
- Klinik und Arzt werden nicht namentlich genannt; diese Erfahrung ist kein medizinischer Rat, sondern ein Fall technischer Neugier darauf, mit KI eine Zweitmeinung einzuholen
1 Kommentare
Meinungen auf Hacker News
Ich bin Radiologe, aber ohne den vollständigen 3D-MRT-Datensatz ist das schwer zu beurteilen. Ultraschall ist keine gute Methode, um Verkalkungen zu beurteilen; große Verkalkungen findet man, kleine übersieht man leicht.
Ein einfaches Röntgenbild wäre hilfreicher und im MRT könnten sie ebenfalls sichtbar gewesen sein. Jedenfalls ist eine Stoßwellentherapie ohne Verkalkungen nicht schädlich, sie hilft dann nur einfach nicht.
Wenn in einem radiologischen Befund „nicht vorhanden“ steht, ist immer implizit die Einschränkung gemeint: „nicht vorhanden innerhalb dieser Bildgebungsmethode und des erfassten Bildbereichs“. Deshalb ist es kein Widerspruch, wenn im Ultraschallbericht steht, es gebe keine Verkalkung, und im einfachen Röntgenbericht steht, es gebe eine.
Für Patienten oder Menschen, die mit medizinischer Terminologie nicht vertraut sind, ist das natürlich verwirrend. Würde man das alles aber in den Bericht ausschreiben, wäre er noch voller konditionaler Formulierungen als heute und noch nerviger zu lesen.
Das erinnert mich an die Anekdote, in der Babbage gefragt wurde, ob eine Rechenmaschine eine richtige Antwort ausgäbe, wenn man ihr eine falsche Frage eingibt. Er antwortete sinngemäß: „Ich kann die Logik des Geistes, der auf eine solche Frage kommt, beim besten Willen nicht nachvollziehen.“
Eine KI sollte zumindest darauf hinweisen, dass Kalzium in Röntgen/CT besser sichtbar ist als im Ultraschall.
Für Interessierte: Wir bieten einen Zweitmeinungsservice durch zugelassene menschliche Radiologen an: https://expert.med
Das ist wirklich der Kern der Sache. Man weiß, dass man KI nicht vertrauen kann, aber gleichzeitig ist es viel einfacher, von einer KI weitere Erklärungen zu verlangen oder ihr zu widersprechen. Es gibt keine Termine nach Stundenplan und keine Kosten pro Stunde; das ist ein großer Faktor. Mehr Informationen helfen aber nicht zwangsläufig.
Ich habe einmal mit einem 11 Jahre alten Civic mit 150.000 Meilen auf dem Tacho bei mehreren Werkstätten das „Zweitmeinungs“-Spiel gespielt. Ich wollte die Empfehlungen der einzelnen Werkstätten vergleichen und daraus ableiten, was zu tun ist.
Das Ergebnis waren drei völlig unzusammenhängende Empfehlungen, von denen eine etwas war, von dem ich sicher wusste, dass es falsch war. Danach fühlte ich mich schlechter als vorher.
Die Lösung für unsichere Informationen ist nicht mehr Information, wie KI sie liefern kann, sondern bessere Information; und die kann KI derzeit nicht liefern.
Es ist ziemlich aufschlussreich, wie viele unterschiedliche und widersprüchliche Antworten dabei herauskommen. Die meisten werden selbstbewusst präsentiert.
Als ich zuletzt Claude eine medizinische Frage gestellt habe, bekam ich nicht einmal zwischen den Sessions konsistente Antworten.
Noch beängstigender ist, wie leicht ich jedes LLM zu der Antwort führen kann, die ich im Kopf habe. Sobald ich anfing, nach Optionen zu fragen, die ein anderes LLM vorgeschlagen hatte, driftete jede Session in Richtung dieser Erklärung.
Ein Mysterium ist schlimmer. Mit jedem zusätzlichen Datenstück rückt das Ziel weiter weg. Alles wird immer verworrener.
Diese Unterscheidung wurde von Malcolm Gladwell popularisiert.
Ich weiß, dass es zeitaufwendig ist, Meinungen von Mechanikern einzuholen. Aber bei KI ist das nicht so.
Vor ein paar Jahren, noch vor dem AI-Hype, bekam ich einmal eine Fehldiagnose auf Tuberkulose. Ich hatte chronischen Husten, und ein externer Radiologe einer Klinik fand Anzeichen für Tuberkulose. Das Ergebnis wurde, wie gesetzlich vorgeschrieben, an das städtische Tuberkulosekrankenhaus weitergeleitet, und die Ärzte dort übernahmen die radiologische Schlussfolgerung unverändert und sagten, ich solle mindestens acht Monate in einem Krankenhaus mit einem gefängnisartig strengen Regime bleiben
Es gab auch keine Möglichkeit, das abzulehnen. Ich wurde als eine Art biologische Gefahr betrachtet und musste mich rechtlich daran halten
Vor der Einweisung suchte ich in aller Eile einen anderen Radiologen auf, der eine Lungenentzündung diagnostizierte. Als ich diesen Bericht an den behandelnden Arzt im Tuberkulosekrankenhaus schickte, kamen sie nach Prüfung zu dem Schluss, dass die ursprüngliche Befundung falsch war. Wie sich herausstellte, konnten die Ärzte dort die Bilder überhaupt nicht lesen und vertrauten einfach darauf, was der Radiologe sagte
Das Lustige daran war, dass sie mich bereits in das offizielle Tuberkuloseregister eingetragen hatten und den Fehler nicht zugeben wollten. Stattdessen stellten sie mir ein anderes Dokument aus, nach dem „die Tuberkulose in diesem Krankenhaus in sieben Tagen geheilt wurde“. Vermutlich bin ich der einzige Mensch in diesem Land, der Tuberkulose innerhalb einer Woche besiegt hat
Wenn man Radiologen oder Ärzten nur schwer vertrauen kann, ist es gut, sich, sofern man es sich leisten kann, eine andere Ärztin oder einen anderen Arzt zu suchen. Man kann die Schlussfolgerungen vergleichen und sehen, ob sie übereinstimmen. Wenn zwei voneinander unabhängige Ärzte oder Radiologen dasselbe sagen, ist die Wahrscheinlichkeit ziemlich hoch, dass es der Wahrheit nahekommt
Allerdings weiß ich nicht so recht, wem man mehr vertrauen sollte, AI oder Menschen. AI halluziniert, aber auch bei Menschen habe ich schon mehrfach Fehldiagnosen bekommen
Es sollte wohl eine zentrale Stelle geben, an der Spitzenfachleute die Bilder ansehen, statt jeden Arzt für sich allein darauf schauen zu lassen
Ich finde interessant, wie die Leute hier den menschlichen Körper offenbar wie eine deterministische Funktion betrachten, bei der Eingabe X zu Ausgabe Y führen muss. Diese Erwartung überträgt sich auch auf Diagnosen: Man geht davon aus, dass mehrere Fachärzte für dasselbe Problem zur gleichen Diagnose kommen
Angesichts der Komplexität des menschlichen Körpers ist eine Diagnose das Ergebnis einer Kombination aus im Lauf der Karriere gesammelter Erfahrung, Wissen, diagnostischen Methoden und Geräten. Ein Titel wie „Arzt“ ist eine staatliche Zertifizierung im Sinne von „hat die Prüfung bestanden, also ist es sicher, dass diese Person behandelt“, bedeutet aber nicht, dass alle gleich behandeln
Manche Fachärzte aktualisieren ihr Wissen jeden Monat, manche jedes Jahr, manche gar nicht. Es gibt zu viele Variablen: Region, Politik, sogar das Wetter
Deshalb ist die Wahl des Facharztes wirklich wichtig. Man sollte sich über den Ruf dieser Person hinsichtlich ihrer Behandlungsmethoden und ihres Fachgebiets informieren. Man kann nur die Wahrscheinlichkeit maximieren, die richtige Diagnose zu bekommen; man sollte nicht erwarten, dass jemand automatisch richtigliegt, nur weil er Arzt genannt wird
Ich habe viele Freunde und Familienmitglieder gesehen, denen wegen Schulterschmerzen fast sofort zu einer Operation geraten wurde. Für Menschen, deren Beruf das Operieren ist, wird eine Operation oft zur Standardoption
Ich hatte selbst einmal ziemlich starke Schulterschmerzen, die monatelang nicht nachließen. Ich wollte keine Operation, also versuchte ich es mit Massage und Akupunktur, aber das half überhaupt nicht
Gelöst hat es, dass ich mich wirklich auf Klimmzüge konzentriert habe. Am Anfang schaffte ich keinen einzigen, also begann ich mit Hängen und Scapular Pull-ups und ging allmählich zu normalen Klimmzügen über. Nachdem ich ein paar pro Satz schaffte, trainierte ich nach der „Grease-the-Groove“-Methode
Als ich ungefähr 17 pro Satz schaffte, hörte ich mit dem Trainingsplan auf, und jetzt mache ich über den Tag verteilt dreimal pro Woche 6 Sätze à 7–8 Wiederholungen. Ich mache auch Übungen für die Schulterbeweglichkeit https://www.youtube.com/watch?v=vP8YmmRMz6I
Wenn ich faul werde und es auslasse, kommt das Unbehagen unweigerlich zurück, aber wenn ich wieder Kräftigungsübungen mache, verschwindet es
Wenn Patientinnen und Patienten nach einer schnellen Lösung suchen, bekommen sie offenbar auch so eine Lösung vorgeschlagen. Wenn man sich ein wenig informiert und dann nach der besten Lösung für sich selbst sucht, bekommt man sie in der Regel auch
Vor etwa zwei Jahren habe ich mit ChatGPTs „Deep Research“ eine chronische Sinusitis untersucht, gegen die ich fast drei Jahre lang gekämpft hatte. Nach drei Allgemeinärzten und drei Besuchen beim HNO habe ich alle meine Beobachtungen in die KI eingegeben
Insbesondere konnte der HNO-Arzt nicht erklären, warum er, nachdem er meine Nebenhöhlen endoskopisch untersucht und Hinweise auf eine allergische Reaktion gesehen hatte, später nach einem Allergietest zu dem Schluss kam, dass sich das nicht mit Allergiemedikamenten behandeln lasse. Ich habe mehrmals gefragt, aber er antwortete nicht
ChatGPT fand eine NIH-Studie, der zufolge 20 % der Menschen allergische Reaktionen zeigen, die auf bestimmte Körperbereiche beschränkt sind und bei einem Pricktest an der Schulter möglicherweise nicht sichtbar werden. Als ich ihn danach fragte, sagte er nur: „So funktionieren Allergien nicht.“ Damit war es erledigt. Er dachte nicht einmal daran, sich die Studie anzusehen
Er verschrieb CPAP und regelmäßige Vernebler-Behandlungen. Nebenbei: Der CPAP-Anbieter schickte mir eine SMS, aber ich konnte nicht erkennen, ob das Phishing war; ich fragte nach, wer sie seien, bekam aber keine Antwort
Also beschloss ich einfach, jeden Tag ein Antihistaminikum der zweiten Generation auszuprobieren
Die Sinusitis verschwand. Vorher hatte ich mindestens einmal pro Quartal eine schwere Nebenhöhlenentzündung. Vielleicht funktionieren Allergien ja tatsächlich nicht so, wie dieser Arzt sagte, aber das Allergiemedikament hat mein Problem vollständig gelöst
Dafür bin ich dankbar. Denn ein paar Jahre zuvor hatte ich CPAP einen Monat lang ernsthaft ausprobiert, konnte mich aber überhaupt nicht daran gewöhnen, und mein Schlaf war furchtbar
Dann geht es um Verantwortung und Zeit. Besonders in einem Bereich mit hohen Einsätzen wie der Medizin hat niemand die Zeit oder Motivation, dieses Durcheinander aufzumachen, wenn man jemanden bittet, eine Entscheidung zu überdenken
Wenn man wirklich Erfolg haben will, muss man die in der Studie vorgeschlagenen Tests anbringen, bevor sich die diagnostische Schleife schließt, bevor die Ärzte ihren Fall über einen verfestigt haben. Dann ist die Chance am größten, dass sie sehen, was sie sehen müssen
Es ist besser, einfach ehrlich zu sagen, dass man eine Hypothese mitbringt. Ärzte merken sehr schnell, wenn sie gelenkt werden sollen, aber sie merken deutlich später, wenn der Patient tatsächlich recht hatte. In einem System, in dem überarbeitete Menschen ihr Bestes geben, muss man so vorgehen
Als Radiologe finde ich, dass Claude und ChatGPT beim Befunden von MRTs wirklich miserabel sind, und ich würde ihnen überhaupt nicht vertrauen. Beim Recherchieren textbasierter Materialien haben sie Stärken, aber radiologische Bilder interpretieren sie noch nicht gut genug
Die aktuelle Siemens-MR-Software Deep Resolve erzeugt Signal (etwa 50 % zusätzlich), erzeugt dann eines von zwei Pixeln und bei 3D-Sequenzen eine von zwei Schichten. Sie reduziert die Zeit jeder Sequenz um etwa 59 % und ist wirklich sehr gut
Ich bin MR-Technologe
Tatsächlich würde mich die Elo von ChatGPT 5.5 interessieren. Wegen der Inhalte, die es aufgenommen hat, würde es mich nicht sehr überraschen, wenn es allein durch ein Grundverständnis der Schachprinzipien über 2000 läge
Ich verstehe die negative Reaktion nicht. Die heutige Medizin funktioniert nur, wenn sowohl Arzt als auch Patient mitdenken. Ich hatte kaum je ein Problem nach dem Muster: Der Arzt stellt die Diagnose, und ich mache einfach mit meinem Tag weiter. Wenn das doch vorkam, war ich meist selbst von dem Problem überzeugt und wusste, was nötig war. Der Arzt war dann die Hürde, die den Zugang zur Behandlung blockierte
Dr. GPT ist ein gutes Brainstorming-Werkzeug. Es synthetisiert Informationen auf eine Weise, die mit den Originalquellen allein schwierig ist. Allerdings muss man es auch dazu zwingen, zu sagen: „Das ergibt keinen Sinn.“
Die These „Ärzte kennen den neuesten Stand nicht“ halte ich für eher schwach belegt. Wenn man die Token-Dichte während des Pretrainings und die Zusammensetzung der Post-Training-Datensätze bedenkt, wird es sehr lange dauern, bis es sich an grundlegende Veränderungen anpasst. Wenn wir die Behandlung von Skorbut vergessen hätten, wie viele Paper bräuchte es dann, damit es sich an die neue Entdeckung anpasst?
Bei Bildern würde ich KI nicht vertrauen. Aber einmal sagte ChatGPT allein anhand des Texts eines MRT-Berichts, dass der Bericht sehr wahrscheinlich stark falsch sei, und schlug eine andere Diagnose vor. Es vertrat das ziemlich nachdrücklich, also suchte ich einen anderen Arzt auf und ließ die Untersuchung wiederholen. Kurz gesagt: ChatGPT hatte recht
Noch einmal: Das ist nur eine einzelne Erfahrung einer Person und hat daher keine große Aussagekraft
Ich verstehe nicht, warum Ärzte nicht wenigstens einen Prompt in ein LLM eingeben, bevor sie etwas Falsches sagen. Ist es Stolz?
Bei der Radiologie verstehe ich es, weil sie spezialisierte Convolutional Neural Networks braucht, aber bei eher wissensbasierten Problemen gilt das umso mehr
Ich glaube, es wird viele spezialisierte VLMs geben, die echten Wert liefern
Diese Spielzeuge sind überhaupt nicht vertrauenswürdig. Das heißt nicht, dass sie nutzlos sind, aber man kann ihnen nicht vertrauen