2 Punkte von GN⁺ 10 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • Nach einem MRT wegen Schmerzen in der rechten Schulter kamen Zweifel an der Diagnose des Krankenhauses – Grade-III-Partialruptur – und dem schnellen Behandlungsplan auf; daher wurde mit Opus 4.8 eine erneute Bildauswertung versucht
  • Das Krankenhaus sah an der „apical insertion“ der Subscapularis-Sehne eine Partialruptur über mehr als 50 % der Breite, während Opus 4.8 die Sehne als intakt beurteilte – die Schlussfolgerungen gingen also stark auseinander
  • GPT 5.5 Pro stellte die Evidenz für die im Krankenhaus eingesetzte Stoßwellentherapie und Traumeel-Injektion infrage, was die Motivation erhöhte, die Diagnose selbst zu überprüfen
  • Opus 4.8 analysierte in der Claude-Code-Umgebung Hunderte von DICOM-MRT-Dateien mit etwa 266 MB durch Paketinstallation und Codeausführung; anschließend wurde eine vermittelnde Analyse erneut durchgeführt, inklusive menschlichem Befundbericht und ChatGPT-Gespräch
  • Das abschließende Vermittlungsergebnis lag eher bei „leichte Insertions-Tendinopathie, keine eindeutige Partial- oder Komplettruptur“, doch die Unsicherheit bleibt, wem man mehr vertrauen soll: medizinischen Fachleuten oder KI

Schnell durchgeführte MRT-Diagnose und Behandlung

  • Über mehrere Wochen bestanden Schmerzen in der rechten Schulter; obwohl sich die Symptome zu bessern schienen, wurde die Meinung eines Orthopäden eingeholt
  • Der Arzt empfahl ein MRT, das direkt in der Klinik durchgeführt werden konnte
  • Das MRT-Ergebnis führte zur Diagnose einer Grade III (>50%-width) partial-thickness tear an der „apical insertion“ der Subscapularis-Sehne
  • Das Krankenhaus begann wenige Minuten nach dem MRT mit der Behandlung und plante, dieselbe Behandlung insgesamt dreimal zu wiederholen
  • Weil die Behandlung übermäßig schnell voranzuschreiten schien, wurden beim Verlassen der Klinik eine Kopie der MRT-Ergebnisse sowie eine Liste der durchgeführten und vorgeschlagenen Behandlungen angefordert

GPT 5.5 Pro weist auf Probleme bei der Behandlungsgrundlage hin

  • Nachdem die MRT-Ergebnisse und die Behandlungsliste an GPT 5.5 Pro übergeben wurden, fielen sofort zwei Punkte auf
    • Das Krankenhaus führte an der Schulter eine Stoßwellentherapie durch, obwohl aktuelle klinische Leitlinien sagen, dass Stoßwellentherapie bei nicht kalzifizierender Rotatorenmanschetten-Tendinopathie nicht eingesetzt bzw. nicht empfohlen werden sollte
    • Während des Ultraschalls wurde gesagt, dass keine Verkalkung vorliege
    • Das Krankenhaus injizierte Traumeel, ein homöopathisches Arzneimittel, das in Deutschland mit „keine therapeutische Indikation“ registriert ist
  • Dadurch sank das Vertrauen in Diagnose und Behandlung des Krankenhauses weiter, und der Wunsch entstand, das MRT selbst zu analysieren

MRT-Analyse mit Opus 4.8 in Claude Code

  • Das MRT-Paket war ein standardmäßiger DICOM-Export aus Hunderten von Dateien ohne Dateiendung; die Gesamtgröße betrug etwa 266 MB
  • Für die Analyse wurde innerhalb von Claude Code Opus 4.8 (xhigh) verwendet
    • Claude Code wurde gewählt, damit Code ausgeführt und Pakete installiert werden konnten
    • Es wurde angewiesen, die für die Analyse benötigten Pakete vorab zu installieren
  • Selbst bei Verwendung desselben Modells wurde der Unterschied zwischen Claude Code und dem Chat auf Claude.ai als sehr groß eingeschätzt
  • Da kein MRT-Fachwissen vorhanden war, wurde Claude so eingerichtet, dass es zunächst einen detaillierten Plan erstellt und ihn dann ausführt
  • Der anfänglich bereitgestellte medizinische Kontext bestand nur aus „Schmerzen in der rechten Schulter seit 2–3 Wochen“ und war nach eigener Einschätzung geringer als die Informationen, die der menschliche Arzt erhalten hatte

Erste Analyse: Uneinigkeit darüber, ob eine Ruptur vorliegt

  • Nach etwa 1 Stunde gab Opus 4.8 einen Bericht zurück
  • Die Befunde des Krankenhauses und von Opus 4.8 standen nahezu im direkten Gegensatz
    • Das Krankenhaus sah an der apical insertion der Subscapularis-Sehne eine Grade-III-Partialruptur
    • Opus 4.8 beurteilte die betreffende Sehne als intact tendon
  • Erwartet worden war allenfalls, dass der Rupturgrad niedriger eingestuft würde; tatsächlich unterschied sich jedoch schon die Einschätzung, ob überhaupt eine Ruptur vorlag

Vermittlung zwischen menschlichem und KI-Befund

  • Um die beiden Ergebnisse abzugleichen, wurde Opus 4.8 erneut mit einer Vergleichsanalyse beauftragt
  • Dieses Mal wurden nicht nur der menschliche MRT-Bericht, sondern auch das Gespräch mit ChatGPT 5.5 Pro bereitgestellt
    • Dieses Gespräch enthielt Bewegungen und Haltungen, die versucht wurden, um die Diagnose einzugrenzen
  • Opus ging so vor, dass mehrere Subagenten eingesetzt wurden, um eine neue Analyse zu erhalten, die weniger durch den bestehenden Kontext verzerrt war
  • Nach erneut etwa 1 Stunde lag ein neuer Bericht vor
  • Das Vermittlungsergebnis kam zu dem Schluss, dass die Evidenz eher zugunsten von Reader A spricht, zusammengefasst mit „moderate-to-high confidence“
    • Leichte Insertions-Tendinopathie
      • Keine eindeutige Partial- oder Komplettruptur, einschließlich an der apical insertion
      • Einige Streitpunkte zwischen den beiden Berichten seien nicht auflösbar, bei diesem Punkt fiel das Fazit jedoch vergleichsweise entschieden aus

Verbleibende Optionen nach der KI-Zweitmeinung

  • Es gibt ein Gefühl von Sicherheit, wenn man sich einem vertrauenswürdigen Experten anvertraut, doch eine KI-gestützte Zweitmeinung kann dieses Gefühl unangenehm ins Wanken bringen
  • Nach der KI-Analyse wirkten die ursprüngliche Diagnose und der Behandlungsplan im Verhältnis zur Faktenlage übereilt und interventionslastig, doch auch der KI selbst lässt sich nicht vollständig vertrauen
  • Die verbleibenden Optionen sind, einen anderen Arzt aufzusuchen oder abzuwarten, ob sich die Schulter durch die derzeitige Rehabilitation bessert
  • In einigen Generationen wird man hoffentlich einer KI-gestützten MRT-Überprüfung so vertrauen können wie heute der Korrektur von E-Mails
  • Klinik und Arzt werden nicht namentlich genannt; diese Erfahrung ist kein medizinischer Rat, sondern ein Fall technischer Neugier darauf, mit KI eine Zweitmeinung einzuholen

1 Kommentare

 
Meinungen auf Hacker News
  • Ich bin Radiologe, aber ohne den vollständigen 3D-MRT-Datensatz ist das schwer zu beurteilen. Ultraschall ist keine gute Methode, um Verkalkungen zu beurteilen; große Verkalkungen findet man, kleine übersieht man leicht.
    Ein einfaches Röntgenbild wäre hilfreicher und im MRT könnten sie ebenfalls sichtbar gewesen sein. Jedenfalls ist eine Stoßwellentherapie ohne Verkalkungen nicht schädlich, sie hilft dann nur einfach nicht.
    Wenn in einem radiologischen Befund „nicht vorhanden“ steht, ist immer implizit die Einschränkung gemeint: „nicht vorhanden innerhalb dieser Bildgebungsmethode und des erfassten Bildbereichs“. Deshalb ist es kein Widerspruch, wenn im Ultraschallbericht steht, es gebe keine Verkalkung, und im einfachen Röntgenbericht steht, es gebe eine.
    Für Patienten oder Menschen, die mit medizinischer Terminologie nicht vertraut sind, ist das natürlich verwirrend. Würde man das alles aber in den Bericht ausschreiben, wäre er noch voller konditionaler Formulierungen als heute und noch nerviger zu lesen.

    • Das ist, glaube ich, zu wohlwollend formuliert. Wenn man das nicht versteht, kann man eigentlich nur verwirrt sein, wenn man annimmt, dass alle Diagnosegeräte unendliche Auflösung haben und immer richtig liegen.
      Das erinnert mich an die Anekdote, in der Babbage gefragt wurde, ob eine Rechenmaschine eine richtige Antwort ausgäbe, wenn man ihr eine falsche Frage eingibt. Er antwortete sinngemäß: „Ich kann die Logik des Geistes, der auf eine solche Frage kommt, beim besten Willen nicht nachvollziehen.“
    • Aus Sicht eines Radiologietechnologen möchte ich sagen: „Genau, Doktor!“ Ich habe KI-Nutzung gesehen, die Patienten hilft, ihre Situation zu verstehen oder grundlegende Blutwerte einzuordnen. Aber sie ist wirklich schlecht, wenn sie Menschen übermäßig bestätigt und sie wie im Originalbeitrag in ein medizinisches Kaninchenloch führt.
      Eine KI sollte zumindest darauf hinweisen, dass Kalzium in Röntgen/CT besser sichtbar ist als im Ultraschall.
    • Stimme zu. Ich bin zwar kein Radiologe, arbeite aber recht viel in der MRT-Forschung. Experten und Laien haben wahrscheinlich unterschiedliche Erfolgsquoten, wenn es darum geht, aus Frontier-Modellen die richtige Diagnose herauszubekommen, und schon subtile Unterschiede im Prompt können zu anderen Diagnosen führen: https://www.nature.com/articles/s41591-026-04501-8
    • Wenn ich die hier genannten Begriffe lese und nachschlage, klingt das meinen Symptomen in der rechten Schulter extrem ähnlich. Es fühlt sich an, als hätte sich neben meinem Schreibtisch ein riesiges Kaninchenloch geöffnet.
    • Ich frage mich, warum Orthopäden nicht häufiger diagnostischen Ultraschall einsetzen. Man sieht doch täglich fetale Herzen und Organe, warum also keine Schultern? Das scheint viel günstiger und schneller zu sein.
  • Für Interessierte: Wir bieten einen Zweitmeinungsservice durch zugelassene menschliche Radiologen an: https://expert.med

    • Das bräuchte man als Zahnmedizin-Version.
  • Das ist wirklich der Kern der Sache. Man weiß, dass man KI nicht vertrauen kann, aber gleichzeitig ist es viel einfacher, von einer KI weitere Erklärungen zu verlangen oder ihr zu widersprechen. Es gibt keine Termine nach Stundenplan und keine Kosten pro Stunde; das ist ein großer Faktor. Mehr Informationen helfen aber nicht zwangsläufig.
    Ich habe einmal mit einem 11 Jahre alten Civic mit 150.000 Meilen auf dem Tacho bei mehreren Werkstätten das „Zweitmeinungs“-Spiel gespielt. Ich wollte die Empfehlungen der einzelnen Werkstätten vergleichen und daraus ableiten, was zu tun ist.
    Das Ergebnis waren drei völlig unzusammenhängende Empfehlungen, von denen eine etwas war, von dem ich sicher wusste, dass es falsch war. Danach fühlte ich mich schlechter als vorher.
    Die Lösung für unsichere Informationen ist nicht mehr Information, wie KI sie liefern kann, sondern bessere Information; und die kann KI derzeit nicht liefern.

    • Ich nutze mehrere LLM-Abos und lokale Modelle gleichzeitig. Wenn ich Fragen außerhalb meines Fachgebiets stelle, frage ich alle LLMs, auf die ich Zugriff habe, und erstelle separate Sessions, in denen ich dieselbe Frage auf verschiedene Arten stelle.
      Es ist ziemlich aufschlussreich, wie viele unterschiedliche und widersprüchliche Antworten dabei herauskommen. Die meisten werden selbstbewusst präsentiert.
      Als ich zuletzt Claude eine medizinische Frage gestellt habe, bekam ich nicht einmal zwischen den Sessions konsistente Antworten.
      Noch beängstigender ist, wie leicht ich jedes LLM zu der Antwort führen kann, die ich im Kopf habe. Sobald ich anfing, nach Optionen zu fragen, die ein anderes LLM vorgeschlagen hatte, driftete jede Session in Richtung dieser Erklärung.
    • Zwischen Puzzle und Mysterium besteht ein großer Unterschied. Bei einem Puzzle ist der Zielzustand bekannt, und je mehr Teile, also Daten, hinzukommen, desto näher kommt man dem Ziel. Man weiß auch, wie viel noch fehlt.
      Ein Mysterium ist schlimmer. Mit jedem zusätzlichen Datenstück rückt das Ziel weiter weg. Alles wird immer verworrener.
      Diese Unterscheidung wurde von Malcolm Gladwell popularisiert.
    • Ich denke, KI kann derzeit durchaus bessere Informationen liefern. Sie schafft es nur nicht zuverlässig, und Laien können den Unterschied nicht erkennen, wodurch es gefährlicher wird.
    • Dieses sanfte Säuseln von ChatGPT, das uns beruhigt, wie recht wir haben und wie klug wir sind … wie könnte es da halluzinieren, besonders wenn es 5.5 wäre?
    • Du hast dir zum Auto nur drei Meinungen geholt? Warum nicht 50? Mit mehr Informationen hättest du vielleicht ein nützlicheres Signal finden können.
      Ich weiß, dass es zeitaufwendig ist, Meinungen von Mechanikern einzuholen. Aber bei KI ist das nicht so.
  • Vor ein paar Jahren, noch vor dem AI-Hype, bekam ich einmal eine Fehldiagnose auf Tuberkulose. Ich hatte chronischen Husten, und ein externer Radiologe einer Klinik fand Anzeichen für Tuberkulose. Das Ergebnis wurde, wie gesetzlich vorgeschrieben, an das städtische Tuberkulosekrankenhaus weitergeleitet, und die Ärzte dort übernahmen die radiologische Schlussfolgerung unverändert und sagten, ich solle mindestens acht Monate in einem Krankenhaus mit einem gefängnisartig strengen Regime bleiben
    Es gab auch keine Möglichkeit, das abzulehnen. Ich wurde als eine Art biologische Gefahr betrachtet und musste mich rechtlich daran halten
    Vor der Einweisung suchte ich in aller Eile einen anderen Radiologen auf, der eine Lungenentzündung diagnostizierte. Als ich diesen Bericht an den behandelnden Arzt im Tuberkulosekrankenhaus schickte, kamen sie nach Prüfung zu dem Schluss, dass die ursprüngliche Befundung falsch war. Wie sich herausstellte, konnten die Ärzte dort die Bilder überhaupt nicht lesen und vertrauten einfach darauf, was der Radiologe sagte
    Das Lustige daran war, dass sie mich bereits in das offizielle Tuberkuloseregister eingetragen hatten und den Fehler nicht zugeben wollten. Stattdessen stellten sie mir ein anderes Dokument aus, nach dem „die Tuberkulose in diesem Krankenhaus in sieben Tagen geheilt wurde“. Vermutlich bin ich der einzige Mensch in diesem Land, der Tuberkulose innerhalb einer Woche besiegt hat
    Wenn man Radiologen oder Ärzten nur schwer vertrauen kann, ist es gut, sich, sofern man es sich leisten kann, eine andere Ärztin oder einen anderen Arzt zu suchen. Man kann die Schlussfolgerungen vergleichen und sehen, ob sie übereinstimmen. Wenn zwei voneinander unabhängige Ärzte oder Radiologen dasselbe sagen, ist die Wahrscheinlichkeit ziemlich hoch, dass es der Wahrheit nahekommt
    Allerdings weiß ich nicht so recht, wem man mehr vertrauen sollte, AI oder Menschen. AI halluziniert, aber auch bei Menschen habe ich schon mehrfach Fehldiagnosen bekommen

    • Wie kann so etwas passieren? Man kann Tuberkulose nicht allein anhand von Bildern diagnostizieren, und ein Tuberkulosekrankenhaus sollte das wissen
    • Ich habe etwas Ähnliches erlebt. Mein Sohn hatte eine Lungenentzündung, und auch nach zehn Tagen Antibiotika hatte er weiterhin Schmerzen. Wir brachten das Röntgenbild zu drei Ärzten, aber nur einer stellte die richtige Diagnose: Pleuraerguss
      Es sollte wohl eine zentrale Stelle geben, an der Spitzenfachleute die Bilder ansehen, statt jeden Arzt für sich allein darauf schauen zu lassen
  • Ich finde interessant, wie die Leute hier den menschlichen Körper offenbar wie eine deterministische Funktion betrachten, bei der Eingabe X zu Ausgabe Y führen muss. Diese Erwartung überträgt sich auch auf Diagnosen: Man geht davon aus, dass mehrere Fachärzte für dasselbe Problem zur gleichen Diagnose kommen
    Angesichts der Komplexität des menschlichen Körpers ist eine Diagnose das Ergebnis einer Kombination aus im Lauf der Karriere gesammelter Erfahrung, Wissen, diagnostischen Methoden und Geräten. Ein Titel wie „Arzt“ ist eine staatliche Zertifizierung im Sinne von „hat die Prüfung bestanden, also ist es sicher, dass diese Person behandelt“, bedeutet aber nicht, dass alle gleich behandeln
    Manche Fachärzte aktualisieren ihr Wissen jeden Monat, manche jedes Jahr, manche gar nicht. Es gibt zu viele Variablen: Region, Politik, sogar das Wetter
    Deshalb ist die Wahl des Facharztes wirklich wichtig. Man sollte sich über den Ruf dieser Person hinsichtlich ihrer Behandlungsmethoden und ihres Fachgebiets informieren. Man kann nur die Wahrscheinlichkeit maximieren, die richtige Diagnose zu bekommen; man sollte nicht erwarten, dass jemand automatisch richtigliegt, nur weil er Arzt genannt wird

    • In einer Community, die hauptsächlich aus Leuten besteht, die solche Funktionen bauen, ist es vorhersehbar, dass sie auch den menschlichen Körper wie eine deterministische Funktion erwarten
    • Ich bin mir nicht sicher, worauf du hinauswillst. Heißt das, dass Medizin von Natur aus fehlerbehaftet ist und daher AI, insbesondere ein Bündel mehrerer spezialisierter AIs, mit höherer Wahrscheinlichkeit eine bessere Diagnose stellt?
  • Ich habe viele Freunde und Familienmitglieder gesehen, denen wegen Schulterschmerzen fast sofort zu einer Operation geraten wurde. Für Menschen, deren Beruf das Operieren ist, wird eine Operation oft zur Standardoption
    Ich hatte selbst einmal ziemlich starke Schulterschmerzen, die monatelang nicht nachließen. Ich wollte keine Operation, also versuchte ich es mit Massage und Akupunktur, aber das half überhaupt nicht
    Gelöst hat es, dass ich mich wirklich auf Klimmzüge konzentriert habe. Am Anfang schaffte ich keinen einzigen, also begann ich mit Hängen und Scapular Pull-ups und ging allmählich zu normalen Klimmzügen über. Nachdem ich ein paar pro Satz schaffte, trainierte ich nach der „Grease-the-Groove“-Methode
    Als ich ungefähr 17 pro Satz schaffte, hörte ich mit dem Trainingsplan auf, und jetzt mache ich über den Tag verteilt dreimal pro Woche 6 Sätze à 7–8 Wiederholungen. Ich mache auch Übungen für die Schulterbeweglichkeit https://www.youtube.com/watch?v=vP8YmmRMz6I
    Wenn ich faul werde und es auslasse, kommt das Unbehagen unweigerlich zurück, aber wenn ich wieder Kräftigungsübungen mache, verschwindet es

    • Ich hatte jahrelang Schulterprobleme. Ich habe Physiotherapie ausprobiert und auch Zug-/Drückübungen gemacht, aber bei solchen Übungen wurden die Schmerzen schlimmer. Wenn ich keine Übungen machte, bei denen ich die Schulter benutzte, war es „okay“
    • Umgekehrt empfahl mir der Chirurg bei einem Rotatorenmanschettenproblem erst einmal mehrere Monate Physiotherapie, bevor er zum Messer greifen würde. Es hat geholfen. Seit ich beim Krafttraining konsequent auf korrekte Schulterbewegungen achte, sind die Schmerzen auch nicht zurückgekommen
      Wenn Patientinnen und Patienten nach einer schnellen Lösung suchen, bekommen sie offenbar auch so eine Lösung vorgeschlagen. Wenn man sich ein wenig informiert und dann nach der besten Lösung für sich selbst sucht, bekommt man sie in der Regel auch
  • Vor etwa zwei Jahren habe ich mit ChatGPTs „Deep Research“ eine chronische Sinusitis untersucht, gegen die ich fast drei Jahre lang gekämpft hatte. Nach drei Allgemeinärzten und drei Besuchen beim HNO habe ich alle meine Beobachtungen in die KI eingegeben
    Insbesondere konnte der HNO-Arzt nicht erklären, warum er, nachdem er meine Nebenhöhlen endoskopisch untersucht und Hinweise auf eine allergische Reaktion gesehen hatte, später nach einem Allergietest zu dem Schluss kam, dass sich das nicht mit Allergiemedikamenten behandeln lasse. Ich habe mehrmals gefragt, aber er antwortete nicht
    ChatGPT fand eine NIH-Studie, der zufolge 20 % der Menschen allergische Reaktionen zeigen, die auf bestimmte Körperbereiche beschränkt sind und bei einem Pricktest an der Schulter möglicherweise nicht sichtbar werden. Als ich ihn danach fragte, sagte er nur: „So funktionieren Allergien nicht.“ Damit war es erledigt. Er dachte nicht einmal daran, sich die Studie anzusehen
    Er verschrieb CPAP und regelmäßige Vernebler-Behandlungen. Nebenbei: Der CPAP-Anbieter schickte mir eine SMS, aber ich konnte nicht erkennen, ob das Phishing war; ich fragte nach, wer sie seien, bekam aber keine Antwort
    Also beschloss ich einfach, jeden Tag ein Antihistaminikum der zweiten Generation auszuprobieren
    Die Sinusitis verschwand. Vorher hatte ich mindestens einmal pro Quartal eine schwere Nebenhöhlenentzündung. Vielleicht funktionieren Allergien ja tatsächlich nicht so, wie dieser Arzt sagte, aber das Allergiemedikament hat mein Problem vollständig gelöst
    Dafür bin ich dankbar. Denn ein paar Jahre zuvor hatte ich CPAP einen Monat lang ernsthaft ausprobiert, konnte mich aber überhaupt nicht daran gewöhnen, und mein Schlaf war furchtbar

    • Daran gibt es einiges zu entwirren, und die Ausgangslage war von Anfang an ungünstig. Zunächst: Wenn ein Test X sagt, ist es wirklich schwer, X zu widerlegen. Das ist kein Problem nur der Medizin, sondern ein allgemeines menschliches Problem. Wir sind schlecht darin, Entscheidungen erneut anzuschauen oder zu korrigieren, und noch schlechter darin, die Möglichkeit einer Kehrtwende zu prüfen
      Dann geht es um Verantwortung und Zeit. Besonders in einem Bereich mit hohen Einsätzen wie der Medizin hat niemand die Zeit oder Motivation, dieses Durcheinander aufzumachen, wenn man jemanden bittet, eine Entscheidung zu überdenken
      Wenn man wirklich Erfolg haben will, muss man die in der Studie vorgeschlagenen Tests anbringen, bevor sich die diagnostische Schleife schließt, bevor die Ärzte ihren Fall über einen verfestigt haben. Dann ist die Chance am größten, dass sie sehen, was sie sehen müssen
      Es ist besser, einfach ehrlich zu sagen, dass man eine Hypothese mitbringt. Ärzte merken sehr schnell, wenn sie gelenkt werden sollen, aber sie merken deutlich später, wenn der Patient tatsächlich recht hatte. In einem System, in dem überarbeitete Menschen ihr Bestes geben, muss man so vorgehen
    • Täglich eingenommene Allergiemedikamente stehen mit einem stark erhöhten Risiko für früh einsetzende Alzheimer-Erkrankung in Verbindung. Gut, dass du etwas Wirksames gefunden hast, aber es könnte sich auch lohnen, Allergenspritzen auszuprobieren
  • Als Radiologe finde ich, dass Claude und ChatGPT beim Befunden von MRTs wirklich miserabel sind, und ich würde ihnen überhaupt nicht vertrauen. Beim Recherchieren textbasierter Materialien haben sie Stärken, aber radiologische Bilder interpretieren sie noch nicht gut genug

    • KI kompensiert weniger beim Befund, sondern eher bei der Bildverbesserung
      Die aktuelle Siemens-MR-Software Deep Resolve erzeugt Signal (etwa 50 % zusätzlich), erzeugt dann eines von zwei Pixeln und bei 3D-Sequenzen eine von zwei Schichten. Sie reduziert die Zeit jeder Sequenz um etwa 59 % und ist wirklich sehr gut
      Ich bin MR-Technologe
    • Das ist ähnlich wie die Erwartung, ChatGPT müsse wirklich gut Schach spielen können. Schach-Engines mit übermenschlicher Leistung gibt es seit Jahrzehnten, also müsste das für ein modernes Frontier-LLM, das mit Milliarden Dollar trainiert wurde, doch selbstverständlich einfach sein
      Tatsächlich würde mich die Elo von ChatGPT 5.5 interessieren. Wegen der Inhalte, die es aufgenommen hat, würde es mich nicht sehr überraschen, wenn es allein durch ein Grundverständnis der Schachprinzipien über 2000 läge
  • Ich verstehe die negative Reaktion nicht. Die heutige Medizin funktioniert nur, wenn sowohl Arzt als auch Patient mitdenken. Ich hatte kaum je ein Problem nach dem Muster: Der Arzt stellt die Diagnose, und ich mache einfach mit meinem Tag weiter. Wenn das doch vorkam, war ich meist selbst von dem Problem überzeugt und wusste, was nötig war. Der Arzt war dann die Hürde, die den Zugang zur Behandlung blockierte
    Dr. GPT ist ein gutes Brainstorming-Werkzeug. Es synthetisiert Informationen auf eine Weise, die mit den Originalquellen allein schwierig ist. Allerdings muss man es auch dazu zwingen, zu sagen: „Das ergibt keinen Sinn.“
    Die These „Ärzte kennen den neuesten Stand nicht“ halte ich für eher schwach belegt. Wenn man die Token-Dichte während des Pretrainings und die Zusammensetzung der Post-Training-Datensätze bedenkt, wird es sehr lange dauern, bis es sich an grundlegende Veränderungen anpasst. Wenn wir die Behandlung von Skorbut vergessen hätten, wie viele Paper bräuchte es dann, damit es sich an die neue Entdeckung anpasst?

  • Bei Bildern würde ich KI nicht vertrauen. Aber einmal sagte ChatGPT allein anhand des Texts eines MRT-Berichts, dass der Bericht sehr wahrscheinlich stark falsch sei, und schlug eine andere Diagnose vor. Es vertrat das ziemlich nachdrücklich, also suchte ich einen anderen Arzt auf und ließ die Untersuchung wiederholen. Kurz gesagt: ChatGPT hatte recht
    Noch einmal: Das ist nur eine einzelne Erfahrung einer Person und hat daher keine große Aussagekraft

    • Anekdotisch: Ich habe das Bild eines Patienten mit Gürtelrose, bei dem der Arzt eine andere Krankheit genannt hatte, in Gemini Pro eingegeben; es stellte die richtige Diagnose, und dadurch wurde er korrekt behandelt und gesund
      Ich verstehe nicht, warum Ärzte nicht wenigstens einen Prompt in ein LLM eingeben, bevor sie etwas Falsches sagen. Ist es Stolz?
      Bei der Radiologie verstehe ich es, weil sie spezialisierte Convolutional Neural Networks braucht, aber bei eher wissensbasierten Problemen gilt das umso mehr
    • Ich denke, ein großer Teil der visuellen Lücke liegt daran, dass weniger strukturiert ist, worauf man im Bild achten soll. Anekdotisch können kleine feinabgestimmte qwen-Modelle, etwa Modelle mit weniger als 10 Milliarden Parametern, die Genauigkeit von unter 30 % beim Basismodell auf 90 % bringen. Ich habe solche Modelle schon für leistungsbasierte Backoffice-Aufgaben verkauft
      Ich glaube, es wird viele spezialisierte VLMs geben, die echten Wert liefern
    • Vor ein paar Tagen sagte ChatGPT Enterprise, Kernel 7.0.2 sei älter als 6.69
      Diese Spielzeuge sind überhaupt nicht vertrauenswürdig. Das heißt nicht, dass sie nutzlos sind, aber man kann ihnen nicht vertrauen