Ontario-Prüfer: KI-Notizschreiber für Ärzte liegen bei grundlegenden Fakten wiederholt falsch

(theregister.com)

1 Punkte von GN⁺ 5 시간 전 | 1 Kommentare | Auf WhatsApp teilen

Bei 20 von Ontario für Gesundheitsdienstleister zugelassenen AI-Scribe-Systemen wurden fehlende Kerninformationen, eingefügte Falschinformationen und die Erzeugung nicht geäußerter Inhalte festgestellt
Die Beschaffungsevaluierung erfolgte durch den Abgleich simulierter Arzt-Patienten-Aufnahmen mit KI-generierten Behandlungsnotizen durch medizinische Fachkräfte; 9 Systeme erfanden sogar Behandlungsvorschläge
12 Systeme fügten falsche Medikationsangaben ein, und 17 Systeme übergingen zentrale Details zur psychischen Gesundheit von Patienten aus den Aufnahmen
OntarioMD riet Ärzten, KI-Notizen manuell zu prüfen, doch keines der zugelassenen Systeme verfügte über eine verpflichtende Bestätigungsfunktion für die Genauigkeit
In der Bewertung machten ein lokaler Standort 30 % der Punkte aus, während die Genauigkeit medizinischer Notizen nur 4 % erhielt; Bias-Kontrollen sowie Risiko- und Datenschutzbewertungen lagen jeweils bei 2 %

Prüfbericht und Bewertungsmethode

Der von Canadas Office of the Auditor General of Ontario veröffentlichte Bericht zum Einsatz von KI im öffentlichen Dienst enthält auch eine Bewertung des AI-Scribe-Programms des Ontario Ministry of Health
Das Programm betrifft die Beschaffung von KI-Notiztools für Ärzte, Nurse Practitioners und andere medizinische Fachkräfte
Im Beschaffungsprozess wurden simulierte Arzt-Patienten-Aufnahmen verwendet, und medizinische Fachkräfte beurteilten die Genauigkeit, indem sie die Originalaufnahmen mit den von der KI erzeugten Behandlungsnotizen verglichen

Festgestellte Fehler

9 der 20 Systeme erfanden Inhalte, die in den Aufnahmen nicht vorkamen, und erzeugten Vorschläge für Behandlungspläne von Patienten
In Beispielberichten fanden sich potenziell schwerwiegende Falschinformationen wie „es wurde keine Masse gefunden“ oder „der Patient wirkte ängstlich“, obwohl solche Inhalte in den Aufnahmen nicht besprochen wurden
12 der 20 Systeme fügten Patientennotizen falsche Medikationsangaben hinzu
17 der 20 Systeme übergingen zentrale Details zur psychischen Gesundheit von Patienten, die in den Aufnahmen thematisiert wurden
6 Systeme ließen die psychischen Probleme von Patienten ganz oder teilweise weg oder unterschlugen wesentliche Details

Manuelle Prüfung und Schutzmechanismen

OntarioMD, das Ärzte bei der Einführung neuer Technologien unterstützt und am Beschaffungsprozess für AI Scribes beteiligt war, empfahl Ärzten, die von der KI erstellten Notizen manuell auf Genauigkeit zu prüfen
Laut Prüfbericht verfügte keines der zugelassenen AI-Scribe-Systeme über eine verpflichtende Bestätigungsfunktion, mit der Ärzte die Genauigkeit verifizieren mussten

Problematische Gewichtung in der Bewertung

Ein erheblicher Teil der schwachen Leistung hängt mit der Gewichtung der Bewertungskriterien zusammen
30 % der Punkte in der Plattformbewertung wurden dafür vergeben, ob ein Anbieter einen Standort in Ontario hat, während die Genauigkeit medizinischer Notizen nur 4 % der Gesamtpunktzahl ausmachte
Bias-Kontrollen machten 2 % der Gesamtbewertung aus, Bedrohungs-, Risiko- und Datenschutzbewertungen ebenfalls 2 %, und die SOC 2 Type 2-Konformität 4 %
Diese Gewichtung könnte dazu geführt haben, Anbieter auszuwählen, die ungenaue oder verzerrte medizinische Aufzeichnungen erzeugen oder keine ausreichenden Vorkehrungen zum Schutz sensibler persönlicher Gesundheitsdaten bieten

Reaktion des Gesundheitsministeriums von Ontario

The Register fragte beim Ontario Health Ministry nach einer Stellungnahme zu dem Bericht und ob es plane, den Empfehlungen für das AI-Scribe-Programm zu folgen, erhielt jedoch keine sofortige Antwort
Ein Sprecher des Ministeriums sagte am Mittwoch gegenüber CBC, dass in Ontario mehr als 5.000 Ärzte am AI-Scribe-Programm teilnehmen und keine Berichte über Patientenschäden im Zusammenhang mit der Technologie bekannt seien

1 Kommentare

GN⁺ 5 시간 전

Hacker-News-Kommentare

Ich bin bei der Zukunft der aktuellen AI-Technologie insgesamt von eher pessimistisch zu eher optimistisch geworden, aber dass selbst bei großen Modellfortschritten weiterhin grundlegende Faktenfehler bleiben, stört mich nach wie vor sehr.
Wenn man sich mit Claude Opus Rezepte nach Geschmack und gewünschtem Aroma zusammenstellen lässt, wirkt das magisch, aber sobald es an so grundlegenden Dingen wie Umrechnungen zwischen Esslöffeln und Teelöffeln scheitert, verfliegt die Begeisterung sofort.
Es fühlt sich an wie bei einer Filmfigur, die sich fast normal verhält, dann aber irgendwie seltsam wirkt und sich als Zombie herausstellt; auch dieses Scribe-Beispiel funktioniert beeindruckend fast, scheitert dann aber an entscheidenden Details.
Solche Fehlschläge lassen mich zunehmend zweifeln, ob die aktuelle AI-Generation zwar mit guter Steuerung beeindruckende Dinge leisten kann, aber wirklich auf dem richtigen Pfad zu echter Intelligenz ist.
- Stimmt. Es gibt eine Fähigkeits-Zuverlässigkeits-Lücke, über die die Branche nicht gern spricht.
  Die AI-Branche scheint ständig zu verwischen, dass Fähigkeiten und Zuverlässigkeit grundlegend unterschiedliche Eigenschaften sind. „Akkurat“ und „zuverlässig“ werden oft verwendet, als bedeuteten sie dasselbe, aber selbst wenn ein Modell Benchmarks gut besteht, kann es im realen Betrieb trotzdem ein Risikofaktor sein.
  Auch die neuesten Ergebnisse von METR reagieren stark auf Fähigkeitssteigerungen, aber weit weniger diskutiert wird, dass diese Messung auf einer 50-%-Erfolgsquote basiert. Der Hilfsindikator mit 80-%-Erfolgsquote ergibt einen viel kürzeren Aufgaben-Zeithorizont: https://metr.org/
  Ich implementiere Enterprise-AI-Systeme, aber ich habe noch kein Unternehmen gesehen, das auch nur 50 % Zuverlässigkeit akzeptieren würde, geschweige denn 80 %.
- Ich war skeptisch, ob LLMs der richtige Weg zu allgemeiner künstlicher Intelligenz sind, aber ich bin immer wieder überrascht, wie weit man mit erweitertem Nutzungsansatz, Harnesses für LLMs und besserem Kontextdesign noch kommt.
  Wenn man sieht, wie LLMs faktisch selbst Prompts und Kontext entwerfen können, scheint es nicht so, als bräuchten sie auf ewig menschliche Anleitung.
  Für einfache faktenbasierte Aufgaben mit konkreter Methodik sind LLMs nicht das richtige Werkzeug; dass sie solche Aufgaben nicht erkennen und an deterministischere Werkzeuge übergeben, sehe ich als Versagen des Harnesses.
  Wie man bei Bedarf ein „Skill“ nutzt, sollte man bestimmte Aufgaben an Tools oder spezialisierte „Gehirne“ weiterreichen.
  Die erste allgemeine künstliche Intelligenz wird wahrscheinlich kein einzelnes Gehirn sein, sondern eher ein komplexes System aus mehreren LLMs, Harnesses, Skills und domänen- bzw. aufgabenspezifischen Untersystemen.
- Wenn Claude Umrechnungswerte gelegentlich zu hoch ansetzt, könnte das am Unterschied zwischen australischen und US-amerikanischen Esslöffeln liegen.
  Ein australischer Esslöffel entspricht 4 Teelöffeln bzw. 20 mL, ein US-Esslöffel 3 Teelöffeln bzw. 15 mL; dadurch lässt sich dieser Fehler teilweise mit realweltlicher Komplexität erklären.
  Wenn es allerdings 3,14 Teelöffel oder 2 Teelöffel sagt, weiß ich auch nicht weiter.
- Diese Analogie erinnert mich an die seltsamen Finger und Hände bei Bildgeneratoren vor einem Jahr.
  Das ist inzwischen fast gelöst, und heute werden sogar Videos erzeugt, die kaum noch von der Realität zu unterscheiden sind.
  Deshalb glaube ich, dass auch solche subtilen Fehler weiter abnehmen und am Ende bei fast allen Aufgaben kaum noch zu entdecken sein werden.
- Ich habe gestern über Copilot opus 4.6 benutzt und damit bei einer großen Funktion, die viel Sorgfalt erfordert, Rubber-Duck-Brainstorming gemacht.
  Inspiration habe ich bekommen, aber selbst sehr grundlegende Dinge wurden falsch interpretiert. Es kann auch an meiner Art der Nutzung gelegen haben, daher bin ich mir nicht sicher.
Wir nutzen bei der Arbeit einen LLM-Scribe für Meetings, und kürzlich musste ich eingreifen, weil unser CIO sehr wütend war, dass ein Vendor angeblich etwas zugesagt und dann nicht eingehalten hatte.
Bei dem Meeting, in dem diese „Zusage“ gemacht worden sein soll, war der CIO nicht dabei, ich aber schon, und tatsächlich wurde überhaupt nichts zugesagt; die Diskussion war viel nuancierter, als die detaillierte LLM-Zusammenfassung vermuten ließ.
Ich sehe auch Fehlgriffe, wenn Diskussionen nicht linear verlaufen. Wenn man zum Beispiel mit dem SOC-Team hin und her über aktuelle Alerts bzw. Incident Response spricht, trifft es den Kern, aber sobald man sich auf Genauigkeit verlassen muss, liegt es massiv daneben.
Es kann für Dinge wie die Erstanamnese durch eine Pflegekraft im Krankenhaus passen, also Hauptbeschwerde, Gewicht, Größe, Zusammenfassung jüngster Veränderungen, aber einer detaillierten und technischen Fragerunde mit einem Arzt würde ich es nicht anvertrauen.
Auch aus Compliance-Sicht würde ich vermuten, dass Krankenhäuser lieber nur Transkripte hätten als umgeschriebene Dokumentation, aber ich weiß es nicht.
- Ich habe meiner Mutter kürzlich zum Muttertag eine verpasste Sprachnachricht hinterlassen, ungefähr im Sinn von: „Schade, dass ich dich nicht erreicht habe, du kannst heute Abend oder morgen anrufen, wenn es dir passt, wir sprechen bald, hab dich lieb, tschüss.“ Also eine ganz normale menschliche Verabschiedung.
  Als meine Mutter mich später am Abend zurückrief, fragte sie nach einem kurzen Gespräch vorsichtig: „Also … gab es etwas, das du mir unbedingt sagen musstest?“ und ich war komplett verwirrt.
  Wie sich herausstellte, hatte die LLM-Zusammenfassung der Anrufbenachrichtigung eine Voicemail, die zu 75 % aus bedeutungsarmen, zwischenmenschlichen Pufferausdrücken bestand, in einen steifen, überformalisierten geschäftsmäßigen Satz verwandelt und dadurch etwas Unheilvolles erzeugt.
  Einzelnen Formulierungen wie „ich wollte sprechen“ oder „ich frage nach einem passenden Zeitpunkt“ wurde übermäßig viel Bedeutung beigemessen, sodass es wie eine ausschweifende Nachricht wirkte, in der ich etwas Wichtiges, aber Vages und Zeitkritisches sagen wollte.
  Das Ergebnis war, dass meine Mutter sich leicht Sorgen machte, und ich war wütend, dass eine simple Grußbotschaft so endete. Offenbar muss man jetzt überall halbgarte LLM-Zusammenfassungen hineinpressen.
- Bei jeder Behandlung, die ich bisher hatte, konnte ich die Dokumentation später korrigieren lassen, und fast die Hälfte enthielt relevante Fehler.
  Zusammenfassende Aufzeichnungen sollte man immer sofort prüfen, und wenn etwas nicht stimmt, den Arzt so schnell wie möglich kontaktieren.
  Normalerweise kann der Arzt es direkt korrigieren, und am besten macht man das, solange sich noch alle daran erinnern.
- Das wundert mich auch. Warum nicht einfach ein Transkript erstellen und es dabei belassen?
  Gerade wenn ein langes Transkript fortlaufend referenziert wird, kann ein Mensch bei Bedarf daneben manuell Zusammenfassungen markieren.
  Nach meiner Erfahrung enthalten solche Interaktionen meist nicht viel Rauschen, das man grob herausfiltern könnte, und die Details sind ziemlich wichtig.
- Transkripte sind zugleich zu gut und nicht gut genug. Mit generierten Inhalten wird es noch schlimmer.
  Das „zu gut“ besteht darin, dass in vielen kommerziellen Umgebungen dauerhafte Transkription verboten ist, weil bestimmte Details leicht als aufbewahrte Informationen in die Beweisaufnahme geraten und damit ein Geschäftsrisiko werden können.
  Meeting Minutes oder Zusammenfassungen können sensible Diskussionen auslassen oder nur Einigungen ohne Details wiedergeben und schaffen auch eine Interpretationsverteidigung mit „strategischer Mehrdeutigkeit“.
  Das „nicht gut genug“ ist, dass auch Speech-to-Text weiterhin probabilistisch ist. In realen Evaluationsausgaben können neben den gewählten Wörtern auch alternative Wörter und Phrasen mitgeführt werden, sodass Spielraum dafür bleibt, nie Gesagtes auszudrücken oder einen anderen Eindruck zu erzeugen.
  Dass Menschen Spracherkennungs-Transkripte als autoritative Aufzeichnung ansehen, verschärft das Problem zusätzlich.
  Wenn man darauf dann noch generative Schlussfolgerungen wie Zusammenfassungen setzt, vergrößert man beide Probleme. Aus Sicht der Rechtsberatung kann eine Zusammenfassung mit weniger spezifisch auffindbaren Begriffen und diffuserer Verantwortlichkeit und Konkretheit leichter akzeptabel sein.
- Meiner Erfahrung nach funktioniert Transkription ziemlich gut, und in solchen Fällen sollte man das Transkript als maßgeblichen Sachverhalt behandeln.
Ich habe das vor Kurzem selbst erlebt. Bei mir wurde Läuferknie diagnostiziert, aber in der AI-Zusammenfassung stand, ich hätte Osteoporose, Hüftschmerzen und Gehbeschwerden, obwohl nichts davon jemals gesagt oder auch nur angedeutet wurde.
Man sollte das Transkript immer prüfen. Gerade LLM-Transkribierer fügen ziemlich häufig gängige Symptome ein, die gar nicht vorhanden sind, oder behaupten häufige Diagnosen, die bei einigen Details passen, bei anderen aber nicht.
Falsche Einträge können sich stark auf spätere Behandlungen und Kosten auswirken und müssen deshalb unbedingt korrigiert werden.
Abgesehen von ein paar simplen und häufigen Fällen war etwa 50 % der „AI“-Zusammenfassungen, die ich erhalten habe, in irgendeiner Weise falsch. Meist werden nicht vorhandene Symptome behauptet, gelegentlich gibt es aber auch schwerwiegendere Erfindungen wie in diesem Fall.
LLMs sind keine gewöhnliche Speech-to-Text-Software und dürfen nicht so behandelt werden. Sie fügen tatsächlich ganze Sätze ein, die nie gesagt wurden, und in medizinischen Akten ist das absolut inakzeptabel.
- Ich habe tatsächlich erlebt, dass eine Zoom-LLM-Zusammenfassung Aussagen einer bestimmten Person zuschrieb, die sie nie gemacht hatte, und das führte zu ernsthaften Problemen.
  Eine andere Person, die am Meeting nicht teilnehmen konnte, las die Zusammenfassung später, woraufhin ein größerer Streit ausbrach, weil das Thema für sie wegen einer laufenden internen Kontroverse im Unternehmen sensibel war.
  Alle Teilnehmenden bestätigten zwar, dass es ein Fehler war, aber das Timing war so unglücklich, dass die betroffene Person es nur schwer akzeptieren konnte. Die LLM-Zusammenfassung präsentierte den Inhalt nämlich so, als bestätige sie Sorgen, die manche Anwesende zuvor eher heruntergespielt hatten.
  Am Ende wurde die Sache so groß, dass das Management eine Richtlinie einführte, generierten Output nicht ohne unabhängige Verifikation zu vertrauen, also wurde zumindest etwas daraus gelernt.
Aber wie genau sind Menschen eigentlich? Ich habe Ausdrucke meiner medizinischen Unterlagen der letzten fünf Jahre bekommen, und das war so dick wie ein Buch.
Ich glaube nicht, dass ein Mensch das alles komplett lesen und damit etwas Sinnvolles anfangen kann.
Wenn man ein AI-Tool darüber laufen lässt, kann es sicher falsch liegen oder zu unbegründeten Schlüssen springen, aber das schnelle Prüfen, das Zurückweisen merkwürdiger Stellen und das anschließende Finden der richtigen Antwort kann immer noch schneller sein als jedes Gespräch mit einer Pflegekraft oder einem Arzt.
Statt nur auf die Unvollkommenheiten zu zeigen, kann man mit mehr erreichen, wenn man sich darauf konzentriert, wie man solche Tools nutzt und wie man seltsame oder falsche Teile anficht.
Der AI-Scribe, den wir bei der Arbeit nutzen, zeichnet Meetings auch auf und versieht jede Notiz mit einem Zeitstempel-Link zur passenden Stelle in der Aufnahme, sodass man direkt nachprüfen kann.
In einem HIPAA-Umfeld ist so eine Lösung wahrscheinlich komplizierter, aber in kritischen Bereichen wie Medizin ist so etwas unverzichtbar.
- Beim Design AI-basierter User Experiences nennen wir das Source Traceability.
  Das ist ein Kernelement für Vertrauen, Zuverlässigkeit, Compliance und mehr.
  Wenn ein Softwaresystem solche LLM-Ausgaben einbindet, aber die Herkunft des Outputs nicht sichtbar macht, damit Menschen ihn bewerten und verifizieren können, ist das bestenfalls eine schlechte User Experience und schlimmstenfalls gefährlich.
- Das klingt weniger nach einem „Scribe“ als nach einer Suchmaschine für Audio-Samples.
  Wenn man Genauigkeit will, muss man am Ende doch alles anhören.
- Dafür braucht man letztlich eines von drei Dingen.
  Jemand muss die komplette Meeting-Aufnahme anhören und alle Notizen verifizieren, was viel Zeit und Personal kostet; oder Teilnehmende müssen die Notizen aus dem Gedächtnis prüfen, was fehleranfällig ist; oder sie müssen sie mit ihren eigenen Notizen abgleichen, womit der Sinn eines AI-Scribes entfällt.
  Realistisch gesehen ist der Einsatz von AI in jedem Kontext, in dem Genauigkeit wichtig ist, in keiner Form akzeptabel, aber es ist schwer, die Leute dazu zu bringen, das anzuerkennen.
Als Kanadier hoffe ich darauf, dass AI Ärztinnen und Ärzten Zeit verschafft und das Gesundheitssystem entlastet, aber das ist beängstigend.
Wir sind einfach noch nicht so weit. Vielleicht braucht es künftig AI-Schulungen für Ärztinnen und Ärzte.
In manchen Condo-Anlagen gibt es bereits Online-Arztbesuche über iPads im Besitz medizinischer Einrichtungen, was den umständlichen Prozess zur Terminvereinbarung mit dem Hausarzt umgeht.
Ich halte die Innovationsrichtung grundsätzlich für richtig, aber es braucht Zeit. Manchmal fühlt es sich so an, als wäre AI zu früh auf den Markt gebracht worden.
- Ich glaube, diese Technologie wird falsch eingesetzt. Statt sie zum Beispiel auf Transkription loszulassen und perfekten Output zu erwarten, sollte man die Stärken von LLMs nutzen, um die Qualität der Eingaben zu erhöhen und damit allen zu helfen.
  Beim Ziel, Ärzten Zeit zu verschaffen, ist es etwa so, dass Patientenbesuche meist unstrukturiert sind, Patientinnen und Patienten mehrere Probleme auf einmal ansprechen und Ärztinnen und Ärzte unter Zeitdruck und regulatorischen Erklärungspflichten Informationen vermitteln müssen, die die Behandlung beeinflussen.
  Selbst mit perfektem Transkript ist das für alle eine schlechte Struktur, und LLMs können nicht perfekt sein, sie machen im Kern nur Autocomplete.
  Ich stelle mir eher vor, dass ein Patient mit einer Triage-AI interagiert, die sich stundenlanges Abschweifen oder Reden in einer Angstattacke anhören kann und dem Arzt dann eine von Angehörigen bestätigte Anforderungszusammenfassung samt relevanter Triage-Informationen zur Prüfung vorlegt.
  An diesem Punkt könnten dann auch nützliche Informationen wie Medikamentenverfügbarkeit oder Versicherungsregeln angezeigt werden, natürlich nach ärztlicher Prüfung, und der Patient könnte sein Verständnis des Systems ohne Zeitdruck ordnen und ergänzen.
  Es geht darum, die Qualität des Gesprächs zu erhöhen, damit sich der Arzt stärker auf den Patienten konzentrieren kann und der Gesprächsbedarf des Patienten die Behandlung nicht überlagert. Im Gesundheitswesen gibt es viel Formular- und Checklistenarbeit, und ich glaube, dass Autocomplete bei deren Abarbeitung effizient sein kann.
Ich bin in Toronto, und mein Arzt fragt immer, ob es in Ordnung ist, einen AI-Scribe zu verwenden, und ich stimme zu.
Nach dem Termin überfliegt und korrigiert der Arzt die Notizen, beschwert sich aber oft, dass er mehr mit dem Computer sprechen muss als mit mir.
Zum Glück ist es ein guter Arzt und macht diese nachträgliche Prüfung, aber es vermittelt den Eindruck, als würde das den Ärzten aufgezwungen, selbst wenn sie es nicht wollen.
Heutzutage sollte jeder, der an einem Meeting teilnimmt, laut sagen: „Hinweis: Die von AI in diesem Meeting interpretierten Aussagen sind möglicherweise nicht korrekt.“
Ich mache das in jedem Meeting.
Der verlinkte Bericht wirkt fast nutzlos. Über Fehlerraten oder Stichprobengrößen sagt er nichts, sodass man nicht weiß, ob bei 9 von 20 Systemen „Informationen manipuliert und in Behandlungspläne für Patienten aufgenommen wurden“ nun zehn von zehn Mal oder einmal in tausend passiert ist.
Selbst wenn man von einer hohen Systemfehlerquote ausgeht, frage ich mich, warum das eingeführt wird.
Der Test scheint sehr einfach zu sein, daher wirkt es unwahrscheinlich, dass Ärztinnen, Krankenhäuser und Regierung sich täuschen lassen und so etwas kaufen würden, wenn es wirklich so schlecht wäre.
- Laut dem Artikel hingen „30 % der Punkte in der Plattformbewertung allein davon ab, ob es in Ontario eine inländische Präsenz gab, während die Genauigkeit medizinischer Dokumentation nur 4 % der Gesamtpunktzahl ausmachte.“
  Genauigkeit war also faktisch nicht der Kern der Bewertung, und Ontario hat sich offenbar nicht wirklich darum gekümmert.
Es heißt, es gehe konkret um das AI-Scribe-Programm des Ontario Ministry of Health für Ärzte, Nurse Practitioners und andere Gesundheitsfachkräfte im weiteren Sektor, und das lässt mich fragen, welche Softwarequalität das Ministerium da wohl durchdrücken wird.
Vermutlich werden die Anforderungen größtenteils etwas wie SOC-Zertifizierungen sein.
Die Liste der zugelassenen Vendoren scheint unter diesem Link zu stehen: https://www.supplyontario.ca/vor/software/tender-20123-artif...

Ontario-Prüfer: KI-Notizschreiber für Ärzte liegen bei grundlegenden Fakten wiederholt falsch

Prüfbericht und Bewertungsmethode

Festgestellte Fehler

Manuelle Prüfung und Schutzmechanismen

Problematische Gewichtung in der Bewertung

Reaktion des Gesundheitsministeriums von Ontario

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare