OpenAI o1 diagnostizierte 67 % der Notaufnahme-Patienten korrekt, Triage-Ärzte lagen bei 50–55 %

(theguardian.com)

1 Punkte von GN⁺ 2 시간 전 | 1 Kommentare | Auf WhatsApp teilen

In einer Harvard-Studie zeigte das o1-Reasoning-Modell von OpenAI bei der ersten Triage-Diagnose in der Notaufnahme eine höhere Genauigkeit als menschliche Ärzte; LLMs wurden insgesamt so bewertet, dass sie die meisten Benchmarks für klinisches Denken übertroffen haben
In einem Experiment mit den standardisierten elektronischen Patientenakten von 76 Patienten aus einer Bostoner Krankenhaus-Notaufnahme stellte o1 in 67 % der Fälle eine korrekte oder sehr nahe Diagnose, während zwei menschliche Ärzte auf 50–55 % kamen
Als mehr Detailinformationen vorlagen, stieg die Genauigkeit der KI auf 82 %, Fachärzte erreichten 70–79 %, doch dieser Unterschied war statistisch nicht signifikant
Die KI übertraf 46 Ärzte auch bei Aufgaben zur langfristigen Behandlungsplanung wie Antibiotikatherapie oder Planung am Lebensende; in fünf klinischen Fällen erreichte die KI 89 %, menschliche Ärzte mit herkömmlichen Materialien 34 %
Die Studie verglich nur Patientendaten, die sich per Text übermitteln lassen, und testete nonverbale Signale nicht; daher liegt die Rolle eher bei einer dokumentbasierten Zweitmeinung als bei einem echten Ersatz für Ärzte

Die wichtigsten Ergebnisse des Harvard-Triage-Experiments

In der Harvard-Studie erzielte ein KI-System bei der diagnostischen Genauigkeit in der notfallmedizinischen Triage bessere Ergebnisse als menschliche Ärzte
Die in Science veröffentlichten Ergebnisse stammen aus einem Experiment, das Antworten von Hunderten Ärzten mit KI-Antworten verglich; unabhängige Experten bewerteten dies als „echten Fortschritt“ im klinischen Denken der KI
Große Sprachmodelle (LLMs) wurden so eingeschätzt, dass sie „die meisten Benchmarks für klinisches Denken übertroffen haben“
Der Vorsprung der KI fiel besonders in Situationen der frühen Notaufnahme-Triage auf, in denen wenig Informationen vorliegen und schnelle Entscheidungen nötig sind

Diagnose-Experiment mit 76 Notaufnahme-Patienten

In einem Experiment mit 76 Patienten, die in einer Bostoner Krankenhaus-Notaufnahme ankamen, stellten die KI und zwei menschliche Ärzte Diagnosen, nachdem sie dieselben standardisierten elektronischen Patientenakten gelesen hatten
Die elektronischen Patientenakten enthielten typischerweise Vitalwerte, demografische Informationen und einige Sätze einer Pflegekraft dazu, warum der Patient ins Krankenhaus gekommen war
OpenAIs o1-Reasoning-Modell fand in 67 % der Fälle eine korrekte oder sehr nahe Diagnose, während die menschlichen Ärzte eine Genauigkeit von 50–55 % erreichten
Als zusätzliche Details bereitgestellt wurden, stieg die Diagnosegenauigkeit der KI auf 82 %, während menschliche Experten 70–79 % erreichten; der Unterschied war jedoch statistisch nicht signifikant

Experiment zur langfristigen Behandlungsplanung

Die KI lag auch bei Aufgaben zur langfristigen Behandlungsplanung vor einer größeren Gruppe menschlicher Ärzte, etwa beim Vorschlagen einer Antibiotikatherapie oder bei der Planung der Versorgung am Lebensende
Die KI und 46 Ärzte prüften fünf klinische Fallstudien, und die KI erstellte signifikant bessere Pläne als die menschlichen Ärzte, die auf vorhandene Materialien zurückgriffen
Die Bewertung lag bei 89 % für die KI und bei 34 % für die menschlichen Ärzte, die herkömmliche Quellen wie Suchmaschinen nutzten

Grenzen der Studie und veränderte Rollen im medizinischen Alltag

Diese Studie verglich Menschen und KI ausschließlich anhand von Patientendaten, die sich in Textform übermitteln lassen
Die Fähigkeit der KI, nonverbale Signale wie den Grad der Schmerzen oder das visuelle Erscheinungsbild eines Patienten zu lesen, wurde nicht getestet
Daher übernahm die KI eher die Rolle eines Klinikers, der dokumentbasiert eine Zweitmeinung abgibt, als die eines Ersatzes für einen realen Notaufnahmearzt
Arjun Manrai, Leiter des KI-Forschungslabors der Harvard Medical School, sagte, die Ergebnisse bedeuteten nicht, dass KI Ärzte ersetze, wohl aber, dass ein „sehr tiefgreifender technologischer Wandel“ im Gange sei, der die Medizin neu gestalten werde
Adam Rodman, Arzt am Beth Israel Deaconess medical centre in Boston, wo die Studie durchgeführt wurde, sieht KI-LLMs als „eine der einflussreichsten Technologien seit Jahrzehnten“
Rodman geht davon aus, dass KI in den nächsten zehn Jahren Ärzte nicht ersetzen, sondern in ein neues dreiseitiges Versorgungsmodell mit Ärzten, Patienten und KI-Systemen eintreten wird

Klinische Fälle und das Schlussfolgern der KI

In einem Fall der Harvard-Studie zeigte ein Patient Blutgerinnsel in der Lunge und sich verschlechternde Symptome
Menschliche Ärzte gingen davon aus, dass die Antikoagulation versagte, doch die KI erkannte, dass die Lupus-Vorgeschichte des Patienten eine Entzündung der Lunge verursachen könnte
Diese Einschätzung der KI bestätigte sich als richtig

KI in der Medizin ist bereits auf dem Vormarsch

Laut einer im vergangenen Monat veröffentlichten Studie nutzt in den USA bereits etwa jeder fünfte Arzt KI zur Unterstützung bei Diagnosen
Im Vereinigten Königreich verwenden 16 % der Ärzte KI täglich, weitere 15 % wöchentlich
Laut einer aktuellen Umfrage des Royal College of Physicians gehört klinische Entscheidungsfindung zu den häufigen Einsatzfeldern britischer Ärzte
Die größten Sorgen britischer Ärzte betrafen KI-Fehler und Haftungsrisiken
Zwar fließen Milliarden Dollar in KI-Unternehmen im Gesundheitswesen, doch Fragen zu den Folgen von KI-Fehlern bleiben offen
Rodman sagte, derzeit gebe es keinen formalen Rahmen für die Zuweisung von Verantwortung, und betonte, dass Patienten letztlich möchten, dass Menschen sie bei Entscheidungen über Leben und Tod sowie schwierigen Therapieentscheidungen begleiten

Einschätzungen externer Experten und Vorsichtshinweise

Professor Ewen Harrison, Co-Direktor des Centre for Medical Informatics an der University of Edinburgh, bewertete die Studie als wichtig und sagte, solche Systeme seien inzwischen über das Bestehen medizinischer Prüfungen oder das Lösen künstlicher Testfälle hinaus
Harrison meint, KI beginne besonders dann wie ein nützliches Zweitmeinungs-Tool für Kliniker zu wirken, wenn ein breiteres Spektrum möglicher Diagnosen berücksichtigt werden müsse und Wichtiges nicht übersehen werden dürfe
Dr. Wei Xing von der School of Mathematical and Physical Sciences der University of Sheffield sagte, einige andere Ergebnisse deuteten darauf hin, dass Ärzte der Antwort der KI unbewusst folgen könnten, statt unabhängig zu denken
Xing sagte, diese Tendenz könnte zunehmen, je alltäglicher KI in klinischen Umgebungen eingesetzt wird
Xing wies darauf hin, dass Informationen dazu fehlen, bei welchen Patienten die KI schlechter diagnostizierte und ob sie etwa bei älteren Patienten oder bei Patienten, deren Muttersprache nicht Englisch ist, größere Schwierigkeiten hatte
Xing sagte, die Studie beweise weder, dass KI für den routinemäßigen klinischen Einsatz sicher sei, noch, dass die Öffentlichkeit frei verfügbare KI-Tools als Ersatz für medizinischen Rat verwenden sollte

1 Kommentare

GN⁺ 2 시간 전

Hacker-News-Kommentare

Bei solchen Studien bin ich sehr vorsichtig mit Vertrauen, weil man Benchmarks viel zu leicht kaputtmachen kann
Ein aktuelles Paper behauptete zum Beispiel, dass AI Radiologen bei der Auswertung von Röntgenbildern geschlagen habe, obwohl die AI auf die Röntgenbilder überhaupt keinen Zugriff hatte: https://arxiv.org/pdf/2603.21687
Es war ein bestehender „Large-Scale Visual Question Answering Benchmark for Generalist Chest X-ray Understanding“ und nicht absichtlich sabotiert
Außerdem schauen sich menschliche Radiologen bei der Auswertung von Röntgenbildern die Röntgenbilder tatsächlich an. In diesem Artikelkontext diagnostizieren menschliche Ärzte Notaufnahmepatienten aber auch nicht nur auf Basis von Notizen
Wenn man ihnen eine Aufgabe gibt, die weder nötig noch vertraut ist und für die sie nicht ausgebildet wurden, und dann sagt „AI ist besser“, wäre das selbst dann nicht überraschend, wenn die Notizen die Antwort nicht auf irgendeinem seltsamen Umweg verraten hätten
Das heißt nicht, dass diese Studie eindeutig falsch ist oder absichtlich täuscht, aber aus einer einzelnen Studie würde ich keine starken Schlussfolgerungen ziehen
- Bei genau dieser Studie stimme ich zu, aber langfristig verstehe ich nicht ganz, warum Ärzte besser bleiben sollten als AI-Modelle
  Medizin ist letztlich ein Problem von Wissen, Erfahrung, Intelligenz und vielleicht Mustererkennung, und bei solchen Dingen muss man davon ausgehen, dass die besten AI-Modelle, besonders spezialisierte medizinische Modelle, den meisten Menschen und damit auch Ärzten deutlich überlegen sein werden
  Wenn man diese Annahme bereits für Software Engineers trifft, sollte sie auch hier gelten, und ganz praktisch habe ich in den letzten Monaten jedes Mal, wenn ich einen Arzt gesehen habe, einschließlich zweier Besuche in der Notaufnahme, gesehen, dass alle ChatGPT benutzt haben. Kein Witz, das war schockierend
  Deshalb frage ich mich ernsthaft: Wenn man Verantwortung und Ethik beiseitelässt und es rein sachlich betrachtet, welche konkrete Fähigkeit oder Kombination von Fähigkeiten lässt einen glauben, dass medizinische Spitzen-AI die Leistung eines hervorragenden menschlichen Arztes dauerhaft oder zumindest über Jahrzehnte nicht einholen oder übertreffen kann?
- Interessanterweise kam eine aktuelle Studie mit ChatGPT Health zu ziemlich anderen Ergebnissen: https://www.nature.com/articles/s41591-026-04297-7
  Dort lag die Triage-Einstufung in der Notaufnahme ungefähr in der Hälfte der Fälle falsch
- Wenn man den Artikel bis zum Ende liest, verschwand der Unterschied nach statistischer Signifikanz, sobald sowohl Ärzte als auch große Sprachmodelle die vollständige Fallakte lesen durften
  Die Zahlen aus der Überschrift beziehen sich auf geschätzte Diagnosen nur auf Basis von Pflege-Notizen. Meine Vermutung ist, dass große Sprachmodelle in ausgewählten Fallstudien einfach hemmungsloser geraten haben als Ärzte
- Ärzte übersehen Dinge wegen menschlicher kognitiver Verzerrungen, und es klingt plausibel, dass Menschen sich leicht an die Muster klammern, die ihnen am vertrautesten sind
- Ich habe das verlinkte Paper noch nicht ganz gelesen, aber die Annahme ist interessant, dass die Ergebnisse bloß eine Halluzination oder Luftspiegelung seien, wenn kein Zugriff auf die Röntgenbilder gegeben wurde
  Das wirkt wie eine sehr vernünftige Schlussfolgerung, überspringt aber andere Möglichkeiten. Machen Röntgenbilder die Ergebnisse ungenauer?
Sowohl der Artikel als auch das Paper wirken ziemlich überzogen, was mich überrascht hat. Hier lässt man Ärzte in einer Weise gegen große Sprachmodelle antreten, die stark zugunsten der Modelle gestaltet ist und keine klinische Versorgung repräsentiert
Solche Reasoning-Fälle sind Lernmaterial, kein Benchmark für Ärzte
Diagnostik hängt zuerst davon ab, den Patienten korrekt zu beschreiben, und welche Informationen erhoben werden, hängt von der Differenzialdiagnose ab
Eine ärztliche Kernkompetenz ist es, Informationen aus mehreren Quellen zusammenzutragen und das Wichtige herauszufiltern. Patienten können sich vielleicht nicht klar ausdrücken oder nonverbal sein, und man muss eventuell Bezugspersonen oder Angehörige befragen
Die Anamneseerhebung ist selbst eine Fähigkeit, ebenso die körperliche Untersuchung, und hier werden diese Daten einfach vorgegeben
Gerade bei Fragen, die womöglich im Trainingsdatensatz von o1 enthalten waren, ist es überhaupt nicht überraschend, wenn es bei bloßer Mustererkennung in Fließtext Ärzten überlegen ist, aber das wirkt nicht wie ein klinisch nützlicher Vergleich
Zu entscheiden, welche Tests man anordnet, ob man Bildgebung veranlasst oder irrelevante Informationen aus der Anamnese herausfiltert, ist ebenfalls eine eigene Fähigkeit und kaum von der Diagnosestellung zu trennen
- Man müsste auch Fehlanalysen untersuchen. Das Ziel menschlicher Ärzte ist nicht die höchste Genauigkeit, sondern die gesamte Schadenslast für den Patienten zu verringern
  In manchen Fällen ist es statistisch vielleicht vorteilhaft, X zu wählen, obwohl der Unterschied gering ist, und die sicherere Wahl kann sein, zuerst andere Möglichkeiten auszuschließen oder eine sichere Behandlung zu beginnen, die mehrere Möglichkeiten abdeckt
  In dieser Bewertung einfach nur „hoch zu punkten“ ist nicht zwangsläufig gute Medizin
Ich würde dieser Studie nicht viel Gewicht geben, aber ich denke dennoch, viele Menschen können anerkennen, dass große Sprachmodelle für Selbstdiagnosen nützlich sind
In den USA ist es schwer, genug Aufmerksamkeit und Versorgung durch Ärzte zu bekommen, also bleibt einem am Ende oft nichts anderes übrig
Vor zehn Jahren beschwerten sich Ärzte darüber, dass Patienten mit Dingen ankamen, die sie bei Google gefunden hatten, aber inzwischen sehe ich keine Alternative
Ich war zum Beispiel bei einem Fußspezialisten wegen Problemen mit Fuß und Knöchel. Das Fußproblem wurde per Röntgen diagnostiziert, aber beim Knöchel wurde nur mit den Schultern gezuckt, weil auf dem Röntgenbild nichts zu sehen war
Die zugeteilten 15 Minuten waren vorbei, und ich ging, ohne die Ursache oder eine Korrekturmöglichkeit zu kennen. Fünf Minuten mit einem großen Sprachmodell brachten mir eine plausible Ursache für das Knöchelproblem, die auch zur Fußdiagnose passte
- Ich halte den Einsatz großer Sprachmodelle in der Medizin nicht für eine angemessene Lösung der Probleme des US-Gesundheitssystems
  Wenn Gesundheitsunternehmen AI eher dazu nutzen, die Zahl der Patienten pro Tag zu erhöhen, statt die Versorgung zu verbessern, wird die Lage wahrscheinlich noch schlimmer
„Man ließ AI und zwei menschliche Ärzte dieselben standardisierten elektronischen Patientenakten lesen“ bedeutet Bedingungen, die die Fähigkeiten menschlicher Ärzte einschränken
Ein menschlicher Arzt kann schon durch einen kurzen Blick auf den Patienten viel mehr Informationen gewinnen
- Könnte man dasselbe nicht auch über AI sagen?
- Umgekehrt gibt es auch die Aussage, dass „es kaum etwas Gefährlicheres gibt als Experten mit Zugriff auf Material, das offen ist für frei drehende Interpretation wie ein klinisches Gespräch“
  https://entropicthoughts.com/arithmetic-models-better-than-y...
- Stimme zu. Der beste Einsatz dieser Technik wäre wohl, die Stärken beider Seiten zusammenzubringen
  AI könnte die Akten prüfen und Diagnosekandidaten vorschlagen, die der Arzt nach der Beobachtung des Patienten überprüft
  Außerdem sind häufige Krankheiten tatsächlich häufig. Mich interessiert, wie stark das am Ende sowohl Ärzte als auch große Sprachmodelle verzerrt
  Wenn jemand mit laufender Nase und Husten kommt, liegt man mit einer Grippediagnose meistens wahrscheinlich richtig
- Das wirkt wie eine sehr wichtige Beobachtung. Zusätzlich wäre es interessant, kurze Videos oder Fotos einzubeziehen, damit AI sie nutzen kann
- Nebenbei drängen Gesundheitsnetzwerke Ärzte inzwischen dazu, für die Eingabe in elektronische Patientenakten AI-Transkriptionssoftware zu verwenden
  Ärzte und Pflegekräfte mögen es, weil sie nicht mehr selbst tippen müssen, aber ob die recht häufigen Transkriptionsfehler in den Akten wirklich überprüft werden, ist völlig chaotisch
  Danach speist man das fehlerhafte Transkript einfach in ein AI-Diagnosesystem ein. Die AI nimmt es als Evangelium, während ein Arzt vielleicht innehält und sagt: „Moment mal, was ist das?“
Ich habe große Sprachmodelle nicht nur genutzt, um mich und meine Frau zu diagnostizieren, sondern auch meine Hunde
Ich bin überzeugt, dass AI-gestützte Veterinärmedizin enormes Potenzial hat. Besonders gut wäre es, wenn sie danach auch noch Angebote für Behandlungen oder Operationen zwischen örtlichen Tierkliniken einholen könnte
Die Preise lokaler Tierkliniken unterscheiden sich teils um das Zehnfache. Meine 80-jährige Mutter und meine Schwiegermutter wurden oft von überteuerten Tierärzten ausgenommen, und weil ihre Hunde ein so großer Teil ihres Lebens sind, sind sie für Druck besonders anfällig
Ich verstehe die negativen Reaktionen hier nicht. Schon die Tatsache, dass ein Computer überhaupt auf etwa 30 % kommen kann, ist bemerkenswert
Die Feindseligkeit gegenüber AI und Frontier-Labs wie OpenAI oder aus dem Google-Umfeld wirkt viel zu stark und unvernünftig
- Es stimmt, dass es viel negative Stimmung gegenüber AI gibt. Aber diese Studie hat auch reale Einschränkungen
  Der Kernpunkt ist für mich, dass die AI zwar Fallnotizen bekam, den Patienten aber nicht direkt sah
  Das unterscheidet sich von der Ausbildung von Ärzten und schränkt unnötig ein, was Ärzte leisten können. Ein großer Teil des ärztlichen Werts entsteht im Gespräch mit dem Patienten
  Die Überschrift klingt so, als würde AI Ärzte ersetzen, tatsächlich ist die Aussage aber eher: „AI kann diese enge Aufgabe besser als Ärzte“
  Die verwendeten Notizen könnten ursprünglich sogar von einem Arzt geschrieben worden sein
  Der eigentliche Gewinn wäre, wenn die Kombination aus Arzt+AI besser wäre als der Arzt allein. Wenn ein Arzt Fallnotizen lesen und zu einer Schlussfolgerung kommen muss, kann er jetzt einen ziemlich guten AI-Vorschlag nutzen
- Ich verstehe nicht, warum das unverständlich sein soll. Die hochbewerteten kritischen Kommentare erklären ihre Gründe größtenteils gut, und diese Gründe sind gar nicht besonders technisch
  Je höher der Einsatz, desto kritischer sollten wir normalerweise sein, nicht weniger
- So etwas hat man auch über Enron gesagt
  Skepsis ist selbst im Übermaß ein enorm nützliches Werkzeug
- Ehrlich gesagt freut es mich, dass Leute in der Medizin jetzt die existenzielle Angst spüren, dass AI ihnen vielleicht die Jobs wegnehmen könnte, so wie ich, während sie bislang in einem bequemen, gut bezahlten Beruf mit kartellgestütztem Schutz saßen
Als 60-Jähriger habe ich selbst ein AI-Medizinassistenz-Tool [1] gebaut und es bei verschiedenen Symptomen intensiv genutzt, und ich bin sehr zufrieden
Nach der Analyse einiger Testergebnisse empfahl es sogar Marker, die mein Arzt zunächst nicht in Betracht gezogen hatte
Es ersetzt keinen Arzt, aber für die Selbstdiagnose einfacher Symptome und als Zweitmeinung ist es ein sehr nützliches Werkzeug
[1] https://mediconsulta.net (DeepSeek)
Ich frage mich, ob diese 33 % eine Teilmenge der 50–45 % sind
Falls nicht, wie schwerwiegend war dieser Fehler dann? Gab es mehr Todesfälle? Längere Erholungszeiten? Wozu führte dieser Unterschied in der Praxis eigentlich?
Paper: https://www.science.org/doi/10.1126/science.adz4433 (30. April 2026)
Wie groß ist der Unterschied zwischen 67 % und 55 % wirklich? Wurde die Studie mit denselben Patienten wie bei den Ärzten durchgeführt?
Wenn nicht nebeneinandergestellt wurde, wie beide Seiten jede Situation bewertet haben und warum sie zu unterschiedlichen Schlussfolgerungen kamen, weiß ich nicht, wie wissenschaftlich aussagekräftig das sein kann
Wer kann garantieren, dass Ärzte in den verbleibenden 43 % keine blinden Flecken entdecken, die die AI übersehen hat
Werkzeuge sind dazu da, Anstrengungen zu kombinieren, nicht um zu ersetzen
Solche Prozentsätze einfach der Öffentlichkeit hinzuwerfen, ist ziemlich unverantwortlich

OpenAI o1 diagnostizierte 67 % der Notaufnahme-Patienten korrekt, Triage-Ärzte lagen bei 50–55 %

Die wichtigsten Ergebnisse des Harvard-Triage-Experiments

Diagnose-Experiment mit 76 Notaufnahme-Patienten

Experiment zur langfristigen Behandlungsplanung

Grenzen der Studie und veränderte Rollen im medizinischen Alltag

Klinische Fälle und das Schlussfolgern der KI

KI in der Medizin ist bereits auf dem Vormarsch

Einschätzungen externer Experten und Vorsichtshinweise

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare