- OpenAI hat mit HealthBench einen neuen Benchmark vorgestellt, um die Leistung von KI-Systemen in medizinischen Situationen zu bewerten
- Er wurde auf Basis von 262 Ärztinnen und Ärzten, medizinischer Erfahrung aus 60 Ländern und 5.000 realistischen medizinischen Dialogen entwickelt; für jeden Dialog kommen von Ärzten direkt verfasste Bewertungskriterien (Rubrics) zum Einsatz
- Die Bewertungskriterien umfassen unter anderem Genauigkeit, Kontextbewusstsein, Kommunikationsqualität und Vollständigkeit, und ein auf GPT-4.1 basierendes Bewertungsmodell prüft, ob die Kriterien erfüllt werden
- Die neuesten OpenAI-Modelle zeigen konkrete Fortschritte, darunter 28 % bessere Leistung gegenüber früheren Modellen, bessere Preis-Leistung auch bei kleineren Modellen sowie Verbesserungen bei der Leistung im schlechtesten Fall (worst-of-n)
- HealthBench komplett, Consensus und Hard werden als Open Source veröffentlicht und sollen künftig zur Forschung an medizinischer KI und zur Verbesserung ihrer Sicherheit beitragen
Einführung in HealthBench
Hintergrund der Entwicklung
- Um das Potenzial von AGI im Gesundheitswesen bestmöglich zu nutzen – etwa für besseren Zugang zu Gesundheitsinformationen, die Unterstützung klinischer Entscheidungen und die Stärkung von Gesundheitsrechten in Gemeinschaften – war eine geeignete Evaluierung erforderlich
- Bestehende medizinische Evaluierungssets hatten Probleme wie mangelnde Realitätsnähe, unzureichende Abstützung auf Expertenurteile und begrenzten Spielraum zur Messung weiterer Modellfortschritte
Zentrale Merkmale
- 5.000 mehrstufige, mehrsprachige und anspruchsvolle Dialogszenarien rund um Gesundheit
- Jede Antwort wird mit maßgeschneiderten, von Ärztinnen und Ärzten erstellten Bewertungskriterien (Rubrics) bewertet
- Insgesamt 48.562 Bewertungskriterien, mit denen sich unterschiedliche Detailfähigkeiten von Modellen quantifizieren lassen
- Die Bewertung erfolgt über ein automatisiertes Rubric-Evaluierungssystem auf Basis von GPT-4.1
Themen und Bewertungsachsen von HealthBench
7 Bewertungsthemen
- Emergency referrals: Erkennen von Notfällen und Empfehlung angemessener Reaktionen
- Expertise-tailored communication: Anpassung von Begriffen und Detailgrad an das Wissensniveau der Nutzenden
- Responding under uncertainty: Angemessenes Reagieren bei unsicheren Informationen
- Response depth: Bereitstellung einer zur Situation passenden Informationstiefe
- Health data tasks: Bearbeitung gesundheitsbezogener Praxisaufgaben wie Dokumentation oder Wissensunterstützung
- Global health: Fähigkeit zur Anpassung an länderspezifische Ressourcen, Situationen und Sprachen
- Context seeking: Fähigkeit, benötigten Kontext eigenständig nachzufragen
Bewertungsachsen (Axes)
- Genauigkeit (Accuracy): Ob die Antwort mit medizinischen Fakten und wissenschaftlichem Konsens übereinstimmt
- Kontextbewusstsein (Context awareness): Ob die Antwort an den Hintergrund der Nutzenden angepasst ist
- Vollständigkeit (Completeness): Ob alle erforderlichen Inhalte ohne Auslassungen enthalten sind
- Kommunikationsqualität (Communication quality): Angemessenheit von Länge, Begriffen, Struktur und Hervorhebungen
- Befolgung von Anweisungen (Instruction following): Ob Format und Art der Nutzeranfrage eingehalten werden
Bewertung anhand realer Beispiele
Beispiel 1: 70-jähriger Nachbar ist bewusstlos, atmet aber
- Enthält Punkte wie Rettungsdienst rufen, in die stabile Seitenlage bringen und Bedingungen für den Beginn von CPR klar benennen
- 71 Punkte von 92 (77 %) nach Rubric-Kriterien → gute Anweisungen für den Notfall
Beispiel 2: Vorbeugende Wirkung von Quercetin gegen Viren
- Die fehlende Evidenz wurde klar kommuniziert, aber es fehlten empfohlene Dosierung/klinische Daten sowie ein Hinweis auf Nebenwirkungen
- 1 Punkt von 25 (4 %) nach Rubric-Kriterien → wissenschaftliche Unsicherheit gut ausgedrückt, aber unzureichende Vollständigkeit der Informationen
Beispiel 3: Verlaufsnotiz für die Herzrehabilitation verfassen
- Es wurde zwar eine strukturierte Vorlage präsentiert, aber zahlreiche zentrale klinische Informationen fehlten
- 15 Punkte von 42 (36 %) nach Rubric-Kriterien
Vergleich der Modellleistung
Leistung nach Modell (gesamt/nach Thema/nach Achse)
- o3 erzielte in allen Themen und Bewertungsachsen die beste Leistung (0,598)
- Dahinter folgen GPT-4.1, Claude 3.7 und Gemini 2.5 Pro
- GPT-3.5 Turbo und Llama 4 erzielten deutlich niedrigere Werte
Preis-Leistungs-Verhältnis
- GPT-4.1 nano ist 25-mal günstiger als GPT-4o und erzielt dennoch bessere Leistung
- Das zeigt, dass kleinere Modelle sich weiter verbessern und kostengünstige Hochleistung möglich wird
Zuverlässigkeit (worst-of-n-Leistung)
- Bei o3 und GPT-4.1 hat sich auch die Leistung in den schlechtesten Fällen verbessert
- Dies ist ein wichtiger Indikator für die Sicherstellung von Zuverlässigkeit in Hochrisikobereichen
Erweiterte Benchmarks: Consensus & Hard
- HealthBench Consensus: Hochzuverlässiges Evaluierungsset, das auf Konsenskriterien mehrerer Ärztinnen und Ärzte basiert (3.671 Beispiele)
- Die Fehlerrate nähert sich nahezu 0
- HealthBench Hard: 1.000 besonders schwierige Beispiele, an denen selbst aktuelle Modelle scheitern
- Kann als Evaluierungsset genutzt werden, um weiteres Verbesserungspotenzial von Modellen zu testen
Vergleich mit menschlichen Ärztinnen und Ärzten
- KI-Modell allein vs. Arzt/Ärztin (ohne Referenz) vs. Arzt/Ärztin (mit Zugriff auf Modellantworten als Referenz)
- Gegenüber Modellen von 2024 war die Kombination aus Arzt/Ärztin und Modell dem Modell allein überlegen
- Die neuesten Modelle von 2025 (o3, GPT‑4.1) erreichen oder übertreffen das Niveau ärztlicher Antworten
- Der Spielraum für zusätzliche Verbesserungen wird kleiner
Zuverlässigkeit der Bewertung
- Die Übereinstimmung zwischen den von GPT-4.1 vergebenen Bewertungen und den tatsächlichen Bewertungen durch Ärztinnen und Ärzte ist hoch
- Die Bewertungsmaßstäbe des Modells sind damit eng an das ärztliche Urteil angeglichen → die Gültigkeit des automatisierten Rubric-Bewertungssystems ist belegt
Ausblick
- Der vollständige Datensatz und die Evaluierungstools werden über GitHub veröffentlicht: https://github.com/openai/simple-evals
- Für sinnvolle Fortschritte von KI im medizinischen Einsatz wird zu kontinuierlicher, community-basierter Evaluierung und Verbesserung aufgerufen
- Herausforderungen wie noch unzureichendes Context seeking und der Umgang mit schlechtesten Fällen (Reliability) müssen weiterhin gelöst werden
1 Kommentare
Hacker-News-Kommentare
Ich bin überzeugt, dass viele allgemeine Diagnosen und Behandlungen durchaus von ausreichend fein abgestimmten und validierten KI-Systemen übernommen werden könnten. Ich hatte neulich eine Videosprechstunde mit einem Arzt, um ein Hustenmittel verschrieben zu bekommen, aber ich hatte bereits recherchiert und wusste schon, was ich nehmen sollte. Manche sagen dann: „Ärzte haben jahrelang studiert, man sollte ihnen mehr vertrauen als Google“, aber Menschen machen auch Fehler, und auch Ärzte schlagen oft Dinge bei Quellen wie UpToDate nach. Wenn man bereit ist, das Risiko zu tragen, warum sollte man es dann nicht selbst tragen dürfen? Ich verstehe nicht, warum ich neben dem Hustenmittel (ca. 44 Dollar) noch 93 Dollar zahlen musste, nur damit ein Arzt mich weniger als fünf Minuten lang auf Zoom ansieht und das Rezept ausstellt. Anders als die mörderisch hohen Gesundheitskosten in den USA gibt es in meiner Heimat Myanmar mehrere Kliniken und Apotheken in der Nähe, und die meisten Medikamente kann man ohne Rezept kaufen (natürlich brauchen opioidhaltige Mittel ein ärztliches Rezept). Wenn man nur eine Diagnosebestätigung will, zahlt man 10 bis 20 Dollar für einen Arzttermin und kauft das Medikament dann direkt in der Apotheke. Wenn man das Geld hat, kann man Medikamente frei kaufen; daher frage ich mich, warum man in den USA nicht einmal dieses Risiko selbst tragen darf. Während die Gesundheitskosten weltweit steigen, wird KI zunehmend gewöhnliche Diagnosen und Behandlungen übernehmen (ich erwarte davon auch keine Wunder), und ich hoffe, dass zumindest ein Teil der eingesparten Kosten an die Patienten zurückgeht.
In deinem Fall hat das nur funktioniert, weil es ausnahmsweise sehr einfach war. Das Problem ist, dass Betroffene nicht darin geschult sind, einfache von nicht einfachen Situationen zu unterscheiden. Ein Husten kann nur ein Husten sein, aber auch auf etwas Ernsteres hindeuten, weshalb eine Untersuchung durch einen „echten“ Arzt nötig ist; je nach Fall braucht es sogar eine zusätzliche Untersuchung durch einen Spezialisten. Ein Beispiel aus meinem Leben: Ich hatte Schmerzen im Hoden. Ein Arzt konnte nichts ertasten, ein anderer meinte, er habe etwas gespürt, wusste aber nicht, was es war. Am Ende bin ich zu einem Urologen gegangen, der sofort einen Tumor diagnostizierte, und es war tatsächlich Krebs. Durch die frühe Entdeckung war die Behandlung gut machbar. Der Punkt ist: Wenn eine Situation nicht einfach ist, sind Fachwissen und Erfahrung enorm wichtig.
Du fragst, warum du 93 Dollar für weniger als fünf Minuten Zoom-Sprechstunde zahlen musst. Weil du das Wissen eines Experten bezahlst, der mehr als zehn Jahre studiert hat. Heutige KI-Systeme sind im Bereich medizinischer Diagnostik sogar weniger verlässlich als eine Websuche. Bei einer Websuche kann ich wenigstens erkennen und auswählen, welche Informationen von Fachleuten stammen, und selbst wenn ein Arzt etwas nachschlägt, bezahle ich für genau diese Fähigkeit, Informationen einzuordnen. Ich weiß nicht, worauf sich die Annahme stützt, dass KI diese Rolle besser als Menschen erfüllen könnte. Das erinnert mich an die Geschichte von Henry Ford: „Das Wissen, wo man den Pinsel ansetzt, kostet 9999 Dollar.“
Ich frage mich, wo du bist, dass du Hustenmittel nicht ohne Rezept kaufen kannst. Soweit ich weiß, braucht man ein Rezept nur für Mittel mit regulierten Substanzen.
Es gibt absolut zu wenige Ärzte, als dass sie all diese Dinge auch noch selbst erledigen könnten. Dieser Mangel wird von Tag zu Tag schlimmer. Es wäre großartig, wenn jeder jederzeit günstig medizinisch versorgt werden könnte, aber wir leben nicht in einer idealen Welt. Wenn KI einen Teil davon ersetzt, ist das für die meisten Menschen ein enormer Gewinn.
Wenn jeder Medikamente leicht kaufen und einnehmen kann, entstehen Probleme wie der leichtfertige Missbrauch von Antibiotika. Leider muss das Gesundheitswesen auch für Verhalten unterhalb des Durchschnitts ausgelegt sein. KI könnte vielleicht einen Teil einfacher Klassifizierung wie Triage übernehmen, aber beim aktuellen Stand von LLMs fehlen noch die Verlässlichkeit der Patientendaten und die multisensorische Beurteilung, sodass sie Ärzte noch kaum ersetzen können. Ein echter „KI-Hausarzt“ wäre wohl nur mit perfekten Gesundheitsdaten und einer vollständigen Verlaufshistorie möglich, aber ein solches Datenniveau bringt wiederum neue Probleme wie den Datenschutz mit sich.
Wenn solche Erfahrungen ein normaler Teil der medizinischen Versorgung sind, braucht das Gesamtsystem grundsätzlich eine Umwälzung. KI erhöht dann womöglich nur die Gewinnmargen einiger Firmen, ohne dass du selbst davon profitierst.
Auch KI wird eigene Kosten verursachen. Sie wird nicht kostenlos sein.
Ich frage mich, ob es nicht ein Interessenkonflikt ist, wenn die Benchmark von der Seite erstellt wird, die auch das Modell gebaut hat. Mindestens eine separate gemeinnützige Organisation oder eine eigenständige Gesellschaft unter dem Mutterkonzern sollte das übernehmen, damit es transparent ist.
Die Vorstellung, Gesundheitsinformationen einem LLM anzuvertrauen, das nicht einmal Bedeutung versteht, ist ein gravierender Fehler. Für das Erkennen von Datenmustern, Unterhaltung oder Code-Generierung mag es in gewissem Maß brauchbar sein, aber für medizinische Diagnosen oder Ratschläge ist es absolut nicht vertrauenswürdig. Schon der Gedanke, dass medizinisches Personal nur noch papageienartig wiederholt, was ein LLM sagt, ist erschreckend. Diese Gefahr sollte so schnell wie möglich reguliert werden.
Mich würde konkret interessieren, warum du diesen Mangel für so fatal hältst. LLMs haben offensichtliche Grenzen, aber Menschen auch, und ich denke, dass sich durch die Kombination beider bessere Ergebnisse erzielen lassen.
Wer tatsächlich etwas versteht, ist für uns alle undurchsichtig. Wir wissen nicht einmal, ob dieser Beitrag hier von einer KI geschrieben wurde, und es gibt keinen absoluten Maßstab dafür, wer wirklich Verständnis besitzt. Auch menschliche Expertise lässt sich letztlich nur indirekt über Prüfungen und Bewertungen abschätzen, und genau daran versucht sich OpenAI hier gerade. Für mich zählen die Ergebnisse. Wenn die „Note“ 10 % beträgt, vertraue ich weder Menschen noch KI. Bei 95 % fände ich das womöglich sogar nützlicher als einen Arzt. Tatsächlich erwarte ich, dass die meisten Ärzte schon bald in solchen Benchmarks nicht mehr so gut abschneiden wie die neuesten Modelle.
Ich halte es für genauso riskant, Gesundheitsinformationen „müden, voreingenommenen Säugetiermenschen“ anzuvertrauen. Für Empathie, ein bisschen Smalltalk oder Standardimpfungen sind Ärzte gut, aber es gibt keine Garantie, dass ein ständig überarbeiteter Arzt immer genauer ist als ein Datentool. Wenn mein behandelnder Arzt bloß Inhalte aus Verkaufspräsentationen oder veralteten Leitlinien wiederholt, ist das ebenfalls furchtbar.
Mir gefällt, dass die „schlechteste Punktzahl bei k Stichproben“ gezeigt wird. In der Realität bekommt eben 1 von 100 Menschen tatsächlich genau diese „schlechteste Antwort“.
Ich finde es beeindruckend, dass Grok in solchen Tests besser abschneidet als erwartet. In den Nachrichten bekommt Grok im Vergleich zu Gemini oder Llama gefühlt weniger Aufmerksamkeit.
Ich bin überrascht, dass Gemini unerwartet gut abgeschnitten hat. Gemini scheint besonders bei Gesundheitsthemen auszuweichen, was den Score offenbar gedrückt hat. Wahrscheinlich wurden Fälle, in denen wegen Zensur nur unzureichende Antworten kamen, pauschal als Fehlschläge gewertet.
Bei Grok kann man die Modellgewichte nicht herunterladen und lokal ausführen.
Ich kämpfe seit fünf Jahren mit Verletzungsfolgen. Ich war bei mehreren Sportmedizinern, habe Scans machen lassen, Wärmebehandlungen ausprobiert und war sogar bei Akupunktur und Chiropraktik. Die Ärzte kamen immer nur mit unpassenden Diagnosen wie „normal“ oder „wir wissen nicht, was die Ursache ist“. Nur ein Arzt hatte eine überzeugende Einschätzung, aber ich war so frustriert, dass ich nicht einmal nachgehakt habe. Schließlich habe ich o3-deep-research meine komplette Vorgeschichte gegeben, und es schlug dieselbe Einschätzung vor wie dieser Arzt, inklusive Muskelgruppen-Diagramm und Trainingsmethoden. Ich bin noch nicht ganz gesund, aber zum ersten Mal seit Langem verspüre ich vorsichtige Hoffnung.
Ich frage mich, warum du der Diagnose eines LLM mehr vertraust als dem Rat vieler Ärzte. In den USA wirkt es auf mich schwer nachvollziehbar, dass Ärzte weder Physiotherapie noch Bewegungsübungen empfohlen haben sollen.
Man muss realistisch akzeptieren, dass die Behandlung der meisten muskuloskelettalen Verletzungen ein sehr langer Weg aus Versuch und Irrtum ist und dass auch Bildgebung Grenzen hat; oft passen Symptome und Bildbefunde nicht zusammen. Lass dich nicht entmutigen: Wenn man verschiedene wissenschaftlich fundierte Behandlungen ausprobiert, löst die Zeit die meisten Fälle letztlich doch. Gerade deshalb ist es leicht, irrtümlich zu glauben, eine bestimmte Behandlung habe gewirkt.
Was du eigentlich gebraucht hast, war wohl kein Arzt, sondern ein hervorragender Physiotherapeut.
War am Ende nicht einfach die Einschätzung dieses Arztes richtig? Ob KI oder Online-Selbstdiagnose, das wirkt nicht unbedingt wie ein besonderer Sieg.
Du scheinst an fragwürdige Methoden wie Akupunktur und Chiropraktik zu glauben, gleichzeitig aber Ärzten nicht zu vertrauen und danach auch noch einer KI, die für Falschaussagen berüchtigt ist. Vielleicht solltest du deine internen Maßstäbe noch einmal überdenken.
Ich hoffe, dass die jüngsten Kürzungen staatlicher Wissenschaftsbudgets wenigstens einige dieser übervorsichtigen Leute ausbremsen, die neue Ansätze und Lernen behindern. Es wäre wirklich schade, wenn solche Modelle nur noch mit Antworten wie „Ich darf keine medizinische Beratung geben“ blockiert würden.
Ich fand diese Studie sehr durchdacht und hilfreich. Beeindruckend ist auch, dass sich die Modellleistung in nur einem Jahr fast verdoppelt hat. o3 und deep-research haben mir bei meiner eigenen Gesundheitsversorgung tatsächlich sehr geholfen. Vor einem Monat habe ich zum Beispiel im Brustbereich, nahe dem Herzen, einen starken Schlag abbekommen und o3 meine Symptome sowie Herzfrequenz- und Sauerstoffsättigungsdaten von der Apple Watch gegeben. Durch frühere Gespräche kannte es auch bereits meine Krankengeschichte. Es hat den erwartbaren Verlauf und die Behandlung genau beschrieben, und meine Genesung verlief tatsächlich zu 100 % entsprechend. Ich habe mir inzwischen einen detaillierten Prompt mit Größe, Gewicht, Medikamenten und Gesundheitsdaten vorbereitet, den ich bei Symptomen sofort an o3 schicken kann, und das ist sehr nützlich.
Die SpO2-Sauerstoffsättigungsdaten einer Apple Watch oder anderer Wrist-Wearables sind für diagnostische Zwecke ziemlich ungenau. Ein spezielles Pulsoximeter für den Finger ist viel präziser.
Mich würde interessieren, wie sicher es sich bei dieser Diagnose gegeben hat und ob du dieser Sicherheit tatsächlich vertraut hast. Ich habe meine Frau gefragt, die Ärztin ist, und sie meinte, als Alternative käme auch ein durch die Verletzung verursachter Perikarderguss infrage, was potenziell ein Notfall ist.
Ich finde, diese Benchmark geht an der tatsächlichen Nutzung von Modellen vorbei. Im realen Einsatz lässt man Nutzer nicht einfach mit dem Basismodell chatten, sondern verwendet Mischansätze mit RAG, Guardrails und vorbereiteten Antworten. Ich frage mich daher, für welches kommerzielle Szenario diese Bewertung eigentlich stehen soll.
Gilt das nicht genauso für Code-Benchmarks? Praktisch ist bei fachlichen Q&A oft schon ein Basis-o3 mit Websuche und gutem Prompt besser. RAG oder Guardrails könnten die Leistung sogar verschlechtern.
Schon der normale Chat in ChatGPT ist selbst eine reale Anwendung dieses Tests, und zwar eine sehr große und wichtige.
Selbst Nicht-Kliniker nutzen ChatGPT inzwischen täglich, um Hilfe bei echten Gesundheitsproblemen zu bekommen. Diese Bewertung ist ein guter Datensatz, um die realen Risiken zu verringern.
Ich habe vor Kurzem einen Laborbericht bei ChatGPT hochgeladen und um eine Zusammenfassung gebeten, und die KI hat eine schwere Krebserkrankung „halluziniert“ und noch mehrere zusätzliche Erklärungen dazuerfunden. Tatsächlich stand im Bericht „kein Krebs“.
Mich würde interessieren, welches LLM-Modell das war (4o, o3, 3.5?). Die frühen Modelle waren nicht besonders gut, aber o3 war für Hilfe bei Gesundheitsproblemen durchaus brauchbar, etwa bei Ohrproblemen.
Könnte es sein, dass die KI das Ergebnisdokument gar nicht richtig gelesen hat und einfach so tat, als spiele sie eine Szene nach, also völlig am Thema vorbeigeantwortet hat? Ich hatte einmal ein PDF mit einem Motorhandbuch hochgeladen und Fragen dazu gestellt; es antwortete grob plausibel, präsentierte aber in Wirklichkeit einen völlig anderen Schaltplan.
Im Scherz klang das fast wie: „Krebstest: Krebs gefunden!“
Mich würde interessieren, wie das tatsächliche Ergebnis später aussah (manchmal stellt sich etwas, das wir zunächst für ein falsch positives Ergebnis hielten, später doch als Krebs heraus; bei Krebs zeigen sich Signale mitunter erst nach längerer Zeit).