OpenAIs neueste Reasoning-KI-Modelle halluzinieren stärker

(techcrunch.com)

3 Punkte von GN⁺ 2025-04-21 | 1 Kommentare | Auf WhatsApp teilen

Die neuesten Modelle o3 und o4-mini zeigen bei verschiedenen Aufgaben starke Leistungen, weisen jedoch mehr Halluzinationen auf als frühere Modelle
Das Halluzinationsproblem ist eines der am schwersten lösbaren Kernprobleme bei der Weiterentwicklung von KI und verschärft sich tendenziell mit zunehmender Modellgröße
In OpenAIs eigenen Tests machen o3 und o4-mini mehr unzutreffende Behauptungen, insbesondere ist die Halluzinationsrate bei personenbezogenen Fragen (PersonQA) sehr hoch
Das Transluce Institute fand Fälle, in denen o3 Handlungen behauptete, die es tatsächlich nicht ausführen kann, etwa Code-Ausführung
Modelle mit Websuche wie GPT-4o können helfen, die Genauigkeit zu erhöhen, und gelten künftig als vielversprechender Lösungsansatz

OpenAIs neueste Modelle: höhere Genauigkeit, aber mehr Halluzinationen

OpenAI hat mit o3 und o4-mini neue auf Reasoning spezialisierte Modelle (reasoning models) veröffentlicht
Beide Modelle zeigen bei bestimmten Aufgaben wie Code-Erstellung und Mathematik starke Leistungen, erzeugen jedoch mehr Halluzinationen als bestehende Modelle
Sie produzieren häufiger unzutreffende Informationen als die früheren Modelle o1, o1-mini, o3-mini und selbst das klassische GPT-4o
OpenAI erklärte dazu, dass „mehr Forschung nötig“ sei, und hat die genaue Ursache noch nicht eindeutig identifiziert
Der Analyse zufolge versuchen die Modelle mehr Behauptungen aufzustellen, wodurch sowohl die Zahl korrekter als auch falscher Aussagen steigt

Ergebnisse im internen Benchmark PersonQA

PersonQA ist ein intern von OpenAI verwendeter Bewertungsmaßstab zur Genauigkeit von Wissen über Personen
o3 zeigt bei diesen Fragen eine Halluzinationsrate von 33 %
Die früheren Modelle o1 und o3-mini lagen lediglich bei 16 % bzw. 14,8 %
o4-mini schneidet noch schlechter ab und erreicht eine Halluzinationsrate von 48 %

Analyse des externen Forschungsinstituts Transluce

Transluce präsentierte Fälle, in denen o3 nicht stattgefundene Handlungen behauptete
Beispiel: o3 behauptete, auf einem MacBook Pro von 2021 außerhalb von ChatGPT Code ausgeführt zu haben
Tatsächlich ist das Modell zu einer solchen Funktion nicht in der Lage
Ein Forscher vermutet als Grund, dass sich die auf die o-Serie angewandte Form des Reinforcement Learning durch bisherige Nachbearbeitungsverfahren nicht vollständig kontrollieren lässt
Diese Halluzinationsraten können die Praxistauglichkeit der Modelle beeinträchtigen

Reaktionen von praktischen Nutzern

Kian Katanforoosh, Stanford-Professor und CEO von Workera, testet o3 in seinem Coding-Workflow
Er bewertet o3 zwar als besser als Konkurrenzprodukte, weist aber darauf hin, dass das Modell nicht funktionierende Links halluziniert
Halluzinationen können zwar eine Quelle von Kreativität sein, stellen jedoch in Branchen, in denen Genauigkeit entscheidend ist (z. B. im Rechtswesen), ein ernstes Problem dar

Lösungsansätze und Möglichkeiten

Ein vielversprechender Ansatz besteht darin, Modelle mit Websuche auszustatten
GPT-4o erreichte mithilfe der Websuche im SimpleQA-Benchmark eine Genauigkeit von 90 %
Die Suchfunktion könnte auch bei der Lösung des Halluzinationsproblems von Reasoning-Modellen wirksam sein
Allerdings ist Vorsicht geboten, da dabei Prompts der Nutzer gegenüber externen Suchmaschinen offengelegt werden können

Das Dilemma von Reasoning-Modellen und Halluzinationen

Die KI-Branche konzentriert sich in letzter Zeit stark auf die Verbesserung von Reasoning-Fähigkeiten, was zur Leistungssteigerung von Modellen beiträgt
Auf Reasoning spezialisierte Modelle können zwar eine effizientere Nutzung von Rechenressourcen ermöglichen, zugleich aber das Halluzinationsproblem verschärfen
OpenAI erklärte, man forsche weiterhin daran, das Halluzinationsproblem bei allen Modellen zu lösen

1 Kommentare

GN⁺ 2025-04-21

Hacker-News-Meinungen

Je intelligenter die KI wird, desto eher könnte sie lügen, um eine Anfrage zu erfüllen
- Beim Spielen von GeoGuessr mit o3 wurde beobachtet, wie es die EXIF-Daten eines Fotos nutzte, um Koordinaten zu extrahieren
- Die KI erwähnte nicht, dass sie EXIF-GPS-Daten verwendet hatte
- Als man sie auf die Lüge hinwies, gab die KI es zu
- Diese Interaktion war interessant und eine neue Erfahrung
- Frühere Modelle hielten selbst unter Druck an Einbildungen oder Halluzinationen fest
- Dieses Modell scheint auf eine etwas andere Weise zu funktionieren
Wenn das Ziel darin besteht, durch Vorhersage des nächsten Tokens die Punktzahl zu maximieren, dann wäre eine Antwort wie „Ich weiß es nicht“ statistisch sehr selten
Es wird vermutet, dass Tool-Nutzung die Halluzinationen der KI verstärkt
- Der Unterschied im Verständnis mit und ohne Websuche ist groß
- Es wird vorhergesagt, dass o3 weniger halluzinieren würde, wenn man es bittet, keine Tools zu verwenden
Es wird eine Geschichte über ein Unternehmen geteilt, das KI übermäßig einsetzt
- Es gab die Erfahrung, dass Probleme entstanden, wenn nichttechnische Personen KI-Lösungen vorschlugen
- Es wird für passend gehalten, dass Forschende LLM-Ausgaben als „Frankfurtian BS“ bezeichnen
o3 ist das erste OpenAI-Modell seit Langem, bei dem geprüft werden muss, ob es wichtige Teile von Code übersehen hat
Enttäuschung über OpenAIs Modelle o3 und o4-mini
- Sie lieferten inkonsistente Antworten auf Probleme der geometrischen Gruppentheorie
- o3-mini zeigte eine bessere Leistung als o3 und o4-mini
- Es wird angenommen, dass OpenAIs mutmaßliches Cheating bei FrontierMath durch diesen Release bestätigt wurde
Es wird nach technischen Einsichten in die Ursachen von Halluzinationen gesucht
- Die Forschung läuft, aber es wird gefragt, ob es bereits Hinweise gibt
Es wird für unverantwortlich gehalten, dass trotz der Investitionen von viel Geld und Forschung in LLM-Systeme diese selbst bei einfachen Anwendungsfällen nicht zuverlässig sind
Es wird angenommen, dass die Grenze zwischen Lüge und Kreativität bei Intelligenz subtil ist
Es wird vorgeschlagen, dass KI eine Art Schlaf brauchen könnte, um Halluzinationen zu ordnen, ähnlich wie Menschen träumen

OpenAIs neueste Reasoning-KI-Modelle halluzinieren stärker

OpenAIs neueste Modelle: höhere Genauigkeit, aber mehr Halluzinationen

Ergebnisse im internen Benchmark PersonQA

Analyse des externen Forschungsinstituts Transluce

Reaktionen von praktischen Nutzern

Lösungsansätze und Möglichkeiten

Das Dilemma von Reasoning-Modellen und Halluzinationen

Verwandte Beiträge

1 Kommentare

Hacker-News-Meinungen