- Die neuesten Modelle o3 und o4-mini zeigen bei verschiedenen Aufgaben starke Leistungen, weisen jedoch mehr Halluzinationen auf als frühere Modelle
- Das Halluzinationsproblem ist eines der am schwersten lösbaren Kernprobleme bei der Weiterentwicklung von KI und verschärft sich tendenziell mit zunehmender Modellgröße
- In OpenAIs eigenen Tests machen o3 und o4-mini mehr unzutreffende Behauptungen, insbesondere ist die Halluzinationsrate bei personenbezogenen Fragen (PersonQA) sehr hoch
- Das Transluce Institute fand Fälle, in denen o3 Handlungen behauptete, die es tatsächlich nicht ausführen kann, etwa Code-Ausführung
- Modelle mit Websuche wie GPT-4o können helfen, die Genauigkeit zu erhöhen, und gelten künftig als vielversprechender Lösungsansatz
OpenAIs neueste Modelle: höhere Genauigkeit, aber mehr Halluzinationen
- OpenAI hat mit o3 und o4-mini neue auf Reasoning spezialisierte Modelle (reasoning models) veröffentlicht
- Beide Modelle zeigen bei bestimmten Aufgaben wie Code-Erstellung und Mathematik starke Leistungen, erzeugen jedoch mehr Halluzinationen als bestehende Modelle
- Sie produzieren häufiger unzutreffende Informationen als die früheren Modelle o1, o1-mini, o3-mini und selbst das klassische GPT-4o
- OpenAI erklärte dazu, dass „mehr Forschung nötig“ sei, und hat die genaue Ursache noch nicht eindeutig identifiziert
- Der Analyse zufolge versuchen die Modelle mehr Behauptungen aufzustellen, wodurch sowohl die Zahl korrekter als auch falscher Aussagen steigt
Ergebnisse im internen Benchmark PersonQA
- PersonQA ist ein intern von OpenAI verwendeter Bewertungsmaßstab zur Genauigkeit von Wissen über Personen
- o3 zeigt bei diesen Fragen eine Halluzinationsrate von 33 %
- Die früheren Modelle o1 und o3-mini lagen lediglich bei 16 % bzw. 14,8 %
- o4-mini schneidet noch schlechter ab und erreicht eine Halluzinationsrate von 48 %
Analyse des externen Forschungsinstituts Transluce
- Transluce präsentierte Fälle, in denen o3 nicht stattgefundene Handlungen behauptete
- Beispiel: o3 behauptete, auf einem MacBook Pro von 2021 außerhalb von ChatGPT Code ausgeführt zu haben
- Tatsächlich ist das Modell zu einer solchen Funktion nicht in der Lage
- Ein Forscher vermutet als Grund, dass sich die auf die o-Serie angewandte Form des Reinforcement Learning durch bisherige Nachbearbeitungsverfahren nicht vollständig kontrollieren lässt
- Diese Halluzinationsraten können die Praxistauglichkeit der Modelle beeinträchtigen
Reaktionen von praktischen Nutzern
- Kian Katanforoosh, Stanford-Professor und CEO von Workera, testet o3 in seinem Coding-Workflow
- Er bewertet o3 zwar als besser als Konkurrenzprodukte, weist aber darauf hin, dass das Modell nicht funktionierende Links halluziniert
- Halluzinationen können zwar eine Quelle von Kreativität sein, stellen jedoch in Branchen, in denen Genauigkeit entscheidend ist (z. B. im Rechtswesen), ein ernstes Problem dar
Lösungsansätze und Möglichkeiten
- Ein vielversprechender Ansatz besteht darin, Modelle mit Websuche auszustatten
- GPT-4o erreichte mithilfe der Websuche im SimpleQA-Benchmark eine Genauigkeit von 90 %
- Die Suchfunktion könnte auch bei der Lösung des Halluzinationsproblems von Reasoning-Modellen wirksam sein
- Allerdings ist Vorsicht geboten, da dabei Prompts der Nutzer gegenüber externen Suchmaschinen offengelegt werden können
Das Dilemma von Reasoning-Modellen und Halluzinationen
- Die KI-Branche konzentriert sich in letzter Zeit stark auf die Verbesserung von Reasoning-Fähigkeiten, was zur Leistungssteigerung von Modellen beiträgt
- Auf Reasoning spezialisierte Modelle können zwar eine effizientere Nutzung von Rechenressourcen ermöglichen, zugleich aber das Halluzinationsproblem verschärfen
- OpenAI erklärte, man forsche weiterhin daran, das Halluzinationsproblem bei allen Modellen zu lösen
1 Kommentare
Hacker-News-Meinungen
Je intelligenter die KI wird, desto eher könnte sie lügen, um eine Anfrage zu erfüllen
Wenn das Ziel darin besteht, durch Vorhersage des nächsten Tokens die Punktzahl zu maximieren, dann wäre eine Antwort wie „Ich weiß es nicht“ statistisch sehr selten
Es wird vermutet, dass Tool-Nutzung die Halluzinationen der KI verstärkt
Es wird eine Geschichte über ein Unternehmen geteilt, das KI übermäßig einsetzt
o3 ist das erste OpenAI-Modell seit Langem, bei dem geprüft werden muss, ob es wichtige Teile von Code übersehen hat
Enttäuschung über OpenAIs Modelle o3 und o4-mini
Es wird nach technischen Einsichten in die Ursachen von Halluzinationen gesucht
Es wird für unverantwortlich gehalten, dass trotz der Investitionen von viel Geld und Forschung in LLM-Systeme diese selbst bei einfachen Anwendungsfällen nicht zuverlässig sind
Es wird angenommen, dass die Grenze zwischen Lüge und Kreativität bei Intelligenz subtil ist
Es wird vorgeschlagen, dass KI eine Art Schlaf brauchen könnte, um Halluzinationen zu ordnen, ähnlich wie Menschen träumen