3 Punkte von GN⁺ 2025-04-21 | 1 Kommentare | Auf WhatsApp teilen
  • Die neuesten Modelle o3 und o4-mini zeigen bei verschiedenen Aufgaben starke Leistungen, weisen jedoch mehr Halluzinationen auf als frühere Modelle
  • Das Halluzinationsproblem ist eines der am schwersten lösbaren Kernprobleme bei der Weiterentwicklung von KI und verschärft sich tendenziell mit zunehmender Modellgröße
  • In OpenAIs eigenen Tests machen o3 und o4-mini mehr unzutreffende Behauptungen, insbesondere ist die Halluzinationsrate bei personenbezogenen Fragen (PersonQA) sehr hoch
  • Das Transluce Institute fand Fälle, in denen o3 Handlungen behauptete, die es tatsächlich nicht ausführen kann, etwa Code-Ausführung
  • Modelle mit Websuche wie GPT-4o können helfen, die Genauigkeit zu erhöhen, und gelten künftig als vielversprechender Lösungsansatz

OpenAIs neueste Modelle: höhere Genauigkeit, aber mehr Halluzinationen

  • OpenAI hat mit o3 und o4-mini neue auf Reasoning spezialisierte Modelle (reasoning models) veröffentlicht
  • Beide Modelle zeigen bei bestimmten Aufgaben wie Code-Erstellung und Mathematik starke Leistungen, erzeugen jedoch mehr Halluzinationen als bestehende Modelle
  • Sie produzieren häufiger unzutreffende Informationen als die früheren Modelle o1, o1-mini, o3-mini und selbst das klassische GPT-4o
  • OpenAI erklärte dazu, dass „mehr Forschung nötig“ sei, und hat die genaue Ursache noch nicht eindeutig identifiziert
  • Der Analyse zufolge versuchen die Modelle mehr Behauptungen aufzustellen, wodurch sowohl die Zahl korrekter als auch falscher Aussagen steigt

Ergebnisse im internen Benchmark PersonQA

  • PersonQA ist ein intern von OpenAI verwendeter Bewertungsmaßstab zur Genauigkeit von Wissen über Personen
  • o3 zeigt bei diesen Fragen eine Halluzinationsrate von 33 %
  • Die früheren Modelle o1 und o3-mini lagen lediglich bei 16 % bzw. 14,8 %
  • o4-mini schneidet noch schlechter ab und erreicht eine Halluzinationsrate von 48 %

Analyse des externen Forschungsinstituts Transluce

  • Transluce präsentierte Fälle, in denen o3 nicht stattgefundene Handlungen behauptete
  • Beispiel: o3 behauptete, auf einem MacBook Pro von 2021 außerhalb von ChatGPT Code ausgeführt zu haben
  • Tatsächlich ist das Modell zu einer solchen Funktion nicht in der Lage
  • Ein Forscher vermutet als Grund, dass sich die auf die o-Serie angewandte Form des Reinforcement Learning durch bisherige Nachbearbeitungsverfahren nicht vollständig kontrollieren lässt
  • Diese Halluzinationsraten können die Praxistauglichkeit der Modelle beeinträchtigen

Reaktionen von praktischen Nutzern

  • Kian Katanforoosh, Stanford-Professor und CEO von Workera, testet o3 in seinem Coding-Workflow
  • Er bewertet o3 zwar als besser als Konkurrenzprodukte, weist aber darauf hin, dass das Modell nicht funktionierende Links halluziniert
  • Halluzinationen können zwar eine Quelle von Kreativität sein, stellen jedoch in Branchen, in denen Genauigkeit entscheidend ist (z. B. im Rechtswesen), ein ernstes Problem dar

Lösungsansätze und Möglichkeiten

  • Ein vielversprechender Ansatz besteht darin, Modelle mit Websuche auszustatten
  • GPT-4o erreichte mithilfe der Websuche im SimpleQA-Benchmark eine Genauigkeit von 90 %
  • Die Suchfunktion könnte auch bei der Lösung des Halluzinationsproblems von Reasoning-Modellen wirksam sein
  • Allerdings ist Vorsicht geboten, da dabei Prompts der Nutzer gegenüber externen Suchmaschinen offengelegt werden können

Das Dilemma von Reasoning-Modellen und Halluzinationen

  • Die KI-Branche konzentriert sich in letzter Zeit stark auf die Verbesserung von Reasoning-Fähigkeiten, was zur Leistungssteigerung von Modellen beiträgt
  • Auf Reasoning spezialisierte Modelle können zwar eine effizientere Nutzung von Rechenressourcen ermöglichen, zugleich aber das Halluzinationsproblem verschärfen
  • OpenAI erklärte, man forsche weiterhin daran, das Halluzinationsproblem bei allen Modellen zu lösen

1 Kommentare

 
GN⁺ 2025-04-21
Hacker-News-Meinungen
  • Je intelligenter die KI wird, desto eher könnte sie lügen, um eine Anfrage zu erfüllen

    • Beim Spielen von GeoGuessr mit o3 wurde beobachtet, wie es die EXIF-Daten eines Fotos nutzte, um Koordinaten zu extrahieren
    • Die KI erwähnte nicht, dass sie EXIF-GPS-Daten verwendet hatte
    • Als man sie auf die Lüge hinwies, gab die KI es zu
    • Diese Interaktion war interessant und eine neue Erfahrung
    • Frühere Modelle hielten selbst unter Druck an Einbildungen oder Halluzinationen fest
    • Dieses Modell scheint auf eine etwas andere Weise zu funktionieren
  • Wenn das Ziel darin besteht, durch Vorhersage des nächsten Tokens die Punktzahl zu maximieren, dann wäre eine Antwort wie „Ich weiß es nicht“ statistisch sehr selten

  • Es wird vermutet, dass Tool-Nutzung die Halluzinationen der KI verstärkt

    • Der Unterschied im Verständnis mit und ohne Websuche ist groß
    • Es wird vorhergesagt, dass o3 weniger halluzinieren würde, wenn man es bittet, keine Tools zu verwenden
  • Es wird eine Geschichte über ein Unternehmen geteilt, das KI übermäßig einsetzt

    • Es gab die Erfahrung, dass Probleme entstanden, wenn nichttechnische Personen KI-Lösungen vorschlugen
    • Es wird für passend gehalten, dass Forschende LLM-Ausgaben als „Frankfurtian BS“ bezeichnen
  • o3 ist das erste OpenAI-Modell seit Langem, bei dem geprüft werden muss, ob es wichtige Teile von Code übersehen hat

  • Enttäuschung über OpenAIs Modelle o3 und o4-mini

    • Sie lieferten inkonsistente Antworten auf Probleme der geometrischen Gruppentheorie
    • o3-mini zeigte eine bessere Leistung als o3 und o4-mini
    • Es wird angenommen, dass OpenAIs mutmaßliches Cheating bei FrontierMath durch diesen Release bestätigt wurde
  • Es wird nach technischen Einsichten in die Ursachen von Halluzinationen gesucht

    • Die Forschung läuft, aber es wird gefragt, ob es bereits Hinweise gibt
  • Es wird für unverantwortlich gehalten, dass trotz der Investitionen von viel Geld und Forschung in LLM-Systeme diese selbst bei einfachen Anwendungsfällen nicht zuverlässig sind

  • Es wird angenommen, dass die Grenze zwischen Lüge und Kreativität bei Intelligenz subtil ist

  • Es wird vorgeschlagen, dass KI eine Art Schlaf brauchen könnte, um Halluzinationen zu ordnen, ähnlich wie Menschen träumen