Warum halluzinieren Sprachmodelle? von OpenAI
(openai.com)Zuverlässigkeitsprobleme von AI-Systemen
-
Bemühungen zur Verbesserung von Nutzen und Zuverlässigkeit von AI-Systemen
- OpenAI arbeitet daran, AI-Systeme nützlicher und vertrauenswürdiger zu machen.
- Trotz dieser Bemühungen ist eines der Probleme, das sich nur schwer lösen lässt, selbst wenn Sprachmodelle immer leistungsfähiger werden, die Halluzination.
-
Definition von Halluzination und Problemstellung
- Halluzination bedeutet, dass eine vom Modell selbstbewusst erzeugte Antwort nicht den Tatsachen entspricht.
- Dieses Phänomen ist ein wichtiges Problem, das die Zuverlässigkeit von AI-Systemen verringern kann.
-
Forschungsergebnisse und Ursachen von Halluzinationen
- Ein neuer Forschungsaufsatz argumentiert, dass Sprachmodelle deshalb halluzinieren, weil standardisierte Trainings- und Evaluierungsverfahren eher Raten belohnen als Unsicherheit anzuerkennen.
- Dadurch steigt die Wahrscheinlichkeit, dass AI-Modelle falsche Informationen erzeugen.
-
Halluzinationen bei ChatGPT und GPT-5
- Auch ChatGPT halluziniert.
- Bei GPT-5 haben Halluzinationen insbesondere beim Schlussfolgern deutlich abgenommen, können aber weiterhin auftreten.
- Das deutet darauf hin, dass weitere Forschung und Verbesserungen nötig sind, um die Zuverlässigkeit von AI-Systemen zu erhöhen.
Definition von Halluzination
- Eine Halluzination ist eine vom Sprachmodell erzeugte plausibel klingende, aber falsche Aussage.
- Solche Halluzinationen können auf unerwartete Weise auftreten und sogar bei einfachen Fragen vorkommen.
Beispiele für Halluzinationen
- Als einem weit verbreiteten Chatbot etwa der Titel der Dissertation von Adam Tauman Kalai gefragt wurde, präsentierte der Chatbot selbstsicher drei verschiedene Antworten.
- Die gegebenen Antworten waren jedoch allesamt falsch.
Probleme der Bewertungsmethoden
- Aktuelle Bewertungsmethoden setzen falsche Anreize.
- Die Bewertung selbst verursacht Halluzinationen nicht direkt, aber die meisten Evaluierungen messen Modellleistung auf eine Weise, die Raten fördert und Ehrlichkeit über Unsicherheit behindert.
- Denkt man etwa an Multiple-Choice-Tests, dann wird bei unbekannter Antwort oft einfach geraten, mit etwas Glück sogar richtig.
- So entsteht ein Umfeld, in dem Ergebnisse eher durch zufälliges Raten als durch präzise Bewertung verbessert werden können.
Wie die Modellleistung bewertet wird
-
Grundidee der Leistungsbewertung
Die Leistung eines Modells wird anhand der Korrektheit seiner Antworten auf gegebene Fragen bewertet. -
Umgang mit Unsicherheit
Wenn ein Modell die Antwort auf eine bestimmte Frage nicht kennt, garantiert die Antwort „Ich weiß es nicht“ keine gute Bewertung. -
Möglichkeit des Ratens
Wenn ein Modell zum Beispiel auf die Frage nach dem Geburtstag einer Person „10. September“ rät, kann es mit einer Wahrscheinlichkeit von 1/365 richtig liegen. -
Unterschiede bei Leistungswerten
Über Tausende Testfragen hinweg kann ein ratendes Modell auf dem Scoreboard besser abschneiden als ein vorsichtiges Modell, das seine Unsicherheit eingesteht.
Fazit und Implikationen
-
Grenzen der Modellbewertung
Ein ratendes Modell kann höhere Werte erzielen, doch das bedeutet nicht, dass es tatsächlich korrekte Informationen liefert. -
Bedeutung von Zuverlässigkeit
Deshalb sollte bei der Bewertung von Modellzuverlässigkeit und -genauigkeit neben bloßen Punktzahlen auch die Bereitstellung korrekter Informationen berücksichtigt werden.
Vergleich von Modellgenauigkeit und Fehlerrate
- Genauigkeit: Das ältere OpenAI-Modell o4-mini zeigt eine etwas bessere Leistung.
- Fehlerrate: Allerdings ist die Fehlerrate dieses Modells, also die Halluzinationsrate, erheblich hoch.
- Strategisches Raten: Strategisches Raten bei Unsicherheit verbessert die Genauigkeit, erhöht aber zugleich Fehler und Halluzinationen.
- Bewertungsmaßstab: Wenn Dutzende Evaluierungsergebnisse gemittelt werden, betonen die meisten Benchmarks Genauigkeitsmetriken. Das führt zu einer falschen Zweiteilung zwischen richtig und falsch.
Ein neuer Ansatz für die Bewertung
-
Problemstellung
Bestehende Bewertungsverfahren konzentrieren sich nur auf Genauigkeit. Das kann die Verlässlichkeit der Bewertung beeinträchtigen. -
Lösungsvorschlag
Ein möglicher Ansatz ist, selbstsichere Fehler stärker zu bestrafen und Unsicherheit schwächer. Das kann die Fairness der Bewertung erhöhen. -
Teilpunkte vergeben
Wichtig ist, für einen angemessenen Ausdruck von Unsicherheit Teilpunkte zu vergeben. Das schafft Raum dafür, die eigene Einschätzung auszudrücken. -
Forschungstrends
Mehrere Forschungsgruppen untersuchen Bewertungsverfahren, die Unsicherheit und Kalibrierung berücksichtigen. Diese Ansätze könnten neue Maßstäbe setzen, die über bloße Genauigkeit hinausgehen.
Die Ursachen von Halluzinationen verstehen
- Halluzinationen sind ein Phänomen spezifischer faktischer Ungenauigkeiten.
- Die Quelle dieser Ungenauigkeiten liegt im Lernprozess von Sprachmodellen.
- Sprachmodelle lernen durch Pretraining, indem sie in großen Textmengen das nächste Wort vorhersagen.
- Anders als bei traditionellen Problemen des maschinellen Lernens gibt es für jede Aussage kein „wahr/falsch“-Label.
Das fortbestehende Problem der Halluzinationen
- Es gibt mehrere Gründe, warum sich Halluzinationen nur schwer beseitigen lassen.
- Eine wichtige Rolle spielt dabei die Art und Weise, wie Sprachmodelle lernen.
- Weil diese Lernweise nicht immer korrekte Informationen liefert, können Halluzinationen entstehen.
- Die Besonderheit und Komplexität von Halluzinationen hängen eng mit den Trainingsdaten von Sprachmodellen zusammen.
Die Bedeutung der statistischen Perspektive
- Der Aufsatz will das Wesen von Halluzinationen präzisieren und verbreiteten Missverständnissen widersprechen.
- Er soll dazu beitragen, Halluzinationen mithilfe eines statistischen Ansatzes zu analysieren und zu verstehen.
- Halluzinationen stehen in engem Zusammenhang mit der Genauigkeit von AI-Modellen.
Das Verhältnis zwischen Halluzination und Genauigkeit
- Behauptung: Es gibt den Glauben, dass verbesserte Genauigkeit Halluzinationen beseitigen werde.
- Es wird behauptet, dass ein zu 100 % genaues Modell niemals halluzinieren würde.
- Das verkennt jedoch das Wesen von Halluzinationen.
Grenzen der Genauigkeit
- Erkenntnis: Genauigkeit kann niemals 100 % erreichen.
- Gründe:
- unabhängig von der Größe des Modells
- unabhängig von Such- und Schlussfolgerungsfähigkeiten
- einige Fragen aus der realen Welt sind ihrem Wesen nach nicht beantwortbar.
- Diese Grenzen deuten darauf hin, dass sich Halluzinationen nie vollständig beseitigen lassen.
Zukünftige Forschungsrichtungen
- Künftige Forschung sollte alternative Ansätze zur Verringerung von Halluzinationen untersuchen.
- Neben einer höheren Modellgenauigkeit braucht es verschiedene Methoden, um die Ursachen von Halluzinationen zu verstehen und anzugehen.
- Ein tieferes Verständnis von Halluzinationen wird dazu beitragen, die Zuverlässigkeit von künstlicher Intelligenz zu erhöhen.
Noch keine Kommentare.