LLM-Halluzinationen sind unvermeidlich: Die inhärenten Grenzen großer Sprachmodelle

(arxiv.org)

5 Punkte von GN⁺ 2024-02-26 | 1 Kommentare | Auf WhatsApp teilen

Anders als Arbeiten, die LLM-Halluzinationen empirisch reduzieren wollen, definiert dieses Paper Halluzinationen als Abweichung zwischen einer berechenbaren Wahrheitsfunktion und der Modellausgabe und untersucht formal, ob sie sich vollständig eliminieren lassen
Nach dem Diagonalisierungsargument kann ein berechenbares LLM nicht alle berechenbaren Funktionen lernen; wird es als allgemeiner Problemlöser eingesetzt, kann es Halluzinationen nicht vermeiden
Für realistische LLMs mit Polynomialzeit gibt es halluzinationsanfällige Probleme wie Kombinationslisten, Presburger-Arithmetik, Subset Sum, SAT und aussagenlogische Implikation; einige Schlussfolgerungen hängen von der Annahme P ≠ NP ab
Größere Modelle, Ensembles, mehr Trainingsdaten sowie Chain-of-Thought- und Verifikations-Prompts können Fehler reduzieren, doch wenn die Wahrheitsfunktion außerhalb der Fähigkeiten des Modells liegt, ist eine vollständige Eliminierung unmöglich
Es ist schwierig, ein nur mit Input-Output-Paaren trainiertes LLM automatisch in sicherheitskritischen Entscheidungen einzusetzen; Guardrails, Wissensbasen und menschliche Kontrolle sind zusätzlich nötig

LLM-Halluzinationen in einer formalen Welt definiert

LLM-Halluzinationen sind das Problem, plausible, aber faktisch falsche oder sinnlose Informationen zu erzeugen; mit der zunehmenden Anwendung in Forschung, Industrie und Gesellschaft wachsen die Sorgen um Sicherheit und Ethik
Bisherige Arbeiten zur Minderung suchten Ursachen in Datenerhebung, Training und Inferenz und wollten Halluzinationen mit Benchmarks, retrieval-basierten Methoden, Reasoning-Prompts und Verifikations-Prompts reduzieren
Da nicht alle möglichen Eingaben aufgezählt und getestet werden können, ist es mit rein empirischen Ansätzen schwer zu beantworten, ob Halluzinationen vollständig eliminiert werden können
Das Problem, Semantik der realen Welt formal zu definieren, ist weiterhin offen; daher verwendet das Paper eine formale Welt aus berechenbaren Funktionen
- Die Wahrheitsfunktion f liefert für einen Eingabestring s die eindeutig richtige Ausgabe f(s)
- Wenn ein LLM-Zustand h[i] bei einer Eingabe s die Bedingung h[i](https://arxiv.org/abs/s) ≠ f(s) erfüllt, gilt er als in Bezug auf die Wahrheitsfunktion f halluzinierend
- Ein LLM wird als gesamte berechenbare Funktion behandelt, die Trainingsbeispiele sequenziell erhält und mehrere Zustände h[0], h[1], ... besitzt
Die Kernfrage lautet, ob ein nach einem festen Verfahren trainiertes LLM h für eine beliebige Wahrheitsfunktion f in irgendeinem Trainingsschritt i für alle Eingaben s die Bedingung h[i](https://arxiv.org/abs/s) = f(s) erfüllen kann

Die durch Diagonalisierung gezeigte Unvermeidlichkeit

Für eine berechenbar aufzählbare Menge von LLMs {h0, h1, ...} existiert eine berechenbare Wahrheitsfunktion f, die dafür sorgt, dass alle Trainingszustände aller LLMs halluzinieren
- Die Trainingszustände jedes LLM werden erneut zu einer einzelnen Aufzählung {ĥ0, ĥ1, ...} gemacht, und für die Eingabestrings {s0, s1, ...} wird eine Ausgabetabelle konstruiert
- Definiert man die Wahrheitsfunktion f(si) so, dass sie ein anderer String als ĥi(si) ist, kollidiert sie an den Diagonalpositionen mit jedem LLM-Zustand
Auf dieselbe Weise lässt sich auch eine Wahrheitsfunktion konstruieren, die alle LLM-Zustände nicht nur bei einer einzigen Eingabe, sondern bei unendlich vielen Eingaben halluzinieren lässt
- f(si) wird so definiert, dass es ein anderer String ist als alle ĥj(si) mit j ≤ i
- Dann halluziniert ein bestimmter LLM-Zustand ĥk bei hinreichend späteren Eingaben immer weiter
Auch ein einzelnes berechenbares LLM h ist als Menge {h} berechenbar aufzählbar; daher gibt es für jedes berechenbare LLM eine berechenbare Wahrheitsfunktion, die Halluzinationen verursacht
Nach Satz 3 gibt es für jedes berechenbare LLM h eine Wahrheitsfunktion f, bei der jeder Zustand h[j] halluziniert, sowie eine Funktion f', die es bei unendlich vielen Eingaben halluzinieren lässt
Damit ein LLM selbst Halluzinationen eliminieren könnte, müsste es für jede beliebige berechenbare Funktion einen halluzinationsfreien Zustand geben; das widerspricht jedoch Satz 3
- Mitigationsmethoden, die wie Chain-of-Thought nur auf dem LLM selbst beruhen, können Halluzinationen nicht vollständig eliminieren

Problemtypen, die anfällig für Halluzinationen sind

Findet man eine Wahrheitsfunktion, die eine gegebene LLM-Menge nicht berechnen kann, wird das entsprechende Problem zu einem halluzinationsanfälligen Problem
Für LLMs mit Polynomialzeitbeschränkung, also die Kategorie, in die das Paper alle heutigen LLMs einordnet, gehören dazu die folgenden Probleme
- Kombinationsliste: listet alle Strings der Länge n über einem Alphabet aus zwei Zeichen auf und benötigt Ω(2^n) Rechenzeit
- Subset Sum: ein NP-complete Problem, bei dem zu einer Menge von Ganzzahlen und einer Zahl q gefragt wird, ob es eine Teilmenge gibt, deren Summe q ergibt
- Boolean Satisfiability(SAT): ein NP-complete Problem, bei dem gefragt wird, ob es eine Belegung gibt, die eine Formel mit n booleschen Variablen wahr macht
- Aussagenlogische Implikation: ein co-NP-complete Problem, bei dem gefragt wird, ob M(ψ) ⊆ M(ϕ) gilt
Die Schlussfolgerung, dass Subset Sum, SAT und aussagenlogische Implikation für Polynomialzeit-LLMs halluzinationsanfällige Probleme sind, beruht auf der Annahme P ≠ NP
Presburger-Arithmetik ist eine Theorie erster Stufe über Addition und Ordnung < natürlicher Zahlen und beantwortet, ob eine Aussage innerhalb dieser Arithmetik beweisbar ist
- Sie benötigt Ω(2^{2cn}) Rechenzeit und wird sowohl für Polynomialzeit-LLMs als auch für Exponentialzeit-LLMs als halluzinationsanfälliges Problem klassifiziert
Für alle berechenbaren LLMs existieren allgemeinere anfällige Probleme
- Das Lernen aller berechenbaren linearen Ordnungen wird in Satz 4 behandelt
- Das Lösen aller berechenbaren Probleme ist Gegenstand von Satz 3
- Implikation in Logik erster Stufe wird als unentscheidbares Problem klassifiziert
LLM-Antworten auf mathematische Probleme und logisches Schließen müssen immer separat überprüft werden

Reichweite bestehender Gegenmaßnahmen

Größere Modelle, Modell-Ensembles und mehr Trainingsdaten können LLMs helfen, komplexere Wahrheitsfunktionen zu erfassen
- Mehr Trainingsdaten können ungültige LLM-Kandidaten ausschließen und zur Trainingskonvergenz beitragen
- Liegt die Wahrheitsfunktion jedoch außerhalb des Bereichs, den das betreffende LLM erfassen kann, lassen sich Halluzinationen allein durch mehr Parameter und Daten nicht beseitigen
- Zusätzliche Attention-Layer machen ein Polynomialzeit-LLM nur zu einem größeren Polynomialzeit-LLM und eliminieren keine Halluzinationen bei Exponentialzeit-Wahrheitsfunktionen
- Auch ein Modell-Ensemble kann im Wesentlichen als ein einzelnes LLM betrachtet werden und unterliegt daher den Beschränkungen von Satz 3
Chain-of-Thought-, Reflection- und Verification-Prompts sind Ansätze des In-Context Learning, die Beispiel-Lösungen und relevantes Wissen im Kontext bereitstellen
- Für komplexe Probleme gibt es mehrere Lösungswege, und Prompts können das LLM zu einem von Menschen bevorzugten Lösungsweg mit geringerer Komplexität lenken
- Die Fibonacci-Folge wird als Beispiel verwendet, bei dem eine rekursive Lösung Exponentialzeit braucht, während dynamische Programmierung eine Lösung in linearer Zeit ermöglicht
- Es ist unwahrscheinlich, dass sich alle Wahrheitsfunktionen vollständig per Prompt beschreiben lassen; dieser Ansatz dürfte daher nur bei bestimmten Aufgaben wirksam sein
Guardrails und Fences zielen darauf, LLM-Ausgaben an menschlichen Werten, Ethik und rechtlichen Anforderungen auszurichten oder eine Liste wichtiger Aufgaben zu führen, die nicht vollständig durch LLMs automatisiert werden sollten
- Sie können formal programmiert werden und das Verhalten des LLM explizit beeinflussen
- In der formalen Welt und bei einigen realen Problemen können sie nützliche Gegenmaßnahmen sein
- Ihre Skalierbarkeit in der realen Welt bleibt eine offene Frage
Wissensangereicherte LLMs nutzen externes Wissen und symbolisches Schließen wie Wissensgraphen, Datenbanken und Logik in Training und Inferenz
- LLM-basierte Chatbots wie ChatGPT haben begonnen, Werkzeuge wie Suchmaschinen, Code-Interpreter und Taschenrechner zu verwenden, um Probleme außerhalb der inhärenten Fähigkeiten des LLM zu lösen
- Die Suche in Wissensdatenbanken liefert Informationen über die Wahrheitsfunktion, die über Input-Output-Trainingsbeispiele hinausgehen
- In diesem Fall gilt Satz 3 nicht unverändert und dies kann in der formalen Welt eine potenziell wirksame Gegenmaßnahme gegen Halluzinationen sein
- Die Skalierbarkeit bei realen Aufgaben ist noch offen

Einschränkungen bei der Bereitstellung und Grenzen der Forschung

Jedes nur mit Input-Output-Paaren trainierte LLM halluziniert, wenn es als allgemeiner Problemlöser eingesetzt wird
- Manche Probleme können für Menschen intellektuell einfach sein, für LLMs aber rechnerisch schwierig
- Umgekehrt können Probleme, die für Menschen schwierig sind, für LLMs rechnerisch einfach sein
- Ursachen von Halluzinationen in der realen Welt sind nicht nur Rechenkomplexität; auch unvollständige Trainingsdaten können bei rechnerisch einfachen Aufgaben Halluzinationen erzeugen
Diese Schlussfolgerung gilt für nützliche LLMs, die letztlich Antworten auf Fragen außerhalb der Trainingsdaten geben
- Ein LLM kann auf beliebig viele Fragen mit „Ich weiß es nicht“ antworten
- Sobald ein LLM in irgendeinem Zustand eine Frage außerhalb der Trainingsdaten beantwortet, lässt sich die Diagonalisierungstechnik aus Satz 1 und Satz 2 auf diese Antwort anwenden
- Wenn ein LLM nie antwortet, halluziniert es nicht; solange es aber ungesehene Fragen beantwortet, halluziniert es in irgendeiner formalen Welt
Ohne externe Hilfsmittel sollten LLMs nicht automatisch für sicherheitskritische Entscheidungen eingesetzt werden
- Guardrails, Fences, Wissensbasen und menschliche Kontrolle können Informationen liefern, die über Input-Output-Paare hinausgehen, und dabei helfen, die Grenze von Satz 3 zu überwinden
- In Bereichen, in denen Halluzinationsfehler schwer hinnehmbar sind, etwa bei Entscheidungen über menschliches Leben, braucht es vernünftiges und menschliches Urteilsvermögen
Forschung und Regulierung zu den Sicherheitsgrenzen von LLMs sind wichtig
- Es gab Fälle, in denen ein im Kundenservice eingesetztes LLM falsche Informationen lieferte und tatsächliche finanzielle Verluste verursachte
- In automatisch wahrnehmenden und handelnden Umgebungen wie Robotern können Halluzinationen zu gefährlichen realen Folgen führen
- Nötig sind ein Konsens zwischen Theoretikern und Praktikern über die Grenzen der Fähigkeiten von LLMs sowie Regulierung, die eine Nutzung außerhalb dieser Grenzen verhindert
Auch die Grenzen der Forschung sind klar
- Halluzinationen, die bei Problemen innerhalb der Rechenfähigkeiten von LLMs auftreten, werden nicht behandelt
- Da die Wahrheitsfunktion deterministisch angenommen wird, sind Einsichten aus probabilistischer Sicht begrenzt
- In der empirischen Untersuchung werden bestehende LLMs ohne zusätzliches Fine-Tuning verwendet

1 Kommentare

GN⁺ 2024-02-26

Meinungen auf Hacker News

Beim Überfliegen des Papers scheint der Kern die Behauptung zu sein, dass LLMs bei NP-vollständigen Problemen halluzinierte Antworten liefern, weil P != NP gilt.
Das ist ein cleverer Punkt und eine interessante philosophische Frage zu Mathematik, Informatik und Sprache, aber offenbar versuchen manche, ihn auf das übliche Konzept von „LLM-Halluzinationen“ anzuwenden. Der Zusammenhang zwischen der formalen Halluzination, wie das Paper sie verwendet, und der alltagssprachlichen Halluzination — etwa wenn ein Modell bei der Zusammenfassung eines Romans nicht vorhandene Kapitel erfindet oder konkrete Details ausschmückt — scheint nicht offensichtlich.
Interessant ist auch die Aussage, dass die formale Welt, also die Welt von Mathematik, Logik und formalen Grammatiken, eine Teilmenge der „realen“ Welt oder der Welt natürlicher Sprache sei. Die meisten Menschen können keine Aufgaben der formalen Logik lösen oder formale Grammatiken parsen, leiden aber nicht unter starken Halluzinationseffekten und gehen sehr geschickt mit natürlicher Sprache um. Wenn Menschen bestimmte NP-vollständige Probleme ebenfalls nicht lösen können, sind Halluzinationen dann unvermeidlich? Da die Lebenszeit endlich ist, könnten manche Probleme selbst bei vorhandener Fähigkeit nie abgeschlossen werden.
- Bei LLMs ist Halluzination eine falsche Bezeichnung, und es ist deprimierend, dass sich dieser Begriff etabliert hat.
  Wenn Menschen so etwas tun, nennt man es Konfabulation (confabulation). Das ist ein psychiatrisches Symptom, bei dem jemand nicht weiß, dass er lügt, und Lücken im eigenen Wissen spontan mit erfundenem Unsinn füllt. Eine Halluzination ist ein völlig anderes Symptom.
  Konfabulation ist nichts, was Menschen normalerweise tun, und ich sehe auch nicht, wie das mit P != NP zusammenhängen sollte. Normale Menschen erkennen aus irgendeinem Grund die Grenzen ihres Wissens, LLMs hingegen nicht.
- Stimmt. Es wirkt, als würde man Unendlichkeit einführen und dann am Halteproblem für Unendlichkeiten hängen bleiben; das ist möglicherweise nicht besonders hilfreich.
  Der Punkt, an dem dieses Argument in Schwierigkeiten gerät, ist die Stelle, an der „Halluzination in einer formalen Welt definiert wird, in der uns nur berechenbare LLMs und berechenbare Wahrheitsfunktionen f auf S interessieren“. Das verlangt ein verlässliches und berechenbares Prädikat für Wahrheit, was an sich vermutlich unmöglich ist.
  Stattdessen kann man das Problem vermeiden, wenn man als Ausgaben der Wahrheitsfunktion True, False, Unknown und Resource limit exceeded zulässt. Dann wird das Ziel handhabbar: True oder False nur zurückgeben, wenn sie gültig sind, und bei nützlichen Anfragen den Anteil von Unknown und Resource Limit Exceeded reduzieren.
  Dasselbe Problem tritt auch bei Programmverifikationssystemen auf und wird seit Jahrzehnten auf diese Weise behandelt. Zu entscheiden, ob eine Aussage wahr ist, erfordert manchmal zu viel Arbeit.
- „Weil P != NP gilt, halluzinieren LLMs bei NP-vollständigen Problemen“ scheint nur dann zu stimmen, wenn man Halluzination schlicht als falsche Antwort definiert. Üblicherweise wird das aber nicht so verstanden.
  Wenn Menschen von LLM-Halluzinationen sprechen, meinen sie tatsächlich falsche und selbstbewusste Antworten. Aber nicht jede falsche Antwort ist eine Halluzination.
  Wenn man ein LLM fragt, ob ein bestimmtes Programm hält, und es antwortet „Ich weiß es nicht“, würde man das nicht Halluzination nennen. Wenn die Aussage der Autoren jedoch ist, dass LLMs NP-vollständige Probleme nicht immer korrekt lösen können, klingt es so, als würden sie auch „Ich weiß es nicht“ als halluzinierte Antwort betrachten. Ich habe das Paper allerdings nicht gelesen.
- Menschen haben bis zu einem gewissen Grad die Fähigkeit zu erkennen, dass sie an eine Grenze gestoßen sind, und sich entsprechend anzupassen. Allerdings sind Dinge wie der Vollständigkeitssatz, die Kolmogorow-Komplexität und die Theorie der Berechnungskomplexität auch erst Erkenntnisse des 20. Jahrhunderts.
- Der einzige Weg, Halluzinationen sowohl bei Menschen als auch bei LLMs zu reduzieren, besteht darin, allgemeine Intelligenz und Weltwissen zu vergrößern.
Ich gebe zu, dass ich nur das Abstract gelesen habe, bin aber insgesamt skeptisch, ob ein derart hochgradig formaler Ansatz bei der praktischen Frage helfen kann, ob man LLMs dazu bringen kann, häufiger „Ich weiß es nicht“ zu sagen.
Das klingt ähnlich wie die Unvollständigkeitssätze. So wie die Unvollständigkeitssätze in der Praxis nicht bedeuten, dass mathematische Forschung sinnlos ist, bedeutet die Aussage, dass LLMs manche Funktionen möglicherweise nicht berechnen können, auch nicht, dass das Halluzinationsproblem darin bestünde, dass LLMs alles wissen müssten. Das Problem, das uns interessiert, ist die Antwort „Ich weiß es nicht“, und die kann weiterhin berechenbar sein.
- LLMs können nicht „Ich weiß es nicht“ sagen. Denn sie wissen tatsächlich nichts.
  Antworten kommen nicht aus einem denkenden Geist, sondern von einem komplexen Pattern-Matching-Supercomputer, der über einer riesigen Tabelle vorberechneter Muster schwebt. Er berechnet die Eingabe und spuckt dann das Muster aus, das am besten passt. Es gibt kein denkendes Gehirn, das seine eigenen Grenzen begrifflich versteht.
  Von heutiger KI ein „Ich weiß es nicht“ zu erwarten, ist ungefähr so, als würde man Navigationssoftware fragen, wie lange man bis zum Haus der Simpsons in Springfield braucht. Die Maschine liefert eine Antwort, versteht aber nicht die kulturelle Referenz, die diese Antwort unmöglich macht. Stattdessen sucht sie im nächstgelegenen realen Springfield nach jemandem namens Simpson.
- Transformer haben weder die Fähigkeit zur Selbstreflexion noch die Fähigkeit, über den eigenen Schlussfolgerungsprozess zu schließen, und sie „wissen“ nicht, dass sie etwas nicht wissen.
  Ich verstehe das Paper so, dass es argumentiert, diese Schwäche sei grundlegend. Man kann ein Netzwerk darauf trainieren, sich so zu verhalten, als kenne es die Grenzen seines eigenen Wissens, aber in realen Implementierungen bleibt immer eine nicht vollständig schließbare Lücke.
- Um „Ich weiß es nicht“ zu antworten, muss man wissen, wann man etwas weiß. Um zu wissen, wann man etwas weiß, braucht man wiederum Verständnis.
- Es scheint keinen einfachen Weg zu geben, LLMs dazu zu bringen, „Ich weiß es nicht“ zu antworten.
  Dafür müssten sie aus sämtlichen aufgenommenen Materialien lernen, wie Menschen sprechen, wenn sie tatsächlich etwas nicht wissen. Viele Menschen im Internet schreiben aber, wenn sie etwas nicht wissen, nicht einfach „Ich weiß es nicht“, sondern irgendetwas Irrelevantes.
- Das bezieht sich nicht direkt auf LLMs, aber in der Informatik insgesamt gilt: Viele Probleme werden zwar als „nicht lösbar“ oder „nicht in angemessener Zeit lösbar (NP)“ klassifiziert, doch eine Näherungslösung, die durch einen bestimmten Wert beschränkt ist, lässt sich in angemessener Zeit (P) finden.
  Wenn die Routen der Amazon-Laster in der Praxis 20 % schlechter sind als das mathematische Optimum, ist das Problem des Handlungsreisenden dennoch auf ausreichend gute Weise „gelöst“.
Man muss Fragen sehr vorsichtig stellen, damit nichts erfunden wird. Zum Beispiel nicht „Wie macht man das in x?“, sondern „Kann man das mit x machen?“ fragen.
Solche „KIs“ wirken wie Ja-Sager. Selbst wenn etwas nicht stimmt oder unmöglich ist, sagen sie alles, um den Nutzer zufriedenzustellen.
Ich habe solche Menschen schon getroffen, und mit ihnen zu arbeiten ist sehr schwierig. Man kann nicht darauf vertrauen, dass sie ein zugesagtes Projekt tatsächlich liefern, und muss alles erneut überprüfen. Nicht einmal, ob das Versprochene überhaupt möglich ist, kann man glauben.
- Schon vor ChatGPT gab es bei Übersetzungen menschlicher Sprache ähnliche Probleme, aber die Leute haben nicht so laut darüber gesprochen.
  Es ist frustrierend, dass es heutzutage immer schwieriger wird, DeepL dazu zu bringen, thou mit du zu übersetzen. Das war ein „Hack“, den ich oft genutzt habe, um eine Inkompatibilität zu umgehen, die durch eine fehlende Funktion im Englischen entsteht.
  Um das „Ja-Sager“-Problem etwas abzumildern, muss man beim Stellen von Fragen wie ein pingeliger Mathematiker werden, und ich glaube nicht, dass sich dieses Problem allein mit LLM-Technologie vollständig überwinden lässt. So lächerlich es klingt: Ich muss anerkennen, dass es „Prompt Engineering“ gibt, weil sich wohl Abstraktionen weiterentwickeln werden, die Fragen stellvertretend zerlegen.
- Mit der Anweisung „Stelle Rückfragen, wenn du zusätzliche Klarheit brauchst“ hatte ich teilweise Erfolg.
  Die besten Erfahrungen begannen damit, frei darüber zu sprechen, was wir eigentlich tun wollten. Es scheint zu helfen, zuerst durch Fragen und Antworten zu prüfen, ob ich und die KI über denselben Bereich nachdenken und die relevanten Begriffe teilen.
- Die Analogie ist wirklich passend. Am Ende ist es eine Frage von Training und Auswahl.
  Solange eine Belohnung nach dem Muster „Verhalte dich so, sonst …“ im Spiel ist, ist es nicht überraschend, dass ein System entsteht, das seine Intelligenz einsetzt, um das gesetzte Ziel zu erreichen.
  Glücklicherweise sagt das weniger über die Grenzen der zugrunde liegenden Intelligenz aus als vielmehr über die Grenzen der Belohnungsstruktur, die man darum herum gebaut hat.
- Es kam auch recht häufig vor, dass ein LLM mir sagte, dass etwas, das ich mit verschiedenen Technologien machen wollte, unmöglich sei oder dass es einen besseren Weg gebe.
- Aktuelle KI ist durch RLHF darauf abgestimmt, kein „Ja-Sager“ oder Schmeichler zu sein.
  Dass bessere Prompts nötig sind, stimmt. Man sollte nicht fragen „Wer war die erste Präsidentin?“, sondern „Gab es eine Präsidentin?“. Wie bei StackOverflow muss man die richtige Frage stellen, ohne im Zustand des Nichtwissens Annahmen einzubauen.
  Man denke an die Anfangszeit von Google: Bei jedem Spam-Ergebnis gab man nur der Suchmaschine die Schuld und ignorierte die Wahl der Keywords oder das Verhalten, immer irgendetwas zurückgeben zu wollen. Das ist ähnlich wie ein Nutzer, der mit einem Meißel auf eine Betonplatte klopft und sich beschwert, dass keine schöne Statue entsteht.
Romane und Geschichten zu schreiben ist Halluzination. Es ist das Gegenteil des stochastischen Papageis.
KI hat beide Extreme erreicht. Ein Computer kann sowohl eine logische Maschine als auch eine halluzinierende Maschine sein. Das Ziel ist, eine Maschine zu bauen, die beides gleichzeitig kann und zwischen beidem unterscheiden kann.
Der Kern ist nicht die Halluzination selbst, sondern dass der Computer erkennt, wann er halluziniert.
Natürlich ist das ein schwieriges Problem, aber auch Menschen halluzinieren enorm viel. Man muss sich nur Religion ansehen. Da höchstens eine Religion richtig sein kann oder auch gar keine, bedeutet das logisch, dass alle anderen Religionen Halluzinationen sind.
- Religion mit Fehlern von LLMs zu vergleichen, ist ein Beispiel für die heute in der Gesellschaft weit verbreitete Anthropomorphisierung. Ich fürchte, dass solche Missverständnisse und Verwechslungen die technische Verbesserung tatsächlich behindern könnten.
  Zu einer falschen Erklärung wie „Helios zieht jeden Tag die Sonne über den Himmel“ zu gelangen, ist kategorial etwas anderes, als wenn ein mathematisches Programm fälschlich das der Reihenfolge nach plausibelste nächste Token zurückgibt. LLMs haben keinerlei Überzeugungen.
  Helios ist eine Antwort auf die Frage „Warum geht die Sonne auf?“. Ein solcher Glaube zeigt ein logisches Verständnis dafür, dass irgendeine Kraft dies verursachen muss, erzeugt aber wegen mangelnden Weltwissens eine falsche Erklärung.
  Ein LLM kann solche Fragen nicht aufwerfen und nicht schlussfolgern. Das ist nicht dieselbe Art von „Halluzination“. Wenn man annimmt, Kognition durch Wortvorhersage gelöst zu haben, wird man langfristig schnell in eine Sackgasse geraten.
- Das ist nicht das Gegenteil des stochastischen Papageis, sondern genau dasselbe. Die Vorhersage ist nur wegen spärlicher Trainingsdaten schlechter.
- Der Satz „Da nur eine Religion richtig sein kann oder keine, sind alle anderen Religionen Halluzinationen“ enthält mehrere Fehler.
  Es ist auch möglich, dass mehrere Religionen bestimmte Aspekte der Welt korrekt erklären und bei anderen falsch liegen. Die nützlichen Zustände, die eine Religion haben kann, ausschließlich als eine strenge und vollständige „richtige Antwort“ zu behandeln, ist sehr irreführend. Auch die Newtonsche Physik und die spezielle Relativitätstheorie können manche beobachteten Phänomene nicht vorhersagen und sind dennoch nützlich. Nicht alle Religionen beanspruchen strenge und perfekte Konsistenz.
  Selbst wenn eine Religion als falsch erscheinen mag, heißt das nicht automatisch, dass sie eine Halluzination ist. Menschen können aus plausiblen Gründen etwas glauben und trotzdem falsch liegen.
  Eine Haltung wie „Ich kann nicht beweisen, dass das wahr ist, und versuche es auch nicht, aber aufgrund einer subjektiven visionären Erfahrung mit Gott bin ich davon überzeugt, dass er wahrscheinlich real ist“ ist ebenfalls möglich. Das wirkt sehr anders als ein LLM, das ohne jede Grundlage ein ganzes Paper erfindet.
- Das geht etwas am Thema vorbei, aber ich sehe einen der Antriebe für die Existenz von Religion in einem Bedürfnis nach Personifizierung.
  Menschen scheinen leichter mit der Welt und ihren Elementen zu interagieren, wenn sie sie als vertraute, menschenähnliche Wesen behandeln und mit ihnen kommunizieren.
  Auch wenn über LLMs und KI allgemein gesprochen wird, taucht Personifizierung häufig auf.
- Ein einfacheres Beispiel dafür, dass auch Menschen in großem Maßstab halluzinieren, sind Träume.
Jemand Kluges hat es einmal so formuliert:
Wenn es gut ist, nennt man es „Kreativität“, wenn es schlecht ist, nennt man es „Halluzination“.
Das ist kein Bug. Und, wie die Autoren sagen, auch keine Grenze. Es ist ein Feature.
- Genau. LLMs halluzinieren und erfinden ständig etwas.
  Weil diese Halluzinationen manchmal zufällig stimmen, haben die Leute geschlossen, dass Falschliegen die Ausnahme ist und Richtigliegen somehow die Regel.
  Das ist ähnlich, als würde man in jahrtausendealten Texten Stellen finden, die heute zum eigenen Leben passen, und daraus schließen, dass sie die Zukunft vorhergesagt hätten.
  Die Bedeutung oder Wahrheit solcher Texte ist keine inhärente Qualität des Textes selbst, sondern nur ein kognitiver Bias im Kopf der Lesenden.
- Stimmt, aber man kann leicht in die Falle tappen, zu viel von LLMs zu erwarten. Das Wissen eines LLM kann perfekt wirken. Weil es fast alles beantworten kann, entsteht leicht die Illusion, es könne alles wahrheitsgemäß beantworten.
  Was künftige Verbesserungen betrifft, halte ich es für übermäßig optimistisch, Superintelligenz jenseits dessen zu erwarten, was wir heute sehen: also Zugriff auf weltweit öffentlich verfügbare Informationen oder das schnelle Erzeugen von Texten, Bildern und Videos, die zu bestehenden kreativen Mustern passen.
  Ich vermute, dass kreativere Intelligenz ein extrem fein austariertes Gleichgewicht braucht, um nicht „verrückt zu werden“ – also Ergebnisse zu liefern, die wir als Kreativität und nicht als Halluzination ansehen.
  Je mehr wir Feedback-Schleifen schaffen, in denen sich Intelligenz innerhalb von KI entwickelt, desto exponentiell schwieriger wird es, dieses Gleichgewicht zu treffen.
  Es ist auch möglich, dass Menschen diese Feedback-Schleife kreativer Intelligenz bereits bis an die Grenzen optimiert haben, die das Universum zulässt. Für enormes Wissen helfen mehr Neuronen oder Speicherplatz sicherlich, aber ob das auch für kreative Intelligenz gilt, wissen wir noch nicht.
- Wenn es kein Bug ist, ist es weder Halluzination noch Kreativität.
  Es ist ein tief integrierter Designfehler, der offenlegt, was wir tatsächlich tun: sehr viel menschliche Sprache statistisch modellieren.
  Mehr Daten in diesen Ansatz zu werfen, lässt ihn nicht magisch erwachen und zu AGI werden. Dieses Problem wird nicht verschwinden.
  Die Machine-Learning-Community sollte aus dem Hype-Zug aussteigen. Der erste Schritt ist, die eigenen Projekte nicht zu anthropomorphisieren.
- Ein LLM zu bitten, Code zu schreiben, ist im Grunde dasselbe, wie es darum zu bitten, zu halluzinieren.
- Der Kern scheint mir zu sein, ob ein LLM versteht, was von beidem es gerade tut.
  Ist das nicht der Unterschied zwischen Menschen und LLMs?
  Menschen wissen, wenn sie eine fundierte Vermutung anstellen, und sollten das dann auch sagen. Oder sie wissen, dass sie kreativ etwas erschaffen, und können das so sagen.
  Wenn es nicht weiß, was von beidem der Fall ist, wird klar, dass ein LLM letztlich kaum mehr ist als ein sehr ausgefeiltes mechanisches Ein-/Ausgabegerät.
Der KI-Hype scheint jetzt in die „Sehen wir der Realität ins Auge“-Phase einzutreten. Begeisterte Texte zum Alignment-Problem habe ich seit einer Weile auch nicht mehr gesehen.
- Der Hype ist verrückt. Ich denke, LLMs haben noch viel Wachstumspotenzial und sind bereits sehr nützlich, aber wie gute Forscher sagen: Sie sind nicht der Heilige Gral.
  Wenn man AGI will, sind LLMs nicht die Antwort. Viele scheinen das als Engineering-Problem zu betrachten und zu glauben, LLMs könnten uns dorthin bringen, aber das können sie nicht. Denn es ist kein Engineering-Problem.
Die Aussage „Halluzination ist definiert als eine Diskrepanz zwischen einem berechenbaren LLM und einer berechenbaren Wahrheitsfunktion“ ist einfach Ungenauigkeit oder Manipulation.
Das Halluzination zu nennen, bedient nur die Vorstellung, dass diese Programme intelligent seien.
- Genau. Stell dir vor, ein Taschenrechner liefert in etwa 10 % der Fälle völlig falsche Antworten, und statt ihn einfach kaputt zu nennen, bezeichnet man ihn als launisch.
- Dieser Satz ist sogar gegenüber „berechenbarer Wahrheit“ zu großzügig. Bei den Aufgaben, für die wir LLMs verwenden, gibt es so etwas nicht – es sei denn, man erfindet neue Definitionen, indem man die Bedeutung jedes einzelnen Wortes ruiniert.
LLMs werden als „probabilistische Modelle definiert, die die Ausgabe zum Zeitpunkt t in einer Zeichenkette auf alle vorhergehenden Tokens bedingen“.
Diese Definition scheint breit genug zu sein, um menschliche Intelligenz einzuschließen, und daher müssten die Schlussfolgerungen genauso für Menschen gelten.
- Das stimmt sicher. Das menschliche Gedächtnis und die Fähigkeit, sich korrekt an das zu erinnern, woran man sich zu erinnern glaubt, werden von allem Möglichen beeinflusst und sind manchmal sehr unzuverlässig.
  Allerdings ist menschliche Intelligenz, anders als ein LLM, nicht darauf beschränkt, einmal gelernte Informationen abzurufen. Wir können auch logisch schlussfolgern, und auch bei LLMs scheint sich diese Fähigkeit zu verbessern, aber sie ist weit von Perfektion entfernt.
  Ein weiteres Problem ist, dass wir je nach Informationsquelle – insbesondere je nach persönlichen Biases – die Vertrauenswürdigkeit sehr unterschiedlich behandeln. Meiner Erfahrung nach brechen LLMs je nach Nutzereingabe schnell ein und ändern ihre Meinung, daher halte ich das für einen großen Faktor.
- Sobald wir Intelligenz definieren und messen können, werden solche Diskussionen sinnvoller.
- Das könnte den evolutionären Grund für Träume erklären. Träume könnten Halluzinationen beschneiden. Wäre es sinnvoll, Lernen und Träumen abwechselnd einzubauen?
Nach dieser Definition lässt sich sehr leicht beweisen, dass der Satz im Titel, also „Halluzinationen sind unvermeidlich“, falsch ist.
Legen wir die Eingabekontextlänge eines LLM auf 1 Byte fest. Trainieren wir das LLM so lange, bis es auf die Eingabe „A“ mit „yes“ antwortet und auf alle anderen Eingaben mit „no“.
Die Ground-Truth-Funktion definiert die richtige Antwort auf die Eingabe „A“ als „yes“ und die richtige Antwort auf alle anderen Eingaben als „no“.
Dieses LLM halluziniert nachweislich niemals, weil vollständig verifiziert wurde, dass seine Ausgabe für alle möglichen Eingaben mit der Ground-Truth-Funktion übereinstimmt.
Nichts hindert uns daran, die Größe des Eingabekontexts und die Anzahl der Einträge in der Ground-Truth-Tabelle beliebig induktiv zu erhöhen, und in keinem Schritt werden Halluzinationen „unvermeidlich“.
- Ich stimme dem Paper ebenfalls nicht zu, aber aus einem anderen Grund.
  Es ist natürlich, dass dieses eine Satzfragment nicht alle Annahmen der Autoren enthält. Sie beweisen etwas intuitiv Offensichtliches: dass ein LLM mit Eingaben beliebiger Länge und bestimmten Ressourcenbeschränkungen — zum Beispiel eines, das für Berechnungen nur polynomielle Zeit verwenden darf und dessen polynomielle Laufzeit beweisbar sein muss, sodass es beim Training nicht versehentlich länger braucht — bestimmte Funktionen nicht berechnen kann, für die solche Beschränkungen nicht gelten.
  In manchen Fällen setzt dieser Beweis P != NP voraus. Anschließend argumentieren sie, dass einige nützliche Fragen aus der realen Welt wahrscheinlich in einer Klasse liegen, die ein LLM nicht berechnen kann. Denn man kann ein LLM nach mathematischen Problemen fragen, und mathematische Probleme sind mitunter sehr schwierig.
  Dieses formale Modell ist asymptotisch, setzt also Eingaben beliebiger Länge usw. voraus, aber meiner Erfahrung nach gelten Theoreme dieser Art oft auch für reale Probleme mit angemessener Abfragelänge.
  Das ist jedoch nicht dasselbe wie zu beweisen, dass Halluzinationen unvermeidlich sind. Nach einer vernünftigen Definition sollten sowohl LLMs als auch Menschen „Ich weiß es nicht“ sagen können, und das sollte nicht als Halluzination gelten. Dann können LLMs Halluzinationen vermeiden, und die Frage wird, wie viel Nützliches sie ohne Halluzinationen leisten können.
- „Trainiere es, bis es auf Eingabe A mit yes und auf den Rest mit no antwortet“ heißt im Grunde: Trainiere es, bis es nicht halluziniert.
  Damit reduziert sich die Behauptung auf eine Tautologie: Ein LLM, das darauf trainiert wurde, nicht zu halluzinieren, halluziniert nicht. Der schwierige Teil ist, das tatsächlich hinzubekommen.
- „Man kann die Größe des Eingabekontexts und die Anzahl der Einträge in der Ground-Truth-Tabelle beliebig induktiv erhöhen“ ist keine Induktion.
  Es wurde nur der Basisfall behandelt; es gibt weder eine Induktionsannahme noch einen Induktionsschritt. Vielleicht hast du diesen Schritt im Kopf durchgeführt, aber dann ist der Beweis nicht so trivial, wie behauptet.
Deshalb muss man Sprachlernen mit realer Erfahrung koppeln. Man sollte diesen Robotern eine Welt zum Erkunden geben, selbst wenn es nur eine virtuelle Welt ist, und sie darin Konsequenzen erleben und überleben lassen.
Andernfalls ist alles nur ein schwebendes System von Zeichen und Symbolen, das nicht an Erfahrung gebunden ist.
- Dem stimme ich eher zu, aber auch das könnte Anthropomorphisierung sein.
  Vor 3 bis 5 Jahren dachte ich über LLMs genauso. Sie konnten nicht beantworten, was herunterfallen würde, wenn Dinge auf eine unklare Weise aneinander befestigt waren, und damals lautete die Behauptung, dass man Erfahrung brauche, um so etwas zu verstehen. Aber LLMs haben solche Probleme schon vor langer Zeit behoben.
  Die Art, wie ein LLM eine Frage „löst“, unterscheidet sich stark von unserer. Um jetzt zu beweisen, dass ein LLM in der realen Welt verwurzelt sein muss, um Intelligenz zu erlangen, müsste man wohl ein Phänomen der realen Welt finden, das so selbstverständlich ist, dass niemand es aufgeschrieben hat. Aber würden wir dann nicht bereits darüber schreiben?

LLM-Halluzinationen sind unvermeidlich: Die inhärenten Grenzen großer Sprachmodelle

LLM-Halluzinationen in einer formalen Welt definiert

Die durch Diagonalisierung gezeigte Unvermeidlichkeit

Problemtypen, die anfällig für Halluzinationen sind

Reichweite bestehender Gegenmaßnahmen

Einschränkungen bei der Bereitstellung und Grenzen der Forschung

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News