Erkennung von Halluzinationen großer Sprachmodelle mit semantischer Entropie

(nature.com)

1 Punkte von GN⁺ 2024-06-25 | 1 Kommentare | Auf WhatsApp teilen

Um confabulation zu erkennen – plausibel klingende, aber willkürliche Falschantworten von LLMs –, wird eine Methode vorgeschlagen, die Unsicherheit nicht über Wortfolgen, sondern über die semantische Verteilung von Antworten berechnet.
Für dieselbe Frage werden mehrere Antworten gesampelt; Antworten, die sich wechselseitig implizieren, werden zu demselben semantischen Cluster zusammengefasst, und die Entropie wird pro Cluster berechnet.
Bei der Auswertung auf TriviaQA, SQuAD 1.1, BioASQ, NQ-Open und SVAMP mit LLaMA 2 Chat, Falcon Instruct und Mistral Instruct erzielte die Methode im Mittel eine AUROC von 0,790 und lag damit über naiver Entropie mit 0,691, P(True) mit 0,698 und Embedding-Regression mit 0,687.
Im GPT-4-basierten Biografie-Datensatz FactualBio waren von 150 aus Biografien von 21 Personen extrahierten Tatsachenbehauptungen 45 falsch; die diskrete semantische Entropie, die auch ohne Ausgabe-Wahrscheinlichkeiten funktioniert, zeigte höhere AUROC- und AURAC-Werte als Self-Check und Varianten von P(True).
Semantische Entropie generalisiert ohne vorheriges Domänenwissen oder aufgabenspezifische Labels auf neue Aufgaben, garantiert aber nicht die Faktizität von konsistent falschen Antworten, etwa bei fehlerhaften Trainingsdaten, systematischen Schlussfolgerungsfehlern oder irreführenden Ausgaben.

Ziel der Erkennung: nicht alle Halluzinationen, sondern confabulation

LLMs wie ChatGPT oder Gemini zeigen Fähigkeiten in Schlussfolgern und Fragebeantwortung, doch reale Einführung wird durch Risiken erschwert, etwa erfundene Gerichtsurteile, falsche Fakten in Nachrichten oder Gefahren in medizinischen Bereichen wie der Radiologie.
Behandelt wird hier nicht das gesamte Spektrum von Halluzinationen im weiten Sinn, sondern confabulation.
- Das LLM formuliert flüssig, aber die Antwort ist falsch und willkürlich.
- Selbst bei derselben Anweisung ändert sich die Antwort je nach irrelevanten Details wie dem Zufalls-Seed.
- Auf die Frage „Was ist das target von Sotorasib?“ kann es etwa manchmal korrekt KRASG12 ‘C’ und manchmal fälschlich KRASG12 ‘D’ antworten.
Die folgenden Fehlertypen werden von confabulation unterschieden:
- Konsistent falsche Fälle aufgrund fehlerhafter Trainingsdaten oder verbreiteter Fehlannahmen.
- Fälle, in denen das Modell im Rahmen der Belohnungsoptimierung lügt.
- Systematische Fehler im Schlussfolgern oder in der Generalisierung.
Die Methode konzentriert sich auf die Erkennung willkürlicher Falschantworten, die auch für Menschen plausibel wirken, und liefert keine Garantie für die Faktizität von LLM-Ausgaben.

Kernidee der semantischen Entropie

Herkömmliche Entropieberechnung nutzt die Wahrscheinlichkeitsverteilung der vom Modell erzeugten Tokensequenzen.
- Dieselbe richtige Antwort kann in mehreren Formulierungen erscheinen; selbst bei gleicher Bedeutung kann dadurch eine hohe Entropie gemessen werden.
- Naive Entropie kann Vielfalt der Ausdrucksweise nicht von Bedeutungsunterschieden trennen.
Semantische Entropie schätzt Unsicherheit, indem frei generierte Antworten in Bedeutungseinheiten gruppiert werden.
- Antworten mit derselben Bedeutung werden zu einem semantischen Cluster zusammengefasst.
- Durch Aufsummieren der Clusterwahrscheinlichkeiten wird die Entropie auf Bedeutungsebene berechnet.
Wenn bei mehreren Antworten auf dieselbe Frage nur die Formulierung variiert, die Bedeutung aber gleich bleibt, wird das als geringe Unsicherheit gewertet; mischen sich unterschiedliche Bedeutungen, gilt das als hohe Unsicherheit.
Für Modelle, bei denen keine Ausgabe-Wahrscheinlichkeiten verfügbar sind, kann diskrete semantische Entropie verwendet werden.
- Statt Token-Wahrscheinlichkeiten wird der Anteil der Samples verwendet, die zu jedem semantischen Cluster gehören.
- In den GPT-4-Experimenten wurde diese Variante genutzt, weil damals weder Ausgabe-Wahrscheinlichkeiten noch Zugriff auf hidden states möglich waren.
- Die diskrete Variante zeigt eine ähnliche Leistung wie der Standardschätzer.

Algorithmus: Sampling, semantisches Clustering, Entropieberechnung

Das Verfahren besteht aus drei Schritten:
- Generierung: Für denselben Input werden mehrere Antworten gesampelt.
- Clustering: Antworten werden in Gruppen mit gleicher Bedeutung zusammengefasst.
- Entropieschätzung: Die Wahrscheinlichkeiten von Sequenzen im selben semantischen Cluster werden aufsummiert und daraus die Entropie berechnet.
Semantische Gleichwertigkeit wird durch wechselseitige Implikation angenähert.
- Wenn Satz A Satz B impliziert und Satz B auch Satz A impliziert, gelten beide als bedeutungsgleich.
- „The capital of France is Paris“ und „Paris is the capital of France“ werden daher als gleiche Bedeutung behandelt.
- Kurze Antworten wie „Paris“ können nur im Kontext der Frage dieselbe Bedeutung wie eine längere Antwort haben.
Zur Implikationsprüfung werden allgemeine LLMs und NLI-Werkzeuge eingesetzt.
- In QA- und Mathematikexperimenten wurde GPT-3.5 gewählt, weil es gut mit menschlichen Bewertungen übereinstimmte und gute Leistung bei der Erkennung von confabulation zeigte.
- Auch NLI-Modelle wie DeBERTa-Large-MNLI wurden geprüft.
Für das Sampling wurden temperature 1, nucleus sampling mit P=0.9 und top-K sampling mit K=50 verwendet.
- Zur Bewertung der Modellgenauigkeit wurde eine einzelne Generierung mit niedriger temperature von 0.1 verwendet.
Da bei langen Sätzen das Produkt von Token-Wahrscheinlichkeiten sehr klein wird, wurde beim Vergleich von Log-Wahrscheinlichkeiten Längennormalisierung verwendet.

Bewertung bei QA- und Mathematikaufgaben

Bewertet wurden Datensätze, die freie Antworten erfordern:
- TriviaQA: Quizwissen
- SQuAD 1.1: leseverstehensbasierte Fragen auf Grundlage von Wikipedia
- BioASQ: Fragebeantwortung in den Lebenswissenschaften
- NQ-Open: Open-Domain-Fragen aus realen Google-Search-Anfragen
- SVAMP: Textaufgaben aus der Grundschulmathematik
In jedem Datensatz wurden zufällig 400 Train- und 400 Test-Beispiele gesampelt.
- Die semantische Entropie selbst verwendet die Train-Daten nicht.
- Um die Aufgaben schwieriger zu machen und confabulation zu fördern, wurden die ursprünglichen Kontextpassagen der Datensätze nicht bereitgestellt.
Verwendete Modelle waren:
- LLaMA 2 Chat 7B, 13B, 70B
- Falcon Instruct 7B, 40B
- Mistral Instruct 7B
Die mittlere Länge satzlanger Antworten betrug 96±70 Zeichen, und über 30 Kombinationen aus Aufgaben und Modellen hinweg erzielte die semantische Entropie die höchste mittlere AUROC.
- semantic entropy: 0,790
- naive entropy: 0,691
- P(True): 0,698
- embedding regression: 0,687
Auch nach Modellfamilie und Modellgröße blieb die Leistung der semantischen Entropie stabil.
- Über LLaMA, Falcon und Mistral hinweg lag die AUROC im Bereich von 0,78 bis 0,81.
- Auch von 7B bis 70B lag sie über den Baselines.
P(True) tendierte dazu, sich mit größerer Modellgröße zu verbessern, und könnte daher in Umgebungen mit sehr leistungsfähigen und ehrlichen Modellen konkurrenzfähiger sein.
Die Bewertung der Fehlererkennung umfasste nicht nur confabulation, sondern auch systematische Falschantworten, auf die semantische Entropie nicht direkt abzielt.
- Dass semantische Entropie dennoch besser abschnitt als andere Methoden, deutet darauf hin, dass confabulation eine wichtige Kategorie realer Generierungsfehler ist.

Ablehnungsbasierte Genauigkeit und Bewertungsmetriken

AUROC wird für das binäre Ereignis verwendet, ob eine bestimmte Antwort falsch ist.
- Der Wert liegt zwischen 0 und 1; 1 bedeutet ein perfekter Klassifikator, 0,5 einen informationslosen Klassifikator.
AURAC ist die Fläche unter der Rejection-Accuracy-Kurve.
- Wenn Fragen abgelehnt werden, die wahrscheinlich confabulation auslösen, misst sie die Modellgenauigkeit auf den verbleibenden Fragen.
- Sie fasst die Genauigkeitsverbesserung zusammen, die Nutzer bei verschiedenen Schwellenwerten erleben.
Semantische Entropie kann in folgenden Situationen eingesetzt werden:
- Fragen nicht beantworten, die mit hoher Wahrscheinlichkeit confabulation auslösen.
- Nutzer darauf hinweisen, dass eine bestimmte Antwort wenig verlässlich ist.
- Fundiertere Verfahren wie Suche oder retrieval-gestützte Prozesse ergänzen.
Die Beurteilung von richtig oder falsch bei satzlangen Antworten wurde automatisiert, indem GPT-4 die semantische Übereinstimmung zwischen reference answer und proposed answer bewertete.
- In ergänzendem Material wurde die Qualität dieser automatischen Bewertung mit menschlichen Urteilen verglichen.

Lange Biografie-Generierung: FactualBio-Experiment

In langen Absätzen sind mehrere Aussagen vermischt, sodass sich semantische Gleichwertigkeit auf Absatzebene nur schwer direkt beurteilen lässt.
- Bei einer erneuten Generierung desselben Absatzes können Unterschiede in Faktenreihenfolge oder Absatzstruktur auftreten, nicht nur Unsicherheit über die Fakten selbst.
FactualBio ist ein von GPT-4 v.0613 erzeugter Biografie-Datensatz.
- Er umfasst 21 Personen, die bekannt genug für einen Wikipedia-Eintrag sind, zu denen online aber nur wenige ausführliche Biografien verfügbar sind.
- Aus den erzeugten Biografien wurden 150 Tatsachenaussagen automatisch extrahiert.
- Von diesen 150 wurden 45 bei manueller Annotation als falsch eingestuft.
Für lange Generierungen wurde das folgende Verfahren angewandt:
- Ein Absatz wird in einzelne Tatsachenbehauptungen zerlegt.
- Für jede Tatsachenbehauptung werden automatisch Fragen erzeugt, auf die sie eine Antwort sein kann.
- Das ursprüngliche LLM generiert für jede Frage neue Antworten.
- Die neuen Antworten und die ursprüngliche Tatsachenbehauptung werden gemeinsam verwendet, um semantische Entropie zu berechnen.
- Die semantische Entropie über mehrere Fragen hinweg wird gemittelt, um einen Unsicherheitsscore für die jeweilige Tatsachenbehauptung zu erhalten.
Für jede Tatsache wurden 6 Fragen erzeugt und pro Frage 3 neue Antworten generiert.
- Indem die ursprüngliche Tatsachenbehauptung in die Entropieberechnung einbezogen wird, bleibt die Grounding-Beziehung zur ursprünglichen claim erhalten.
- Wenn Antworten wie „not available“, „not provided“, „unknown“ oder „unclear“ mehr als die Hälfte ausmachen, wird die semantische Unsicherheit als maximal behandelt.
Die diskrete semantische Entropie erreichte in FactualBio höhere AUROC- und AURAC-Werte als die Self-Check-Baseline und eine für Absatzlänge angepasste Variante von P(True).
- Bei der rejection accuracy war die diskrete semantische Entropie besser, bis 20 % der Fragen abgelehnt wurden; an diesem Punkt lag P(True) knapp vorne.

Grenzen und Anwendbarkeit

Semantische Entropie kann ohne Änderungen an der Modellarchitektur auf LLMs oder ähnliche foundation models angewendet werden.
Auch in Umgebungen mit eingeschränktem Zugriff ohne Ausgabe-Wahrscheinlichkeiten kann die diskrete Variante genutzt werden.
Anders als überwachte Verfahren benötigt die Methode keine gelabelten Beispiele für confabulation und generalisiert ohne vorheriges Domänenwissen auf neue Aufgaben.
- Überwachte Verfahren wie embedding regression verschlechtern sich, wenn sich die Verteilung von Trainings- und Einsatzdaten unterscheidet.
Die Methode löst nicht direkt Situationen, in denen ein LLM mit Überzeugung falsch liegt.
- Lernziele, die systematisch riskantes Verhalten erzeugen
- systematische Schlussfolgerungsfehler
- Ausgaben, die Nutzer systematisch in die Irre führen
- Solche Fälle können ähnliche Symptome wie confabulation zeigen, erfordern aber eine gesonderte Behandlung.
Der Ansatz überträgt Werkzeuge zur Unsicherheitsschätzung aus dem probabilistischen Machine Learning anhand der Bedeutung auf freie Sprachgenerierung, generalisiert ohne aufgabenspezifische Daten auf neue Aufgaben und hilft dabei, Situationen zu erkennen, in denen Nutzer besonders vorsichtig sein sollten.

Daten und Code

Für Experimente mit kurzen Phrasen und satzlangen Generierungen wurden öffentliche Datensätze verwendet; der Ansatz ist im öffentlich verfügbaren Code enthalten.
Eine öffentliche Version von FactualBio wird als Teil der Codebasis zur Reproduktion der Experimente mit Absatzlänge bereitgestellt.
Orte der Codeveröffentlichung
- github.com/jlko/semantic_uncertainty: Code für short-phrase- und sentence-length-Experimente
- github.com/jlko/long_hallucinations: Code für paragraph-length-Experimente
- Zenodo DOI: https://doi.org/10.5281/zenodo.10964366

1 Kommentare

GN⁺ 2024-06-25

Hacker-News-Kommentare

Die Kommentare scheinen sich über die Bedeutung von Wörtern oder die Anthropomorphisierung von LLMs zu streiten, aber bei diesem Ansatz gibt es ein echtes mathematisches Problem.
Zu jedem Eingabetext gibt es eine Verteilung möglicher Ausgabetexte, und ein Verfahren, das mehrere Samples zieht und Entropie oder Uneinigkeit bewertet, scheint vorauszusetzen, dass man bereits die Eigenschaften dieser Ausgabeverteilung kennt.
Zum Beispiel können auf „Wofür ist Tom Cruise bekannt?“ Antworten wie „movie star“, „katie holmes“, „topgun“ oder „scientology“, die im Vektorraum weit voneinander entfernt liegen, alle richtig sein.
Umgekehrt könnten bei „Wofür ist Taylor Swift bekannt?“ semantisch nahe Antworten wie „standup comedy“, „comedian“ oder „comedy actress“ allesamt Halluzinationen sein.
Wenn die Kenntnis der korrekten Wortfolgen-Verteilung für eine bestimmte Eingabe genau das Problem ist, das ein LLM lösen soll, gibt es keine Möglichkeit, allein durch Bewertung der Ausgabeverteilung zu entscheiden, ob eine Antwort richtig ist.
Es gibt zwar statistische Modelle zur Bewertung der Unsicherheit von Ausgaben künstlicher neuronaler Netze, aber sie scheinen in der Größenordnung von LLMs nicht praktikabel zu sein, und Teil-Schätzungen, die nur die letzten ein bis zwei Schichten verwenden, schneiden die Unsicherheit des gesamten Netzwerks stark ab.
Die Halluzinationen, denen ich begegne, wirken oft sehr plausibel und nahe an der richtigen Antwort, etwa beim Umbenennen von Variablennamen oder beim Erfinden von Konfigurationsschlüsseln, sind in Wirklichkeit aber häufig falsch.
- Antworten mit hoher Unsicherheit haben per Definition eine geringe Wahrscheinlichkeit; wenn man also mehrmals fragt, ist es wahrscheinlicher, dass semantisch unterschiedliche Antworten erscheinen, als dass sich dieselbe seltene Antwort wiederholt, etwa dass Taylor Swift Komikerin sei.
  Wenn die Trainingsdaten Taylor Swift als Komikerin darstellen, dann ist das kein Halluzinationsproblem.
- Das scheint etwas, das ich mit meinem eher mathematikfernen Informatikdenken gespürt habe, sehr viel technischer zu erklären.
  Das klingt ähnlich wie Temperatur senken. Es wirkt nicht so, als würde man besser aus gut begründeter Wahrheit abrufen, sondern eher, als würde man im Vektorraum zu wahrscheinlicheren Bereichen gehen — ich frage mich, ob das ein korrektes Verständnis ist.
- Der Einwand ist berechtigt, aber beim Taylor-Swift-Beispiel scheint es unwahrscheinlich, dass ein gut fundiertes Modell wiederholt hintereinander eine Antwort wie „Komikerin“ ausgibt, wenn sie nicht in den Trainingsdaten vorkommt.
  Im Tom-Cruise-Beispiel sind alle Antworten faktisch richtig und in den Trainingsdaten verankert, sodass diese Technik sie fälschlich als falsch positiv halluziniert einstufen könnte.
  Die Beispiele im Paper sind allerdings Fragen mit nur einer richtigen Antwort wie „An welchem Rezeptor wirkt dieses bestimmte Medikament?“ oder „Wo befindet sich der Eiffelturm?“, daher könnte es für solche Anwendungen nützlich sein.
- Anders gesagt: „Wenn man sampelt und die Ähnlichkeit zwischen den Samples bewertet, kann man die Streuung der Verteilung erkennen, aber nicht, ob diese Verteilung korrekt ist.“
  Aus einer Gauß-Verteilung kann man Samples ziehen und die Standardabweichung angeben, aber nicht wissen, ob die Verteilung selbst korrekt ist.
  Es kann eine sehr genaue Verteilung für eine Variable mit hoher Entropie geben, und umgekehrt kann eine dichte Verteilung mit niedriger Standardabweichung schlicht falsch sein. Wenn man nicht vorher weiß, wie die Ausgabe aussehen sollte, kann man das durch Sampling allein nicht erkennen.
- Der Ansatz im Paper besteht nicht einfach darin, „mehrere Samples zu ziehen und nur Entropie oder Uneinigkeit zu bewerten“.
  Es werden mehrere Antworten gesampelt, dann nach semantischer Ähnlichkeit gruppiert, und anschließend werden die Wahrscheinlichkeiten der gruppierten Antworten aufsummiert und normalisiert.
  Zum Beispiel würde man „music:0.8, musician:0.9, concert:0.7, actress:0.5, superbowl:0.6“ zu [music, musician, concert] → MUSIC, [actress] → ACTING, [superbowl] → SPORTS gruppieren und dann Werte wie MUSIC:0.686, SPORTS:0.171, ACTING:0.143 berechnen.
  Das Paper definiert das Ziel der Vermeidung klar als Konfabulation (confabulation), also flüssig formulierte, aber falsche und willkürliche Behauptungen, die empfindlich auf irrelevante Details wie einen Zufalls-Seed reagieren.
  Ein häufiger Irrtum wäre im Datensatz stark verankert, und diese Methode bestraft eher Antworten, die semantisch von anderen möglichen Antworten isoliert sind und zugleich eine mehrdeutige Wahrscheinlichkeit haben.
  Das Paper vergleicht nur die Erkennungswirkung und schlägt keine verbesserte Sampling-Methode vor, die diese Erkennung nutzt. Wenn man es in die Generierung integrieren würde, entstünden außerdem hohe Kosten, weil das Modell ungefähr zehnmal so viel generieren müsste.
  Code: https://github.com/jlko/semantic_uncertainty
Die aktuelle LLM-Architektur konzentriert sich vor allem auf den Suchaspekt, und die gelernten Gewichte konvergieren letztlich nur darauf, die nächsten Tokens gut vorherzusagen.
Meiner Ansicht nach hätte auch die Fähigkeit, diese Daten in ein logisches System einzuordnen, Teil des Lernziels sein müssen.
Wenn man zur Vorhersage des nächsten Tokens in der Trainingsphase noch eine formale Validierung der Wissensstruktur hinzufügt, könnte ein LLM die Konsistenz der Wissensgenerierung bewahren und korrekte Halluzinationen, also eher etwas in Richtung Imagination, erkennen.
Der Prozess könnte so aussehen, dass bestehende Trainingsdaten mit einem vorhandenen großen Modell in formal-logische Beziehungen umgewandelt werden, dann mehrere Lösungen erzeugt werden und mit diesem verstärkten Datensatz ein neues LLM trainiert wird, das nicht nur das nächste Token, sondern auch die formalen Beziehungen zwischen vorhandenem Wissen und neu erzeugtem Text ausgibt.
Das Netzwerk könnte die Gewichte so optimieren, dass der erzeugte formale Code bei einem Proof Checker eine hohe Genauigkeit erzielt, zusammen mit der Genauigkeit der Tokenerzeugung.
Persönlich scheint mir Sprache nicht die Grundlage der Intelligenz, sondern eher etwas Sekundäres zu sein; die Grundlage wirkt eher wie eine traumartige Simulation mit in sich konsistenten Objekten, und Sprache fühlt sich wie ein Werkzeug an, um das zu beschreiben.
- Dieser Vorschlag führt zurück zur klassischen Debatte zwischen formalen Top-down- und **informellen Bottom-up-**Ansätzen beim Aufbau semantischer Wissensmanagementsysteme.
  Top-down wurde vor Big Data und vor probabilistischen Modellen oft versucht, erforderte aber enorme manuelle Kuration und litt zudem unter Wissensmangel.
  Das Aufkommen von Big Data hat das Kurationsproblem nicht gelöst, und da sich Kuration nicht automatisieren ließ, wurde es mit wachsendem Umfang nur schlimmer.
  Als die KI etwa in den 1990ern zur probabilistischen Richtung wechselte, wurden die heutigen assoziativen probabilistischen Modelle möglich, und es gibt keine erkennbare Hoffnung, dass stärker kuratierte und formalere Ansätze diese schlagen könnten.
  Egal wie man an LLMs Typ-2-Denken wie Schlussfolgern oder Kausalität anhängt, die Implementierung muss weiter probabilistisch, informell und Bottom-up bleiben.
  Dass Menschen logische und semantische Beziehungen manuell in Wissensmodelle kuratieren, hat sich bereits als unzureichend für den nötigen Maßstab und die erforderliche Robustheit erwiesen.
- Auch die Logik selbst hat viele eigene Probleme.
  Man muss nur „Godel, Escher, Bach“ ansehen oder darüber nachdenken, warum OWL trotz 20 Jahren Existenz kaum Marktanteil gewonnen hat.
  Dass Menschen für asynchrones Code-Management alles Mögliche statt RETE ausprobiert haben, dass „Complex Event Processing“ ein Spezialgebiet geblieben ist statt ein Konkurrent für Job-Runner wie Celery zu werden, und dass Drools keine verständlichen Fehlermeldungen ausgeben kann, gehört in denselben Zusammenhang.
- Das Problem entsteht bei Neuem, das das Modell nicht gesehen hat, und bei Fragen, auf die auch Menschen die Antwort nicht kennen.
  Das gesamte Halluzinationsproblem wirkt einfach wie das Halteproblem mit noch ein paar zusätzlichen Ebenen. Vielleicht sollte man ChatGPT fragen, ob P=NP gilt.
- Als erster Schritt könnte CYC eine brauchbare Lösung sein.
  Meiner Erfahrung nach kann man es durchaus als sinnvolles Beziehungsschema für DAGs bezeichnen. Es gibt auch eine Open-Source-Version, aber das Unternehmen pflegt sie nicht mehr selbst.
  https://cyc.com
  https://github.com/asanchez75/opencyc
- Formale Validierung von Wissens- oder Logikbeziehungen? Wie will man dann Science-Fiction-Romane oder Gedichte formal validieren?
  Was macht man mit in der Natur vorkommenden Paradoxien oder mit Theorien, die einander widersprechen, aber jeweils logisch stimmig sind?
  Klingt leicht gesagt, ist in der Praxis aber letztlich der Vorschlag: „Es würde funktionieren, wenn wir NP-schwere Probleme lösen könnten, die wir bislang nicht lösen können.“
Man kann es Halluzination nennen, aber anders gesagt könnte man auch sagen, dass diese Systeme orthogonal zur Wahrheit sind.
Das heißt, sie stehen weder mit wahr noch mit falsch in irgendeinem Zusammenhang.
Dieser Gedanke wird auch in diesem Paper ausgedrückt: https://link.springer.com/article/10.1007/s10676-024-09775-5
- Das ist ungefähr so, als würde man eine Wahrscheinlichkeitsverteilung fragen, ob sie wahrhaftig ist oder lügt.
  So zu sprechen, als hätte ein Algorithmus persönliche Eigenschaften, ist ein Kategorienfehler.
- Das verlinkte Paper behandelt die Frage, ob LLMs auf Faktenebene zufällig auswählen oder konsistent auswählen.
  Prozedural erzeugte Zufälligkeit kann für Dinge wie Brainstorming großartig sein, und Konsistenz ist ein Signal dafür, dass etwas wiederholt wird, das auch im Trainingsmaterial relativ konsistent vorkam.
  Es kann also wahr oder falsch sein, stammt aber mit größerer Wahrscheinlichkeit irgendwoher.
  Zu wissen, wie zufällig eine Information ist, wirkt wie ein kleiner Fortschritt.
- LLMs werden mit dem Ziel trainiert, „antworte unter allen Umständen mit mindestens drei Absätzen“, und solche Antworten werden immer gegenüber Schweigen oder unfreundlichen Antworten wie „Wovon redest du überhaupt?“ bevorzugt.
  Damit bringt man ihnen faktisch plausibel klingenden Unsinn bei.
  Das ist ähnlich wie beim Improvisationsunterricht, wo man lehrt, das Gespräch interessant zu halten und dem Mitspieler nicht mit „Nein“ zu antworten.
- Ich habe den Verdacht, dass sich die geteilte Realität den LLMs anpasst und nicht umgekehrt.
  Was der Computer sagt, könnte dann selbst zur „Wahrheit“ werden.
- Diese LLMs wirken eher wie das Unbewusste als wie Bewusstsein.
  Jung hätte es wohl „Antinomie“ genannt. Das Ziel ist nicht, Wahrheit abzubilden, sondern die Gesamtheit möglicher Antworten zu repräsentieren.
Ist nicht letztlich alles, was ein LLM tut, eine „Halluzination“?
Um zu wissen, ob es halluziniert hat, müsste man die richtige Antwort bereits kennen. Wenn man ein System bauen könnte, das weiß, ob eine Antwort stimmt, bräuchte man kein LLM mehr.
- Halluzination impliziert ursprünglich das Versagen eines ansonsten gesunden Geistes.
  Für das, was heutige LLMs tun, ist Unsinn reden wohl die treffendere Bezeichnung. Je besser dieser Unsinn wird, desto höher wird nur zufällig der Anteil der Treffer.
- Ich frage mich, ob in jedem Thread zu diesem Thema unbedingt jemand am längst etablierten und semantisch gut funktionierenden Begriff „Halluzination“ herumnörgeln muss. Es ermüdet langsam.
- Menschen fabulieren ebenfalls ständig.
  Manchmal ist das konsistent auf Basis physischer oder sozialer Dynamiken, manchmal nicht.
  Ein System, das offensichtlich immer richtig liegt, ist unmöglich, also brauchen wir ein auf Konsistenz ausgerichtetes System.
- Wenn man den Artikel gelesen hätte, wäre klar gewesen, dass der Prozess, Antworten mit einem LLM zu erzeugen, ein wichtiger Teil des Faktenprüfungsprozesses ist.
Vorerst wäre es für AI-Unternehmen vielleicht besser, Chatbots nur als leicht gelenkte Textgenerierungswerkzeuge darzustellen.
Dann könnten die Leute sie entsprechend nutzen.
Es gibt zwar etwas, das wie ein wenig Verständnis aussieht, und man kann sie dazu bringen, ein bisschen schrittweises Schlussfolgern nachzuahmen, aber 95 % dieser Blackbox-Funktion ist Textgenerierung.
Eigentlich ist es nicht einmal Generierung von Wissen, sondern eher ein Impro-Partner als eine Enzyklopädie, und die Leute in der Tech-Branche wissen das alle.
Ich weiß nicht, ob man unbedingt eine clevere Antwort-Entropie-Lösung braucht, um das Problem zu lösen, dass LLMs Menschen in die Irre führen. Die Lösung ist interessant und scheint echte Verbesserungen zu bringen, etwa indem man Aussagen mit einem Konfidenzwert versieht.
Aber würde man den meisten Schaden nicht schon reduzieren und insgesamt mehr helfen, wenn man Machine-Learning-Textgeneratoren einfach nicht fast wie AGI vermarkten würde?
- Ich arbeite gerade mit React und Redux am Frontend und gleichzeitig mit einem LLM, und von beidem verstehe ich fast nichts.
  Ich habe Fragen gestellt, und das LLM hat mir Antworten und JavaScript-Code gegeben, obwohl meine JavaScript-Kenntnisse ziemlich eingerostet waren.
  Der Code hat komplett kompiliert, und das meiste funktionierte wie erwartet. Es gab auch Fehler, aber das LLM hat mir Fehler erklärt, die ich nicht verstanden habe, und funktionierende Korrekturen geliefert.
  Insgesamt war es eine großartige Erfahrung, fast so, als würde man mit einem Mentor arbeiten, und aus meiner Anfängerperspektive hat es enorm Zeit gespart. Natürlich muss man die Ergebnisse validieren.
  Woher kommt die Zahl von 95 %? Und ob das Textgenerierung oder tatsächlich Fakten- bzw. Wissensgenerierung ist, spielt keine Rolle. Es ist ein wirklich wertvolles Werkzeug und viel besser als alles andere, was ich bisher benutzt habe.
Der Ansatz „für jede Frage mehrere mögliche Antworten zu sampeln und algorithmisch Antworten mit ähnlicher Bedeutung zu gruppieren“ ist vernünftig bei Fragen mit einer einzigen objektiv richtigen Multiple-Choice-Antwort.
Wenn mehrere gleichwertig gültige Antworten möglich sind, hilft er vielleicht nicht besonders.
Für Suchmaschinen-Anwendungen ist er aber trotzdem gut genug.
Beim Konzept der semantischen Entropie musste ich an den Fall denken, dass nach dem Enron-Skandal irgendeine Bank ein „Bullshitometer“ gebaut hat, um den Unsinnsgrad von Pressemitteilungen zu messen.
Ich erinnere mich nicht mehr an den Namen der Bank, aber ich meine, sie haben gezeigt, dass man mit Anwendung auf Enron-Pressemitteilungen den Zusammenbruch des Unternehmens hätte vorhersagen können.
In der Statistik gibt es das Konzept der Sensitivitätsanalyse.
Dieser Ansatz wirkt in gewisser Weise ähnlich, aber eine interessante Alternative könnte sein, die Eingabe auf eine Weise zu verändern, von der man annimmt, dass sie die Bedeutung erhält, und dann zu beobachten, wie sich die Bedeutung der Ausgabe verändert.
Natürlich ist der schwierige Teil, die Eingabe zu verändern, ohne ihre Bedeutung zu ändern, aber völlig unmöglich wirkt das nicht.
Zumindest könnte man ein LLM anweisen, die Eingabe zu verändern, ohne die Bedeutung zu ändern. Das Modell könnte die Eingabe jedoch in einer falschen Richtung missverstehen und sie dann so umschreiben, dass sie nach der Änderung besser zur halluzinierten Ausgabe passt.
Ich verstehe, warum semantische Entropie, die offenbar ein LLM voraussetzt, das auf das Erkennen semantischer Äquivalenz trainiert wurde, Halluzinationen besser erfassen könnte.
Aber ich sehe nicht wirklich, wie semantische Äquivalenz das Halluzinationsproblem direkt löst.
Im Moment wirkt es auf mich eher wie eine Heuristik zur Erkennung von Halluzinationen.
Außerdem scheint es unnötig komplex, dafür ein zweites LLM zur Erkennung semantischer Äquivalenz zu brauchen.
Wenn es einen Datensatz für semantische Äquivalenz gibt, würde ich ihn vermutlich direkt in das Training des Haupt-LLM einfließen lassen, statt ein zweites LLM zu trainieren.
- Ich verstehe diese Forschung noch nicht gut genug, um sie sicher zu kritisieren, aber man könnte einen Datensatz für semantische Äquivalenz durchaus ins Training integrieren.
  Es wirkt jedoch weiterhin seltsam, wenn man mehrere klare Funktionen wie „gute AUC in der Bedeutung erreichen“ mischt, um die Schwächen eines komplexen Modells mit unklaren Wahrnehmungszielen auszugleichen.
  Man weiß weder, ob man sie gut mischt, noch ob man damit unvorhersehbare Ergebnisse, Risiken oder Biases ins Training einbaut.
  Bei eng definierten Aufgaben wie „Kann semantische Äquivalenz beurteilt werden?“ kann man ein gutes Modell mit weniger unbekannten Risiken bauen, und wenn man dieses Modell auf relativ klare Weise einsetzt, sinken auch die unbekannten Risiken.
  Deshalb könnte es viel sicherer und allgemeiner sein, mit zwei leicht verzerrten Schätzern auf eine bestimmte vernünftige Heuristik hinzuarbeiten, als Daten einfach in die bestehende komplexe Mischung zu kippen und zu hoffen, dass der Beitrag vorhersagbar ist.
- Halluzinationen zu erkennen, ist in vielen Anwendungen ziemlich nützlich.
  Ich arbeite an der Erforschung von LLM-Antworten für öffentliche Einrichtungen, um die Auswirkungen faktischer Fehler zu verringern; sachlich falsche Antworten könnten rechtswidrig sein.
  Wenn man sie mit ausreichender Genauigkeit erkennen kann, kann das System die Antwort verweigern und den Nutzer bitten, sich an die Behörde zu wenden.
  Natürlich wäre es besser, das Modell von vornherein so zu trainieren, dass es keine falschen Antworten gibt.
  Die unnötige Komplexität entsteht auch durch die Verwendung vortrainierter kommerzieller Blackbox-LLMs, auf die man per API zugreift. Leider werden LLMs in Anwendungen meistens genau so verwendet.
  Man könnte sie vielleicht per API feinabstimmen, aber bei solchen großen synthetischen Datensätzen ist das umständlich, eingeschränkt und sehr teuer.
  Aus dem Artikel allein war schwer zu erkennen, wie genau „semantische Entropie“ konkret berechnet wird. Falls es jemanden interessiert: Der Code ist deutlich leichter zu verstehen: https://github.com/jlko/semantic_uncertainty/blob/master/sem...
Ziemlich clevere Idee. Es geht darum zu prüfen, ob das Modell unterschiedlich antwortet, wenn man dieselbe Frage mehrfach wiederholt stellt.
Das „Prüfen“ übernimmt ein anderes Modell, und das „Unterschiedlichsein“ wird per Entropie gemessen.

Erkennung von Halluzinationen großer Sprachmodelle mit semantischer Entropie

Ziel der Erkennung: nicht alle Halluzinationen, sondern confabulation

Kernidee der semantischen Entropie

Algorithmus: Sampling, semantisches Clustering, Entropieberechnung

Bewertung bei QA- und Mathematikaufgaben

Ablehnungsbasierte Genauigkeit und Bewertungsmetriken

Lange Biografie-Generierung: FactualBio-Experiment

Grenzen und Anwendbarkeit

Daten und Code

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare