Der überraschend einfache Mechanismus, mit dem LLMs gespeichertes Wissen abrufen

(news.mit.edu)

2 Punkte von GN⁺ 2024-03-29 | 1 Kommentare | Auf WhatsApp teilen

Forschende unter anderem vom MIT haben festgestellt, dass Large Language Models (LLMs), die Grundlage von KI-Chatbots wie ChatGPT, beim Abrufen bestimmter gespeicherter Fakten häufig einfache lineare Funktionen verwenden
Diese Funktionen unterscheiden sich je nach Art des Fakts, etwa „Instrument, das eine Person spielt“ oder „Bundesstaat, in dem eine Person geboren wurde“; für ähnliche Faktentypen wird dieselbe Decoding-Funktion angewendet
Nachdem sie Funktionen für 47 Relationen geschätzt und mit wechselnden Subjekten getestet hatten, konnten sie bei Relationen wie „Hauptstadt eines Landes“ in über 60 % der Fälle die korrekten Objektinformationen abrufen
Selbst wenn das Modell eine falsche Antwort gab, war intern oft die richtige Antwort noch vorhanden; daraus entstand die attribute lens, mit der sich betrachten lässt, in welcher Schicht eines Transformers bestimmte Informationen gespeichert sind
Nicht jedes Wissen wird linear gespeichert; Fakten, die sich mit linearen Funktionen nicht finden lassen, sowie die Prüfung der Präzision in größeren Modellen bleiben Aufgaben für künftige Forschung

Ein einfacher Weg zum Wissensabruf im Inneren von LLMs

Forschende vom MIT und mehreren anderen Institutionen haben Ergebnisse erzielt, wonach komplexe Transformer-Sprachmodelle beim Abrufen gespeicherter Fakten häufig einfache lineare Funktionen verwenden
Eine lineare Funktion ist eine einfache Form, die eine geradlinige Beziehung zwischen zwei Variablen beschreibt
- Selbst im Inneren von LLMs, die komplexe nichtlineare Berechnungen ausführen, funktioniert ein Teil des Wissensabrufs über einen solchen einfachen Mechanismus
Das zugehörige Paper ist „Linearity of Relation Decoding in Transformer Language Models“; die Forschung soll auf der International Conference on Learning Representations vorgestellt werden

Fakten werden als Relation zwischen Subjekt und Objekt behandelt

Viel Wissen, das in Transformern gespeichert ist, lässt sich als Relation darstellen, die ein Subjekt mit einem Objekt verbindet
- „Miles Davis plays the trumpet“ ist eine Relation zwischen dem Subjekt Miles Davis und dem Objekt trumpet
- Beim Prompt „Miles Davis plays the...“ sollte die Antwort trumpet sein, nicht Illinois, der Bundesstaat, in dem Miles Davis geboren wurde
Wenn ein Modell mehr Wissen über ein bestimmtes Thema erwirbt, werden mehrere Fakten zu diesem Thema über verschiedene Schichten hinweg gespeichert
Bei einer Anfrage muss das Modell die relevantesten Fakten decodieren, um eine Antwort zu erzeugen

Lineare Decoding-Funktionen unterscheiden sich je nach Relationstyp

Durch Experimente zur Untersuchung von LLMs bestätigten die Forschenden, dass Modelle Relationsinformationen in manchen Fällen mit einfachen linearen Funktionen decodieren
Je nach Typ des abzurufenden Fakts unterscheidet sich auch die Funktion
- Die Funktion, die genutzt wird, um das Instrument auszugeben, das eine Person spielt, ist eine andere als die Funktion, die den Bundesstaat ausgibt, in dem eine Person geboren wurde
Die Forschenden entwickelten eine Methode, um solche Funktionen zu schätzen, und berechneten Funktionen für 47 Relationen, darunter „Hauptstadt eines Landes“ und „Leadsänger einer Band“
Da es unendlich viele mögliche Relationen gibt, wurde für das Experiment eine Teilmenge verwendet, die die auf diese Weise behandelbaren Faktentypen repräsentiert

Über 60 % erfolgreicher Abruf und Grenzen linearer Speicherung

Jede Funktion wurde getestet, indem das Subjekt variiert wurde, um zu prüfen, ob sich die korrekten Objektinformationen abrufen lassen
- Die Funktion „Hauptstadt eines Landes“ sollte bei Norway Oslo und bei England London abrufen
In über 60 % der Fälle riefen die Funktionen die korrekten Informationen ab
Ein Teil der Informationen im Inneren eines Transformers kann auf diese Weise encodiert und abgerufen werden
Allerdings wird nicht jede Information linear encodiert
- Bei manchen Fakten konnten die Forschenden keine lineare Funktion finden, obwohl das Modell sie kannte und Text vorhersagte, der mit diesem Fakt konsistent war
- In solchen Fällen verwendet das Modell komplexere Methoden, um die betreffende Information zu speichern

Die attribute lens zeigt, was ein Modell weiß

Die geschätzten Funktionen werden genutzt, um zu prüfen, was das Modell zu einem bestimmten Thema für wahr hält
Ein Experiment begann mit dem Prompt „Bill Bradley was a“ und wendete Decoding-Funktionen an, die „Sport betrieben“ und „eine Universität besucht“ entsprechen
- So wurde überprüft, ob das Modell weiß, dass Senator Bill Bradley Basketballspieler war und Princeton besucht hat
Diese Methode zeigt, dass im Inneren eines Modells mehrere relevante Informationen encodiert sein können, selbst wenn es sich bei der Texterzeugung auf andere Informationen konzentriert
Darauf aufbauend wurde ein Raster namens attribute lens erstellt
- Die attribute lens visualisiert, in welchen der verschiedenen Schichten eines Transformers Informationen zu einer bestimmten Relation gespeichert sind
- Da sie automatisch erzeugt werden kann, lässt sie sich als vereinfachte Methode zum Verständnis von Modellen nutzen

Möglichkeit zur Korrektur falscher Antworten und offene Forschungsfragen

Selbst wenn ein Modell auf einen Prompt falsch antwortet, speichert es intern häufig die korrekten Informationen
Dieser Ansatz kann genutzt werden, um falsche Informationen im Inneren eines Modells zu finden und zu korrigieren, und könnte dazu beitragen, die Tendenz von KI-Chatbots zu ungenauen oder sinnlosen Antworten zu verringern
Künftige Forschung konzentriert sich darauf, besser zu verstehen, was bei Fakten geschieht, die nicht linear gespeichert sind
Geplant sind Experimente mit größeren Modellen sowie Untersuchungen zur Präzision linearer Decoding-Funktionen
Mor Geva Pipek von der Tel Aviv University bewertet die Studie so, dass sie ein fehlendes Puzzlestück dafür aufzeigt, wie LLMs beim Schlussfolgern Faktenwissen abrufen, und zeigt, dass komplexe nichtlineare Berechnungen zur Extraktion von Attributen gut durch einfache lineare Funktionen angenähert werden können

1 Kommentare

GN⁺ 2024-03-29

Meinungen auf Hacker News

Großartige Arbeit, aber ich finde, sie zeigt auch ein großes Problem der aktuellen AI-Welle. In der Praxis versucht man nicht wirklich, von Neuronen oder Regelsätzen wegzukommen, die sich kaum von einem Perzeptron unterscheiden, also letztlich einer einfachen Summenfunktion
Nur weil die Feedforward-Topologie auf der Ebene einzelner Neuronen für Training und GPU-Ausführung am einfachsten ist, ist fraglich, ob sie für die Aufgabenerfüllung tatsächlich das Beste ist
Es gibt viele ungewöhnliche Lernmethoden und Encoding-Ansätze, die nicht genutzt werden, weil große Libraries sie nicht unterstützen, und bis es echte Veränderungen an den Grundregeln neuronaler Netze gibt, werden wir wohl weiter mit „Perzeptrons mit zusätzlichen Stufen“ kämpfen
- Damit ignorierst du einen Berg von Papers, die versucht haben, Modelle mit allen möglichen Ansätzen zu bauen. Am Ende war es Evolution durch Selektion, und zuletzt haben Transformer gewonnen
- Du sprichst von einem „Perzeptron als einfacher Summenfunktion“; mich würde interessieren, was du stattdessen vorschlagen würdest
  Ein Aspekt von NP-Vollständigkeit ist nach meinem Verständnis, dass jeder Algorithmus in dieser Komplexitätsklasse letztlich auf so etwas wie eine „Summenfunktion“ reduziert werden kann
- Ich verstehe nicht, wie man sagen kann, wir säßen in einem lokalen Maximum fest. In den letzten zwei Jahren gab es buchstäblich wissenschaftliche Durchbrüche bei AI
- Ich kenne mich mit dem Thema nicht gut genug aus, aber selbst wenn andere Modelle bei gleicher Neuronenzahl oder asymptotischer Laufzeit bessere Kennzahlen liefern könnten, ist die wichtigste Kennzahl am Ende wohl Genauigkeit und Präzision pro eingesetztem Dollar
  Selbst wenn GPT zehnmal so viele Neuronen braucht, um dieselbe Leistung zu erreichen: Wenn die Rechenleistung und der Speicher für diese Neuronen günstiger sind, ist GPT das bessere Mittel, um das Ziel zu erreichen
- Das ist die bittere Lektion. http://www.incompleteideas.net/IncIdeas/BitterLesson.html
  Wenn man eine einfachere, lernbare Struktur findet, könnte man etwas in der Hand haben. Die Versuche, es kompliziert auszuschmücken, gab es schon, und sie sind verschwunden
Ich frage mich, ob „Fakten werden als lineare Funktionen gespeichert“ bedeutet, dass es im LLM irgendeinen N-dimensionalen Faktenraum gibt, in dem Fakten in irgendeiner Form codiert sind und als Punkte, Hypersphären oder Voronoi-Mannigfaltigkeiten eingebettet sind
Wenn ja: Besteht das Abrufen einer Tatsache abstrakt darin, dass das neuronale Netz einen zu verwendenden Schlüssel berechnet oder erinnert und dann in diesem Raum eine Key-Value-Abfrage macht?
Falls ja, frage ich mich, wie man in ein Edge-Propagation-Graphmodell einen Key-Value-Speicher einbaut und ob es schon bekannte Techniken gibt, mit denen Menschen so etwas heute explizit konstruieren
Außerdem: Könnte die „Gedächtnispalast“-Technik nicht auch ein Beispiel dafür sein, dass das menschliche Gehirn Fakten in eine lineare Funktion bringt, um sie leichter abrufbar zu machen?
- Die Grundoperation eines Transformers, softmax(Q.K^T).V, ist im Kern einer Key-Value-Store-Abfrage sehr ähnlich
  Man bildet das Skalarprodukt der Query mit den Keys, wählt per softmax meist einen Gewinner-Key aus, also den Key, der der Query am nächsten ist, und nutzt den dazugehörigen Value
  Der Unterschied ist nur, dass es etwas weicher ist, sodass mehrere Keys getroffen werden können, und dass man mit Gradientenabstiegs-ähnlichen Verfahren optimieren kann, um passende QKV-Mappings zu finden
- Layer-Normalisierung scheint die riesigen Vektoren, die Tokens, also Eingabestücke, repräsentieren, auf Positionen auf der Einheitskugel zu beschränken, und der Attention-Mechanismus funktioniert meiner Ansicht nach so, dass er unbeschränkte Vektoren entsprechend der Summe ihrer Winkel zu allen anderen Vektoren rotiert
  Ich habe das Paper nur grob überflogen, aber der Kern scheint zu sein, dass es relativ einfache Funktionen gibt, die in einem größeren Netzwerk verborgen sind oder daraus wiedergewonnen werden können, und dass diese bestimmte Beziehungskategorien zwischen Konzepten behandeln
  Wenn man solche Funktionen isolieren kann, ließen sie sich theoretisch direkter optimieren; das könnte also zu Fortschritten dabei führen, wie solche Modelle trainiert werden
  Eine der guten Kritiken an „moderner“ AI ist am Ende ja die Vorstellung, dass wir nur eine Suppe aus linearer Algebra umrühren; wenn man ein gewisses Maß an Modularität oder Reduktionismus zulässt, könnte man einem komponentenorientierten Ansatz näherkommen statt einer bloßen Blackbox
- Ich verstehe nicht ganz, warum ein „Gedächtnispalast“ eine lineare Funktion sein soll
- Ein Gedächtnispalast ist ein Hack, der funktioniert, weil der Zweck unseres Gehirns im evolutionären Sinn darin besteht, uns zu helfen, die Welt zu erkunden und in ihr effektiv zu handeln
  Dafür muss das Gehirn sehr gut darin sein, Orte zu erinnern, Routen durch und um sie herum zu planen und das in Sprache oder Bewegung zu übersetzen
Wirklich faszinierend. Mir kam sofort die Frage, als welche Funktion Programmierwissen codiert wird, und ob man, falls es ebenfalls eine einfache lineare Funktion ist, Standardbibliotheken oder andere Libraries direkt ins Gehirn eines LLM hochladen könnte, ohne teures Training oder Fine-Tuning, das die Performance ruiniert
Noch klingt das nach Science-Fiction, aber es fühlt sich an, als kämen wir dem näher
- Guter Punkt: Vielleicht kann man prädikative Informationen direkt in ein LLM hochladen. Besonders nützlich wäre das, wenn man tabellarische Daten codieren muss
  Irgendwo liest das vermutlich jemand und denkt darüber nach, wie man Excel oder Datenbanken in ein LLM exportiert
  Es ist ermutigend, dass Forschung erscheint, die erfolgreich ins Innere der Blackbox blickt
  Ein anderes großes Ergebnis in diesem Bereich war ein Paper, das in einem LLM, das zum Spielen trainiert wurde, eine Repräsentation des Spielbretts gefunden hat. Ich frage mich, ob es in diese Richtung noch weitere gute Ergebnisse gibt
  Wie die Autoren anmerken, leisten LLMs mehr, als nur prädikative Informationen zu codieren, und das ist nur ein Teil davon
Ich frage mich, ob diese Beziehung auch bei den neuesten Modellen, in die viel mehr Rechenleistung gesteckt wurde, weiterhin gilt
Intuitiv denke ich, dass Word2Vec durch die der Sprache innewohnende Struktur möglich wurde. Wenn man danach Terabytes menschlichen Text trainiert, der mit Word2Vec und Positional Encoding codiert wurde, scheint das Modell während des Trainings die nächste Codierung mit übermenschlicher Kognition vorhersagen zu können
Ich habe das Gefühl, dass Bag-of-Words als Ein-/Ausgabeform und das begrenzte Kontextfenster, das Positional Encoding erst praktikabel gemacht hat, eine große Impedanzfehlanpassung zur internen kognitiven Struktur erzeugen
Deshalb ist es gut möglich, dass sich bei GPT-4 und ähnlichen Modellen angesichts der deutlich höheren Rechenleistung neue Formen von Repräsentationen entwickelt haben, die Menschen erst noch entdecken müssen, indem sie alle Gewichte sondieren
Ich denke, MemGPT könnte wegen unbegrenztem Langzeitgedächtnis am Ende vielleicht zu AGI werden, aber wahrscheinlicher ist wohl etwas, das eher dem Protagonisten aus Memento ähnelt
[1] https://en.wikipedia.org/wiki/Memento_(film)
- Entschuldigung, falls ich das falsch lese, aber es klingt so, als würdest du sagen, LLMs, die GPT-3+ verwenden, wie ChatGPT, seien Bag-of-Words-Modelle. Das sind sequenzielle Modelle
Das erinnert an das berühmte Embedding-Beispiel „King - Man + Woman = Queen“. Die Tatsache, dass Embeddings semantische Eigenschaften enthalten, erklärt, warum auch einfache lineare Funktionen gut funktionieren
Fühlt sich ähnlich an wie die Relationsvektoren von word2vec. Wenn man einen Vektor wie „von X“ addiert, kommt oft die richtige Antwort heraus.
Das Prinzip ist immer noch dasselbe; vielleicht sind Transformer „einfach“ besser darin geworden, Entitäten in den Embedding-Raum abzubilden.
- Das sehe ich auch so. Es fällt mir schwer zu glauben, dass die Entscheidungsgrenzen in solchen Modellen so stark gekrümmt sind wie Hirnwindungen, dass sie FP32-Vektoren wirklich ausnutzen.
  Anders gesagt: Ich glaube eher, dass x < 1,5 „kalt“ und x > 1,5 „heiß“ bedeutet, statt dass x = 0 „fliegen“, x = 0,01 „fahren“ und x = 0,02 „lila“ ist.
  Das ist einer der Gründe, warum Quantisierung, sogar 1-Bit-Quantisierung, oft funktioniert.
  Und es erklärt auch, warum man gute Ergebnisse bekommt, wenn man Text oder Bilder durch Modelle der BERT- oder CLIP-Klasse schickt und danach klassische Machine-Learning-Modelle mit häufig linearen Entscheidungsgrenzen anwendet.
LLMs wirken wie ein guter Kompressionsmechanismus.
Es ist erstaunlich, dass man eine Kopie von llama lokal auf dem PC haben und damit im Grunde Zugriff auf das ganze Internet haben kann.
- Von „im Grunde das ganze Internet“ ist das sehr weit entfernt. Nicht einmal annähernd 1 %.
  Common Crawl umfasst nach dem neuesten Dump 4,3 Milliarden Seiten, aber Google schätzte 2016, dass es im Web 130 Billionen Seiten gibt.
  Die Differenz zwischen 130 Billionen und 4,3 Milliarden beträgt praktisch 130 Billionen. Selbst wenn man es auf Googles durchsuchbaren Textindex eingrenzt, sind es „Hunderte Milliarden Seiten“ und ungefähr 100 PB, verglichen mit 400 TB bei Common Crawl.
- Stimmt, aber es ist verlustbehaftete Kompression. Die verlorenen Teile werden zur Inferenzzeit durch Halluzinationen aufgefüllt.
- PAC-Lernen ist Kompression.
  PAC-Lernbarkeit, endliche VC-Dimension und Kompression der folgenden Form sind vollständig äquivalent.
  https://arxiv.org/abs/1610.03592
  Im Grunde teilt jedes einzelne Neuron bzw. Perzeptron den Raum nur in zwei Teilräume.
Ich verstehe nicht, wie eine CSV-Datei, Datenbank oder ein Modell mit 70 Milliarden „Parametern“ aus 4-Bit-Gewichten zu einem dialogfähigen LLM/GPT werden kann, das zu fast jedem Thema nahezu allwissend ist.
Als ich nachgesehen habe, scheint 4 Bit einfach eine Kompressionsmethode zu sein, und das Modell sieht am Ende f32?
Quantisierung sei der Prozess, bei dem 32-Bit-Gleitkommazahlen, also die Gewichte eines neuronalen Netzes, für Speicher- und Arbeitsspeichereffizienz auf deutlich kleinere Bit-Repräsentationen wie 4-Bit-Werte abgebildet werden.
Dequantisierung passiert, wenn das Modell verwendet wird, also bei der Inferenz oder in manchen Fällen während des Trainings; dabei werden die 4-Bit-quantisierten Gewichte wieder in Gleitkommazahlen umgewandelt, die für die eigentlichen Berechnungen genutzt werden.
Dann frage ich mich, welche Beziehung zwischen „Parametern“ und „der Anzahl einzigartiger Tokens, die das Modell kennt, also der Vokabulargröße“ besteht.
Auf den ersten Blick heißt es, LLaMA habe im Vergleich zu GPT-3 nur eine Vokabulargröße von 32.000 und 65 Milliarden Parameter.
Die 65 Milliarden Parameter eines Modells wie LLaMA sollen als extrem komplexes Mapping-System fungieren, das anhand der gelernten Beziehungen zwischen Tokens in den Trainingsdaten entscheidet, wie auf Eingaben zu reagieren ist.
- Die einfache Antwort ist: So ist es nicht.
  Etwas komplexer gesagt: Selbst ein komprimierter Wikipedia-Textdump ist kleiner als 70 GB, und das ist eine verlustbehaftete Kompression des Internets.
- Quantisierung bedeutet hier die Präzision jedes Werts in einem Vektor oder einer Matrix bzw. einem Tensor.
  Wenn die Token-Embedding-Länge dieses Modells 1024 beträgt, hat jedes Token selbst bei 1-Bit-Quantisierung 2^1024 mögliche Werte.
  Bei einer Kontextlänge von 32.000 Tokens gibt es 32.000^2^1024 mögliche Eingaben.
Kann man grob sagen, dass ein LLM im Trainingsmodus automatisch aus riesigen, zuvor nicht handhabbaren Informationsmengen unzählige IF-THEN-Regeln erzeugt?
Dieses Paper ist cool, und ich finde es gut, dass sie Experimente durchgeführt haben, um solche Ideen zu überprüfen. Allerdings bin ich mir nicht sicher, wie neu die Idee an sich ist.
Wenn ein LLM ganz natürlich einfache statistische Tendenzen zwischen Wörtern lernt, ist dieses Ergebnis dann nicht erwartbar?
Noch viel cooler finde ich eigentlich, dass klar gezeigt wurde, dass sich nicht das gesamte Verhalten von LLMs so einfach erklären lässt.

Der überraschend einfache Mechanismus, mit dem LLMs gespeichertes Wissen abrufen

Ein einfacher Weg zum Wissensabruf im Inneren von LLMs

Fakten werden als Relation zwischen Subjekt und Objekt behandelt

Lineare Decoding-Funktionen unterscheiden sich je nach Relationstyp

Über 60 % erfolgreicher Abruf und Grenzen linearer Speicherung

Die attribute lens zeigt, was ein Modell weiß

Möglichkeit zur Korrektur falscher Antworten und offene Forschungsfragen

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News