Sprachmodelle in verständliche Komponenten zerlegen

(anthropic.com)

1 Punkte von GN⁺ 2023-10-09 | 1 Kommentare | Auf WhatsApp teilen

Anthropic beschreibt eine Methode, um in einem kleinen Transformer-Sprachmodell Features zu finden, die leichter zu interpretieren sind als einzelne Neuronen, und so das Innere eines neuronalen Netzes in verständliche Einheiten zu zerlegen
Ein einzelnes Neuron kann in voneinander unabhängigen Kontexten wie wissenschaftlichen Zitaten, englischen Dialogen, HTTP-Requests oder koreanischem Text gemeinsam aktiviert werden, sodass es sich nur schwer zuverlässig dem Modellverhalten zuordnen lässt
Die Studie zerlegt eine Schicht mit 512 Neuronen in mehr als 4.000 Features und macht dabei Eigenschaften wie DNA-Sequenzen, juristischen Stil, HTTP-Requests, hebräischen Text und Nährwerttabellen getrennt sichtbar
In einer verblindeten Bewertung durch Menschen sowie in einer LLM-basierten Bewertung der automatischen Interpretierbarkeit waren Features leichter zu interpretieren als Neuronen; wenn bestimmte Features künstlich aktiviert wurden, änderte sich auch das Modellverhalten vorhersagbar
Wenn die gelernten Features auch über unterschiedliche Modelle hinweg weitgehend universell sind, wird die Skalierung dieses Ansatzes auf größere Frontier-Modelle eher zu einer Engineering- als zu einer wissenschaftlichen Aufgabe

Warum neuronale Netze schwer zu interpretieren sind

Neuronale Netze werden nicht dadurch erstellt, dass Menschen Regeln direkt programmieren, sondern durch Lernen aus Daten; während des Trainings werden Millionen bis Milliarden Parameter aktualisiert
Die mathematischen Berechnungen eines trainierten Netzes lassen sich nachvollziehen
- Jedes Neuron führt einfache arithmetische Operationen aus
- Allerdings ist nicht klar, warum diese Operationen zu beobachtbarem Verhalten führen
Diese Undurchsichtigkeit erschwert die Diagnose von Fehlermodi, das Finden von Korrekturmethoden und die Zertifizierung der Modellsicherheit

Einzelne Neuronen sind keine stabilen Interpretationseinheiten

Auch die Neurowissenschaft beschäftigt sich mit einem ähnlichen Problem, nämlich der biologischen Grundlage menschlichen Verhaltens; in künstlichen neuronalen Netzen lassen sich Experimente jedoch deutlich einfacher durchführen
- Die Aktivierungen aller Neuronen können gleichzeitig aufgezeichnet werden
- Eingriffe wie das Stummschalten oder Stimulieren von Neuronen sind möglich
- Die Reaktionen des Netzes auf mögliche Eingaben können getestet werden
Einzelne Neuronen haben jedoch keine konsistente Beziehung zum Netzwerkverhalten
- Ein einzelnes Neuron in einem kleinen Sprachmodell wird in mehreren voneinander unabhängigen Kontexten aktiviert, etwa bei wissenschaftlichen Zitaten, englischen Dialogen, HTTP-Requests oder koreanischem Text
- Ein einzelnes Neuron in einem klassischen Vision-Modell reagiert sowohl auf Katzengesichter als auch auf die Frontpartien von Autos
Dieselbe Neuronenaktivierung kann je nach Kontext unterschiedliche Bedeutungen haben

Der Ansatz, Modelle in Features zu zerlegen

Das Paper Towards Monosemanticity: Decomposing Language Models With Dictionary Learning behandelt die Frage, ob es bessere Analyseeinheiten als einzelne Neuronen gibt
Diese Einheiten, Features, entsprechen Mustern von Neuronenaktivierungen, also linearen Kombinationen
Anthropic hat ein Verfahren entwickelt, um solche Features in kleinen Transformer-Modellen zu finden
Dieser Ansatz ist ein Weg, komplexe neuronale Netze in verständliche Teile zu zerlegen, und baut auf früheren Arbeiten aus Neurowissenschaft, Machine Learning und Statistik zur Interpretation hochdimensionaler Systeme auf

512 Neuronen in mehr als 4.000 Features zerlegt

In einem Transformer-Sprachmodell wurde eine Schicht mit 512 Neuronen in mehr als 4.000 Features zerlegt
Die zerlegten Features repräsentieren unterschiedliche Eigenschaften getrennt voneinander
- DNA-Sequenzen
- Rechtssprache
- HTTP-Requests
- hebräischer Text
- Nährwerttabellen
Die meisten dieser Modelleigenschaften werden nicht sichtbar, wenn man nur einzelne Neuronenaktivierungen isoliert betrachtet

Prüfung der Interpretierbarkeit

Verblindete menschliche Bewerter vergaben Punkte für die Interpretierbarkeit von Features und Neuronen
- Features erhielten deutlich höhere Bewertungen als Neuronen
Zusätzlich wurde eine LLM-gestützte Bewertung der automatischen Interpretierbarkeit eingesetzt
- Ein großes Sprachmodell erzeugt kurze Beschreibungen der Features eines kleineren Modells
- Ein anderes Modell bewertet, wie gut sich allein anhand dieser Beschreibung die Feature-Aktivierung vorhersagen lässt
- Auch in dieser Bewertung schnitten Features besser ab als Neuronen
Insgesamt wächst damit die Evidenz, dass sich die Aktivierung von Features und ihre nachgelagerten Effekte auf das Modellverhalten konsistent interpretieren lassen

Modellsteuerung mit Features

Features bieten auch eine Möglichkeit, Modelle gezielt zu steuern
Wenn bestimmte Features künstlich aktiviert werden, verändert sich das Modellverhalten auf vorhersagbare Weise
Features können daher nicht nur als Beobachtungseinheiten, sondern als interne Komponenten behandelt werden, die das Modellverhalten beeinflussen

Universalität und Anpassung der Auflösung

Gelernte Features sind zwischen unterschiedlichen Modellen weitgehend universell
- Erkenntnisse aus der Untersuchung der Features eines Modells können sich auf andere Modelle verallgemeinern lassen
Durch die Anpassung der Anzahl zu lernender Features lässt sich die Auflösung der Modellbetrachtung verändern
- Eine Zerlegung in eine kleine Feature-Menge liefert eine gröbere, leichter verständliche Perspektive
- Eine Zerlegung in eine große Feature-Menge macht subtile Modelleigenschaften aus einer feineren Perspektive sichtbar
Weitere Erläuterungen dazu finden sich in den Experimenten zur Änderung der Auflösung

AI-Sicherheit und nächste Aufgaben

Diese Arbeit ist ein Ergebnis von Anthropics Investitionen in Forschung zur mechanistischen Interpretierbarkeit und gehört zu den langfristigen Forschungsrichtungen für AI-Sicherheit
Dass einzelne Neuronen nicht interpretierbar sind, war ein großes Hindernis für ein mechanistisches Verständnis von Sprachmodellen
Die Zerlegung von Neuronengruppen in interpretierbare Features könnte helfen, dieses Hindernis zu überwinden
Langfristig könnte dies dazu beitragen, Modellverhalten intern zu überwachen und zu steuern und so die für Unternehmen und gesellschaftliche Nutzung nötige Sicherheit und Zuverlässigkeit zu erhöhen
Die nächste Aufgabe besteht darin, den bei kleinen Modellen erfolgreichen Ansatz auf deutlich größere und komplexere Frontier-Modelle zu skalieren
- Die nächste große Hürde bei der Interpretation großer Sprachmodelle wird erstmals eher als Engineering- denn als wissenschaftliches Problem betrachtet
Weitere Details finden sich in Towards Monosemanticity: Decomposing Language Models With Dictionary Learning

1 Kommentare

GN⁺ 2023-10-09

Hacker-News-Kommentare

Ich bin zufällig auf einen nützlichen Beitrag gestoßen, der das mit einem anderen, sehr aktuellen Paper vergleicht und offenbar einige der zentralen Befunde im Wesentlichen stützt. Vermutlich stammt der Vergleich vom Autor des anderen Papers: https://www.lesswrong.com/posts/F4iogK5xdNd7jDNyw/comparing-...
Lustigerweise habe ich genau so etwas fast identisch als Side Project gemacht. Es begann aus reiner Neugier, und auch wenn es nicht exakt dasselbe ist, feile ich an einem Algorithmus, der aus mehreren sorgfältig kalibrierten Ausgaben eines bestimmten LLM die wahrscheinlich dahinterliegenden Parametersätze ableitet.
Ich hatte erwartet, dass dabei Parameter-Cluster herauskommen, die den beobachteten ähneln. Inoffiziell nenne ich das Problem „LLM-Rückrechnung“; natürlich ist es nicht leicht zu lösen. Ganz unmöglich ist es aber nicht, und bislang habe ich ziemlich gute Näherungen gefunden.
Interessant ist auch die Hypothese am Ende des verlinkten Manuskripts, dass „einige Features in Wirklichkeit höherdimensionale Feature-Mannigfaltigkeiten sind und Dictionary Learning diese möglicherweise approximiert“. Wenn sich etwas wie ein kontinuierlicher, glatter Raum verhält, kann man je nach Bedarf beliebig Mannigfaltigkeiten definieren; insofern stimmt das. Wenn man die strenge Spitzfindigkeit beiseitelässt, passiert genau das tatsächlich, und ich halte es für den richtigen Rahmen, um an dieses Problem heranzugehen.
Die erstaunliche Erkenntnis daraus ist, was das konzeptionelle Gegenstück einer Übergangsfunktion zwischen verschiedenen Mannigfaltigkeiten in diesem LLM-Raum ist. Wenn man das sieht, platzt einem der Kopf nicht, weil es kompliziert ist, sondern weil es außergewöhnlich einfach ist.
- Kannst du genauer erklären, was du hier mit „Übergangsfunktion“ meinst?
- Mich würde interessieren, mit welchem Ansatz du angefangen hast. Ich würde auch gern mehr darüber lernen, wie LLMs funktionieren.
- Meinst du das im Sinne von hierarchisch? Oder habe ich den Punkt völlig verfehlt?
Das wirkt wie ein großer Fortschritt in der Alignment-Forschung. Das große Problem bisher war, dass LLMs schwer interpretierbare Zahlenhaufen waren und man kaum wusste, was intern vor sich geht.
Wenn sich diese Technik auf größere Maßstäbe skalieren lässt, hat Anthropic dieses Problem zu einem guten Teil gelöst. Man kann herausfinden, was unterschiedliche Neuronengruppen tatsächlich tun, und das nutzen, um das Verhalten von LLMs zu steuern. Das könnte helfen, versehentlich fehlalignedete KI zu verhindern.
- Für mich klingt das eher nach einem guten Ansatzpunkt fürs Pruning.
- Zu dem Teil „Gelernte Features sind zwischen verschiedenen Modellen im Großen und Ganzen universell, sodass Erkenntnisse aus der Untersuchung der Features eines Modells auf andere Modelle generalisiert werden können“ hätte ich gern mehr Details gehabt.
  Bedeutet das, dass sie bei Training auf denselben Trainingsdaten dieselben Feature-Detektoren gefunden haben? Oder etwas anderes? Es sagt einem schon etwas, aber was genau, bleibt unklar.
Ich frage mich, was passieren würde, wenn man manuell programmierte Komponenten in ein neuronales Netz einbaut. Einfache Komponenten wie die Erkennung von DNA-Sequenzen könnte man vermutlich einfügen, indem man die Gewichte direkt setzt.
Auf dieselbe Weise könnte man einem neuronalen Netz auch mathematische Komponenten geben. Würde das Netzwerk während des Trainings solche vordefinierten Komponenten entdecken und nutzen, oder sie ignorieren und seine eigene Methode entwickeln, DNA-Sequenzen zu erkennen?
- Wenn du weiter danach suchen willst: Die Geschichte und Nutzung dieser Idee nennt man Feature Engineering.
  Tokenisierung ist ebenfalls eine Form davon, weil man Daten vorab transformiert, damit das Modell Muster, von denen man weiß, dass sie wichtig sind, nicht selbst lernen muss.
- Man kann einen Transformer manuell programmieren: https://srush.github.io/raspy/
  Allerdings weiß ich nicht, ob man das in ein Modell integrieren kann. Solche Dinge sind nicht polysem, daher nehmen sie viel mehr „Raum“ ein als gelernte Neuronen; am Ende könnte einem der Platz ausgehen.
- Man könnte es auch so sehen, dass man spekulative Eingabetransformationen als Teil der Eingabe einer bestimmten Schicht hinzufügt und das Netzwerk entscheiden lässt, ob es diese Transformation nutzt oder nicht. Ähnlich wie Convolutional Layers in CNNs, aber viel stärker domänenspezifisch.
  Allerdings weiß ich nicht, wie viel Forschung es zu solchen seltsamen Schichten gibt.
- Für einige Anwendungsfälle, in denen Genauigkeit sehr wichtig ist, könnte man sich für handgeschriebenen Code zur Berechnung entscheiden. So kann man sich auf die Effizienz einer von Menschen entwickelten Methode verlassen, statt eine bestimmte Aufgabe einem LLM zu überlassen.
  Unklar ist allerdings noch, ob das direkt ins Netzwerk integriert wird oder ein Tool ist, das ein LLM nutzen kann. Interessanterweise ähnelt das der Entscheidung, ob man das menschliche Gehirn mit etwas wie Neuralink erweitert oder den Menschen einfach einen Taschenrechner in die Hand gibt.
Ich hoffe, dass solche Forschung zu viel kleineren und effizienteren Modellen führt, die zugleich präzise abstimmbar und steuerbar sind.
Wenn man sehen kann, was jeder Teil tut, kann man theoretisch einen Weg finden, nur die gewünschten Feature-Mengen zu erzeugen. Oder man könnte Features mit redundanter Kapazität anpassen.
Beim Untersuchen von Features könnte man irgendwann an einen Punkt kommen, an dem sich Wissen in eine Form destillieren lässt, die einem sehr reichhaltigen und fein definierten Wissensgraphen nahekommt.
- Anthropic bewegt sich vermutlich auf einem multidimensionalen Drahtseil. Sie wollen KI-Sicherheit und möchten wahrscheinlich auch vermeiden, dass einfach jeder ein leistungsstarkes Modell besitzt.
  Wenn ihre Forschungsergebnisse aber von Meta oder diversen Discord-Gruppen aufgesogen werden, verwandeln sich die heutigen eher zotteligen LLMs in starke Konkurrenten, und alle bekommen Zugang zu dieser Macht. Ich bin nicht fest überzeugt, was besser ist, neige aber leicht zu offenen Modellen.
  Schließlich dürfen gewöhnliche Leute wie wir schon Computer, moderne CPUs und das Internet benutzen. Es passieren schlechte Dinge wie Betrug und Schlimmeres, aber ich finde das besser, als einzuschränken, was Menschen tun können.
Ein einzelnes Riesenmodell ist nicht die Art, wie Gehirne funktionieren. Und es ist auch nicht die Art, wie ein Organigramm funktioniert.
Dass LLMs bei der heutigen Rechendichte zu solchen Fähigkeiten in der Lage sind, wirkt wie ein starkes Signal, dass die Aufgabe, produktive Wissensarbeiter zu bauen, bereits im Bereich überschüssigen Potenzials angekommen ist.
Das fehlende Puzzleteil ist nicht der Fortschritt von LLMs, sondern LLM-Management. Entscheidend ist, intern ein feindliches LLM-Organigramm zu schaffen, das an mich berichtet, und darin Vertrauen aufzubauen.
- Die Funktionsweise solcher Systeme fühlt sich unglaublich ineffizient an.
  Wir bewerten nicht jedes Mal, wenn wir ein Kochbuch lesen, unser Modell der Astrophysik neu.
Ich frage mich, wie polysem die einzelnen Neuronen im menschlichen Gehirn sind. Was man eigentlich will – und was das menschliche Gehirn vielleicht hat –, fühlt sich wie ein informationsreiches monosemes neuronales Netz an, also ein featurebasiertes, konzeptbasiertes, makromusterbasiertes Netzwerk.
Selbst wenn es polyseme Neuronen gibt, teilen sie innerhalb des Features, zu dem sie gehören, vermutlich ähnliche oder gleiche Informationen und gewinnen dadurch Raum- und Recheneffizienz. Bei diesen Transformer-Modellen hingegen wirkt es so, als würde man eine Million menschlicher Gehirne übereinander auf dasselbe Netzwerk legen und irgendwie alle Features des Trainingssatzes zu einzigartigen Neuronen mitteln. Dadurch entsteht natürlicherweise ein viel größeres „Gehirn“.
Das Paper sagt, dass monoseme Neuronen im Netzwerk nicht gut funktionieren, aber meiner Intuition nach liegt das daran, dass sie zu „hochpräzise“ sind und auf Feature-Ebene nicht genug Informationen kodieren. Features sind niedrigdimensional, und ein monosemes hochdimensionales Neuron kodiert womöglich nur sehr wenig Information. Allerdings denke ich darüber mit begrenztem Wissen über das menschliche Gehirn nach; es kann also gut sein, dass es viel mehr Ähnlichkeiten gibt, die ich nicht kenne.
Ich finde das wirklich großartig. Es sieht so aus, als würden alle LLMs um diese gemeinsamen Features herum konvergieren.
Als Laie verstehe ich es so, dass ein trainiertes Modell die Übergänge von einem Symbol zum nächsten als Wahrscheinlichkeiten zwischen Knoten beschreibt. Dieser Graph hat Struktur. Wenn er keine Struktur hätte, wäre Training überhaupt nicht möglich.
Allerdings wirkt diese Struktur so, als wären auf einem Blatt Papier die Definitionen der einzelnen Knoten mit verschiedenfarbiger Tinte in vielen Schichten übereinandergemalt. Diese Forschung und die im LessWrong-Beitrag erwähnten verwandten Papers scheinen daraus zu bestehen, aus dieser Floating-Point-Suppe verschiedenfarbige Graphkomponenten herauszufischen.

Sprachmodelle in verständliche Komponenten zerlegen

Warum neuronale Netze schwer zu interpretieren sind

Einzelne Neuronen sind keine stabilen Interpretationseinheiten

Der Ansatz, Modelle in Features zu zerlegen

512 Neuronen in mehr als 4.000 Features zerlegt

Prüfung der Interpretierbarkeit

Modellsteuerung mit Features

Universalität und Anpassung der Auflösung

AI-Sicherheit und nächste Aufgaben

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare