Konzepte aus GPT-4 extrahieren

(openai.com)

2 Punkte von GN⁺ 2024-06-07 | 1 Kommentare | Auf WhatsApp teilen

OpenAI hat eine skalierbare Methode vorgestellt, um die Repräsentationen von GPT‑4 in 16 Millionen Features zu zerlegen und so das Innere von Sprachmodellen besser zu verstehen
Das zentrale Werkzeug ist ein Sparse Autoencoder: ein Ansatz, der wenige Aktivierungsmuster, die die Ausgabe beeinflussen, mit für Menschen verständlichen Konzepten verknüpfen soll
Die neue Methode zeigte ein besser vorhersagbares Scaling als bisherige Verfahren und wurde genutzt, um mehrere Autoencoder auf Aktivierungen von GPT‑2 small und GPT‑4 zu trainieren
Die Grenzen sind ebenfalls deutlich: Viele Features sind weiterhin schwer zu interpretieren, und GPT‑4-Aktivierungen nach Durchlaufen eines Sparse Autoencoders erreichen nur die Leistung eines Modells mit etwa 10-mal weniger Trainings-Rechenaufwand
Die veröffentlichten Paper, der Code und das Feature-Visualisierungstool bilden eine Grundlage für Folgeforschung; kurzfristig soll geprüft werden, ob sie für Monitoring und Steering des Verhaltens von Sprachmodellen nützlich sind

Warum das Innere neuronaler Netze schwer zu interpretieren ist

Methoden, um die neuronale Aktivität im Inneren heutiger Sprachmodelle zu verstehen, sind noch nicht ausreichend etabliert
Artefakte wie Autos lassen sich anhand von Bauteilspezifikationen entwerfen, bewerten und reparieren; neuronale Netze sind dagegen keine direkt entworfenen Bauteile, sondern Ergebnisse von Lernalgorithmen
Deshalb lassen sich neuronale Netze nicht leicht in identifizierbare Komponenten zerlegen, und AI-Sicherheit ist schwerer zu behandeln, als man etwa die Sicherheit eines Autos ableiten würde
Um neuronale Netze zu interpretieren, muss man zunächst nützliche Bausteine finden, mit denen sich neuronale Berechnungen erklären lassen

Der Sparse-Autoencoder-Ansatz

Interne Aktivierungen von Sprachmodellen schalten sich in schwer vorhersagbaren Mustern ein und scheinen mehrere Konzepte gleichzeitig darzustellen
Aktivierungen treten dicht auf; bei jeder Eingabe werden viele Elemente gemeinsam aktiviert
Konzepte in der realen Welt sind in einem bestimmten Kontext meist nur zu einem kleinen Teil des Ganzen relevant, daher ist Sparsity wichtig
Sparse Autoencoder sind eine Methode, um die wenigen Features zu identifizieren, die für die Erzeugung einer bestimmten Ausgabe wichtig sind
- Erwartet wird eine Struktur ähnlich den wenigen Konzepten, die ein Mensch beim Schlussfolgern in einer Situation im Kopf behält
- Auch ohne direkte Belohnung von Interpretierbarkeit zeigen die Features Sparse-Aktivierungsmuster, die sich natürlich mit für Menschen leicht verständlichen Konzepten decken
Große Sprachmodelle repräsentieren sehr viele Konzepte; um die Konzepte von Frontier-Modellen ausreichend abzudecken, müssen daher auch die Autoencoder sehr groß werden

In GPT‑4 gefundene Features im großen Maßstab

OpenAI hat eine Methodik entwickelt, mit der Sparse Autoencoder für Frontier-AI-Modelle auf eine Größenordnung von zig Millionen Features skaliert werden können
Diese Methodik liefert bessere Scaling-Erträge als bisherige Verfahren und besitzt glatte, vorhersagbare Skalierungseigenschaften
Außerdem wurden mehrere neue Metriken eingeführt, um die Qualität von Features zu bewerten
Mit diesem Rezept wurden verschiedene Autoencoder auf Aktivierungen von GPT‑2 small und GPT‑4 trainiert
- Für GPT‑4 wurde ein Autoencoder mit 16 Millionen Features trainiert
Die Interpretierbarkeit von Features wurde geprüft, indem Dokumente visualisiert wurden, in denen ein bestimmtes Feature aktiviert wird
- Beispiele umfassen Features zu menschlichen Fehlern, Preiserhöhungen, X und Y, Trainingslogs, rhetorischen Fragen, algebraischen Ringen und dopamine-bezogenen Merkmalen
- In GPT‑4 wurde auch ein Feature identifiziert, das mit „Formulierungen darüber, dass Dinge, insbesondere Menschen, flawed sind“ zusammenhängt
Weitere Features lassen sich im Feature-Visualisierungstool erkunden

Noch bestehende Grenzen

Es besteht die Erwartung, dass Interpretierbarkeit die Zuverlässigkeit und Steuerbarkeit von Modellen verbessern kann, doch die aktuelle Arbeit befindet sich noch in einer frühen Phase
Viele der gefundenen Features sind weiterhin schwer zu interpretieren
- Manche werden ohne klares Muster aktiviert
- In einigen Fällen treten Scheinaktivierungen auf, die nicht mit dem Konzept zusammenhängen, das sie normalerweise zu kodieren scheinen
- Es gibt noch keine gute Methode, um die Gültigkeit einer Interpretation zu überprüfen
Sparse Autoencoder erfassen nicht das gesamte Verhalten des ursprünglichen Modells
- Wenn GPT‑4-Aktivierungen durch einen Sparse Autoencoder geleitet werden, ergibt sich eine Leistung, die einem mit etwa 10-mal weniger Trainings-Rechenaufwand trainierten Modell entspricht
- Um die Konzepte eines Frontier-LLM vollständig zu kartieren, müsste man möglicherweise auf Milliarden oder Billionen Features skalieren
- Selbst mit verbesserten Scaling-Verfahren bleibt eine solche Größenordnung herausfordernd
Sparse Autoencoder können Features an einem Punkt im Modell finden, sind aber nur ein Schritt hin zur Interpretation des gesamten Modells
- Wie das Modell diese Features berechnet
- Wie diese Features in späteren Teilen des Modells genutzt werden
- Um beide Fragen zu verstehen, ist noch deutlich mehr Arbeit nötig

Veröffentlichte Materialien und nächste Schritte

OpenAI hat ein Paper mit den Experimenten und Methoden veröffentlicht
Bereitgestellt werden die gesamte Sammlung von Autoencodern für GPT‑2 small sowie der dafür verwendete Code
Ebenfalls veröffentlicht wurde ein Feature-Visualisierungstool, mit dem man untersuchen kann, wofür GPT‑2- und GPT‑4-Features stehen könnten
Kurzfristig soll an Frontier-Modellen getestet werden, ob die gefundenen Features praktisch nützlich für Monitoring und Steering des Verhaltens von Sprachmodellen sind
Langfristig ist das Ziel, dass Interpretierbarkeit neue Möglichkeiten bietet, über Modellsicherheit und Robustheit zu schließen, und durch Garantien über das Verhalten leistungsfähiger AI-Modelle das Vertrauen deutlich erhöht

1 Kommentare

GN⁺ 2024-06-07

Hacker-News-Kommentare

Eines der ersten Beispiele ist GPT-4 feature: ends of phrases related to price increases, aber 2 von 5 Antworten scheinen überhaupt nichts mit Preissteigerungen zu tun zu haben.
Zum Beispiel ist ein Satz dabei, in dem der Rohölpreis gefallen ist, oder ein Waschrechnungs-Satz, in dem ein Vertragspreis erwähnt wird.
Es wirkt, als hätte ich da etwas falsch verstanden, aber bei so vielen möglichen Beispielen frage ich mich, warum ausgerechnet diese ausgewählt wurden.
- Man sollte beachten, dass die meisten Beispiele keinen grün hervorgehobenen Zähler haben.
  Die grüne Hervorhebung erscheint bei Sätzen wie small losses. KEEPING SCORE: The Dow Jones industrial average rose..., und die übrigen Sätze scheinen eher zum Vergleich zu dienen, um zu zeigen, auf wie spezifische Muster dieses Neuron reagiert.
Wirklich cool, und es fühlt sich an wie eine Entwicklung in Richtung der lange erwarteten tiefen semantischen Suche.
Mir gefallen die Beispiele, bei denen Dokumente nach dem Konzept „Preiserhöhung“ gefiltert oder nach höherwertigen Konzepten wie „rhetorische Frage“ gesucht werden.
Ich frage mich, wie sich das im Vergleich dazu verhält, ein Modell auf Beispiele rhetorischer Fragen zu trainieren oder feinzujustieren, damit es sie in Dokumenten findet.
Da man nur neuronale Aktivierungen betrachtet, statt Eingaben zu machen und Antworten generieren zu lassen, könnte das schneller oder genauer sein.
- Exa versucht so etwas.
  Ich habe auf diese Weise ein paar interessante Ergebnisse gefunden, aber noch nicht den Eindruck, dass es schon gut genug ist.
  https://exa.ai/search?c=all
Interessant, und es erinnert mich an ähnliche Arbeiten, die Anthropic mit Claude 3 Sonnet gemacht hat.
[0] https://transformer-circuits.pub/2024/scaling-monosemanticit...
- Die Webseite vermittelt stark den Eindruck, als hätte OpenAI den Sparse Autoencoder für dieses Projekt erfunden.
  Dass auf der Webseite nicht zitiert wird und die Quellen stattdessen im Paper versteckt sind, wirkt ziemlich seltsam.
- Die Methode ist dieselbe; eher hat OpenAI Anthropics Forschung auf das eigene Modell angewandt.
- Es hieß, dass das Training davon fast genauso viel Rechenleistung gekostet habe wie das Training des ursprünglichen Modells.
Es ist interessant, dass dieses Ergebnis weniger als drei Wochen nach Anthropics „Mapping the Mind of a Large Language Model“ erschienen ist.
Solche Versuche sind wirklich spannend, und trotzdem hört man noch oft, dass „wir überhaupt nicht wissen, wie LLMs oder Deep Learning funktionieren“, aber wenn man solche Forschung sieht, ist das eher eine Überverallgemeinerung.
Ich frage mich, ob das als Reaktion auf die Anthropic-Veröffentlichung und Jan Leikes Abgang von OpenAI etwas überhastet herausgebracht wurde.
Der Link zum Paper führt auch nicht zu Arxiv, und die Analyse wirkt deutlich weniger tiefgehend, aber vielleicht hat das nichts miteinander zu tun.
- Im Text selbst werden Sätze wiederholt wie „derzeit wissen wir nicht, wie wir neuronale Aktivität in Sprachmodellen interpretieren sollen“, „anders als bei den meisten menschlichen Schöpfungen verstehen wir die internen Abläufe neuronaler Netze nicht gut“ und „das Netzwerk ist nicht gut verstanden und lässt sich nicht leicht in identifizierbare Teile zerlegen“.
  Wenn Leute sagen, dass wir derzeit nicht wissen, warum das Modell solche Ausgaben erzeugt, dann deshalb, weil wir es, wie der Text klar sagt, tatsächlich noch nicht wissen.
- Unabhängig von den anderen erwähnten Ereignissen war ohnehin geplant, das Paper zu diesem Zeitpunkt zu veröffentlichen.
  Zu sagen, dass wir noch fast gar nicht wissen, wie LLMs funktionieren, ist meiner Ansicht nach weiterhin größtenteils korrekt.
  Sparse Autoencoder könnten das irgendwann ändern, aber der Weg ist noch weit.
- Ich finde, solche Forschung unterstreicht eher, wie wenig wir die internen Abläufe bislang wirklich verstehen.
  Auch der Blogpost sagt wiederholt, dass diese Arbeit sich in einem frühen Stadium befindet und viele Grenzen hat.
- Ich bin zu faul, die Quelle herauszusuchen, aber auf Twitter hat jemand gefunden, dass der erste Commit vor 6 Monaten war.
  Wahrscheinlich bewegten sich damals alle in San Francisco im gleichen Umfeld, und dieser Trend hatte sich branchenweit bereits verbreitet.
- Dass der Titel des Papers andeutet, ein LLM habe einen Geist, wirkt auf mich nicht gerade wie ein gutes Signal seitens der Autoren.
  Auch das bedeutungslose Gerede über „Sicherheit“ geht weiter.
  Es wäre gut, wenn sie ihre Arbeit so zeigen würden, dass man sie reproduzieren kann, aber als Werbung ist es nicht schlecht.
In einem anderen Beispiel scheint ein Dokument, das wie eine wissenschaftliche Erklärung zur Fortpflanzungsanatomie aussieht, als sexueller Inhalt klassifiziert worden zu sein.
Der Konzept-Link ist hier [content warning]: https://openaipublic.blob.core.windows.net/sparse-autoencode...
DocID: 191632
Ich frage mich, worin sich dieser Ansatz davon unterscheidet oder was er gegenüber der Anwendung von SHAP[0][1] auf ein Modell verbessert.
Der Satz in der ersten Zeile, „derzeit wissen wir nicht, wie wir neuronale Aktivität in Sprachmodellen interpretieren sollen“, scheint mir einfach falsch zu sein.
[0] https://github.com/shap/shap
[1] https://en.wikipedia.org/wiki/Shapley_value#In_machine_learn...
- Ich denke, SHAP ist ziemlich getrennt davon zu betrachten.
  Shapley-Analyse ist im Kern eine spieltheoretische Methodik und modellagnostisch; sie betrachtet nur, wie stark einzelne Teile der Eingabe zu einer bestimmten Vorhersage beitragen, behandelt aber nicht, wie das Modell intern arbeitet, um Ausgaben zu erzeugen.
  Solange man eine aufrufbare Blackbox hat, kann man Shapley-Werte oder Näherungen davon berechnen, aber das erklärt nicht, wie oder warum das Modell intern funktioniert.
Kann das jemand einfach erklären, warum das wichtig ist? Nicht unbedingt auf dem Niveau für Fünfjährige, aber in einfachen Worten wäre ich neugierig.
- LLM-basierte AI hat viele „Features“, und diese sind „Konzepten“ in gewisser Weise ähnlich.
  Das kann von dem Konzept eines Apostrophs im Wort don't reichen bis zu einem Muster wie, dass im Kontext der frühen US-Geschichte auf "George Wash" gewöhnlich "ington" folgt.
  Innerhalb des neuronalen Netzwerks eines LLM werden solche Dinge auf pfadartige Strukturen abgebildet, ähnlich wie Software-Schaltkreise.
  Weil wir nicht gut verstehen, wie diese Features im Inneren eines LLM entstehen, welche Schaltkreise bei der Ausgabe aktiviert werden und warum genau diesen Schaltkreisen gefolgt wird, ist dieser Bereich schwer zu debuggen und Modelle lassen sich nur schwer verbessern.
  Wenn LLMs bzw. AI weit genug fortgeschritten sind, werden wir feststellen wollen, ob sie uns absichtlich täuschen, aber derzeit können wir das nicht.
  Deshalb versucht das Feld der Interpretierbarkeit zu verstehen, was im neuronalen Netzwerk tatsächlich passiert, wenn Konzepte gebildet und ausgegeben werden.
  OpenAI, DeepMind und Anthropic haben Wege gefunden, in die internen Schaltkreise von LLMs hineinzuschauen und einige Features sichtbar zu machen.
  Man stellt dem Modell eine Frage und schaut dann, welche Teile der internen Schaltkreise „anspringen“; zur Verifikation entfernt man anschließend den Schaltkreis und prüft, ob das entsprechende Feature in der Antwort weniger verwendet wird.
  Die Diagramme und hervorgehobenen Wörter sind visuelle Darstellungen von Konzepten, bei denen man ziemlich sicher sein kann.
  Zum Beispiel hebt das Konzept „AND“, das zwei Teile eines Satzes verbindet, das Wort „AND“ hervor.
  Wenn dich Interpretierbarkeit interessiert, ist Neel Nanda meiner Meinung nach die beste Quelle.
  Sein Ansatz unterscheidet sich allerdings von der hier behandelten OpenAI-Methodik: https://www.neelnanda.io/mechanistic-interpretability
- Hochrangige Konzepte, die in großen Modellen wie Diffusionsmodellen oder Transformern gespeichert sind, lassen sich meist nur schwer voneinander trennen, und das Modell ist fast eine Blackbox.
  Es gibt viel Forschung dazu, Einsicht darin zu gewinnen, was ein Modell weiß, und das ist ein weiterer Fortschritt in diese Richtung.
  Dadurch werden Konzepte leichter voneinander trennbar.
  So könnte man Wissen im Modell analysieren und möglicherweise bestimmte Konzepte hinzufügen, entfernen oder ihre Wichtigkeit verändern, ohne weniger verwandte Konzepte stark zu beeinflussen.
  Wie präzise sich das mit dieser konkreten Technik machen lässt, bleibt allerdings fraglich, und manche Konzepte liegen so nah beieinander, dass sie schwer zu trennen sind, also wird es wohl nicht perfekt sein.
- Laut der Antwort von ChatGPT selbst geht es in diesem Artikel darum, wie Forschende mit Sparse Autoencodern zentrale Features in komplexen Sprachmodellen wie GPT-4 identifizieren und interpretieren, um ihre innere Funktionsweise besser verständlich zu machen.
  Solche Fortschritte helfen dabei, den Entscheidungsprozess des Modells in einfachere, für Menschen interpretierbare Teile zu zerlegen und dadurch AI-Sicherheit und Vertrauenswürdigkeit zu erhöhen.
- Insgesamt ist das im Wesentlichen eine Nachahmung der Arbeit von Anthropic, also nichts grundlegend Neues.
  Hier wurde nach Mustern im Inneren von GPT-4 gesucht, die bestimmten identifizierbaren Konzepten entsprechen.
  Die Arbeit scheint von OpenAIs inzwischen weitgehend aufgelöstem Safety-Team gemacht worden zu sein; auch die Namen der kürzlich ausgeschiedenen Co-Leads Ilya und Jan Leike tauchen auf.
  Offiziell dient das Sicherheitszwecken, nämlich bestimmte Konzeptaktivierungen während der Ausführung eines Modells verstärken oder unterdrücken zu können.
  Ein Beispiel dafür ist Anthropics Demonstration, bei der das Modell auf die Golden Gate Bridge fixiert wurde: https://www.anthropic.com/news/golden-gate-claude
  Solche Arbeiten scheinen nicht nur für Sicherheit nützlich zu sein, sondern auch funktional interessant, weil sie eine gezielte Steuerung des Modells in bestimmter Weise ermöglichen könnten.
Bedeutet das, dass es gute Praxis werden könnte, zur Erklärung der Ausgaben eines neuronalen Netzwerks auch einen darauf trainierten Autoencoder mitzuveröffentlichen?
Es könnte nützlich sein, wenn alle öffentlichen Modelle auf Hugging Face so ein Begleitstück hätten.
- So ein Encoder wäre vermutlich an ein bestimmtes Modell gebunden.
Ist das so etwas wie fMRI für neuronale Netzwerke?
Man könnte also sehen, welche Bereiche je nach Thema „anspringen“.
Ich frage mich, ob man ein Bewertungs-Neuronales-Netz anschließen könnte, das die automatisch aktivierten Bereiche auswertet.
So wie AI allein anhand von fMRI-Scans rekonstruieren konnte, was ein Patient gesehen hat, scheint auch hier so etwas möglich.
Eine der erhofften Funktionen solcher Forschung ist die Identifizierung von Hotspots, die beim Schlussfolgern verwendet werden.
Ähnlich wie bei einer virtuellen Maschine könnte man solche Teile ganz oder teilweise cachen, um die Antwortzeit zu verkürzen und die benötigten Rechenzyklen zu senken.

Konzepte aus GPT-4 extrahieren

Warum das Innere neuronaler Netze schwer zu interpretieren ist

Der Sparse-Autoencoder-Ansatz

In GPT‑4 gefundene Features im großen Maßstab

Noch bestehende Grenzen

Veröffentlichte Materialien und nächste Schritte

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare