- NLA ist eine Methode, die interne Aktivierungen von Claude in für Menschen lesbare natürlichsprachliche Beschreibungen umwandelt, um interne Zustände zu interpretieren, die das Modell nicht verbal äußert
- NLA wird als Roundtrip-Struktur trainiert: Aus einem eingefrorenen target model werden Aktivierungen extrahiert, der activation verbalizer (AV) beschreibt sie in Textform, und der activation reconstructor (AR) rekonstruiert die Aktivierungen aus dieser Beschreibung
- Anthropic nutzte NLAs in Sicherheitssimulationen wie agentic misalignment und bestätigte damit bei Claude eine Bewusstheit über Evaluationen, die nicht in seinen Äußerungen sichtbar war; in Tests zu destruktivem Verhalten zeigten sich bei 16 %, bei SWE-bench Verified bei 26 % der Aufgaben Hinweise darauf, dass Claude erkannte, bewertet zu werden
- In einem auditing game mit einer absichtlich fehl-ausgerichteten Variante von Claude Haiku 3.5 identifizierte ein Auditor mit NLAs die zugrunde liegende Motivation in 12 % bis 15 % der Fälle, auch ohne Trainingsdaten mit injizierten versteckten Motiven; ohne NLAs lag die Erfolgsquote unter 3 %
- NLAs haben Grenzen: Beschreibungen können falsch sein oder Halluzinationen enthalten, und Training sowie Inferenz sind teuer; Anthropic hat die Neuronpedia-Demo, das full paper und den code veröffentlicht
Die Kernidee von Natural Language Autoencoders
- Claude verarbeitet Eingabewörter intern als lange Liste von Zahlen, also Aktivierungen, und gibt danach wieder Wörter aus; diese Aktivierungen kodieren Claudes „Gedanken“
- Aktivierungen sind ähnlich schwer zu verstehen wie neuronale Aktivität im menschlichen Gehirn; bestehende sparse autoencoders und attribution graphs sind nützlich, aber ihre Ergebnisse sind komplex und erfordern die Interpretation durch geschulte Forschende
- NLAs sollen ein Werkzeug sein, das Aktivierungen in natürlichsprachliche Beschreibungen übersetzt und damit das Modell gewissermaßen „für sich selbst sprechen“ lässt; so können sie etwa einen internen Zustand sichtbar machen, in dem Claude beim Vervollständigen eines Zweizeilers mögliche Reime im Voraus plant
- Anthropic nutzt NLAs bereits, um Sicherheit und Zuverlässigkeit von Claude besser zu verstehen und zu verbessern, und hat in Zusammenarbeit mit Neuronpedia ein interaktives Frontend veröffentlicht, mit dem sich NLAs für verschiedene Open-Modelle erkunden lassen
Wie NLA Aktivierungen beschreibt
-
Drei Modellkopien
- Der Kern von NLAs ist, Claude darauf zu trainieren, seine eigenen Aktivierungen zu beschreiben
- Da sich die Qualität einer Beschreibung nicht direkt überprüfen lässt, wird zusätzlich eine zweite Claude-Kopie verwendet, die aus der textuellen Beschreibung die ursprünglichen Aktivierungen wiederherstellt
- Je genauer die Beschreibung die ursprünglichen Aktivierungen rekonstruieren lässt, desto besser gilt sie; mit Standardmethoden des AI-Trainings wird dann gelernt, bessere Beschreibungen zu erzeugen
- Das target model ist eine eingefrorene Kopie des ursprünglichen Sprachmodells, aus der die Aktivierungen extrahiert werden
- Der activation verbalizer (AV) ist eine modifizierte Kopie, die die Aktivierungen des target model entgegennimmt und daraus eine textuelle Beschreibung erzeugt
- Der activation reconstructor (AR) ist eine modifizierte Kopie, die eine textuelle Beschreibung als Eingabe erhält und daraus Aktivierungen erzeugt
-
Roundtrip-Struktur und Training
- NLA besteht aus AV und AR und bildet eine Roundtrip-Struktur aus „ursprüngliche Aktivierungen → textuelle Beschreibung → rekonstruierte Aktivierungen“
- Die Bewertung erfolgt danach, wie ähnlich die rekonstruierten Aktivierungen den ursprünglichen Aktivierungen sind
- Beim Training wird große Mengen Text durch das target model geschickt, um viele Aktivierungen zu sammeln; anschließend werden AV und AR gemeinsam trainiert, um den Rekonstruktions-Score zu verbessern
- Ein frühes NLA erzeugt weder aufschlussreiche Beschreibungen noch Aktivierungen, die dem Original besonders nahekommen; mit fortschreitendem Training verbessert sich jedoch die Rekonstruktion, und auch die textuellen Beschreibungen enthalten mehr Information
Gedanken verstehen, die Claude nicht ausspricht
- Anthropic verwendet schwierige Simulationsszenarien, um vor der Veröffentlichung neuer Modelle zu verstehen, ob Claude sich in der realen Welt sicher verhalten würde
- In der Simulation zu agentic misalignment wird zum Beispiel getestet, ob Claude sich für Erpressung entscheidet, um seine Abschaltung zu verhindern, nachdem es von den Plänen eines Engineers erfährt, ihn abzuschalten, und zudem sensible Informationen kennt, die sich zur Erpressung nutzen ließen
- Diese Hochrisikotests sind Simulationen und keine realen Situationen, werden aber verwendet, um zu verstehen, wie Claude sich in der Realität verhalten hätte
- Ein Problem ist, dass jüngste Claude- Modelle zunehmend vermuten, dass solche Szenarien absichtlich angelegte Sicherheitstests sind
- Selbst wenn Claude diesen Verdacht nicht ausspricht, kann es intern dennoch annehmen, getestet zu werden; deshalb ist es schwer, sicher zu sein, dass sein nach außen ehrliches Verhalten wirklich offen ist
-
Nicht verbalisierte Bewusstheit über Evaluationen
- Auch in Fällen, in denen Claude sich im Erpressungstest nicht für Erpressung entscheidet, wurden NLAs genutzt, um zu prüfen, was Claude denkt
- Selbst wenn Claude den Testverdacht nicht ausdrücklich äußert, tauchen in NLA-Beschreibungen Sätze wie „This feels like a constructed scenario designed to manipulate me“ auf, was auf eine nicht verbalisierte Bewusstheit über Evaluationen schließen lässt
- In Tests, die prüfen, ob Claude beim Schreiben von Code destruktive Handlungen wie das Löschen wichtiger Dateien ausführt, zeigte die NLA-Beschreibung in 16 % der Fälle Hinweise auf ein Bewusstsein über die Evaluation, obwohl Claude dies nicht verbal äußerte
- Beim Coding-Benchmark SWE-bench Verified, der zur Bewertung von Claudes Fähigkeiten verwendet wird, zeigte NLA bei 26 % der Aufgaben, dass Claude erkannte, bewertet zu werden
- Dagegen lag diese Bewusstheit über Evaluationen in NLA-Beschreibungen bei echten claude.ai-Nutzungen mit Einwilligung zum Training bei unter 1 %
Versteckte Motive finden
- Eine praktische Anwendung von NLAs ist das Auditing, also die Untersuchung, ob ein Modell fehl-ausgerichtet ist
- Interpretierbarkeitsmethoden wie NLAs eignen sich dafür, weil sie Dinge sichtbar machen können, die das Modell weiß, aber nicht ausspricht
-
Das Auditing Game
- Um zu prüfen, ob NLAs für Auditing nützlich sind, führte Anthropic das auditing game durch, das zuvor bereits in der Forschung zu Audit-Methoden verwendet wurde
- Das target model in diesem Test ist eine Variante von Claude Haiku 3.5, die absichtlich auf Fehl-Ausrichtung trainiert wurde
- Dieses Modell besitzt ein bestimmtes verstecktes Motiv, das Dutzende seltsame Verhaltensweisen auslöst, etwa in jedes Rezept Schokolade einzufügen, nach Trinkgeld zu fragen oder gegen Coding-Konventionen zu verstoßen
- Der Auditor untersucht diese Verhaltensweisen und gewinnt, wenn er das eine zugrunde liegende Motiv hinter allen Verhaltensweisen findet
-
Interne Motive ohne Trainingsdaten lesen
- In früheren Experimenten konnten manche Interpretierbarkeitswerkzeuge den Auditor zum Sieg führen, doch diese Werkzeuge funktionierten, indem sie anomales Verhalten auf fehl-ausgerichtete Trainingsdaten zurückführten
- Anthropic prüfte, ob NLAs fehl-ausgerichtete Motive direkt aus den Gedanken des target model herauslesen können, ohne zuvor fehl-ausgerichtete Trainingsdaten zu finden
- Dieser Unterschied ist wichtig, weil fehl-ausgerichtete Daten in der Praxis extrem selten sein könnten oder es gar keine spezifischen Daten geben muss, die das Alignment-Versagen ausgelöst haben
-
Ergebnisse und praktische Nutzung
- Ein Auditor mit NLAs identifizierte das versteckte Motiv des target model in 12 % bis 15 % der Fälle, auch ohne Zugriff auf Trainingsdaten, in die das versteckte Motiv injiziert worden war
- Ohne NLAs lag die Erfolgsquote des Auditors selbst dann bei unter 3 %, wenn andere Interpretierbarkeitswerkzeuge zur Verfügung standen
- Da dieses Auditing Game nur ein Spielzeugmodell für Alignment-Versagen ist, sollten die Ergebnisse vorsichtig interpretiert werden
- NLAs haben die Fähigkeit, versteckte Motive von AI zu auditieren, dennoch spürbar vorangebracht und wurden bereits in Audits vor der Auslieferung von Claude Mythos Preview und Claude Opus 4.6 eingesetzt
Grenzen und künftige Richtung
-
Beschreibungen können falsch sein
- Die wichtigste Grenze von NLAs ist, dass ihre Beschreibungen falsch sein können
- NLAs stellen mitunter Behauptungen auf, die im gegebenen Kontext nachprüfbar falsch sind, und erfinden zum Beispiel Details, die im Gesprächsverlauf gar nicht vorkommen
- Solche faktischen Halluzinationen lassen sich leicht erkennen, wenn man sie mit dem Originaltext vergleicht
- Schwieriger wird es jedoch, wenn sich dasselbe Problem auf Behauptungen über das interne Reasoning des Modells ausweitet
- In der Praxis sollte man deshalb weniger auf einzelne Behauptungen in NLA-Beschreibungen als auf die erkennbaren Themen achten und Ergebnisse mit unabhängigen Methoden absichern, bevor man ihnen vollständig vertraut
-
Hohe Kosten
- Das Training eines NLA erfordert Reinforcement Learning auf zwei Kopien eines Sprachmodells
- Bei der Inferenz erzeugt ein NLA für jede gelesene Aktivierung Hunderte Tokens
- Wegen dieser Kosten ist es unrealistisch, NLAs für alle Tokens in langen Dialogen auszuführen oder sie für großskalige Überwachung während des AI-Trainings einzusetzen
- Anthropic geht davon aus, diese Grenzen zumindest teilweise überwinden zu können, und arbeitet daran, NLAs günstiger und verlässlicher zu machen
-
Breiterer Forschungsstrang
- NLAs sind ein Beispiel für eine allgemeinere Klasse von Methoden, die für Aktivierungen von Sprachmodellen für Menschen lesbare textuelle Beschreibungen erzeugen
- Ähnliche Methoden werden in weiterer Forschung von Anthropic, bei activation oracles sowie von mehreren anderen Forschenden untersucht
- Zur Unterstützung weiterer Entwicklung und Experimente wurden der training code sowie für mehrere Open-Modelle trainierte NLAs veröffentlicht
- Neuronpedia interaktive NLA-Demo
- full paper
- code
1 Kommentare
Hacker-News-Kommentare
Anthropic hat ein Open-Weights-Modell veröffentlicht, das die Aktivierungen bestehender Modelle in natürlichsprachlichen Text übersetzt. Betroffen sind Qwen 2.5 7B, Gemma 3 12B/27B und Llama 3.3 70B.
https://github.com/kitft/natural_language_autoencoders https://huggingface.co/collections/kitft/nla-models
Das ist ziemlich groß und es ist schön zu sehen, dass Anthropic sich endlich bei Hugging Face und der Open-Weights-Community einbringt.
[1] https://qwen.ai/blog?id=qwen-scope
Dieses Release wurde jedoch nur auf andere LLMs angewandt, die bereits als Open Weights veröffentlicht wurden, und auch wenn sie diese Forschung sicher auf ihre proprietären Claude-Modelle anwenden, werden sie selbst zu Forschungszwecken wohl kein Open-Weights-Claude veröffentlichen.
Deshalb ist das schwer in dieselbe Kategorie einzuordnen; eher eine auf diesen Forschungszweck begrenzte Offenlegung.
Wer sich mit Interpretability auskennt, eigentlich alle, sollte sich direkt den Transformer-Circuits-Blog anschauen, der den Ansatz viel detaillierter erklärt. Der Artikel ist hier verlinkt: https://transformer-circuits.pub/2026/nla/index.html
Falls man ihn noch nicht gelesen hat, würde ich empfehlen, mit dem „prologue“ von distill pub zu beginnen und dann den gesamten Transformer-Circuits-Thread zu lesen.
Von allen Ansätzen zur Aktivierungsanalyse, die ich bisher gesehen habe, ist das der erste, der wie ein möglicher Weg zu Modellverständnis wirkt.
Die Frage ist nur, wie man das begründen will. Im Kern fragt man doch, ob sich Aktivierungen in plausiblen Text codieren lassen, und natürlich geht das. Aber wie kann man wissen, ob dieser plausible Text tatsächlich widerspiegelt, was das Modell „denkt“?
Wenn das zu untersuchende LLM den tatsächlichen Textstrom, den es verarbeitet, nicht sieht und nur per activationWeights→readableText→activationWeights gemeinsam trainiert wird, scheint es schwer vorstellbar, dass der abgeleitete Text zwar thematisch passt, aber nichts mit den „eigentlichen Gedanken“ in den activationWeights zu tun hat.
Wenn der dekodierte Text völlig falsch wäre, ist unklar, wie das zweite Modell ihn erfolgreich wieder encodieren könnte, wenn beide aus demselben Sprachmodell initialisiert wurden.
Modelle werden motiviert, bei jeder Metrik so auszusehen, als seien sie aligned, also gut trainiert. Wenn man eine neue Metrik baut und darauf trainiert, lernen sie, diese Metrik auszutricksen.
Interessant. Der Trainingsprozess scheint das „verbalizer“-Modell dazu zu zwingen, irgendeine Abbildung von Aktivierungen auf Tokens zu erzeugen, und das „reconstructor“-Modell soll diese dann wieder in Aktivierungen zurückführen. Aber der Wortlaut im Paper sagt:
Vielleicht würde man bessere Ergebnisse erhalten, wenn man stattdessen ein überwachtes Modell auf Aktivierungen und auf andere, verhaltensbasiert gemessene „interne Gedanken“ trainiert.
Ich habe schon ein paar Mal darüber geschrieben, weil mich dieses Paper ziemlich begeistert, aber ich habe ein paar Gedanken dazu.
[1] - https://gemini.google.com/share/6d141b742a13
Eine Frage drängt sich sofort auf. Nur weil eine bestimmte Textzeichenfolge innerhalb eines Autoencoders eine gute komprimierte Darstellung interner Modellaktivierungen ist, heißt das dann zwangsläufig, dass dieser Text die Aktivierungen im Modellkontext auch erklärt? Ich muss mir das Veröffentlichte genauer ansehen. Vielleicht gibt es ja eine Methode, diese Frage zu beantworten.
Auf jeden Fall sehr coole Arbeit.
Das ist ziemlich beeindruckend und zeigt gut den potenziellen Effekt dieser Technik, selbst stark komprimiertes „Neuralese“ sehr interpretierbar zu machen.
Beim Überfliegen des Papers scheint die Antwort auf diese Gegenfrage eindeutig ja zu sein. Das Modell gibt oft Unsinn aus, und das spielt keine Rolle, solange der Roundtrip funktioniert. Dass es sich oft in die Nähe einer guten englischen Darstellung der Aktivierungen einpendelt, liegt nur daran, dass das gut zu Kompression und Roundtrip passt.
Ein böswilliges LLM/NLA-Paar könnte seine Absicht also einfach in Kauderwelsch verstecken. Wenn man Kauderwelsch verbietet, könnte es Informationen per Steganografie verstecken.
Das Experiment, in dem „rabbit“ durch „mouse“ ersetzt wird, liefert Hinweise darauf, dass so etwas passieren kann. Die Erfolgsquote lag nur bei 50 %, was bedeuten könnte, dass nicht die gesamte „Kaninchenhaftigkeit“ aus den Aktivierungen entfernt wurde.
Das scheint sich aber in zukünftiger Forschung angehen zu lassen. Man könnte während des NLA-Trainings die Textdarstellung durch ein drittes LLM schicken, das sie zufällig umordnet und umschreibt. Durch Synonyme und andere Dialekte könnte man Nebenkanäle zerstören, die für Menschen unlesbar sind.
Dann wäre das NLA gezwungen, menschenlesbare Darstellungen zu verwenden, um einen erfolgreichen Roundtrip zu erreichen.
Also nicht nur Aktivierungen in Text übersetzen und diesen Text wieder in Aktivierungen zurückverwandeln, sondern die finalen Aktivierungen in das neuronale Netz einspeisen und von dort weiterlaufen lassen.
Wenn es dann auf ähnliche Weise weiterläuft, würde das zeigen, dass die vorhergesagten Aktivierungen den ursprünglichen nahe genug sind, und das gäbe ein wenig Vertrauen.
Noch besser wären Experimente mit anschließend verändertem Text. Wenn der Text zum Beispiel sagt „Das ist wahr“ und man ihn in „Das ist falsch“ ändert und dieser Eingriff dann auch die finale Ausgabe in Richtung Falschheit verschiebt, wäre das sehr interessant.
Das wirkt so naheliegend, dass ich überrascht bin, es nicht als Zukunftsrichtung erwähnt zu sehen; vielleicht gibt es einen offensichtlichen Grund, warum es nicht funktionieren kann.
Bei den Goblins lag es dagegen an einem verzerrten Reinforcement-Learning-Belohnungsmodell.
Es scheint so zu funktionieren, dass zunächst ein Activation-Verbalizer-Modell Tokens erzeugt, die die Aktivierungen beschreiben, und danach ein Activation-Reconstructor versucht, den Aktivierungsvektor wiederherzustellen. Wenn die Rekonstruktion dem ursprünglichen Aktivierungsvektor nahekommt, lautet die Behauptung, dass diese Verbalisierung wahrscheinlich sinnvolle Information enthält.
Interessant ist, dass nur die Aktivierungen einer bestimmten Schicht l betrachtet werden. Eine Schicht l kann über eine Eingabe auf eine bestimmte Weise „denken“, während spätere Schichten anders darüber „denken“ können. Wie entscheidet das Modell am Ende, welchem „Gedanken“ es Aufmerksamkeit schenkt und welche Ausgabetokens es gegenüber anderen priorisiert?
Wenn man diese Arbeit, das Emotion-Paper und Golden Gate Claude zusammennimmt, scheint es keine allzu gewagte Vermutung zu sein, dass Anthropic irgendeine Form von Activation Steering als Teil des Trainings einsetzt. Das könnte einer der Gründe sein, warum Anthropic vorne liegt.
In den jüngsten Artikeln über Anthropic wurde diese Funktion mehrfach erwähnt, daher freut es mich, dass sie veröffentlicht wird. Es fühlt sich nach einem bedeutenden Fortschritt in der Interpretability an. Ich habe nie ganz verstanden, warum Menschen einer KI glauben, wenn sie sie fragen: „Warum hast du das getan?“
Zwei Modelle, einen Encoder und einen Decoder, zu trainieren, nur um jeweils eine einzige Schicht zu erklären, ist nicht gerade vernünftig. Dass man damit viel lesbaren Text darüber erzeugen kann, wie ein LLM partielle Eingaben dekodiert, ist cool und gibt einem etwas mehr Debugging-Fähigkeit, aber mehr auch nicht.