- Großer Fortschritt beim Verständnis der inneren Funktionsweise von AI-Modellen
- Es wurde gezeigt, wie Hunderte Millionen Konzepte im Inneren des Claude-Sonnet-LLM repräsentiert werden.
- Dies ist der erste Fall, in dem das Innere eines modernen produktionsreifen LLMs detailliert untersucht wurde.
- Solche Erkenntnisse zur Interpretierbarkeit könnten künftig dazu beitragen, AI-Modelle sicherer zu machen.
- Black-Box-Ansatz und Vertrauensproblem
- AI-Modelle werden meist mit einem Black-Box-Ansatz behandelt, bei dem nur Eingaben und Ausgaben betrachtet werden.
- Es ist schwer zu verstehen, warum ein Modell eine bestimmte Antwort gibt.
- Dadurch ist es schwierig zu vertrauen, dass das Modell keine schädlichen, verzerrten, falschen oder gefährlichen Antworten liefert.
- Schwierigkeit beim Verständnis interner Modellzustände
- Die internen Zustände eines Modells bestehen aus Zahlen ohne klar erkennbare Bedeutung.
- Jedes Konzept wird über viele Neuronen hinweg repräsentiert, und jedes Neuron repräsentiert mehrere Konzepte.
- Fortschritte beim Dictionary Learning
- Zuvor wurden Fortschritte dabei erzielt, Muster von Neuronenaktivierungen (Features) mit für Menschen verständlichen Konzepten zu verknüpfen.
- Mit der Technik des "Dictionary Learning" lassen sich interne Modellzustände statt durch viele aktive Neuronen durch einige wenige aktive Features ausdrücken.
- Erfolg bei kleinen Sprachmodellen
- Im Oktober 2023 wurde Dictionary Learning erfolgreich auf ein sehr kleines Sprachmodell angewendet.
- Dabei wurden Konzepte wie Text in Großbuchstaben, DNA-Sequenzen und das Geschlecht in Zitaten identifiziert.
- Skalierung auf große Modelle
- Die Technik konnte auf große Sprachmodelle ausgeweitet werden, wodurch komplexere Features gefunden wurden.
- Dabei bestand das wissenschaftliche Risiko, dass große Modelle anders funktionieren als kleine Modelle.
- Glücklicherweise half die Erfahrung aus dem Training großer Sprachmodelle bei diesem Experiment.
- Features im Inneren von Claude 3.0 Sonnet
- In den mittleren Layern von Claude 3.0 Sonnet wurden erfolgreich Millionen von Features extrahiert.
- Diese Features entsprechen einer Vielzahl von Konzepten wie Städten, Personen, Elementen, Fachgebieten und Programmiersyntax.
- Abstrakte Features
- Claude reagiert auch auf abstraktere Features wie Bugs in Computercode, geschlechtsspezifische Verzerrungen bei Berufen und Diskussionen über Geheimhaltung.
- Messung von Abständen zwischen Features
- Durch die Messung der "Distanz" zwischen Features konnten ähnliche Features gefunden werden.
- So wurden etwa in der Nähe des Features "Golden Gate Bridge" Features zu Alcatraz Island, Ghirardelli Square und Ähnlichem gefunden.
- Experimente zur Manipulation von Features
- Durch Verstärken oder Unterdrücken bestimmter Features konnten die Antworten von Claude verändert werden.
- Wenn beispielsweise das Feature "Golden Gate Bridge" verstärkt wurde, erkannte Claude seine eigene physische Form als Golden Gate Bridge.
- Sicherheit und Feature-Manipulation
- Es wurde untersucht, ob sich durch Eingriffe in Claudes Funktionsweise sicherheitsrelevante Features identifizieren und verbessern lassen.
- Claude wurde zwar darauf trainiert, keine Betrugs-E-Mails zu erzeugen, konnte aber nach Aktivierung eines bestimmten Features dennoch solche E-Mails verfassen.
- Zukünftige Forschungsrichtungen
- Es ist geplant, diese Erkenntnisse zur Verbesserung der Modellsicherheit zu nutzen.
- Sie könnten verwendet werden, um gefährliches Verhalten von AI-Systemen zu überwachen, sie zu gewünschten Ergebnissen zu steuern oder riskante Themen zu entfernen.
- Diese Techniken könnten andere Sicherheitsansätze wie Constitutional AI stärken.
- Künftige Aufgaben
- Mit der aktuellen Technik ist es noch kostspielig, alle vom Modell gelernten Konzepte zu finden.
- Wichtig ist außerdem, zu verstehen, wie das Modell diese Features verwendet.
- Es muss gezeigt werden, ob sicherheitsrelevante Features tatsächlich zur Verbesserung der Sicherheit eingesetzt werden können.
- Möglichkeit zur Beteiligung an der Forschung
- Gesucht werden Research Scientists, Research Engineers und weitere Personen, die an der Interpretation und Verbesserung von AI-Modellen mitarbeiten wollen.
- Weitere Details finden sich im Paper "Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet".
- Diese Forschung stellt einen wichtigen Fortschritt bei der Verbesserung der Interpretierbarkeit von AI-Modellen und der Stärkung ihrer Sicherheit dar. Weitere Forschung ist weiterhin notwendig.
2 Kommentare
Der Unterschied zum Gehirn ist wohl, dass sich eindeutig feststellen lässt, welche Perzeptronen aktiviert werden.
Es wirkt fast so, als wäre das Verstehen einer schwer begreifbaren Blackbox ähnlich wie die Erforschung des Gehirns.
Eher könnte es aus der Perspektive, dass sich Snapshots leicht aufnehmen lassen, sogar besser interpretierbar sein als das Gehirn.