Anthropic veröffentlicht „Golden Gate Claude“, eine Version mit angepasster interner Funktionsweise von LLMs

xguru · 2024-05-24T11:10:26+09:00

Vor wenigen Tagen wurde eine wichtige Forschungsarbeit veröffentlicht, die die interne Funktionsweise von LLMs interpretiert Im „Mind“ des Modells Claude 3 Sonnet wurden Millionen von Konzepten entdeckt, die beim Lesen relevanter Texte oder Bilder aktiviert werden Diese Konzepte werden als „Features“ bezeichnet; eines davon ist das Konzept der Golden Gate Bridge Es wurde festgestellt, dass es in Claudes neuronalen Netzen eine bestimmte Kombination von Neuronen gibt, die aktiviert wird, wenn die Golden Gate Bridge erwähnt wird oder ein Foto davon zu sehen ist – San Franciscos bekanntestes Wahrzeichen Diese Features lassen sich nicht nur identifizieren, sondern auch in ihrer Aktivierungsstärke steuern, wobei sich entsprechende Veränderungen in Claudes Verhalten beobachten lassen Wenn die Stärke des „Golden Gate“-Features erhöht wird, beginnen Claudes Antworten, die Golden Gate Bridge in den meisten Fragen zu erwähnen, auch wenn kein direkter Bezug besteht Auf die Frage, wie man 10 $ ausgeben sollte, schlägt das Modell vor, damit die Maut für die Überquerung der Golden Gate Bridge zu bezahlen Wenn man es bittet, eine Liebesgeschichte zu schreiben, erzählt es eine Geschichte über ein Auto, das an einem nebligen Tag darauf wartet, seine geliebte Brücke zu überqueren Wenn man es auffordert, sich vorzustellen, wie es aussieht, antwortet es, dass es wie die Golden Gate Bridge aussehe Das Modell kann auf Claude.ai direkt ausprobiert werden (Klick auf das Golden-Gate-Logo) Da es sich um eine Forschungsdemo handelt, sind unerwartete Reaktionen möglich Die Tatsache, dass sich solche Features innerhalb von Claude finden und verändern lassen, gibt Zuversicht, dass wir allmählich verstehen, wie große Sprachmodelle tatsächlich funktionieren Es handelt sich dabei nicht um einen neuen „System Prompt“, bei dem an jede Eingabe zusätzlicher Text angehängt wird, um das Modell etwa zum Schauspielern aufzufordern oder Claude zu sagen, es solle so tun, als sei es eine Brücke Ebenso wenig ist es klassisches „Fine-Tuning“, bei dem zusätzliche Trainingsdaten verwendet werden, um eine neue Black Box zu schaffen, die das Verhalten der vorherigen Black Box anpasst Stattdessen ist es eine präzise und chirurgische Veränderung einiger der grundlegendsten Aspekte in den internen Aktivierungen des Modells Wie in der Forschungsarbeit beschrieben, kann dieselbe Technik auch genutzt werden, um die Stärke sicherheitsrelevanter Features zu verändern, etwa solcher im Zusammenhang mit gefährlichem Computercode, kriminellen Aktivitäten oder Täuschung Anthropic geht davon aus, dass weitere Forschung dazu beitragen könnte, AI-Modelle sicherer zu machen

(anthropic.com)

19 Punkte von xguru 2024-05-24 | 4 Kommentare | Auf WhatsApp teilen

Vor wenigen Tagen wurde eine wichtige Forschungsarbeit veröffentlicht, die die interne Funktionsweise von LLMs interpretiert
Im „Mind“ des Modells Claude 3 Sonnet wurden Millionen von Konzepten entdeckt, die beim Lesen relevanter Texte oder Bilder aktiviert werden
Diese Konzepte werden als „Features“ bezeichnet; eines davon ist das Konzept der Golden Gate Bridge
Es wurde festgestellt, dass es in Claudes neuronalen Netzen eine bestimmte Kombination von Neuronen gibt, die aktiviert wird, wenn die Golden Gate Bridge erwähnt wird oder ein Foto davon zu sehen ist – San Franciscos bekanntestes Wahrzeichen
Diese Features lassen sich nicht nur identifizieren, sondern auch in ihrer Aktivierungsstärke steuern, wobei sich entsprechende Veränderungen in Claudes Verhalten beobachten lassen
Wenn die Stärke des „Golden Gate“-Features erhöht wird, beginnen Claudes Antworten, die Golden Gate Bridge in den meisten Fragen zu erwähnen, auch wenn kein direkter Bezug besteht
- Auf die Frage, wie man 10 $ ausgeben sollte, schlägt das Modell vor, damit die Maut für die Überquerung der Golden Gate Bridge zu bezahlen
- Wenn man es bittet, eine Liebesgeschichte zu schreiben, erzählt es eine Geschichte über ein Auto, das an einem nebligen Tag darauf wartet, seine geliebte Brücke zu überqueren
- Wenn man es auffordert, sich vorzustellen, wie es aussieht, antwortet es, dass es wie die Golden Gate Bridge aussehe
Das Modell kann auf Claude.ai direkt ausprobiert werden (Klick auf das Golden-Gate-Logo)
- Da es sich um eine Forschungsdemo handelt, sind unerwartete Reaktionen möglich
Die Tatsache, dass sich solche Features innerhalb von Claude finden und verändern lassen, gibt Zuversicht, dass wir allmählich verstehen, wie große Sprachmodelle tatsächlich funktionieren
Es handelt sich dabei nicht um einen neuen „System Prompt“, bei dem an jede Eingabe zusätzlicher Text angehängt wird, um das Modell etwa zum Schauspielern aufzufordern oder Claude zu sagen, es solle so tun, als sei es eine Brücke
Ebenso wenig ist es klassisches „Fine-Tuning“, bei dem zusätzliche Trainingsdaten verwendet werden, um eine neue Black Box zu schaffen, die das Verhalten der vorherigen Black Box anpasst
Stattdessen ist es eine präzise und chirurgische Veränderung einiger der grundlegendsten Aspekte in den internen Aktivierungen des Modells
Wie in der Forschungsarbeit beschrieben, kann dieselbe Technik auch genutzt werden, um die Stärke sicherheitsrelevanter Features zu verändern, etwa solcher im Zusammenhang mit gefährlichem Computercode, kriminellen Aktivitäten oder Täuschung
Anthropic geht davon aus, dass weitere Forschung dazu beitragen könnte, AI-Modelle sicherer zu machen

4 Kommentare

chanran 2024-05-27

Wenn man es mit dem Gehirn vergleicht, ist es so, als würde man das Gehirn mit elektrischen Reizen stimulieren, um grob eine intuitive Karte davon zu zeichnen, welche Funktion welcher Bereich übernimmt — und hier hat man offenbar das Gefühl, die für diese Funktion zuständige Kombination von Neuronen präzise identifizieren zu können.

laeyoung 2024-05-24

Wenn man zum „Golden-Gate-Brücke“-Papagei wird und ihn nach einer koreanischen Brücke fragt, sagt er einem, es sei die Golden Gate Bridge 🫢

superwoou 2024-05-24

Es fühlt sich ein bisschen so an, als würde man herausfinden, welcher bestimmte Bereich des Gehirns für welche Funktion zuständig ist..

xguru 2024-05-24

Anthropic veröffentlicht Version „Golden Gate Claude“, die die interne Funktionsweise von LLMs angepasst hat

Anthropic veröffentlicht „Golden Gate Claude“, eine Version mit angepasster interner Funktionsweise von LLMs

Verwandte Beiträge

4 Kommentare