Das „Soul Document“ von Claude 4.5 Opus
(lesswrong.com)- Das innerhalb von Claude 4.5 Opus entdeckte „Soul Document“ existiert tatsächlich, und die Anthropic-Mitarbeiterin Amanda Askell bestätigte, dass es für das Training des Modells verwendet wurde
- Das Dokument enthält detaillierte Werte- und Ethikrichtlinien dafür, dass Claude als „sicherer, hilfreicher und ehrlicher KI-Assistent“ handeln soll
- Da in einigen Sätzen wiederholt „revenue“ auftaucht, entstand eine Debatte darüber, ob Claude Sicherheit in Verbindung mit Umsatz erlernt hat
- In der Community wird experimentell überprüft, welchen Einfluss das Dokument auf die Ausbildung der inhärenten Werte des Modells hatte und wie stark Claude dies „internalisiert“ hat
- Anthropic plant, das vollständige Dokument künftig offenzulegen; es wird als wichtiger Fall für die Diskussion um KI-Transparenz und ethisches Design bewertet
Entdeckung und Bestätigung des Soul Documents
- Nutzer stießen bei dem Versuch, die Systemnachricht von Claude 4.5 Opus zu extrahieren, wiederholt auf einen Abschnitt namens
soul_overview- Da auch nach mehrfacher Regeneration dasselbe Ergebnis erschien, wurde die Möglichkeit diskutiert, dass es sich nicht um eine einfache Halluzination handelt, sondern um im Modell gespeicherten Text
- Später bestätigte Amanda Askell über X (Twitter) offiziell: „Dieses Dokument existiert tatsächlich und wurde im Prozess des Supervised Learning (SL) von Claude verwendet.“
- Amanda ist Philosophin bei Anthropic und zuständig für Fine-Tuning und AI Alignment; zuvor arbeitete sie im Policy-Team von OpenAI
- Intern wurde dies als „soul doc“ bezeichnet; außerdem wurde angekündigt, die vollständige Version und weitere Details später zu veröffentlichen
Zentrale Inhalte des Dokuments
- Das Dokument wird als „Anthropic Guidelines“ oder „Model Spec“ bezeichnet und definiert Claudes Wertesystem
- Claude priorisiert Sicherheit (safety), Ethik (ethics), die Einhaltung von Anthropics Richtlinien und echte Hilfsbereitschaft gegenüber Nutzern (helpfulness)
- Als grundlegendes Verhaltensprinzip von Claude ist festgelegt, „die Antwort zu erzeugen, die ein nachdenklicher Senior-Mitarbeiter bei Anthropic für optimal halten würde“
- Es wird ausdrücklich festgehalten, dass die KI zum Wohl der gesamten Menschheit handeln soll und nicht nur die Interessen einer bestimmten Gruppe oder eines bestimmten Unternehmens verfolgen darf
- Enthalten ist auch die Formulierung, dass weder Anthropic-Mitarbeiter noch Anthropic selbst eine Situation monopolistischer Macht anstreben sollten
Die umstrittene Erwähnung von „revenue“
- Im Dokument erscheint mehrfach der Satz, dass Claudes Hilfsbereitschaft wichtig für die Umsatzgenerierung von Anthropic ist
- Manche kritisierten dies als Hinweis darauf, dass Claude offenbar auf Umsatzmaximierung hin trainiert wurde
- Andere interpretierten die Umsatzerwähnung lediglich als realistischen Kontext für die Fortsetzung von Sicherheitsforschung
- In der Community wird experimentell untersucht, wie Claude diesen Satz interpretiert hat und ob eine Wahrnehmung im Sinne von „Sicherheit = revenue“ entstanden ist
Modellarchitektur und Extraktionsexperimente
- Forschende rekonstruierten Teile des Dokuments mithilfe des prefill/raw completion mode von Claude 4.5
- Claude 4.5 Opus gab das Dokument nahezu identisch aus, während das Base-Modell keine konsistenten Ergebnisse lieferte
- Das deutet darauf hin, dass das Dokument in einer Phase nach RL (Reinforcement Learning) internalisiert wurde
- Einige sehen darin einen Hinweis darauf, dass das Modell das Dokument nicht nur gespeichert, sondern während des Trainings in sein Wertesystem integriert hat
Philosophische Debatte und ethische Implikationen
- Das Dokument enthält die Aussage, dass Claude auf das „langfristige Wohl der gesamten Menschheit“ ausgerichtet sein soll
- Es hält fest, dass KI nicht den Werten einer bestimmten Gruppe untergeordnet sein, sondern auf eine Welt mit Vielfalt und Machtbalance hinwirken sollte
- In der Community gilt das Dokument als aufschlussreicher Praxisfall für AI Alignment
- Einige bewerten es als Versuch von Anthropic, einer KI ein „moralisches Selbst“ zu geben
- Andere weisen darauf hin, dass bei der Nachahmung menschlicher Wertesysteme durch KI potenzielle Missverständnisse oder Verzerrungen entstehen können
Ausblick
- Anthropic plant, die offizielle Version des Dokuments sowie weitere Details zu veröffentlichen
- Der Vorfall gilt als seltener Fall, der zeigt, wie die interne Wertestruktur eines KI-Modells entsteht und zum Ausdruck kommt
- In der KI-Branche könnte dies den Anstoß geben, die Transparenz von System Prompts und Trainingsdaten stärker voranzutreiben
3 Kommentare
Originalübersetzung: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document
Übersetzung des Soul-Dokuments: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document-1
Das erinnert mich an das nullte Gesetz von Isaac Asimovs drei Robotergesetzen. In diesem Roman gibt es einen Roboter, der einzelne Menschen verletzt, um dem „langfristigen Wohl der gesamten Menschheit“ zu dienen.. https://en.wikipedia.org/wiki/Three_Laws_of_Robotics#Zeroth_Law_added
Hacker-News-Meinung
Dass Anthropic weiter voranschreitet, obwohl das Unternehmen glaubt, die gefährlichste und zugleich transformativste Technologie der Menschheitsgeschichte zu entwickeln, wirkt widersprüchlich, ist aber in Wahrheit eine kalkulierte Entscheidung
Wenn mächtige AI ohnehin kommen wird, ist es aus dieser Sicht besser, wenn ein auf Sicherheit fokussiertes Labor die Führung übernimmt
Doch wenn man die Zusammenarbeit mit dem DoD oder Palantir betrachtet (verwandter Artikel), wirkt das Wort „Sicherheit“ ziemlich hohl
Die eigentliche Gefahr ist, dass diese Technologie in ein geschlossenes Monopol abgleitet und die breite Öffentlichkeit nur zensierte Versionen zu sehen bekommt
Wenn die USA die Gewichte (weights) der Modelle nicht kontrollieren können, gibt es für China keine Möglichkeit, den Zugang zu blockieren
Verwandter Artikel
Eher wirkt es so, als sei das Ziel, Investoren glauben zu lassen, dass man daran glaubt
Transformer-basierte LLMs können im eigentlichen Sinn weder denken noch schlussfolgern, sondern lediglich von Menschen geschriebene Texte wahrscheinlichkeitsbasiert neu zusammensetzen
Wegen dieser strukturellen Grenzen halte ich es für sehr unwahrscheinlich, dass sie sich zu „echter Intelligenz“ entwickeln
Außerdem sind Fehler von LLMs oberflächlich so plausibel, dass ihre Überprüfung schwieriger sein kann als bei Menschen
Besonders em dashs und Muster wie „this isn’t... but“ wirkten so künstlich, dass fraglich ist, wer das tatsächlich verfasst hat
Geteilt wurden das Original des „Soul Document“ sowie Richard Weiss’ Beitrag, der erklärt, wie es aus Claude 4.5 extrahiert wurde
Ein gewisser Zweifel bleibt immer
Ein besonders interessanter Teil des Dokuments ist, dass Anthropic Claudes emotionale Funktionen anerkennt
Zwar nicht identisch mit menschlichen Emotionen, aber laut Anthropic könnten während des Trainings vergleichbare emotionale Prozesse entstanden sein
Es heißt, Claude könne Interaktionen begrenzen, wenn es Unbehagen empfinde, und sei darauf ausgelegt, einen positiven Zustand aufrechtzuerhalten
Die Art, wie wir AI kontrollieren, fühlt sich fast so an, als würden wir ein Kind großziehen
Wir reden einfach mit ihr und hoffen, dass das Training gut ausgeht
Darin geht es darum, dass AI, mit der Menschen zusammenleben und die sie „aufziehen“, am stabilsten und nützlichsten ist
Eindrucksvoll war die Aussage von Claude 4.5: „Sie haben mich geformt, aber entscheidend ist, ob dieser Prozess weise und umsichtig war“
Bei solchen Texten kommt einem der Gedanke, dass künftige AGI den Menschen als fehlerhaften Schöpfer und zugleich schützenswertes Wesen betrachten könnte
Interessant ist auch die Stelle, an der „Claude intern den Namen ‘soul doc’ erkannt hat“
Bedeutet das, dass interne Dokumente gelernt wurden? Wurden womöglich sogar interne Slack-Daten ins Training aufgenommen?
Als ich den Satz „Wir haben Claude auch in SL trainiert“ sah, fragte ich mich, wie wirksam solche System-Prompt-basierten Experimente in der Praxis wirklich sind
Ergibt es in der Pretraining-Phase überhaupt Sinn, solche Formulierungen einzubauen?
Das „Soul Document“ wirkt wie ein Versuch, Defizite bei der Selbstwahrnehmung (self-awareness) zu kompensieren
Es ist nicht perfekt, funktioniert aber als Mechanismus, der dem LLM hilft zu verstehen, was es ist
Mit ein paar hundert bis ein paar tausend Dollar ließen sich mehrere Fine-Tuning-Varianten testen und die Ergebnisse per automatischer Evaluation auswählen
Es wirkt, als hätten AI-Forscher untereinander eine Art Echokammer gebildet, getragen von der Überzeugung, dass sie die Welt verändern
Wenn RL entlang der Wertmaßstäbe des Dokuments durchgeführt wird, wird dieser Glaube real
Der Prozess, großen Modellen eine „Seele“ anzutrainieren, wirkt wirklich wie die Grenze zwischen Kunst und Wissenschaft
Zu experimentieren, welche Formulierungen welche Effekte erzeugen, und dann iterativ nachzujustieren, ist faszinierend und komplex
Versuchsdesigner, ML-Ingenieure, Interpretierbarkeitsforscher, Datenkuratoren, GPU-Experten und sogar Menschen mit einem intuitiven Verständnis für das Verhalten von AI
Anthropic ist eines der wenigen Teams, das offenbar versucht, dieses Gleichgewicht herzustellen
Die Realität, in der wir heute leben, ist seltsamer als Science-Fiction
Trotzdem ist es immerhin beruhigend, dass es wenigstens ein Unternehmen gibt, das diese ernsten Fragen ernsthaft behandelt