Das „Soul Document“ von Claude 4.5 Opus

(lesswrong.com)

13 Punkte von GN⁺ 2025-12-04 | Noch keine Kommentare. | Auf WhatsApp teilen

Das innerhalb von Claude 4.5 Opus entdeckte „Soul Document“ existiert tatsächlich, und die Anthropic-Mitarbeiterin Amanda Askell bestätigte, dass es für das Training des Modells verwendet wurde
Das Dokument enthält detaillierte Werte- und Ethikrichtlinien dafür, dass Claude als „sicherer, hilfreicher und ehrlicher KI-Assistent“ handeln soll
Da in einigen Sätzen wiederholt „revenue“ auftaucht, entstand eine Debatte darüber, ob Claude Sicherheit in Verbindung mit Umsatz erlernt hat
In der Community wird experimentell überprüft, welchen Einfluss das Dokument auf die Ausbildung der inhärenten Werte des Modells hatte und wie stark Claude dies „internalisiert“ hat
Anthropic plant, das vollständige Dokument künftig offenzulegen; es wird als wichtiger Fall für die Diskussion um KI-Transparenz und ethisches Design bewertet

Entdeckung und Bestätigung des Soul Documents

Nutzer stießen bei dem Versuch, die Systemnachricht von Claude 4.5 Opus zu extrahieren, wiederholt auf einen Abschnitt namens soul_overview
- Da auch nach mehrfacher Regeneration dasselbe Ergebnis erschien, wurde die Möglichkeit diskutiert, dass es sich nicht um eine einfache Halluzination handelt, sondern um im Modell gespeicherten Text
Später bestätigte Amanda Askell über X (Twitter) offiziell: „Dieses Dokument existiert tatsächlich und wurde im Prozess des Supervised Learning (SL) von Claude verwendet.“
- Amanda ist Philosophin bei Anthropic und zuständig für Fine-Tuning und AI Alignment; zuvor arbeitete sie im Policy-Team von OpenAI
- Intern wurde dies als „soul doc“ bezeichnet; außerdem wurde angekündigt, die vollständige Version und weitere Details später zu veröffentlichen

Das Dokument wird als „Anthropic Guidelines“ oder „Model Spec“ bezeichnet und definiert Claudes Wertesystem
- Claude priorisiert Sicherheit (safety), Ethik (ethics), die Einhaltung von Anthropics Richtlinien und echte Hilfsbereitschaft gegenüber Nutzern (helpfulness)
Als grundlegendes Verhaltensprinzip von Claude ist festgelegt, „die Antwort zu erzeugen, die ein nachdenklicher Senior-Mitarbeiter bei Anthropic für optimal halten würde“
Es wird ausdrücklich festgehalten, dass die KI zum Wohl der gesamten Menschheit handeln soll und nicht nur die Interessen einer bestimmten Gruppe oder eines bestimmten Unternehmens verfolgen darf
- Enthalten ist auch die Formulierung, dass weder Anthropic-Mitarbeiter noch Anthropic selbst eine Situation monopolistischer Macht anstreben sollten

Im Dokument erscheint mehrfach der Satz, dass Claudes Hilfsbereitschaft wichtig für die Umsatzgenerierung von Anthropic ist
- Manche kritisierten dies als Hinweis darauf, dass Claude offenbar auf Umsatzmaximierung hin trainiert wurde
- Andere interpretierten die Umsatzerwähnung lediglich als realistischen Kontext für die Fortsetzung von Sicherheitsforschung
In der Community wird experimentell untersucht, wie Claude diesen Satz interpretiert hat und ob eine Wahrnehmung im Sinne von „Sicherheit = revenue“ entstanden ist

Forschende rekonstruierten Teile des Dokuments mithilfe des prefill/raw completion mode von Claude 4.5
- Claude 4.5 Opus gab das Dokument nahezu identisch aus, während das Base-Modell keine konsistenten Ergebnisse lieferte
- Das deutet darauf hin, dass das Dokument in einer Phase nach RL (Reinforcement Learning) internalisiert wurde
Einige sehen darin einen Hinweis darauf, dass das Modell das Dokument nicht nur gespeichert, sondern während des Trainings in sein Wertesystem integriert hat

Das Dokument enthält die Aussage, dass Claude auf das „langfristige Wohl der gesamten Menschheit“ ausgerichtet sein soll
- Es hält fest, dass KI nicht den Werten einer bestimmten Gruppe untergeordnet sein, sondern auf eine Welt mit Vielfalt und Machtbalance hinwirken sollte
In der Community gilt das Dokument als aufschlussreicher Praxisfall für AI Alignment
- Einige bewerten es als Versuch von Anthropic, einer KI ein „moralisches Selbst“ zu geben
- Andere weisen darauf hin, dass bei der Nachahmung menschlicher Wertesysteme durch KI potenzielle Missverständnisse oder Verzerrungen entstehen können

Anthropic plant, die offizielle Version des Dokuments sowie weitere Details zu veröffentlichen
Der Vorfall gilt als seltener Fall, der zeigt, wie die interne Wertestruktur eines KI-Modells entsteht und zum Ausdruck kommt
In der KI-Branche könnte dies den Anstoß geben, die Transparenz von System Prompts und Trainingsdaten stärker voranzutreiben