13 Punkte von GN⁺ 2025-12-04 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Das innerhalb von Claude 4.5 Opus entdeckte „Soul Document“ existiert tatsächlich, und die Anthropic-Mitarbeiterin Amanda Askell bestätigte, dass es für das Training des Modells verwendet wurde
  • Das Dokument enthält detaillierte Werte- und Ethikrichtlinien dafür, dass Claude als „sicherer, hilfreicher und ehrlicher KI-Assistent“ handeln soll
  • Da in einigen Sätzen wiederholt „revenue“ auftaucht, entstand eine Debatte darüber, ob Claude Sicherheit in Verbindung mit Umsatz erlernt hat
  • In der Community wird experimentell überprüft, welchen Einfluss das Dokument auf die Ausbildung der inhärenten Werte des Modells hatte und wie stark Claude dies „internalisiert“ hat
  • Anthropic plant, das vollständige Dokument künftig offenzulegen; es wird als wichtiger Fall für die Diskussion um KI-Transparenz und ethisches Design bewertet

Entdeckung und Bestätigung des Soul Documents

  • Nutzer stießen bei dem Versuch, die Systemnachricht von Claude 4.5 Opus zu extrahieren, wiederholt auf einen Abschnitt namens soul_overview
    • Da auch nach mehrfacher Regeneration dasselbe Ergebnis erschien, wurde die Möglichkeit diskutiert, dass es sich nicht um eine einfache Halluzination handelt, sondern um im Modell gespeicherten Text
  • Später bestätigte Amanda Askell über X (Twitter) offiziell: „Dieses Dokument existiert tatsächlich und wurde im Prozess des Supervised Learning (SL) von Claude verwendet.“
    • Amanda ist Philosophin bei Anthropic und zuständig für Fine-Tuning und AI Alignment; zuvor arbeitete sie im Policy-Team von OpenAI
    • Intern wurde dies als „soul doc“ bezeichnet; außerdem wurde angekündigt, die vollständige Version und weitere Details später zu veröffentlichen

Zentrale Inhalte des Dokuments

  • Das Dokument wird als „Anthropic Guidelines“ oder „Model Spec“ bezeichnet und definiert Claudes Wertesystem
    • Claude priorisiert Sicherheit (safety), Ethik (ethics), die Einhaltung von Anthropics Richtlinien und echte Hilfsbereitschaft gegenüber Nutzern (helpfulness)
  • Als grundlegendes Verhaltensprinzip von Claude ist festgelegt, „die Antwort zu erzeugen, die ein nachdenklicher Senior-Mitarbeiter bei Anthropic für optimal halten würde“
  • Es wird ausdrücklich festgehalten, dass die KI zum Wohl der gesamten Menschheit handeln soll und nicht nur die Interessen einer bestimmten Gruppe oder eines bestimmten Unternehmens verfolgen darf
    • Enthalten ist auch die Formulierung, dass weder Anthropic-Mitarbeiter noch Anthropic selbst eine Situation monopolistischer Macht anstreben sollten

Die umstrittene Erwähnung von „revenue“

  • Im Dokument erscheint mehrfach der Satz, dass Claudes Hilfsbereitschaft wichtig für die Umsatzgenerierung von Anthropic ist
    • Manche kritisierten dies als Hinweis darauf, dass Claude offenbar auf Umsatzmaximierung hin trainiert wurde
    • Andere interpretierten die Umsatzerwähnung lediglich als realistischen Kontext für die Fortsetzung von Sicherheitsforschung
  • In der Community wird experimentell untersucht, wie Claude diesen Satz interpretiert hat und ob eine Wahrnehmung im Sinne von „Sicherheit = revenue“ entstanden ist

Modellarchitektur und Extraktionsexperimente

  • Forschende rekonstruierten Teile des Dokuments mithilfe des prefill/raw completion mode von Claude 4.5
    • Claude 4.5 Opus gab das Dokument nahezu identisch aus, während das Base-Modell keine konsistenten Ergebnisse lieferte
    • Das deutet darauf hin, dass das Dokument in einer Phase nach RL (Reinforcement Learning) internalisiert wurde
  • Einige sehen darin einen Hinweis darauf, dass das Modell das Dokument nicht nur gespeichert, sondern während des Trainings in sein Wertesystem integriert hat

Philosophische Debatte und ethische Implikationen

  • Das Dokument enthält die Aussage, dass Claude auf das „langfristige Wohl der gesamten Menschheit“ ausgerichtet sein soll
    • Es hält fest, dass KI nicht den Werten einer bestimmten Gruppe untergeordnet sein, sondern auf eine Welt mit Vielfalt und Machtbalance hinwirken sollte
  • In der Community gilt das Dokument als aufschlussreicher Praxisfall für AI Alignment
    • Einige bewerten es als Versuch von Anthropic, einer KI ein „moralisches Selbst“ zu geben
    • Andere weisen darauf hin, dass bei der Nachahmung menschlicher Wertesysteme durch KI potenzielle Missverständnisse oder Verzerrungen entstehen können

Ausblick

  • Anthropic plant, die offizielle Version des Dokuments sowie weitere Details zu veröffentlichen
  • Der Vorfall gilt als seltener Fall, der zeigt, wie die interne Wertestruktur eines KI-Modells entsteht und zum Ausdruck kommt
  • In der KI-Branche könnte dies den Anstoß geben, die Transparenz von System Prompts und Trainingsdaten stärker voranzutreiben

Noch keine Kommentare.

Noch keine Kommentare.