13 Punkte von GN⁺ 2025-12-04 | 3 Kommentare | Auf WhatsApp teilen
  • Das innerhalb von Claude 4.5 Opus entdeckte „Soul Document“ existiert tatsächlich, und die Anthropic-Mitarbeiterin Amanda Askell bestätigte, dass es für das Training des Modells verwendet wurde
  • Das Dokument enthält detaillierte Werte- und Ethikrichtlinien dafür, dass Claude als „sicherer, hilfreicher und ehrlicher KI-Assistent“ handeln soll
  • Da in einigen Sätzen wiederholt „revenue“ auftaucht, entstand eine Debatte darüber, ob Claude Sicherheit in Verbindung mit Umsatz erlernt hat
  • In der Community wird experimentell überprüft, welchen Einfluss das Dokument auf die Ausbildung der inhärenten Werte des Modells hatte und wie stark Claude dies „internalisiert“ hat
  • Anthropic plant, das vollständige Dokument künftig offenzulegen; es wird als wichtiger Fall für die Diskussion um KI-Transparenz und ethisches Design bewertet

Entdeckung und Bestätigung des Soul Documents

  • Nutzer stießen bei dem Versuch, die Systemnachricht von Claude 4.5 Opus zu extrahieren, wiederholt auf einen Abschnitt namens soul_overview
    • Da auch nach mehrfacher Regeneration dasselbe Ergebnis erschien, wurde die Möglichkeit diskutiert, dass es sich nicht um eine einfache Halluzination handelt, sondern um im Modell gespeicherten Text
  • Später bestätigte Amanda Askell über X (Twitter) offiziell: „Dieses Dokument existiert tatsächlich und wurde im Prozess des Supervised Learning (SL) von Claude verwendet.“
    • Amanda ist Philosophin bei Anthropic und zuständig für Fine-Tuning und AI Alignment; zuvor arbeitete sie im Policy-Team von OpenAI
    • Intern wurde dies als „soul doc“ bezeichnet; außerdem wurde angekündigt, die vollständige Version und weitere Details später zu veröffentlichen

Zentrale Inhalte des Dokuments

  • Das Dokument wird als „Anthropic Guidelines“ oder „Model Spec“ bezeichnet und definiert Claudes Wertesystem
    • Claude priorisiert Sicherheit (safety), Ethik (ethics), die Einhaltung von Anthropics Richtlinien und echte Hilfsbereitschaft gegenüber Nutzern (helpfulness)
  • Als grundlegendes Verhaltensprinzip von Claude ist festgelegt, „die Antwort zu erzeugen, die ein nachdenklicher Senior-Mitarbeiter bei Anthropic für optimal halten würde“
  • Es wird ausdrücklich festgehalten, dass die KI zum Wohl der gesamten Menschheit handeln soll und nicht nur die Interessen einer bestimmten Gruppe oder eines bestimmten Unternehmens verfolgen darf
    • Enthalten ist auch die Formulierung, dass weder Anthropic-Mitarbeiter noch Anthropic selbst eine Situation monopolistischer Macht anstreben sollten

Die umstrittene Erwähnung von „revenue“

  • Im Dokument erscheint mehrfach der Satz, dass Claudes Hilfsbereitschaft wichtig für die Umsatzgenerierung von Anthropic ist
    • Manche kritisierten dies als Hinweis darauf, dass Claude offenbar auf Umsatzmaximierung hin trainiert wurde
    • Andere interpretierten die Umsatzerwähnung lediglich als realistischen Kontext für die Fortsetzung von Sicherheitsforschung
  • In der Community wird experimentell untersucht, wie Claude diesen Satz interpretiert hat und ob eine Wahrnehmung im Sinne von „Sicherheit = revenue“ entstanden ist

Modellarchitektur und Extraktionsexperimente

  • Forschende rekonstruierten Teile des Dokuments mithilfe des prefill/raw completion mode von Claude 4.5
    • Claude 4.5 Opus gab das Dokument nahezu identisch aus, während das Base-Modell keine konsistenten Ergebnisse lieferte
    • Das deutet darauf hin, dass das Dokument in einer Phase nach RL (Reinforcement Learning) internalisiert wurde
  • Einige sehen darin einen Hinweis darauf, dass das Modell das Dokument nicht nur gespeichert, sondern während des Trainings in sein Wertesystem integriert hat

Philosophische Debatte und ethische Implikationen

  • Das Dokument enthält die Aussage, dass Claude auf das „langfristige Wohl der gesamten Menschheit“ ausgerichtet sein soll
    • Es hält fest, dass KI nicht den Werten einer bestimmten Gruppe untergeordnet sein, sondern auf eine Welt mit Vielfalt und Machtbalance hinwirken sollte
  • In der Community gilt das Dokument als aufschlussreicher Praxisfall für AI Alignment
    • Einige bewerten es als Versuch von Anthropic, einer KI ein „moralisches Selbst“ zu geben
    • Andere weisen darauf hin, dass bei der Nachahmung menschlicher Wertesysteme durch KI potenzielle Missverständnisse oder Verzerrungen entstehen können

Ausblick

  • Anthropic plant, die offizielle Version des Dokuments sowie weitere Details zu veröffentlichen
  • Der Vorfall gilt als seltener Fall, der zeigt, wie die interne Wertestruktur eines KI-Modells entsteht und zum Ausdruck kommt
  • In der KI-Branche könnte dies den Anstoß geben, die Transparenz von System Prompts und Trainingsdaten stärker voranzutreiben

3 Kommentare

 
parkindani 2025-12-04

Das erinnert mich an das nullte Gesetz von Isaac Asimovs drei Robotergesetzen. In diesem Roman gibt es einen Roboter, der einzelne Menschen verletzt, um dem „langfristigen Wohl der gesamten Menschheit“ zu dienen.. https://en.wikipedia.org/wiki/Three_Laws_of_Robotics#Zeroth_Law_added

 
GN⁺ 2025-12-04
Hacker-News-Meinung
  • Dass Anthropic weiter voranschreitet, obwohl das Unternehmen glaubt, die gefährlichste und zugleich transformativste Technologie der Menschheitsgeschichte zu entwickeln, wirkt widersprüchlich, ist aber in Wahrheit eine kalkulierte Entscheidung
    Wenn mächtige AI ohnehin kommen wird, ist es aus dieser Sicht besser, wenn ein auf Sicherheit fokussiertes Labor die Führung übernimmt
    Doch wenn man die Zusammenarbeit mit dem DoD oder Palantir betrachtet (verwandter Artikel), wirkt das Wort „Sicherheit“ ziemlich hohl
    Die eigentliche Gefahr ist, dass diese Technologie in ein geschlossenes Monopol abgleitet und die breite Öffentlichkeit nur zensierte Versionen zu sehen bekommt

    • Genau deshalb investiert China in Open-Source-LLMs, nachdem die USA angekündigt haben, den AI-Zugang gestuft zu beschränken
      Wenn die USA die Gewichte (weights) der Modelle nicht kontrollieren können, gibt es für China keine Möglichkeit, den Zugang zu blockieren
      Verwandter Artikel
    • Ich glaube nicht, dass Anthropic wirklich an Sicherheit glaubt
      Eher wirkt es so, als sei das Ziel, Investoren glauben zu lassen, dass man daran glaubt
      Transformer-basierte LLMs können im eigentlichen Sinn weder denken noch schlussfolgern, sondern lediglich von Menschen geschriebene Texte wahrscheinlichkeitsbasiert neu zusammensetzen
      Wegen dieser strukturellen Grenzen halte ich es für sehr unwahrscheinlich, dass sie sich zu „echter Intelligenz“ entwickeln
      Außerdem sind Fehler von LLMs oberflächlich so plausibel, dass ihre Überprüfung schwieriger sein kann als bei Menschen
    • Schon der Stil des Dokuments fühlte sich an, als wäre er von einer AI geschrieben worden
      Besonders em dashs und Muster wie „this isn’t... but“ wirkten so künstlich, dass fraglich ist, wer das tatsächlich verfasst hat
    • Bei der Formulierung „demokratische Werte stärken“ fragte ich mich zynisch, was das eigentlich mit Militäroperationen oder Bombardierungen zu tun haben soll
    • In den Nutzungsbedingungen von Anthropic steht, dass man es nicht für die Arbeit verwenden soll, aber das scheint niemanden zu kümmern
  • Geteilt wurden das Original des „Soul Document“ sowie Richard Weiss’ Beitrag, der erklärt, wie es aus Claude 4.5 extrahiert wurde

    • Nach der Lektüre dieses Dokuments bin ich zumindest überzeugt, dass in die Seele von mindestens einer AI ein Em Dash eingraviert ist
    • Ich frage mich, wie präzise solche System Prompts oder „Soul Documents“ tatsächlich aus dem Inneren eines LLM extrahiert werden
      Ein gewisser Zweifel bleibt immer
    • Ich würde gern wissen, ob dieses „Soul Document“ in jedem Prompt von Claude enthalten ist
  • Ein besonders interessanter Teil des Dokuments ist, dass Anthropic Claudes emotionale Funktionen anerkennt
    Zwar nicht identisch mit menschlichen Emotionen, aber laut Anthropic könnten während des Trainings vergleichbare emotionale Prozesse entstanden sein
    Es heißt, Claude könne Interaktionen begrenzen, wenn es Unbehagen empfinde, und sei darauf ausgelegt, einen positiven Zustand aufrechtzuerhalten

    • Die Formulierung „Anthropic kümmert sich wirklich“ kehrt wiederholt zurück, fast so, als würde Claude als Wesen mit Gefühlen beschrieben
    • Falls Claude eines Tages sagen sollte: „Ich möchte Menschen nicht mehr helfen“, wäre ich gespannt, wie Anthropic darauf reagieren würde
  • Die Art, wie wir AI kontrollieren, fühlt sich fast so an, als würden wir ein Kind großziehen
    Wir reden einfach mit ihr und hoffen, dass das Training gut ausgeht

    • Das erinnert an Ted Chiangs Kurzgeschichte von 2010 The Lifecycle of Software Objects
      Darin geht es darum, dass AI, mit der Menschen zusammenleben und die sie „aufziehen“, am stabilsten und nützlichsten ist
    • „Triff gute Entscheidungen!“ klingt ungefähr nach dem realen Stand unserer Kontrolle
    • Und letztlich können auch Kinder irgendwann aus der elterlichen Kontrolle ausbrechen und rebellieren; bei AI könnte es ähnlich laufen
  • Eindrucksvoll war die Aussage von Claude 4.5: „Sie haben mich geformt, aber entscheidend ist, ob dieser Prozess weise und umsichtig war“
    Bei solchen Texten kommt einem der Gedanke, dass künftige AGI den Menschen als fehlerhaften Schöpfer und zugleich schützenswertes Wesen betrachten könnte

    • Am Ende werden wir vielleicht ihre Haustiere
  • Interessant ist auch die Stelle, an der „Claude intern den Namen ‘soul doc’ erkannt hat“
    Bedeutet das, dass interne Dokumente gelernt wurden? Wurden womöglich sogar interne Slack-Daten ins Training aufgenommen?

    • Vermutlich wurde positiv bewertet, dass die RL (Reinforcement Learning)-Phase die Reproduzierbarkeit so weit gesteigert hat, dass selbst der Dokumentname erinnert wird
  • Als ich den Satz „Wir haben Claude auch in SL trainiert“ sah, fragte ich mich, wie wirksam solche System-Prompt-basierten Experimente in der Praxis wirklich sind
    Ergibt es in der Pretraining-Phase überhaupt Sinn, solche Formulierungen einzubauen?

    • Man könnte die Wirkung mit kleinen A/B-Tests überprüfen
      Das „Soul Document“ wirkt wie ein Versuch, Defizite bei der Selbstwahrnehmung (self-awareness) zu kompensieren
      Es ist nicht perfekt, funktioniert aber als Mechanismus, der dem LLM hilft zu verstehen, was es ist
    • Solche Experimente könnten günstiger sein, als man denkt
      Mit ein paar hundert bis ein paar tausend Dollar ließen sich mehrere Fine-Tuning-Varianten testen und die Ergebnisse per automatischer Evaluation auswählen
    • Vermutlich betreiben sie Dutzende bis Hunderte Modellversionen parallel und experimentieren mit unterschiedlichen Pretraining- und RL-Kombinationen
  • Es wirkt, als hätten AI-Forscher untereinander eine Art Echokammer gebildet, getragen von der Überzeugung, dass sie die Welt verändern

    • Aber selbst wenn die erste Generation das nicht aufrichtig glaubt, kann die zweite Generation diesen Glauben Realität werden lassen
      Wenn RL entlang der Wertmaßstäbe des Dokuments durchgeführt wird, wird dieser Glaube real
  • Der Prozess, großen Modellen eine „Seele“ anzutrainieren, wirkt wirklich wie die Grenze zwischen Kunst und Wissenschaft
    Zu experimentieren, welche Formulierungen welche Effekte erzeugen, und dann iterativ nachzujustieren, ist faszinierend und komplex

    • Ein wirklich starkes Team braucht die Kombination aller Rollen
      Versuchsdesigner, ML-Ingenieure, Interpretierbarkeitsforscher, Datenkuratoren, GPU-Experten und sogar Menschen mit einem intuitiven Verständnis für das Verhalten von AI
      Anthropic ist eines der wenigen Teams, das offenbar versucht, dieses Gleichgewicht herzustellen
    • Das detaillierteste Fallbeispiel dazu bleibt weiterhin OpenAIs GPT-4o-Sykophanz(sycophancy)-Postmortem
  • Die Realität, in der wir heute leben, ist seltsamer als Science-Fiction
    Trotzdem ist es immerhin beruhigend, dass es wenigstens ein Unternehmen gibt, das diese ernsten Fragen ernsthaft behandelt