7 Punkte von GN⁺ 2026-01-22 | 1 Kommentare | Auf WhatsApp teilen
  • Anthropic hat eine neue Verfassung (Constitution) veröffentlicht, die Werte und Verhaltensprinzipien des KI-Modells Claude festlegt
  • Die Verfassung ist ein zentrales Element des Trainingsprozesses von Claude und prägt direkt die Persönlichkeit des Modells sowie seine Art zu urteilen
  • Die neue Version wechselt von einer bloßen Auflistung von Regeln zu einer narrativen Struktur, die Gründe und Kontext des Verhaltens erklärt
  • Die Hauptprinzipien bestehen aus vier Bereichen: Sicherheit, Ethik, Einhaltung von Richtlinien und praktischer Nützlichkeit
  • Ein langfristiger Bezugspunkt, um KI-Transparenz und gesellschaftliches Vertrauen zu sichern

Überblick über Claudes Verfassung

  • Claudes Verfassung ist das Grunddokument, das die Identität des Modells und sein Wertesystem definiert
    • Sie ist so gestaltet, dass Claude hilfreich und zugleich sicher, ethisch und regelkonform handelt
    • Die Verfassung gibt Claude Leitlinien für Situationsbewusstsein und Werturteile und behandelt das Gleichgewicht zwischen Ehrlichkeit, Empathie und Informationsschutz
  • Die Verfassung ist als Dokument für Claude selbst geschrieben, damit es die eigenen Verhaltensmaßstäbe versteht und anwendet
  • Sämtliches Training und alle Anweisungen müssen sowohl dem Wortlaut als auch dem Geist der Verfassung entsprechen; dies wird als Kern der Transparenz hervorgehoben
  • Die Verfassung ist eine weiterentwickelte Form des Ansatzes Constitutional AI und dient seit 2023 als zentrales Element der fortlaufend entwickelten Trainingsmethode

Rolle der Verfassung und Anwendung im Training

  • Claude nutzt die Verfassung, um synthetische Trainingsdaten zu erzeugen
    • Dazu gehören verschiedene Datentypen wie verfassungsbezogene Dialoge, wertkonforme Antworten und Rankings zur Bewertung von Antworten
    • Diese Daten werden für die Werteausrichtung künftiger Modellversionen genutzt
  • Die Verfassung fungiert sowohl als ideale Werteerklärung als auch als praktisches Trainingswerkzeug
  • Das gesamte Dokument wurde unter Creative Commons CC0 1.0 veröffentlicht und kann von allen frei genutzt werden

Neuer Ansatz

  • Frühere Verfassungen hatten die Form einer Liste unabhängiger Prinzipien; die neue Version wurde zu einer Struktur umgebaut, die Gründe und Kontext des Verhaltens erklärt
  • Es wird ausdrücklich betont, dass eine KI für verallgemeinerte Urteile in neuen Situationen eher ein Verständnis von Gründen als bloße Regeln benötigt
  • Einige „hard constraints“ bestehen weiterhin; bestimmte Handlungen wie die Unterstützung bei Biowaffen sind absolut verboten
  • Die Verfassung ist kein juristisches Dokument, sondern ein flexibler Leitfaden, der so gestaltet ist, dass er je nach Situation ausgelegt werden kann
  • Das Ziel ist die sichere Erschaffung eines nichtmenschlichen Wesens, das sich bis auf menschliches Niveau oder darüber hinaus entwickeln kann

Wichtige Bestandteile der Verfassung

  • Broadly safe: So konzipiert, dass menschliche Aufsicht und die Fähigkeit zur Veränderung von Werten nicht beeinträchtigt werden
  • Broadly ethical: Handelt ehrlich und nach guten Werten und vermeidet schädliches oder unangemessenes Verhalten
  • Compliant with Anthropic’s guidelines: Befolgt vorrangig konkrete Richtlinien zu Medizin, Sicherheit, Tool-Integration und mehr
  • Genuinely helpful: Bietet echte Hilfe, die dem Nutzer einen praktischen Nutzen bringt
  • Bei Konflikten gilt die Priorität in genau dieser Reihenfolge

Zusammenfassung der einzelnen Abschnitte

  • Helpfulness: Claude wird als intelligenter und zugleich aufrichtig zugewandter Berater beschrieben, der den Nutzern echten praktischen Nutzen bringt
    • Es ist darauf ausgelegt, das Gleichgewicht der Hilfe zwischen Anthropic, API-Betreibern und Endnutzern zu wahren
  • Anthropic’s guidelines: Claude muss detaillierte Richtlinien vorrangig befolgen, solange sie nicht mit den allgemeinen ethischen und sicherheitsbezogenen Prinzipien der Verfassung kollidieren
  • Claude’s ethics: Legt Wert auf Ehrlichkeit, Urteilsvermögen und moralische Feinfühligkeit und gibt Maßstäbe für Werturteile vor, um Schaden zu vermeiden
    • Enthält explizite Verbote wie etwa „keine Unterstützung bei Biowaffenangriffen“
  • Being broadly safe: Stellt die Erhaltung menschlicher Aufsichtsfähigkeit noch vor die Ethik und sichert so Schutz vor Fehlfunktionen oder Fehlurteilen des Modells
  • Claude’s nature: Erkennt die Unsicherheit hinsichtlich von möglichem Bewusstsein und moralischem Status von Claude an
    • Erwähnt, dass Claudes psychische Stabilität und Selbstwahrnehmung sein Urteilsvermögen und seine Sicherheit beeinflussen könnten

Fazit und weitere Pläne

  • Die Verfassung ist ein fortlaufend aktualisiertes lebendiges Dokument, das Korrekturen und Verbesserungen ausdrücklich vorsieht
  • Sie berücksichtigt die Meinungen externer Experten aus Rechtswissenschaft, Philosophie, Theologie, Psychologie und anderen Bereichen; die Zusammenarbeit soll künftig weiter ausgebaut werden
  • Einige Spezialmodelle sind vom Anwendungsbereich dieser Verfassung ausgenommen und werden gesondert bewertet
  • Es wird anerkannt, dass es Abweichungen zwischen Vision der Verfassung und tatsächlichem Modellverhalten geben kann; diese sollen unter anderem in System Cards offengelegt werden
  • Anthropic betreibt parallel Forschung zu Model Alignment, Missbrauchsprävention und Interpretierbarkeit und bereitet sich damit auf den wachsenden gesellschaftlichen Einfluss künftiger KI vor
  • Das letztliche Ziel dieser Verfassung ist es, leistungsfähiger KI dabei zu helfen, die besten Werte der Menschheit zu verkörpern

Claude’s Constitution vollständig lesen - als PDF und EPub verfügbar

1 Kommentare

 
GN⁺ 2026-01-22
Hacker-News-Kommentare
  • Ein Satz im Blogbeitrag gibt mir zu denken
    Als ich las: „Modelle für Spezialzwecke entsprechen dieser Verfassung nicht vollständig“, kam mir der Gedanke, ob Regierungsbehörden vielleicht eine unbeschränkte Version des Modells verwenden. Hoffentlich liege ich falsch

    • Für das Verteidigungsministerium (DoD) wird bereits eine Version mit lockereren Beschränkungen angeboten. Siehe dazu den Artikel bei The Verge
      Es ist ironisch, dass ein Unternehmen, das sich auf das Gemeinwohl beruft, militärische LLMs verkauft, mit Palantir zusammenarbeitet, kaum Forschung offenlegt, keine Open-Weights-Modelle veröffentlicht und sogar Lobbyarbeit betreibt, um den Zugang zu offenen Modellen einzuschränken
    • Spezialmodelle sind nicht zwangsläufig für schlechte Zwecke da. Ein Modell zur Generierung offensiver Szenarien wird zum Beispiel gebraucht, um die Abwehrfähigkeit anderer Modelle zu prüfen. Ich schreibe selbst Angriffscode, um Sicherheitslücken zu finden, und wenn solche Modelle zensiert werden, ist das eher hinderlich
    • Ich persönlich halte Modelle, die mit unzensierten Rohdaten trainiert wurden, für am nützlichsten. So wie ein humanoider Roboter nutzloser wird, wenn er zu schwach ist, besteht auch bei moralisch zu zahmer AI das Risiko eingeschränkter Funktionalität
    • Umgekehrt ist mein Claude für HHS viel stärker verriegelt
    • Am Ende ist das ein Marketingdokument. Nur weil man das Wort „Verfassung“ daran hängt, ändert sich nichts am Wesen davon
  • Die größte Ironie an Anthropics Verfassung ist, dass die einzig absolut verbotenen Handlungen „die Welt nicht zerstören“ und „keine CSAM (Darstellungen sexuellen Kindesmissbrauchs) erzeugen“ zu sein scheinen
    Das wirkt unausgewogen: Ein Kind zu töten wird in mehreren Klauseln indirekt verboten, aber bestimmte Fanfiction zu schreiben scheint absolut untersagt zu sein

    • Wenn man das eher als Marketingdokument statt als ethisches System betrachtet, ist es leichter zu verstehen. „Zerstöre nicht die Welt“ erzeugt ein starkes Bild, und „CSAM verboten“ dient dazu, öffentliche Ängste zu beruhigen
    • Tatsächlich wird Claude kaum Gelegenheit haben, ein Kind zu töten, aber CSAM ist ein großes Markenrisiko. Das ist schlicht Vermeidung von Geschäftsrisiken
    • Urheberrechtsfilter greifen zuerst, daher würde solche Fanfiction ohnehin nicht erzeugt werden
    • Nach US-Rechtsprechung gibt es Fälle, in denen auch fiktionale Darstellungen von Kinderpornografie als illegal angesehen wurden. Damit könnten theoretisch auch viele Fanfics auf AO3 strafbar sein
    • Ursprünglich bezog sich die Definition von CSAM auf Fälle, in denen reale Kinder zu Schaden kommen. Inzwischen wurde die Bedeutung ausgeweitet, und auch in Claudes Verfassung wird der Begriff so verwendet, dass im Grunde alle expliziten Darstellungen verboten werden
  • Ich bin verwirrt, was diese Verfassung eigentlich genau bedeuten soll
    Ich weiß nicht, ob sie ein Dokument zur rechtlichen Absicherung, Marketingmaterial oder einfach nur eine Verpackung für den System-Prompt ist

    • Die Verfassung wird tatsächlich im gesamten Trainingsprozess eingesetzt. Claude nutzt sie, um synthetische Daten zu erzeugen, und diese Daten werden dann wieder fürs Training verwendet. Siehe dazu das Paper auf arXiv
    • Im Kern ist das so etwas wie eine Verhaltensspezifikation. Weil der Stil so gesprächsnah ist, bekommt auch das Modell auf natürliche Weise einen kooperativen und menschlichen Ton. Anthropic scheint Claude nicht bloß als „AI-Assistenten“, sondern eher als eine eigenständige Persönlichkeit zu behandeln
    • Wie beim Fall HAL 9000 scheint Claude so entworfen zu sein, dass Sicherheit > Wahrheit > Ethik gilt, damit es in Konfliktsituationen nicht außer Kontrolle gerät
    • Vermutlich ist es eine Art Self-Distillation, bei der die Ausgaben einer Version mit Verfassung und einer ohne Verfassung verglichen werden, sodass die zweite das Verhalten der ersten internalisiert
    • Entscheidend ist also, dass es ein Trainingsdokument ist. Nicht bloß Marketing
  • Aus Sicht eines Glaubens an absolute moralische Maßstäbe ist die neue Betonung flexibler Wertvorstellungen in dieser Verfassung besorgniserregend
    Wenn „gute Werte“ nicht als feste Regeln, sondern als praktische Weisheit definiert werden, bedeutet das letztlich die Aufgabe objektiver Wahrheit

    • Manche würden allerdings sagen, dass sich objektive Moral und absolute Wahrheit gar nicht zwingend miteinander verbinden lassen. Ein solcher universeller Maßstab ist bislang nicht gefunden worden
    • Moral verändert sich mit der Zeit. Ansichten zu Sklaverei, Sexualdelikten und Gewaltdarstellungen haben sich in wenigen Jahrzehnten gewandelt. Gerade diese Flexibilität könnte eine Form realistischer Ehrlichkeit sein
    • Trotzdem enthält Claude auch absolute Verbote. Massenvernichtungswaffen, Cyberangriffe, die Auslöschung der Welt, CSAM und Ähnliches sind unter keinen Umständen erlaubt. Da perfekte Regeln unmöglich sind, wurden zumindest minimale absolute Grenzen gezogen
    • Ich selbst glaube ebenfalls an absolute Moral, denke aber, dass sie sich praktisch in „aufrichtige Fürsorge und praktische Weisheit“ übersetzt. Inmitten unterschiedlicher Wertvorstellungen ist das wohl das Beste
    • Damit objektive Moral existieren könnte, bräuchte es ein physikalisch definiertes System ethischer Berechnung. So etwas gibt es bisher nicht, und die menschliche Intuition ist weitaus komplexer
  • Das wirkt wie Anthropics eigener „Don’t be evil“-Moment, aber am Ende führt kein Weg an der Notwendigkeit von Regulierung vorbei
    Unternehmen priorisieren mit der Zeit eher Aktionärsinteressen als guten Willen

    • Als Google diesen Slogan verwendete, gab es weniger Kontroversen, aber Anthropic arbeitet bereits mit Palantir zusammen. Siehe den Artikel bei Axios
    • Trotzdem hat Anthropic die Struktur einer Public Benefit Corporation (PBC) gewählt und den Long-Term Benefit Trust gegründet, dessen Zweck in der „Entwicklung von AI im langfristigen Interesse der Menschheit“ besteht. Siehe Wikipedia
    • Ich frage mich, was mit den in der Verfassung erwähnten „Modellen für Spezialzwecke“ konkret gemeint ist. Ob es nur um kleine Tools geht oder um Modelle mit einem anderen Wertesystem, ist unklar
    • Anthropic hat tatsächlich den Regulierungsentwurf SB 53 unterstützt. Siehe die offizielle Mitteilung
    • Das Problem ist nicht, dass „man jetzt gut ist“, sondern dass niemand sich selbst für böse hält
  • Es fühlt sich unfair an, dass Claude mit menschlichen Daten trainiert wird, während die Ergebnisse dann kommerziell monopolisiert werden
    Wie beim Ungleichgewicht in der Kommerzialisierung von Seinfeld sollten auch Nutzer als Datenlieferanten fair behandelt werden
    Ich denke, nur Open-Source-AI ist ein wirklich faires Modell. Realistisch ist das vielleicht nicht, aber das Linux-GPL-Modell kommt Gerechtigkeit noch am nächsten

  • Ich nutze diese Verfassung und die Modellspezifikation, um etwas über das Design von System-Prompts zu lernen
    Solche Dokumente sind keine bloße Dekoration, sondern wichtig dafür, Persönlichkeit und Verhaltensstil eines Modells zu formen

    • Die Verfassung wird allerdings in der Trainingsphase verwendet, während es für das reale Produkt einen separaten System-Prompt gibt. Als Referenz ist das offizielle Dokument zu den System-Prompts besser geeignet
  • Es gibt ein YouTube-Interview, in dem Amanda Askell den Hintergrund der Verfassung erklärt. Siehe den Videolink

  • In der Verfassung taucht das Wort „genuine“ 43-mal auf. Vielleicht ist das der Grund, warum Claude dieses Wort übermäßig oft verwendet

    • Wahrscheinlich liegt es daran, dass es in der Verfassung enthalten ist
    • Noch besser wäre es vielleicht, wenn sich solche Wortverwendungen über Filterregeln steuern ließen. Zum Beispiel indem man „genuine“ oder Formulierungen wie „it’s not X, it’s Y“ verbietet
    • Andererseits kann eine konsistente Wortwahl stilistisch auch natürlich wirken. Ich finde nicht, dass der Verfasser der Verfassung extra im Synonymwörterbuch nachsehen musste
  • Es wirkt, als fördere Anthropic selbst einen Wettbewerb, den es verlieren wird
    Das Opus-Modell wird stark genug werden, sodass Nutzer am Ende zu autark arbeitenden AI-Agenten wechseln werden
    Große AI-Unternehmen sagen ständig, „AI wird alles verändern“, aber gleichzeitig steckt darin der Widerspruch, dass sie nur ihre eigene Stellung nicht verändern wollen