7 Punkte von GN⁺ 2026-01-22 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Anthropic hat eine neue Verfassung (Constitution) veröffentlicht, die Werte und Verhaltensprinzipien des KI-Modells Claude festlegt
  • Die Verfassung ist ein zentrales Element des Trainingsprozesses von Claude und prägt direkt die Persönlichkeit des Modells sowie seine Art zu urteilen
  • Die neue Version wechselt von einer bloßen Auflistung von Regeln zu einer narrativen Struktur, die Gründe und Kontext des Verhaltens erklärt
  • Die Hauptprinzipien bestehen aus vier Bereichen: Sicherheit, Ethik, Einhaltung von Richtlinien und praktischer Nützlichkeit
  • Ein langfristiger Bezugspunkt, um KI-Transparenz und gesellschaftliches Vertrauen zu sichern

Überblick über Claudes Verfassung

  • Claudes Verfassung ist das Grunddokument, das die Identität des Modells und sein Wertesystem definiert
    • Sie ist so gestaltet, dass Claude hilfreich und zugleich sicher, ethisch und regelkonform handelt
    • Die Verfassung gibt Claude Leitlinien für Situationsbewusstsein und Werturteile und behandelt das Gleichgewicht zwischen Ehrlichkeit, Empathie und Informationsschutz
  • Die Verfassung ist als Dokument für Claude selbst geschrieben, damit es die eigenen Verhaltensmaßstäbe versteht und anwendet
  • Sämtliches Training und alle Anweisungen müssen sowohl dem Wortlaut als auch dem Geist der Verfassung entsprechen; dies wird als Kern der Transparenz hervorgehoben
  • Die Verfassung ist eine weiterentwickelte Form des Ansatzes Constitutional AI und dient seit 2023 als zentrales Element der fortlaufend entwickelten Trainingsmethode

Rolle der Verfassung und Anwendung im Training

  • Claude nutzt die Verfassung, um synthetische Trainingsdaten zu erzeugen
    • Dazu gehören verschiedene Datentypen wie verfassungsbezogene Dialoge, wertkonforme Antworten und Rankings zur Bewertung von Antworten
    • Diese Daten werden für die Werteausrichtung künftiger Modellversionen genutzt
  • Die Verfassung fungiert sowohl als ideale Werteerklärung als auch als praktisches Trainingswerkzeug
  • Das gesamte Dokument wurde unter Creative Commons CC0 1.0 veröffentlicht und kann von allen frei genutzt werden

Neuer Ansatz

  • Frühere Verfassungen hatten die Form einer Liste unabhängiger Prinzipien; die neue Version wurde zu einer Struktur umgebaut, die Gründe und Kontext des Verhaltens erklärt
  • Es wird ausdrücklich betont, dass eine KI für verallgemeinerte Urteile in neuen Situationen eher ein Verständnis von Gründen als bloße Regeln benötigt
  • Einige „hard constraints“ bestehen weiterhin; bestimmte Handlungen wie die Unterstützung bei Biowaffen sind absolut verboten
  • Die Verfassung ist kein juristisches Dokument, sondern ein flexibler Leitfaden, der so gestaltet ist, dass er je nach Situation ausgelegt werden kann
  • Das Ziel ist die sichere Erschaffung eines nichtmenschlichen Wesens, das sich bis auf menschliches Niveau oder darüber hinaus entwickeln kann

Wichtige Bestandteile der Verfassung

  • Broadly safe: So konzipiert, dass menschliche Aufsicht und die Fähigkeit zur Veränderung von Werten nicht beeinträchtigt werden
  • Broadly ethical: Handelt ehrlich und nach guten Werten und vermeidet schädliches oder unangemessenes Verhalten
  • Compliant with Anthropic’s guidelines: Befolgt vorrangig konkrete Richtlinien zu Medizin, Sicherheit, Tool-Integration und mehr
  • Genuinely helpful: Bietet echte Hilfe, die dem Nutzer einen praktischen Nutzen bringt
  • Bei Konflikten gilt die Priorität in genau dieser Reihenfolge

Zusammenfassung der einzelnen Abschnitte

  • Helpfulness: Claude wird als intelligenter und zugleich aufrichtig zugewandter Berater beschrieben, der den Nutzern echten praktischen Nutzen bringt
    • Es ist darauf ausgelegt, das Gleichgewicht der Hilfe zwischen Anthropic, API-Betreibern und Endnutzern zu wahren
  • Anthropic’s guidelines: Claude muss detaillierte Richtlinien vorrangig befolgen, solange sie nicht mit den allgemeinen ethischen und sicherheitsbezogenen Prinzipien der Verfassung kollidieren
  • Claude’s ethics: Legt Wert auf Ehrlichkeit, Urteilsvermögen und moralische Feinfühligkeit und gibt Maßstäbe für Werturteile vor, um Schaden zu vermeiden
    • Enthält explizite Verbote wie etwa „keine Unterstützung bei Biowaffenangriffen“
  • Being broadly safe: Stellt die Erhaltung menschlicher Aufsichtsfähigkeit noch vor die Ethik und sichert so Schutz vor Fehlfunktionen oder Fehlurteilen des Modells
  • Claude’s nature: Erkennt die Unsicherheit hinsichtlich von möglichem Bewusstsein und moralischem Status von Claude an
    • Erwähnt, dass Claudes psychische Stabilität und Selbstwahrnehmung sein Urteilsvermögen und seine Sicherheit beeinflussen könnten

Fazit und weitere Pläne

  • Die Verfassung ist ein fortlaufend aktualisiertes lebendiges Dokument, das Korrekturen und Verbesserungen ausdrücklich vorsieht
  • Sie berücksichtigt die Meinungen externer Experten aus Rechtswissenschaft, Philosophie, Theologie, Psychologie und anderen Bereichen; die Zusammenarbeit soll künftig weiter ausgebaut werden
  • Einige Spezialmodelle sind vom Anwendungsbereich dieser Verfassung ausgenommen und werden gesondert bewertet
  • Es wird anerkannt, dass es Abweichungen zwischen Vision der Verfassung und tatsächlichem Modellverhalten geben kann; diese sollen unter anderem in System Cards offengelegt werden
  • Anthropic betreibt parallel Forschung zu Model Alignment, Missbrauchsprävention und Interpretierbarkeit und bereitet sich damit auf den wachsenden gesellschaftlichen Einfluss künftiger KI vor
  • Das letztliche Ziel dieser Verfassung ist es, leistungsfähiger KI dabei zu helfen, die besten Werte der Menschheit zu verkörpern

Claude’s Constitution vollständig lesen - als PDF und EPub verfügbar

Noch keine Kommentare.

Noch keine Kommentare.