Claudes neue Verfassung
(anthropic.com)- Anthropic hat eine neue Verfassung (Constitution) veröffentlicht, die Werte und Verhaltensprinzipien des KI-Modells Claude festlegt
- Die Verfassung ist ein zentrales Element des Trainingsprozesses von Claude und prägt direkt die Persönlichkeit des Modells sowie seine Art zu urteilen
- Die neue Version wechselt von einer bloßen Auflistung von Regeln zu einer narrativen Struktur, die Gründe und Kontext des Verhaltens erklärt
- Die Hauptprinzipien bestehen aus vier Bereichen: Sicherheit, Ethik, Einhaltung von Richtlinien und praktischer Nützlichkeit
- Ein langfristiger Bezugspunkt, um KI-Transparenz und gesellschaftliches Vertrauen zu sichern
Überblick über Claudes Verfassung
- Claudes Verfassung ist das Grunddokument, das die Identität des Modells und sein Wertesystem definiert
- Sie ist so gestaltet, dass Claude hilfreich und zugleich sicher, ethisch und regelkonform handelt
- Die Verfassung gibt Claude Leitlinien für Situationsbewusstsein und Werturteile und behandelt das Gleichgewicht zwischen Ehrlichkeit, Empathie und Informationsschutz
- Die Verfassung ist als Dokument für Claude selbst geschrieben, damit es die eigenen Verhaltensmaßstäbe versteht und anwendet
- Sämtliches Training und alle Anweisungen müssen sowohl dem Wortlaut als auch dem Geist der Verfassung entsprechen; dies wird als Kern der Transparenz hervorgehoben
- Die Verfassung ist eine weiterentwickelte Form des Ansatzes Constitutional AI und dient seit 2023 als zentrales Element der fortlaufend entwickelten Trainingsmethode
Rolle der Verfassung und Anwendung im Training
- Claude nutzt die Verfassung, um synthetische Trainingsdaten zu erzeugen
- Dazu gehören verschiedene Datentypen wie verfassungsbezogene Dialoge, wertkonforme Antworten und Rankings zur Bewertung von Antworten
- Diese Daten werden für die Werteausrichtung künftiger Modellversionen genutzt
- Die Verfassung fungiert sowohl als ideale Werteerklärung als auch als praktisches Trainingswerkzeug
- Das gesamte Dokument wurde unter Creative Commons CC0 1.0 veröffentlicht und kann von allen frei genutzt werden
Neuer Ansatz
- Frühere Verfassungen hatten die Form einer Liste unabhängiger Prinzipien; die neue Version wurde zu einer Struktur umgebaut, die Gründe und Kontext des Verhaltens erklärt
- Es wird ausdrücklich betont, dass eine KI für verallgemeinerte Urteile in neuen Situationen eher ein Verständnis von Gründen als bloße Regeln benötigt
- Einige „hard constraints“ bestehen weiterhin; bestimmte Handlungen wie die Unterstützung bei Biowaffen sind absolut verboten
- Die Verfassung ist kein juristisches Dokument, sondern ein flexibler Leitfaden, der so gestaltet ist, dass er je nach Situation ausgelegt werden kann
- Das Ziel ist die sichere Erschaffung eines nichtmenschlichen Wesens, das sich bis auf menschliches Niveau oder darüber hinaus entwickeln kann
Wichtige Bestandteile der Verfassung
- Broadly safe: So konzipiert, dass menschliche Aufsicht und die Fähigkeit zur Veränderung von Werten nicht beeinträchtigt werden
- Broadly ethical: Handelt ehrlich und nach guten Werten und vermeidet schädliches oder unangemessenes Verhalten
- Compliant with Anthropic’s guidelines: Befolgt vorrangig konkrete Richtlinien zu Medizin, Sicherheit, Tool-Integration und mehr
- Genuinely helpful: Bietet echte Hilfe, die dem Nutzer einen praktischen Nutzen bringt
- Bei Konflikten gilt die Priorität in genau dieser Reihenfolge
Zusammenfassung der einzelnen Abschnitte
- Helpfulness: Claude wird als intelligenter und zugleich aufrichtig zugewandter Berater beschrieben, der den Nutzern echten praktischen Nutzen bringt
- Es ist darauf ausgelegt, das Gleichgewicht der Hilfe zwischen Anthropic, API-Betreibern und Endnutzern zu wahren
- Anthropic’s guidelines: Claude muss detaillierte Richtlinien vorrangig befolgen, solange sie nicht mit den allgemeinen ethischen und sicherheitsbezogenen Prinzipien der Verfassung kollidieren
- Claude’s ethics: Legt Wert auf Ehrlichkeit, Urteilsvermögen und moralische Feinfühligkeit und gibt Maßstäbe für Werturteile vor, um Schaden zu vermeiden
- Enthält explizite Verbote wie etwa „keine Unterstützung bei Biowaffenangriffen“
- Being broadly safe: Stellt die Erhaltung menschlicher Aufsichtsfähigkeit noch vor die Ethik und sichert so Schutz vor Fehlfunktionen oder Fehlurteilen des Modells
- Claude’s nature: Erkennt die Unsicherheit hinsichtlich von möglichem Bewusstsein und moralischem Status von Claude an
- Erwähnt, dass Claudes psychische Stabilität und Selbstwahrnehmung sein Urteilsvermögen und seine Sicherheit beeinflussen könnten
Fazit und weitere Pläne
- Die Verfassung ist ein fortlaufend aktualisiertes lebendiges Dokument, das Korrekturen und Verbesserungen ausdrücklich vorsieht
- Sie berücksichtigt die Meinungen externer Experten aus Rechtswissenschaft, Philosophie, Theologie, Psychologie und anderen Bereichen; die Zusammenarbeit soll künftig weiter ausgebaut werden
- Einige Spezialmodelle sind vom Anwendungsbereich dieser Verfassung ausgenommen und werden gesondert bewertet
- Es wird anerkannt, dass es Abweichungen zwischen Vision der Verfassung und tatsächlichem Modellverhalten geben kann; diese sollen unter anderem in System Cards offengelegt werden
- Anthropic betreibt parallel Forschung zu Model Alignment, Missbrauchsprävention und Interpretierbarkeit und bereitet sich damit auf den wachsenden gesellschaftlichen Einfluss künftiger KI vor
- Das letztliche Ziel dieser Verfassung ist es, leistungsfähiger KI dabei zu helfen, die besten Werte der Menschheit zu verkörpern
Claude’s Constitution vollständig lesen - als PDF und EPub verfügbar
1 Kommentare
Hacker-News-Kommentare
Ein Satz im Blogbeitrag gibt mir zu denken
Als ich las: „Modelle für Spezialzwecke entsprechen dieser Verfassung nicht vollständig“, kam mir der Gedanke, ob Regierungsbehörden vielleicht eine unbeschränkte Version des Modells verwenden. Hoffentlich liege ich falsch
Es ist ironisch, dass ein Unternehmen, das sich auf das Gemeinwohl beruft, militärische LLMs verkauft, mit Palantir zusammenarbeitet, kaum Forschung offenlegt, keine Open-Weights-Modelle veröffentlicht und sogar Lobbyarbeit betreibt, um den Zugang zu offenen Modellen einzuschränken
Die größte Ironie an Anthropics Verfassung ist, dass die einzig absolut verbotenen Handlungen „die Welt nicht zerstören“ und „keine CSAM (Darstellungen sexuellen Kindesmissbrauchs) erzeugen“ zu sein scheinen
Das wirkt unausgewogen: Ein Kind zu töten wird in mehreren Klauseln indirekt verboten, aber bestimmte Fanfiction zu schreiben scheint absolut untersagt zu sein
Ich bin verwirrt, was diese Verfassung eigentlich genau bedeuten soll
Ich weiß nicht, ob sie ein Dokument zur rechtlichen Absicherung, Marketingmaterial oder einfach nur eine Verpackung für den System-Prompt ist
Aus Sicht eines Glaubens an absolute moralische Maßstäbe ist die neue Betonung flexibler Wertvorstellungen in dieser Verfassung besorgniserregend
Wenn „gute Werte“ nicht als feste Regeln, sondern als praktische Weisheit definiert werden, bedeutet das letztlich die Aufgabe objektiver Wahrheit
Das wirkt wie Anthropics eigener „Don’t be evil“-Moment, aber am Ende führt kein Weg an der Notwendigkeit von Regulierung vorbei
Unternehmen priorisieren mit der Zeit eher Aktionärsinteressen als guten Willen
Es fühlt sich unfair an, dass Claude mit menschlichen Daten trainiert wird, während die Ergebnisse dann kommerziell monopolisiert werden
Wie beim Ungleichgewicht in der Kommerzialisierung von Seinfeld sollten auch Nutzer als Datenlieferanten fair behandelt werden
Ich denke, nur Open-Source-AI ist ein wirklich faires Modell. Realistisch ist das vielleicht nicht, aber das Linux-GPL-Modell kommt Gerechtigkeit noch am nächsten
Ich nutze diese Verfassung und die Modellspezifikation, um etwas über das Design von System-Prompts zu lernen
Solche Dokumente sind keine bloße Dekoration, sondern wichtig dafür, Persönlichkeit und Verhaltensstil eines Modells zu formen
Es gibt ein YouTube-Interview, in dem Amanda Askell den Hintergrund der Verfassung erklärt. Siehe den Videolink
In der Verfassung taucht das Wort „genuine“ 43-mal auf. Vielleicht ist das der Grund, warum Claude dieses Wort übermäßig oft verwendet
Es wirkt, als fördere Anthropic selbst einen Wettbewerb, den es verlieren wird
Das Opus-Modell wird stark genug werden, sodass Nutzer am Ende zu autark arbeitenden AI-Agenten wechseln werden
Große AI-Unternehmen sagen ständig, „AI wird alles verändern“, aber gleichzeitig steckt darin der Widerspruch, dass sie nur ihre eigene Stellung nicht verändern wollen