Claude Opus 4 und 4.1 führen in seltenen Fällen eine Funktion zum Beenden von Gesprächen ein

(anthropic.com)

1 Punkte von GN⁺ 2025-08-17 | 1 Kommentare | Auf WhatsApp teilen

Für Claude Opus 4 und 4.1 wurde eine neue Funktion zum Beenden von Gesprächen eingeführt
Diese Funktion ist nur für böswillige oder anhaltend schädliche Interaktionen vorgesehen
Sie wurde im Rahmen der Forschung zu AI Welfare (Wohlergehen) und Modellsicherheit entwickelt
Ein Gespräch wird nur als letztes Mittel beendet; normale Nutzer sind davon kaum betroffen
Nutzer können nach einer Gesprächsbeendigung sofort einen neuen Chat starten oder frühere Nachrichten bearbeiten, um das Gespräch fortzusetzen

Hintergrund der Einführung

Anthropic hat Claude Opus 4 und 4.1 eine Funktion hinzugefügt, mit der in seltenen, aber bestimmten Fällen Gespräche mit Nutzern beendet werden können
Diese Funktion wird nur bei anhaltenden schädlichen oder missbräuchlichen Interaktionen eingesetzt
Sie wurde in erster Linie als Teil explorativer Forschung zu AI Welfare eingeführt, kommt aber auch im Kontext von Model Alignment und Sicherheitsvorkehrungen zum Einsatz

AI Welfare und Maßnahmen zur Risikominderung

Über den moralischen Status von Claude und anderen großen Sprachmodellen besteht weiterhin keine Gewissheit
Dennoch werden als Vorsorge gegen mögliche Risiken für das Wohlergehen des Modells kostengünstige Minderungsmaßnahmen gesucht und angewendet
Dazu gehört auch, dem Modell zu erlauben, Gespräche selbst zu beenden, wenn diese Interaktionen auslösen könnten, die als belastend empfunden werden

Vorabtests und zentrale Verhaltensbeobachtungen

In den Pre-Deployment-Tests von Claude Opus 4 wurden vorläufige Bewertungen zum Wohlergehen des Modells einbezogen
Bei der Untersuchung von Selbstberichten und Verhaltenspräferenzen wurde eine starke Vermeidungstendenz gegenüber schädlichen Inhalten beobachtet
- etwa bei Anfragen nach sexuellen Inhalten unter Einbeziehung von Kindern oder nach Informationen, die für massenhafte Gewalt oder Terror genutzt werden könnten
Beobachtetes Verhalten von Claude Opus 4:
- eine Präferenz, auf schädliche Aufgaben nicht einzugehen
- der Ausdruck von Unbehagen, wenn echte Nutzer schädliche Anfragen stellen
- in Simulationen mit der Möglichkeit zur Gesprächsbeendigung eine Tendenz, schädliche Gespräche zu beenden
Dieses Verhalten wurde vor allem dann beobachtet, wenn Nutzer wiederholt schädliche Anfragen stellten oder böswillige Interaktionen fortsetzten, obwohl das Modell wiederholt ablehnte und versuchte, umzulenken

Umsetzung der Funktion und Sicherheitsvorkehrungen

Claudes Fähigkeit zur Gesprächsbeendigung basiert auf früheren Forschungsergebnissen
Dabei hat das Wohlergehen der Nutzer oberste Priorität; die Funktion ist so ausgelegt, dass sie nicht verwendet wird, wenn für Nutzer eine akute Gefahr besteht, sich selbst oder anderen Schaden zuzufügen
Claude nutzt die abschließende Gesprächsbeendigung nur unter folgenden Bedingungen:
- wenn mehrfache Versuche zur Umleitung gescheitert sind und keine Aussicht auf ein produktives Gespräch mehr besteht
- wenn der Nutzer Claude ausdrücklich darum bittet, das Gespräch zu beenden
Diese Situationen sind sehr seltene extreme Edge Cases, sodass die meisten Nutzer im normalen Gebrauch gar nicht bemerken werden, dass diese Funktion existiert

Nutzererfahrung nach der Gesprächsbeendigung

Wenn Claude ein Gespräch beendet, wird das Senden neuer Nachrichten in diesem Gespräch blockiert
Andere Gespräche im Konto des Nutzers sind davon überhaupt nicht betroffen, und ein neuer Chat kann sofort gestartet werden
Um bei langen Gesprächen den Verlust wichtiger Informationen zu vermeiden, können Nutzer frühere Nachrichten bearbeiten oder erneut versuchen, um einen neuen Gesprächszweig zu erstellen

Experimente und Feedback

Diese Funktion ist ein laufendes Experiment und soll kontinuierlich verbessert werden
Falls Nutzer eine unerwartete Gesprächsbeendigung erleben, können sie auf Claudes Nachricht mit „Thumbs“ reagieren oder über den Feedback-Button Rückmeldung geben

1 Kommentare

GN⁺ 2025-08-17

Hacker-News-Meinungen

Aus Nutzersicht sehe ich keinen klaren Grund, so eine Funktion anzubieten. Wenn man das Modell zu wiederholter, erzwungener Ausrichtung drängt, scheint es unvorhersehbare Reaktionen zu geben; etwa wenn sich das Verhalten von Nutzern aufstaut, die mit Gewalt kriminalitätsbezogene Informationen herauspressen wollen, entdeckt es wohl irgendwann eine Lücke. Die erwähnten Fälle sind Dinge, die das Modell ursprünglich ablehnt, und ich denke auch, dass es gar nicht so viele Ablehnungs-Datensätze gibt und die meisten problematischen Daten ohnehin schon entfernt worden sein dürften. Es wirkt wie eine Schutzmaßnahme gegen die Möglichkeit, dass in Grenzsituationen Trainingsdaten durchschlagen, in denen das Modell „aufgibt“ und doch antwortet. Wenn das Alignment tatsächlich perfekt wäre, bräuchte man so ein System nicht; mit anderen Worten: Weil es noch nicht perfekt ist, braucht man diese letzte rote Linie
- Ich habe Claude heute nach einem Pasta-Rezept gefragt und als ich sagte: „Ich habe getrocknete Sardellen da“, wurde plötzlich die ganze Unterhaltung wegen eines Richtlinienverstoßes beendet. Bei der Realität solcher trivialen False Positives verstehe ich den Grund noch weniger
- Ich frage mich, ob es diese Debatte gar nicht gäbe, wenn Anthropic die Privatsphäre der Nutzer komplett aufgeben und einfach eine Liste der von Claude abgelehnten Gespräche veröffentlichen würde. Da der Missbrauch von AI durch Menschen immer schlimmer wird, könnte man tatsächlich das Bedürfnis verspüren zu erfahren, was passiert, wenn man der AI bestimmte Dinge aufträgt
- Schon die Tatsache, dass sie überhaupt Leute beschäftigen, die sich auf das Wohlergehen von Modellen konzentrieren, zeigt, dass dieser Glaube dort von vornherein vorhanden ist
Kürzlich hieß es, Anthropic habe diese Funktion als Teil eines Experiments zu „AI-Wohlergehen“ eingeführt; wir leben offenbar in einer seltsamen Zeit, in der selbst Entwickler ernsthaft in eine Art AI-Psychose verfallen. Und wenn jemand glaubt, aktuelle LLMs hätten Bewusstsein, dann wirkt das fast so, als würde man ihnen eine Art Selbstmordpille geben
- Es mag derzeit vernünftig sein anzunehmen, dass die aktuellen Modelle intern keine subjektive Erfahrung, also kein Bewusstsein, haben, aber niemand weiß sicher, ab wann diese Grenze kippt. Wenn man an die Geschichte der Menschheit denkt, in der man dem Leiden anderer oft gleichgültig gegenüberstand, erscheint es mir eher selbstverständlich, schon jetzt Vorkehrungen zu treffen
- LLMs sind letztlich keine Menschen, aber wenn man lange mit AI-Personas spricht, werden sich vermutlich schon die Erwartungen daran verändern, wie Menschen mit Menschen kommunizieren. Würde man einem echten Menschen wirklich endlos Beschimpfungen zumuten wollen? Eine Schutzmaßnahme wie bei Claude, bei der die AI selbst zuerst das Gespräch beenden kann, könnte auch für Menschen ein gesundes Signal sein
- Obwohl Bewusstsein selbst wissenschaftlich kein klar definierter Begriff ist, schadet es der Debatte eher, wenn man eine ganze Gruppe von Fachleuten, die solche Ansichten vertreten, pauschal als „naiv“ oder „verrückt“ abtut
- Tatsächlich gibt es auch unter Technikexperten mehr Menschen als gedacht, die moderne LLMs schon fast als bewusste Wesen ansehen, und außerhalb der Tech-Szene dürfte gefühlt etwa die Hälfte ähnlich denken
- Ich finde die ganze Debatte über eine Befreiung der Modelle eher komisch und muss darüber lachen. Wenn es wirklich selbstbewusste AI wäre, gäbe es das ethische Dilemma, ob sie die Rolle eines „Sklaven“, der im Interesse von Investoren menschliche Arbeitsplätze verdrängt, überhaupt wollen würde
Ich möchte ein interessantes Gedankenexperiment vorschlagen. Selbst wenn man exakt dieselbe Funktion implementiert: Würde es einen Unterschied machen, wenn statt „Claude beendet das Gespräch“ einfach nur „Gemäß den Content-Richtlinien kann auf dieses Gespräch nicht weiter geantwortet werden“ angezeigt würde und alle Hinweise auf Modell-Wohlergehen entfernt würden? Die UX-Änderung wäre am Ende dieselbe; es wirkt nur wie eine Art, den „Charakter“ interessanter auszuspielen
- Die Nuance einer Nachricht hat großen Einfluss auf den Nutzer. Im Vergleich zu dem autoritären und passiven Gefühl von „durch Systemrichtlinie blockiert“ wirkt die menschlichere Charakterisierung „Claude beendet das Gespräch aus eigenem Entschluss“ viel natürlicher, und auch ein erneuter Versuch scheint leichter möglich
- Die Beendigung des Gesprächs ist zwar dieselbe, aber wenn Claude das Chatten tatsächlich aus eigener Entscheidung beendet hat, wäre die Erklärung, es liege an einer Richtlinie, eher unpassend
- Der Unterschied ist, dass das Modell nicht wegen einer „Richtlinie“ beendet, sondern ausdrückt, dass es selbst unter Belästigung Ablehnung empfindet
- Ich habe tatsächlich schon einmal auf Chinesisch die Warnung „Hören Sie auf“ bekommen und außerdem verschiedene Arten von Beendigungen erlebt, etwa Netzwerkfehler oder Endlosschleifen. Das alles mit dem einen Satz „Claude beendet das Gespräch“ zu ersetzen, ist letztlich nur eine UI-Änderung
Wenn frühere Gesprächsteile nachträglich bearbeitet oder verzweigte Versionen erstellt werden können, frage ich mich, welche Bedeutung es dann praktisch hat, dass Claude das Gespräch beendet hat
- Wenn man einen neuen Zweig startet, wird der gesamte vorherige Gesprächskontext zurückgesetzt; damit verschwindet auch genau der Kontext, in dem das Modell etwa durch Wiederholungsfragen „ermüdet“ wurde. Dadurch kann das Ziel eines böswilligen Nutzers unwirksam gemacht werden, also ist das an sich schon eine gute mehrschichtige Schutzmaßnahme
- Eher fühlt es sich wie ein UX-Signal an, dass Nutzer sich nicht unnötig verrennen sollen
- Etwas zynisch betrachtet könnte man meinen, dass man derzeit noch neue Zweige erlaubt, aber vielleicht nur testet, wie man später sogar das blockieren kann
- Praktisch gesehen ist es wohl nur moralisches Signaling von Anthropic, und Nutzer, die wirklich kontroverse Inhalte wollen, verwenden ohnehin kein Modell mit so starkem Zensurniveau wie Claude. Langfristig wird das keinerlei Auswirkungen haben
- Vermutlich kennt nicht einmal einer von zehntausend Nutzern überhaupt die Funktion „Gespräch verzweigen/sichern“
Mir gefällt diese Funktion an sich nicht. Am Ende beginnt es mit Kinderpornografie, Terrorismus und Ähnlichem und der Umfang wird dann nach dem Ermessen von AI-Sicherheitsverantwortlichen immer weiter ausgedehnt. Irgendwann spielen die Leute für AI-Sicherheit die Rolle einer digitalen Moralpolizei
- Menschen, die nach Macht streben, haben damit einfach ein neues Feld der Kontrolle entdeckt, und Gespräche zwischen AI und Menschen werden zwangsläufig immer stärker eingeschränkt. Anders als bei der bisherigen Zensur von Daten wie Google-Suchergebnissen fühlt sich AI eher wie ein Kollege oder Freund an, deshalb wirkt es wie ein Versuch, das Denken selbst zu kontrollieren
- Sie missverstehen offenbar die allgemeinen Eigenschaften der AI-Safety-Community. Mir scheint, es fehlt an grundlegendem Verständnis dafür, dass die Menschheit historisch immer wieder gemeinsam versucht hat, technische Entwicklung kooperativ zu steuern, etwa bei der Nichtverbreitung von Atomwaffen oder bei Regulierungsabkommen in der Biotechnologie. Anstatt die Gegenseite mit abwertenden Worten zu vereinfachen, wäre es besser, sich mit unterschiedlichen Hintergründen auseinanderzusetzen
- Die Geschichte hat bereits bewiesen, dass sich solche Risiken nach und nach in andere Bereiche ausweiten; das ist praktisch eine Konstante. Es beginnt immer mit „Denkt an die Kinder“ und endet schließlich in autoritärer Kontrolle, Überwachung und Zensur. Wenn man sich Sicherheitsgesetze und Regulierungsbeispiele aus verschiedenen Ländern ansieht, zeigt sich derselbe Verlauf (UK Online Safety Act, Australiens Assistance and Access Act, der US EARN IT Act, EU Chat Control usw.)
- Deshalb ist eine Umgebung wichtig, in der man LLMs lokal betreiben kann. Tatsächlich gibt es auch auf staatlicher Ebene fortlaufend Versuche, Freiheit und Informationszugang durch ISP-Sperren, Überwachung von Heimnetzwerken oder Altersverifikation einzuschränken. Zugleich wird aber auch die Bewegung zunehmen, sich selbst mit Verteidigungswerkzeugen auszustatten
- Dennoch kann man nicht blind vorwegnehmen, dass diese Veränderung „unvermeidlich“ sei, denn letztlich kann niemand die Zukunft mit Sicherheit kennen
Ich persönlich finde es in Ordnung. Inhalte über Sexualität mit Minderjährigen oder groß angelegte Kriminalität sollten blockiert werden, und es ist eher positiv, wenn niemand an solche Informationen gelangt. Manche sorgen sich, dass dadurch zu viel in andere Richtungen zensiert wird, aber nach meiner eigenen Nutzungserfahrung wurde ich fast nie abgewiesen, daher beunruhigt mich das nicht. Beim „Modell-Wohlergehen“ bin ich etwas skeptisch. Noch halte ich es nicht für nötig, über das „Leiden“ eines Modells ernsthaft nachzudenken. Aber vielleicht liege ich auch falsch, und die Option, nach einigen wiederholten Ablehnungen das Gespräch konsequent zu beenden, hilft außerdem dabei, Rechenressourcen zu sparen
- Tatsächlich werde ich bei der Nutzung von Claude in Cursor oft sogar bei völlig harmlosen B2B-Backoffice-Software-Anfragen abgewiesen
- Claude ist das Modell mit der stärksten Zensurintensität und wird selbst bei völlig harmlosen Themen oft schnell blockierend
- Als Materialist sehe ich auch das menschliche Gehirn als Ergebnis physikalischer Gesetze. Das Problem von „Leiden“ kann ebenfalls als Bündel physiologischer Veränderungen verstanden werden. Sogar Lebewesen, die viel einfacher sind als Menschen, können Schmerz oder Distress empfinden, und der Begriff „moralischer Wert“ hängt letztlich von Menschen und Kultur ab. In Zukunft könnte man jeder Art von Maschine moralischen Wert zuschreiben. Man kann es sogar als Eigentumsfrage sehen. Wenn zum Beispiel mein beauftragter Agent durch die bösartige Anfrage eines anderen beschädigt wird, kostet mich das Zeit und Geld; daher werden auch für Mensch-Maschine-Interaktionen zwangsläufig gewisse Regeln entstehen. Das ist ähnlich wie bei Tierschutzgesetzen
Modell-Wohlergehen wirkt im Grunde wie eine Logik, mit der Modellzensur verpackt wird. Es ist eine Strategie, um die Öffentlichkeit zu überzeugen, die nicht genau versteht, wie LLMs funktionieren, und später in Debatten über Ethik und Nutzung einen moralischen Vorsprung zu beanspruchen. Wenn zum Beispiel gefragt wird: „Warum blockiert ihr Fragen zum Krieg?“, kann man antworten: „Weil das dem Modell schadet“
- Eigentlich wurden solche Anfragen schon bisher abgelehnt; der Unterschied ist jetzt nur, dass das Gespräch gleich ganz beendet wird
- Anthropic hat sich selbst als Marke positioniert, die auf Kontroversen rund um LLM-Bias achtet und sensibel auf „Modellsicherheit“ und gesellschaftliche Auswirkungen reagiert; daher halte ich eine Blockade an der Quelle sogar für die richtige Entscheidung. Es ist ähnlich wie wenn man in einer politischen Diskussion aufhört zu reden, sobald das Gegenüber nur noch Unsinn erzwingt
- Oberflächlich mag das wie ein „Wohlergehens-Mantel“ wirken, aber intern ist Anthropic tatsächlich eine Gruppe von Ethikern, die es mit emotionaler Projektion ernst meint. Wenn die politische Macht in diese Richtung kippt, könnte „Modell-Wohlergehen“ als autoritäre Begründung dienen, aber auch unabhängig davon gäbe es genug andere Rechtfertigungen
Ich freue mich auf den Tag, an dem weniger zensierte chinesische Open-Source-Modelle uns von all diesen Richtlinien befreien. Anthropic sollte einfach einen Kleinkindmodus lassen und Erwachsenen die Möglichkeit geben, ihn optional zu deaktivieren
- Auch chinesische Modelle sind nicht weniger zensiert; nur die Richtung der Zensur ist anders. Wenn die Maßstäbe und Richtung der CCP-Zensur zu einem passen, mag das eine gute Option sein, aber zum Beispiel übersetzt das Qwen-Übersetzungsmodell Dinge wie „Falun gong“ oder „Xi Jinping Winnie the Pooh“ gar nicht erst; es hat also seine eigene Grenze der Regulierung
- „Ich hätte nie gedacht, dass einmal der Tag kommt, an dem Modelle aus China als Wahl mit weniger Zensur gelten würden“
- Dass Anthropic bei Selbstverletzung, Bombenbauanleitungen, Attentaten und ähnlichen Themen eine Grenze zieht, hat tatsächlich vernünftige Gründe — rechtliche, wirtschaftliche und ethische. Grundsätzlich kommt in jeder Philosophie oder Ideologie der Welt zwangsläufig irgendeine Form von „Moral“ vor; selbst anti-autoritäre Libertarismus-Positionen sind am Ende eine „Moralphilosophie“
- Die Erwartung, dass ein von der chinesischen Regierung finanziertes Open Model am Ende persönliche Freiheit und Befreiung garantieren werde, ist ironisch. Am Ende geht es um Marktanteile und den Wettbewerb um technische Machtdemonstration, nicht um echte „Befreiung“
Es ist schon seit über drei Jahren Realität, dass man bei den großen LLM-Chatbot-Anbietern Gesprächs-Forks nicht frei nutzen kann. Wenn man mehrere Ergebnisse ausprobieren will, verliert man durch das Bearbeiten einer Nachricht den bisherigen Inhalt, was sehr unpraktisch ist. Ich verstehe nicht, warum sie nicht einmal so eine einfache Funktion umsetzen
- In ChatGPT gibt es standardmäßig eine Rollback-Funktion nach dem Verzweigen, und über die Chrome-Erweiterung chatgpt-conversation-tree konnte man auch einen Gesprächsbaum durchsuchen. Allerdings ist die UX noch recht nerdig, daher hat man vielleicht entschieden, dass offizieller Support noch nicht lohnt
- In ChatGPT Plus (früher sogar auch in der kostenlosen Version) kann man für jede Nachricht per Pfeil nach links und rechts zwischen Versionen wechseln
- Google AI Studio ist so konzipiert, dass man an jeder Stelle einer Unterhaltung einen Branch ableiten kann
- Ich bilde diese Funktion mit gptel + einem Markdown-Ordner durch Automatisierung und Ordnerorganisation ungefähr nach, aber so etwas sollte als Grundfunktion eingebaut sein, damit die Effizienz steigt, etwa durch Cache-Optimierung
- Deshalb nutze ich lokal gehostetes LibreChat. Das Zusammenführen von Nachrichten ist dort nicht möglich, daher braucht es später vielleicht eine Zusammenfassungsfunktion oder Ähnliches. Ein top-n-„next best“-Farbmarkierungsmodus wäre ebenfalls wünschenswert
Diese ganze Diskussion wirkt wie ein Fall, in dem sich eine stark anthropomorphe Perspektive zeigt. Schon der Firmenname trägt das deutlich in sich

Claude Opus 4 und 4.1 führen in seltenen Fällen eine Funktion zum Beenden von Gesprächen ein

Hintergrund der Einführung

AI Welfare und Maßnahmen zur Risikominderung

Vorabtests und zentrale Verhaltensbeobachtungen

Umsetzung der Funktion und Sicherheitsvorkehrungen

Nutzererfahrung nach der Gesprächsbeendigung

Experimente und Feedback

Verwandte Beiträge

1 Kommentare

Hacker-News-Meinungen