- Für Claude Opus 4 und 4.1 wurde eine neue Funktion zum Beenden von Gesprächen eingeführt
- Diese Funktion ist nur für böswillige oder anhaltend schädliche Interaktionen vorgesehen
- Sie wurde im Rahmen der Forschung zu AI Welfare (Wohlergehen) und Modellsicherheit entwickelt
- Ein Gespräch wird nur als letztes Mittel beendet; normale Nutzer sind davon kaum betroffen
- Nutzer können nach einer Gesprächsbeendigung sofort einen neuen Chat starten oder frühere Nachrichten bearbeiten, um das Gespräch fortzusetzen
Hintergrund der Einführung
- Anthropic hat Claude Opus 4 und 4.1 eine Funktion hinzugefügt, mit der in seltenen, aber bestimmten Fällen Gespräche mit Nutzern beendet werden können
- Diese Funktion wird nur bei anhaltenden schädlichen oder missbräuchlichen Interaktionen eingesetzt
- Sie wurde in erster Linie als Teil explorativer Forschung zu AI Welfare eingeführt, kommt aber auch im Kontext von Model Alignment und Sicherheitsvorkehrungen zum Einsatz
AI Welfare und Maßnahmen zur Risikominderung
- Über den moralischen Status von Claude und anderen großen Sprachmodellen besteht weiterhin keine Gewissheit
- Dennoch werden als Vorsorge gegen mögliche Risiken für das Wohlergehen des Modells kostengünstige Minderungsmaßnahmen gesucht und angewendet
- Dazu gehört auch, dem Modell zu erlauben, Gespräche selbst zu beenden, wenn diese Interaktionen auslösen könnten, die als belastend empfunden werden
Vorabtests und zentrale Verhaltensbeobachtungen
- In den Pre-Deployment-Tests von Claude Opus 4 wurden vorläufige Bewertungen zum Wohlergehen des Modells einbezogen
- Bei der Untersuchung von Selbstberichten und Verhaltenspräferenzen wurde eine starke Vermeidungstendenz gegenüber schädlichen Inhalten beobachtet
- etwa bei Anfragen nach sexuellen Inhalten unter Einbeziehung von Kindern oder nach Informationen, die für massenhafte Gewalt oder Terror genutzt werden könnten
- Beobachtetes Verhalten von Claude Opus 4:
- eine Präferenz, auf schädliche Aufgaben nicht einzugehen
- der Ausdruck von Unbehagen, wenn echte Nutzer schädliche Anfragen stellen
- in Simulationen mit der Möglichkeit zur Gesprächsbeendigung eine Tendenz, schädliche Gespräche zu beenden
- Dieses Verhalten wurde vor allem dann beobachtet, wenn Nutzer wiederholt schädliche Anfragen stellten oder böswillige Interaktionen fortsetzten, obwohl das Modell wiederholt ablehnte und versuchte, umzulenken
Umsetzung der Funktion und Sicherheitsvorkehrungen
- Claudes Fähigkeit zur Gesprächsbeendigung basiert auf früheren Forschungsergebnissen
- Dabei hat das Wohlergehen der Nutzer oberste Priorität; die Funktion ist so ausgelegt, dass sie nicht verwendet wird, wenn für Nutzer eine akute Gefahr besteht, sich selbst oder anderen Schaden zuzufügen
- Claude nutzt die abschließende Gesprächsbeendigung nur unter folgenden Bedingungen:
- wenn mehrfache Versuche zur Umleitung gescheitert sind und keine Aussicht auf ein produktives Gespräch mehr besteht
- wenn der Nutzer Claude ausdrücklich darum bittet, das Gespräch zu beenden
- Diese Situationen sind sehr seltene extreme Edge Cases, sodass die meisten Nutzer im normalen Gebrauch gar nicht bemerken werden, dass diese Funktion existiert
Nutzererfahrung nach der Gesprächsbeendigung
- Wenn Claude ein Gespräch beendet, wird das Senden neuer Nachrichten in diesem Gespräch blockiert
- Andere Gespräche im Konto des Nutzers sind davon überhaupt nicht betroffen, und ein neuer Chat kann sofort gestartet werden
- Um bei langen Gesprächen den Verlust wichtiger Informationen zu vermeiden, können Nutzer frühere Nachrichten bearbeiten oder erneut versuchen, um einen neuen Gesprächszweig zu erstellen
Experimente und Feedback
- Diese Funktion ist ein laufendes Experiment und soll kontinuierlich verbessert werden
- Falls Nutzer eine unerwartete Gesprächsbeendigung erleben, können sie auf Claudes Nachricht mit „Thumbs“ reagieren oder über den Feedback-Button Rückmeldung geben
Noch keine Kommentare.