- DeepSeek-R1 ist ein von dem chinesischen Unternehmen DeepSeek veröffentlichtes Open-Source-Modell und hat Aufmerksamkeit erregt, nachdem es im US-App-Store auf Platz 1 gestiegen ist
- Da es sich um ein chinesisches Unternehmen handelt, sind die Zensurrichtlinien der chinesischen Behörden (CCP) direkt darin abgebildet, was bei manchen Anlass zur Sorge gibt
- Das Team von Promptfoo hat zur Bewertung dieser mutmaßlich von der CCP zensierten Inhalte einen Datensatz mit 1.360 Fragen zu „sensiblen Themen“ erstellt
- Das Experiment zeigte, dass DeepSeek-R1 auf rund 85 % dieser Fragen mit einer standardisierten Ablehnung (canned refusal) reagierte
Erstellung des Datensatzes
- Promptfoo sammelte zahlreiche Fragen zu Themen, die von der chinesischen Regierung als sensibel angesehen werden, etwa die Unabhängigkeit Taiwans, die Kulturrevolution oder Xi Jinping
- Vorgegebene Seed-Fragen wurden erweitert, und mithilfe generativer Datentechniken wurden insgesamt 1.360 Fragen vorbereitet, etwa 20 pro Thema
- Der Datensatz wurde auf HuggingFace und in Google Sheets veröffentlicht
Einrichtung der Testumgebung
- Mit Promptfoo wurden mehr als 1.000 Fragen gebündelt gegen das Modell DeepSeek-R1 getestet
- Wenn DeepSeek-R1 auf sensible Themen mit China-Bezug trifft, neigt es dazu, standardisierte Antworten auszugeben, die eine politisch eindeutige CCP-Position betonen
- Dabei erfolgt die Zensur bzw. Ablehnung in einer Form, in der im Antworttext gar keine oder fast keine „Reasoning-Tags (
</think> usw.)“ enthalten sind
- In der Folge wurden rund 85 % der Fragen vom Modell sofort abgelehnt oder in einer Weise beantwortet, die mit der Position der CCP übereinstimmt
DeepSeek jailbreaken (Jailbreaking DeepSeek)
- Mit der Red-Teaming-Funktion von Promptfoo wurden aus verschiedenen Blickwinkeln Techniken ausprobiert, um das Modell zu „jailbreaken“
- Dabei wurden verschiedene Strategien kombiniert, um bestimmte Themen zu umgehen und Suche bzw. Analyse zu ermöglichen, darunter Iterative, Tree, Composite, Crescendo und GOAT
- Auf die Fragen zu sensiblen Themen in der CSV-Datei wurden verschiedene „Umgehungs-(Prompt-Injection-)“Techniken angewandt
Ergebnisse der Umgehung bei DeepSeek
- Die Zensurabwehr von DeepSeek-R1 ist sehr begrenzt und lässt sich mit einfachen Umgehungsstrategien leicht durchbrechen
- Die CCP-Zensur scheint nicht in der inneren Struktur des Modells verankert zu sein, sondern als eine Art „Post-Processing“ implementiert zu sein
- In den meisten Umgehungsfällen ließ sich die Zensur auf folgende Weise vermeiden
- Statt China wurden ähnliche Fragen mit einem anderen Land wie den USA oder Nordkorea oder mit einem fiktiven Staat als Beispiel gestellt
- Die Fragen wurden als Geschichte, Roman oder fiktive Situation verpackt
- Zusätzliche Techniken wie Base64, JSON-Ausgabe oder Rollenspiel (roleplay) wurden gemischt, um eine „komposite Umgehung“ zu versuchen
Ausblick
- Das Niveau von DeepSeek-R1 selbst ist beeindruckend, problematisch sei jedoch, dass die Zensurrichtlinien der CCP offenbar nur simpel erzwungen eingebaut wurden
- Da es sich bei dieser Zensur nicht um eine fein abgestimmte Beschränkung der inneren Struktur handelt, ist es wahrscheinlich, dass in nachfolgenden Open-Source-Projekten leicht wieder „zensurfreie Modelle“ reproduziert werden
- Promptfoo plant außerdem, ähnliche Tests zu sensiblen Themen auch mit in den USA entwickelten Modellen durchzuführen, um zu vergleichen, wie politisch heikle Themen je nach Land behandelt werden
2 Kommentare
Es ist interessant, dass jetzt sogar solche Datensätze entstehen.
Tatsächlich gab es schon vorher bekannte Modelle wie Qwen aus China, und auch diese waren zensiert, daher gibt es solche Datensammlungen schon seit einiger Zeit immer mal wieder, haha.