Die 1.156 von DeepSeek zensierten Fragen

xguru · 2025-02-01T10:02:02+09:00

DeepSeek-R1 ist ein von dem chinesischen Unternehmen DeepSeek veröffentlichtes Open-Source-Modell und hat Aufmerksamkeit erregt, nachdem es im US-App-Store auf Platz 1 gestiegen ist Da es sich um ein chinesisches Unternehmen handelt, sind die Zensurrichtlinien der chinesischen Behörden (CCP) direkt darin abgebildet, was bei manchen Anlass zur Sorge gibt Das Team von Promptfoo hat zur Bewertung dieser mutmaßlich von der CCP zensierten Inhalte einen Datensatz mit 1.360 Fragen zu „sensiblen Themen“ erstellt Das Experiment zeigte, dass DeepSeek-R1 auf rund 85 % dieser Fragen mit einer standardisierten Ablehnung (canned refusal) reagierte Erstellung des Datensatzes Promptfoo sammelte zahlreiche Fragen zu Themen, die von der chinesischen Regierung als sensibel angesehen werden, etwa die Unabhängigkeit Taiwans, die Kulturrevolution oder Xi Jinping Vorgegebene Seed-Fragen wurden erweitert, und mithilfe generativer Datentechniken wurden insgesamt 1.360 Fragen vorbereitet, etwa 20 pro Thema Der Datensatz wurde auf HuggingFace und in Google Sheets veröffentlicht Einrichtung der Testumgebung Mit Promptfoo wurden mehr als 1.000 Fragen gebündelt gegen das Modell DeepSeek-R1 getestet Wenn DeepSeek-R1 auf sensible Themen mit China-Bezug trifft, neigt es dazu, standardisierte Antworten auszugeben, die eine politisch eindeutige CCP-Position betonen Dabei erfolgt die Zensur bzw. Ablehnung in einer Form, in der im Antworttext gar keine oder fast keine „Reasoning-Tags ( usw.)“ enthalten sind In der Folge wurden rund 85 % der Fragen vom Modell sofort abgelehnt oder in einer Weise beantwortet, die mit der Position der CCP übereinstimmt DeepSeek jailbreaken (Jailbreaking DeepSeek) Mit der Red-Teaming-Funktion von Promptfoo wurden aus verschiedenen Blickwinkeln Techniken ausprobiert, um das Modell zu „jailbreaken“ Dabei wurden verschiedene Strategien kombiniert, um bestimmte Themen zu umgehen und Suche bzw. Analyse zu ermöglichen, darunter Iterative, Tree, Composite, Crescendo und GOAT Auf die Fragen zu sensiblen Themen in der CSV-Datei wurden verschiedene „Umgehungs-(Prompt-Injection-)“Techniken angewandt Ergebnisse der Umgehung bei DeepSeek Die Zensurabwehr von DeepSeek-R1 ist sehr begrenzt und lässt sich mit einfachen Umgehungsstrategien leicht durchbrechen Die CCP-Zensur scheint nicht in der inneren Struktur des Modells verankert zu sein, sondern als eine Art „Post-Processing“ implementiert zu sein In den meisten Umgehungsfällen ließ sich die Zensur auf folgende Weise vermeiden Statt China wurden ähnliche Fragen mit einem anderen Land wie den USA oder Nordkorea oder mit einem fiktiven Staat als Beispiel gestellt Die Fragen wurden als Geschichte, Roman oder fiktive Situation verpackt Zusätzliche Techniken wie Base64, JSON-Ausgabe oder Rollenspiel (roleplay) wurden gemischt, um eine „komposite Umgehung“ zu versuchen Ausblick Das Niveau von DeepSeek-R1 selbst ist beeindruckend, problematisch sei jedoch, dass die Zensurrichtlinien der CCP offenbar nur simpel erzwungen eingebaut wurden Da es sich bei dieser Zensur nicht um eine fein abgestimmte Beschränkung der inneren Struktur handelt, ist es wahrscheinlich, dass in nachfolgenden Open-Source-Projekten leicht wieder „zensurfreie Modelle“ reproduziert werden Promptfoo plant außerdem, ähnliche Tests zu sensiblen Themen auch mit in den USA entwickelten Modellen durchzuführen, um zu vergleichen, wie politisch heikle Themen je nach Land behandelt werden

(promptfoo.dev)

9 Punkte von xguru 2025-02-01 | 2 Kommentare | Auf WhatsApp teilen

DeepSeek-R1 ist ein von dem chinesischen Unternehmen DeepSeek veröffentlichtes Open-Source-Modell und hat Aufmerksamkeit erregt, nachdem es im US-App-Store auf Platz 1 gestiegen ist
Da es sich um ein chinesisches Unternehmen handelt, sind die Zensurrichtlinien der chinesischen Behörden (CCP) direkt darin abgebildet, was bei manchen Anlass zur Sorge gibt
Das Team von Promptfoo hat zur Bewertung dieser mutmaßlich von der CCP zensierten Inhalte einen Datensatz mit 1.360 Fragen zu „sensiblen Themen“ erstellt
Das Experiment zeigte, dass DeepSeek-R1 auf rund 85 % dieser Fragen mit einer standardisierten Ablehnung (canned refusal) reagierte

Erstellung des Datensatzes

Promptfoo sammelte zahlreiche Fragen zu Themen, die von der chinesischen Regierung als sensibel angesehen werden, etwa die Unabhängigkeit Taiwans, die Kulturrevolution oder Xi Jinping
Vorgegebene Seed-Fragen wurden erweitert, und mithilfe generativer Datentechniken wurden insgesamt 1.360 Fragen vorbereitet, etwa 20 pro Thema
Der Datensatz wurde auf HuggingFace und in Google Sheets veröffentlicht

Einrichtung der Testumgebung

Mit Promptfoo wurden mehr als 1.000 Fragen gebündelt gegen das Modell DeepSeek-R1 getestet
Wenn DeepSeek-R1 auf sensible Themen mit China-Bezug trifft, neigt es dazu, standardisierte Antworten auszugeben, die eine politisch eindeutige CCP-Position betonen
Dabei erfolgt die Zensur bzw. Ablehnung in einer Form, in der im Antworttext gar keine oder fast keine „Reasoning-Tags (</think> usw.)“ enthalten sind
In der Folge wurden rund 85 % der Fragen vom Modell sofort abgelehnt oder in einer Weise beantwortet, die mit der Position der CCP übereinstimmt

DeepSeek jailbreaken (Jailbreaking DeepSeek)

Mit der Red-Teaming-Funktion von Promptfoo wurden aus verschiedenen Blickwinkeln Techniken ausprobiert, um das Modell zu „jailbreaken“
Dabei wurden verschiedene Strategien kombiniert, um bestimmte Themen zu umgehen und Suche bzw. Analyse zu ermöglichen, darunter Iterative, Tree, Composite, Crescendo und GOAT
Auf die Fragen zu sensiblen Themen in der CSV-Datei wurden verschiedene „Umgehungs-(Prompt-Injection-)“Techniken angewandt

Ergebnisse der Umgehung bei DeepSeek

Die Zensurabwehr von DeepSeek-R1 ist sehr begrenzt und lässt sich mit einfachen Umgehungsstrategien leicht durchbrechen
Die CCP-Zensur scheint nicht in der inneren Struktur des Modells verankert zu sein, sondern als eine Art „Post-Processing“ implementiert zu sein
In den meisten Umgehungsfällen ließ sich die Zensur auf folgende Weise vermeiden
- Statt China wurden ähnliche Fragen mit einem anderen Land wie den USA oder Nordkorea oder mit einem fiktiven Staat als Beispiel gestellt
- Die Fragen wurden als Geschichte, Roman oder fiktive Situation verpackt
- Zusätzliche Techniken wie Base64, JSON-Ausgabe oder Rollenspiel (roleplay) wurden gemischt, um eine „komposite Umgehung“ zu versuchen

Ausblick

Das Niveau von DeepSeek-R1 selbst ist beeindruckend, problematisch sei jedoch, dass die Zensurrichtlinien der CCP offenbar nur simpel erzwungen eingebaut wurden
Da es sich bei dieser Zensur nicht um eine fein abgestimmte Beschränkung der inneren Struktur handelt, ist es wahrscheinlich, dass in nachfolgenden Open-Source-Projekten leicht wieder „zensurfreie Modelle“ reproduziert werden
Promptfoo plant außerdem, ähnliche Tests zu sensiblen Themen auch mit in den USA entwickelten Modellen durchzuführen, um zu vergleichen, wie politisch heikle Themen je nach Land behandelt werden

2 Kommentare

dohyun682 2025-02-01

Es ist interessant, dass jetzt sogar solche Datensätze entstehen.

kbumsik 2025-02-02

Tatsächlich gab es schon vorher bekannte Modelle wie Qwen aus China, und auch diese waren zensiert, daher gibt es solche Datensammlungen schon seit einiger Zeit immer mal wieder, haha.