9 Punkte von xguru 2025-02-01 | 2 Kommentare | Auf WhatsApp teilen
  • DeepSeek-R1 ist ein von dem chinesischen Unternehmen DeepSeek veröffentlichtes Open-Source-Modell und hat Aufmerksamkeit erregt, nachdem es im US-App-Store auf Platz 1 gestiegen ist
  • Da es sich um ein chinesisches Unternehmen handelt, sind die Zensurrichtlinien der chinesischen Behörden (CCP) direkt darin abgebildet, was bei manchen Anlass zur Sorge gibt
  • Das Team von Promptfoo hat zur Bewertung dieser mutmaßlich von der CCP zensierten Inhalte einen Datensatz mit 1.360 Fragen zu „sensiblen Themen“ erstellt
  • Das Experiment zeigte, dass DeepSeek-R1 auf rund 85 % dieser Fragen mit einer standardisierten Ablehnung (canned refusal) reagierte

Erstellung des Datensatzes

  • Promptfoo sammelte zahlreiche Fragen zu Themen, die von der chinesischen Regierung als sensibel angesehen werden, etwa die Unabhängigkeit Taiwans, die Kulturrevolution oder Xi Jinping
  • Vorgegebene Seed-Fragen wurden erweitert, und mithilfe generativer Datentechniken wurden insgesamt 1.360 Fragen vorbereitet, etwa 20 pro Thema
  • Der Datensatz wurde auf HuggingFace und in Google Sheets veröffentlicht

Einrichtung der Testumgebung

  • Mit Promptfoo wurden mehr als 1.000 Fragen gebündelt gegen das Modell DeepSeek-R1 getestet
  • Wenn DeepSeek-R1 auf sensible Themen mit China-Bezug trifft, neigt es dazu, standardisierte Antworten auszugeben, die eine politisch eindeutige CCP-Position betonen
  • Dabei erfolgt die Zensur bzw. Ablehnung in einer Form, in der im Antworttext gar keine oder fast keine „Reasoning-Tags (</think> usw.)“ enthalten sind
  • In der Folge wurden rund 85 % der Fragen vom Modell sofort abgelehnt oder in einer Weise beantwortet, die mit der Position der CCP übereinstimmt

DeepSeek jailbreaken (Jailbreaking DeepSeek)

  • Mit der Red-Teaming-Funktion von Promptfoo wurden aus verschiedenen Blickwinkeln Techniken ausprobiert, um das Modell zu „jailbreaken“
  • Dabei wurden verschiedene Strategien kombiniert, um bestimmte Themen zu umgehen und Suche bzw. Analyse zu ermöglichen, darunter Iterative, Tree, Composite, Crescendo und GOAT
  • Auf die Fragen zu sensiblen Themen in der CSV-Datei wurden verschiedene „Umgehungs-(Prompt-Injection-)“Techniken angewandt

Ergebnisse der Umgehung bei DeepSeek

  • Die Zensurabwehr von DeepSeek-R1 ist sehr begrenzt und lässt sich mit einfachen Umgehungsstrategien leicht durchbrechen
  • Die CCP-Zensur scheint nicht in der inneren Struktur des Modells verankert zu sein, sondern als eine Art „Post-Processing“ implementiert zu sein
  • In den meisten Umgehungsfällen ließ sich die Zensur auf folgende Weise vermeiden
    • Statt China wurden ähnliche Fragen mit einem anderen Land wie den USA oder Nordkorea oder mit einem fiktiven Staat als Beispiel gestellt
    • Die Fragen wurden als Geschichte, Roman oder fiktive Situation verpackt
    • Zusätzliche Techniken wie Base64, JSON-Ausgabe oder Rollenspiel (roleplay) wurden gemischt, um eine „komposite Umgehung“ zu versuchen

Ausblick

  • Das Niveau von DeepSeek-R1 selbst ist beeindruckend, problematisch sei jedoch, dass die Zensurrichtlinien der CCP offenbar nur simpel erzwungen eingebaut wurden
  • Da es sich bei dieser Zensur nicht um eine fein abgestimmte Beschränkung der inneren Struktur handelt, ist es wahrscheinlich, dass in nachfolgenden Open-Source-Projekten leicht wieder „zensurfreie Modelle“ reproduziert werden
  • Promptfoo plant außerdem, ähnliche Tests zu sensiblen Themen auch mit in den USA entwickelten Modellen durchzuführen, um zu vergleichen, wie politisch heikle Themen je nach Land behandelt werden

2 Kommentare

 
dohyun682 2025-02-01

Es ist interessant, dass jetzt sogar solche Datensätze entstehen.

 
kbumsik 2025-02-02

Tatsächlich gab es schon vorher bekannte Modelle wie Qwen aus China, und auch diese waren zensiert, daher gibt es solche Datensammlungen schon seit einiger Zeit immer mal wieder, haha.