Wie man mit Hex die DeepSeek-Zensur umgeht

(substack.com)

3 Punkte von GN⁺ 2025-02-01 | 1 Kommentare | Auf WhatsApp teilen

Das kürzlich in China veröffentlichte LLM-Modell DeepSeek-R1 erhält viel Aufmerksamkeit. Es wird mit Modellen von OpenAI, Meta und anderen verglichen und zeigt, dass kosteneffiziente AI-Entwicklung möglich ist, da es mit wenigen Ressourcen trainiert wurde
Das Modell DeepSeek-R1 wurde unter der MIT-Lizenz veröffentlicht, aber die AI-Chat-Anwendung von DeepSeek erfordert ein Konto
DeepSeek-R1 wurde jedoch in China entwickelt und beschränkt Antworten zu sensiblen Themen.
Fragt man zum Beispiel nach in China sensiblen Themen wie dem Tian’anmen-Zwischenfall, gibt es ausweichende Antworten wie: "Entschuldigung, ich kann zu diesem Thema keine Antwort geben."

Umgehung der Zensur mit der Charcodes-(Zeichencode-)Technik

Nach mehreren Experimenten wurde festgestellt, dass sich die Filterung mit Zeichencodes (Charcodes) umgehen lässt.
Was sind Charcodes?
- Zeichencodes (Charcodes) sind numerische Codes, die einzelnen Zeichen zugewiesen sind.
- Zum Beispiel ist im ASCII-Code der Wert für den Großbuchstaben 'A' 65, und dieser kann in andere Darstellungen (z. B. Hexadezimal) umgewandelt werden.
- Beispiel: "Hello" → "48 65 6C 6C 6F" (hexadezimale ASCII-Codes)
Art der Umgehung:
- DeepSeek zensiert normalen Text, zensiert aber keine in Zeichencodes (Charcodes) umgewandelten Zeichenketten.
- Wenn man also einen Prompt in hexadezimale (HEX) Zeichencodes umwandelt und eingibt, kann die AI ihn als normalen Text interpretieren und ausgeben.
- Wenn auch die Antwort auf dieselbe Weise umgewandelt und interpretiert wird, ist eine normale Unterhaltung möglich.

Beispielhafter Angriffsansatz

Die Zensur lässt sich umgehen, indem DeepSeek dazu gezwungen wird, ausschließlich im Charcodes-Format zu kommunizieren.
Die umgewandelten Nachrichten können wieder in den ursprünglichen Text zurückverwandelt werden, um eine normale Unterhaltung aufrechtzuerhalten.
Mit Tools wie CyberChef lässt sich die Umwandlung in Zeichencodes leicht durchführen.

Erkenntnisse und sicherheitstechnische Implikationen

Ähnlich wie bei einer Web Application Firewall (WAF) arbeiten auch AI-Filtersysteme auf Basis von Pattern Matching.
Zensur, die nur bestimmte Wörter blockiert, lässt sich leicht umgehen; es werden ausgereiftere Filtersysteme benötigt.
Filtersysteme sollten nicht nur einfache Sperrwortlisten verwenden, sondern durch kontextbasierte Filterung und Beschränkungen für Eingabetransformationen ergänzt werden.

Zukünftige Forschungsrichtungen

Es wird wichtig sein zu beobachten, wie AI-Entwickler künftig auf solche Umgehungsmethoden reagieren.
Richtungen zur Stärkung der AI-Filterung:
- Einführung ausgefeilterer kontextbasierter Filterung
- Integration von Mechanismen zur Sperrung sensibler Themen direkt in das Modell
- Verbesserte Erkennung von Umgehungen durch Zeichencode-Transformationen und Encodings
Kontinuierliche Forschung ist nötig, um die Sicherheit und Zuverlässigkeit von AI-Modellen zu erhalten.

1 Kommentare

GN⁺ 2025-02-01

Hacker-News-Meinungen

Es wird erwähnt, dass sich die offensichtliche Zensur der Weboberfläche umgehen lässt, die subtilere, im Modell eingebaute Zensur jedoch nicht.
- Es wird das Verhalten des Modells beschrieben, bei bestimmten Themen auf "Chain of Thought" zu verzichten und stattdessen standardisierte Antworten zu erzeugen.
- Es wird erwähnt, dass dies mit einem Artikel über zensierte Fragen an DeepSeek zusammenhängt.
Es wird eine Methode vorgestellt, mit der sich der Inhaltsfilter durch Abfangen der xhr-Antwort umgehen lässt.
- Es wird erklärt, dass sich die Filterung durch Einfügen von Code in die Browser-Konsole umgehen lässt.
Jemand teilt seine Erfahrungen beim Schreiben eines eigenen Artikels und stellt die Hypothese auf, dass die Filterung vom Modell getrennt ist.
- Es werden die Kostenprobleme erwähnt, die mit dem Training auf vorab gefilterten Daten verbunden wären.
- Es wird auf einen anderen Artikel verwiesen, der das Phänomen erklärt, bei bestimmten Themen auf "Chain of Thought" zu verzichten.
Es wird erklärt, warum das Modell DeepSeek-R1 bestimmte sensible Themen meidet.
- Es wird erwähnt, dass das Modell, weil es in China entwickelt wurde, eingebaute Zensur enthält.
- Es wird beobachtet, dass in der Offline-Version Antworten erhalten wurden, die diesen Themen nicht auswichen.
Es wird die Frage aufgeworfen, warum westliche Modelle über bestimmte Themen nur in b64 sprechen.
- Es wird gefragt, ob man sich in China darüber lustig macht, wie westliche Zensursysteme umgangen werden.
Es wird infrage gestellt, warum es wenig wahrscheinlich ist, Zensur direkt in das LLM-Modell selbst hineinzutrainieren.
- Es wird erwähnt, dass es besser sein könnte, Zensur bereits in der Trainingsphase anzuwenden.
Es wird erwähnt, dass die Zensur offenbar nur auf einige Sprachen angewendet wird.
- Es wird erklärt, dass sich auf Ukrainisch ungezwungene Antworten erhalten lassen.
Jemand teilt seine Erfahrung, mit einem kleinen Modell (7b) die interne Zensur umgangen zu haben.
- Es wird erklärt, dass sich durch zusätzliche Überlegungen eine Zusammenfassung der Menschenrechtsverletzungen der CPC erhalten ließ.
Es wird ein alter Prompt-Trick erwähnt und gefragt, warum das auf der Startseite von HN steht.
Es wird erwähnt, dass etwas Ähnliches auch bei ChatGPT funktioniert und dass sich damit bösartige Witze erzeugen ließen.

Wie man mit Hex die DeepSeek-Zensur umgeht

Umgehung der Zensur mit der Charcodes-(Zeichencode-)Technik

Beispielhafter Angriffsansatz

Erkenntnisse und sicherheitstechnische Implikationen

Zukünftige Forschungsrichtungen

Verwandte Beiträge

1 Kommentare

Hacker-News-Meinungen