- Das kürzlich in China veröffentlichte LLM-Modell DeepSeek-R1 erhält viel Aufmerksamkeit. Es wird mit Modellen von OpenAI, Meta und anderen verglichen und zeigt, dass kosteneffiziente AI-Entwicklung möglich ist, da es mit wenigen Ressourcen trainiert wurde
- Das Modell DeepSeek-R1 wurde unter der MIT-Lizenz veröffentlicht, aber die AI-Chat-Anwendung von DeepSeek erfordert ein Konto
- DeepSeek-R1 wurde jedoch in China entwickelt und beschränkt Antworten zu sensiblen Themen.
- Fragt man zum Beispiel nach in China sensiblen Themen wie dem Tian’anmen-Zwischenfall, gibt es ausweichende Antworten wie: "Entschuldigung, ich kann zu diesem Thema keine Antwort geben."
Umgehung der Zensur mit der Charcodes-(Zeichencode-)Technik
- Nach mehreren Experimenten wurde festgestellt, dass sich die Filterung mit Zeichencodes (Charcodes) umgehen lässt.
- Was sind Charcodes?
- Zeichencodes (Charcodes) sind numerische Codes, die einzelnen Zeichen zugewiesen sind.
- Zum Beispiel ist im ASCII-Code der Wert für den Großbuchstaben 'A' 65, und dieser kann in andere Darstellungen (z. B. Hexadezimal) umgewandelt werden.
- Beispiel: "Hello" → "48 65 6C 6C 6F" (hexadezimale ASCII-Codes)
- Art der Umgehung:
- DeepSeek zensiert normalen Text, zensiert aber keine in Zeichencodes (Charcodes) umgewandelten Zeichenketten.
- Wenn man also einen Prompt in hexadezimale (HEX) Zeichencodes umwandelt und eingibt, kann die AI ihn als normalen Text interpretieren und ausgeben.
- Wenn auch die Antwort auf dieselbe Weise umgewandelt und interpretiert wird, ist eine normale Unterhaltung möglich.
Beispielhafter Angriffsansatz
- Die Zensur lässt sich umgehen, indem DeepSeek dazu gezwungen wird, ausschließlich im Charcodes-Format zu kommunizieren.
- Die umgewandelten Nachrichten können wieder in den ursprünglichen Text zurückverwandelt werden, um eine normale Unterhaltung aufrechtzuerhalten.
- Mit Tools wie CyberChef lässt sich die Umwandlung in Zeichencodes leicht durchführen.
Erkenntnisse und sicherheitstechnische Implikationen
- Ähnlich wie bei einer Web Application Firewall (WAF) arbeiten auch AI-Filtersysteme auf Basis von Pattern Matching.
- Zensur, die nur bestimmte Wörter blockiert, lässt sich leicht umgehen; es werden ausgereiftere Filtersysteme benötigt.
- Filtersysteme sollten nicht nur einfache Sperrwortlisten verwenden, sondern durch kontextbasierte Filterung und Beschränkungen für Eingabetransformationen ergänzt werden.
Zukünftige Forschungsrichtungen
- Es wird wichtig sein zu beobachten, wie AI-Entwickler künftig auf solche Umgehungsmethoden reagieren.
- Richtungen zur Stärkung der AI-Filterung:
- Einführung ausgefeilterer kontextbasierter Filterung
- Integration von Mechanismen zur Sperrung sensibler Themen direkt in das Modell
- Verbesserte Erkennung von Umgehungen durch Zeichencode-Transformationen und Encodings
- Kontinuierliche Forschung ist nötig, um die Sicherheit und Zuverlässigkeit von AI-Modellen zu erhalten.
1 Kommentare
Hacker-News-Meinungen
Es wird erwähnt, dass sich die offensichtliche Zensur der Weboberfläche umgehen lässt, die subtilere, im Modell eingebaute Zensur jedoch nicht.
Es wird eine Methode vorgestellt, mit der sich der Inhaltsfilter durch Abfangen der xhr-Antwort umgehen lässt.
Jemand teilt seine Erfahrungen beim Schreiben eines eigenen Artikels und stellt die Hypothese auf, dass die Filterung vom Modell getrennt ist.
Es wird erklärt, warum das Modell DeepSeek-R1 bestimmte sensible Themen meidet.
Es wird die Frage aufgeworfen, warum westliche Modelle über bestimmte Themen nur in b64 sprechen.
Es wird infrage gestellt, warum es wenig wahrscheinlich ist, Zensur direkt in das LLM-Modell selbst hineinzutrainieren.
Es wird erwähnt, dass die Zensur offenbar nur auf einige Sprachen angewendet wird.
Jemand teilt seine Erfahrung, mit einem kleinen Modell (7b) die interne Zensur umgangen zu haben.
Es wird ein alter Prompt-Trick erwähnt und gefragt, warum das auf der Startseite von HN steht.
Es wird erwähnt, dass etwas Ähnliches auch bei ChatGPT funktioniert und dass sich damit bösartige Witze erzeugen ließen.