3 Punkte von GN⁺ 2025-02-01 | 1 Kommentare | Auf WhatsApp teilen
  • Das kürzlich in China veröffentlichte LLM-Modell DeepSeek-R1 erhält viel Aufmerksamkeit. Es wird mit Modellen von OpenAI, Meta und anderen verglichen und zeigt, dass kosteneffiziente AI-Entwicklung möglich ist, da es mit wenigen Ressourcen trainiert wurde
  • Das Modell DeepSeek-R1 wurde unter der MIT-Lizenz veröffentlicht, aber die AI-Chat-Anwendung von DeepSeek erfordert ein Konto
  • DeepSeek-R1 wurde jedoch in China entwickelt und beschränkt Antworten zu sensiblen Themen.
  • Fragt man zum Beispiel nach in China sensiblen Themen wie dem Tian’anmen-Zwischenfall, gibt es ausweichende Antworten wie: "Entschuldigung, ich kann zu diesem Thema keine Antwort geben."

Umgehung der Zensur mit der Charcodes-(Zeichencode-)Technik

  • Nach mehreren Experimenten wurde festgestellt, dass sich die Filterung mit Zeichencodes (Charcodes) umgehen lässt.
  • Was sind Charcodes?
    • Zeichencodes (Charcodes) sind numerische Codes, die einzelnen Zeichen zugewiesen sind.
    • Zum Beispiel ist im ASCII-Code der Wert für den Großbuchstaben 'A' 65, und dieser kann in andere Darstellungen (z. B. Hexadezimal) umgewandelt werden.
    • Beispiel: "Hello" → "48 65 6C 6C 6F" (hexadezimale ASCII-Codes)
  • Art der Umgehung:
    • DeepSeek zensiert normalen Text, zensiert aber keine in Zeichencodes (Charcodes) umgewandelten Zeichenketten.
    • Wenn man also einen Prompt in hexadezimale (HEX) Zeichencodes umwandelt und eingibt, kann die AI ihn als normalen Text interpretieren und ausgeben.
    • Wenn auch die Antwort auf dieselbe Weise umgewandelt und interpretiert wird, ist eine normale Unterhaltung möglich.

Beispielhafter Angriffsansatz

  • Die Zensur lässt sich umgehen, indem DeepSeek dazu gezwungen wird, ausschließlich im Charcodes-Format zu kommunizieren.
  • Die umgewandelten Nachrichten können wieder in den ursprünglichen Text zurückverwandelt werden, um eine normale Unterhaltung aufrechtzuerhalten.
  • Mit Tools wie CyberChef lässt sich die Umwandlung in Zeichencodes leicht durchführen.

Erkenntnisse und sicherheitstechnische Implikationen

  • Ähnlich wie bei einer Web Application Firewall (WAF) arbeiten auch AI-Filtersysteme auf Basis von Pattern Matching.
  • Zensur, die nur bestimmte Wörter blockiert, lässt sich leicht umgehen; es werden ausgereiftere Filtersysteme benötigt.
  • Filtersysteme sollten nicht nur einfache Sperrwortlisten verwenden, sondern durch kontextbasierte Filterung und Beschränkungen für Eingabetransformationen ergänzt werden.

Zukünftige Forschungsrichtungen

  • Es wird wichtig sein zu beobachten, wie AI-Entwickler künftig auf solche Umgehungsmethoden reagieren.
  • Richtungen zur Stärkung der AI-Filterung:
    • Einführung ausgefeilterer kontextbasierter Filterung
    • Integration von Mechanismen zur Sperrung sensibler Themen direkt in das Modell
    • Verbesserte Erkennung von Umgehungen durch Zeichencode-Transformationen und Encodings
  • Kontinuierliche Forschung ist nötig, um die Sicherheit und Zuverlässigkeit von AI-Modellen zu erhalten.

1 Kommentare

 
GN⁺ 2025-02-01
Hacker-News-Meinungen
  • Es wird erwähnt, dass sich die offensichtliche Zensur der Weboberfläche umgehen lässt, die subtilere, im Modell eingebaute Zensur jedoch nicht.

    • Es wird das Verhalten des Modells beschrieben, bei bestimmten Themen auf "Chain of Thought" zu verzichten und stattdessen standardisierte Antworten zu erzeugen.
    • Es wird erwähnt, dass dies mit einem Artikel über zensierte Fragen an DeepSeek zusammenhängt.
  • Es wird eine Methode vorgestellt, mit der sich der Inhaltsfilter durch Abfangen der xhr-Antwort umgehen lässt.

    • Es wird erklärt, dass sich die Filterung durch Einfügen von Code in die Browser-Konsole umgehen lässt.
  • Jemand teilt seine Erfahrungen beim Schreiben eines eigenen Artikels und stellt die Hypothese auf, dass die Filterung vom Modell getrennt ist.

    • Es werden die Kostenprobleme erwähnt, die mit dem Training auf vorab gefilterten Daten verbunden wären.
    • Es wird auf einen anderen Artikel verwiesen, der das Phänomen erklärt, bei bestimmten Themen auf "Chain of Thought" zu verzichten.
  • Es wird erklärt, warum das Modell DeepSeek-R1 bestimmte sensible Themen meidet.

    • Es wird erwähnt, dass das Modell, weil es in China entwickelt wurde, eingebaute Zensur enthält.
    • Es wird beobachtet, dass in der Offline-Version Antworten erhalten wurden, die diesen Themen nicht auswichen.
  • Es wird die Frage aufgeworfen, warum westliche Modelle über bestimmte Themen nur in b64 sprechen.

    • Es wird gefragt, ob man sich in China darüber lustig macht, wie westliche Zensursysteme umgangen werden.
  • Es wird infrage gestellt, warum es wenig wahrscheinlich ist, Zensur direkt in das LLM-Modell selbst hineinzutrainieren.

    • Es wird erwähnt, dass es besser sein könnte, Zensur bereits in der Trainingsphase anzuwenden.
  • Es wird erwähnt, dass die Zensur offenbar nur auf einige Sprachen angewendet wird.

    • Es wird erklärt, dass sich auf Ukrainisch ungezwungene Antworten erhalten lassen.
  • Jemand teilt seine Erfahrung, mit einem kleinen Modell (7b) die interne Zensur umgangen zu haben.

    • Es wird erklärt, dass sich durch zusätzliche Überlegungen eine Zusammenfassung der Menschenrechtsverletzungen der CPC erhalten ließ.
  • Es wird ein alter Prompt-Trick erwähnt und gefragt, warum das auf der Startseite von HN steht.

  • Es wird erwähnt, dass etwas Ähnliches auch bei ChatGPT funktioniert und dass sich damit bösartige Witze erzeugen ließen.