Google DeepMind veröffentlicht SynthID als Open Source, um von LLMs erzeugte Texte zu watermarken und zu erkennen

(github.com/google-deepmind)

7 Punkte von GN⁺ 2024-10-31 | Noch keine Kommentare. | Auf WhatsApp teilen

SynthID von Google DeepMind ist eine Technologie zum Watermarking und zur Identifizierung von KI-generierten Inhalten, indem digitale Wasserzeichen direkt in KI-generierte Bilder, Audio, Texte oder Videos eingebettet werden
- Eine vollständigere technische Beschreibung dieser Methode ist im Nature-Artikel zu finden
SynthID Text wird als Open Source bereitgestellt, damit Entwickler Watermarking für die Textgenerierung nutzen können

Watermarking anwenden

SynthID Text ist ein Logits-Prozessor, der nach Top-K und Top-P in der Generierungs-Pipeline des Modells angewendet wird
Mithilfe einer pseudozufälligen g-Funktion werden die Logits des Modells so verstärkt, dass Watermarking-Informationen kodiert werden, ohne die Textqualität wesentlich zu beeinträchtigen, und gleichzeitig die Beurteilung erleichtert wird, ob ein Text vom Modell erzeugt wurde
Das Wasserzeichen wird konfiguriert, indem die g-Funktion parametrisiert und festgelegt wird, wie sie während der Generierung angewendet wird
Jede verwendete Watermarking-Konfiguration sollte sicher und vertraulich gespeichert werden
Zwei wesentliche Parameter sind für die Watermarking-Konfiguration erforderlich
- Parameter keys: eine Liste eindeutiger zufälliger Ganzzahlen, die zur Berechnung der g-Funktions-Scores über das Vokabular des Modells verwendet werden. Die Länge dieser Liste bestimmt die Anzahl der angewendeten Watermarking-Schichten
- Parameter ngram_len: wird verwendet, um Robustheit und Erkennbarkeit auszubalancieren. Ein höherer Wert macht das Wasserzeichen leichter erkennbar, aber anfälliger für Veränderungen. Der Standardwert 5 ist geeignet
Zusätzliche Konfiguration des Wasserzeichens je nach Leistungsanforderungen möglich
- Die Sampling-Tabelle besteht aus zwei Eigenschaften: sampling_table_size und sampling_table_seed
- Um beim Sampling eine unverzerrte und stabile g-Funktion sicherzustellen, sollte sampling_table_size mindestens 2^16 betragen
- Allerdings wirkt sich die Größe der Sampling-Tabelle auf den Speicherbedarf während der Inferenz aus
- Für sampling_table_seed kann eine beliebige gewünschte Ganzzahl verwendet werden
- Sich wiederholende n-Gramme in context_history_size der vorherigen Tokens werden nicht mit einem Wasserzeichen versehen, um die Erkennbarkeit zu erhöhen
Um mit dem SynthID-Text-Wasserzeichen Text zu erzeugen, ist kein zusätzliches Training des Modells erforderlich
Es wird nur die Watermarking-Konfiguration benötigt, die an die .generate()-Methode des Modells übergeben wird. Dadurch wird der SynthID-Text-Logits-Prozessor aktiviert
Im Blogbeitrag und Space von Hugging Face finden sich Codebeispiele, die zeigen, wie Wasserzeichen in der Transformers-Bibliothek angewendet werden

Wasserzeichen-Erkennung und Verifizierbarkeit

Die Erkennung von Wasserzeichen ist probabilistisch
Ein Bayes-Detektor wird über Hugging Face Transformers und GitHub bereitgestellt
Dieser Detektor kann drei mögliche Erkennungszustände ausgeben: mit Wasserzeichen versehen, nicht mit Wasserzeichen versehen oder unklar
Durch das Setzen von zwei Schwellenwerten kann das Verhalten so angepasst werden, dass bestimmte Falsch-Positiv- und Falsch-Negativ-Raten erreicht werden
Modelle, die denselben Tokenizer verwenden, können dieselbe Watermarking-Konfiguration und denselben Detektor teilen, sofern der Trainingssatz des Detektors Beispiele aller Modelle enthält, die das Wasserzeichen teilen
Sobald ein trainierter Detektor vorhanden ist, kann entschieden werden, ob und wie der Detektor Nutzern und der Öffentlichkeit zugänglich gemacht wird
- Die vollständig private Option macht den Detektor in keiner Form öffentlich oder zugänglich
- Die halbprivate Option veröffentlicht den Detektor nicht, stellt ihn aber über eine API bereit
- Die öffentliche Option gibt den Detektor frei, sodass andere ihn herunterladen und verwenden können

Einschränkungen

Das Wasserzeichen von SynthID Text ist gegen einige Transformationen robust, hat aber Einschränkungen
- Das Anwenden des Wasserzeichens ist bei faktischen Antworten weniger effektiv, da es weniger Möglichkeiten gibt, die Generierung zu verstärken, ohne die Genauigkeit zu beeinträchtigen
- Wenn KI-generierter Text umfassend umgeschrieben oder in eine andere Sprache übersetzt wird, kann der Vertrauenswert des Detektors deutlich sinken
SynthID Text ist nicht dafür ausgelegt, böswillige Angreifer direkt an schädlichem Verhalten zu hindern
Es kann jedoch die missbräuchliche Nutzung KI-generierter Inhalte erschweren und in Kombination mit anderen Ansätzen eine bessere Abdeckung über verschiedene Inhaltstypen und Plattformen hinweg bieten

Meinung von GN⁺

SynthID Text bietet eine nützliche Funktion, um über Wasserzeichen die Herkunft von KI-generierten Inhalten zu identifizieren
Das Wasserzeichen selbst garantiert jedoch nicht die Echtheit des Inhalts, da auch Fehlinformationen oder schädliche Inhalte mit einem Wasserzeichen versehen werden können
Daher wird zusätzlich zum Wasserzeichen auch eine Verlässlichkeitsprüfung des Inhalts selbst nötig sein
Ein großer Vorteil ist die Integration in wichtige Bibliotheken wie Hugging Face, wodurch Entwickler es leicht einsetzen können
Allerdings sollte sorgfältig entschieden werden, ob der Detektor öffentlich gemacht wird. Bei vollständiger Offenlegung könnten Versuche zunehmen, das Wasserzeichen zu umgehen
Insgesamt dürfte die Bedeutung von SynthID Text als Technologie zur Herkunftsidentifizierung weiter zunehmen, da sich KI-generierte Inhalte schnell verbreiten

Google DeepMind veröffentlicht SynthID als Open Source, um von LLMs erzeugte Texte zu watermarken und zu erkennen

Watermarking anwenden

Wasserzeichen-Erkennung und Verifizierbarkeit

Einschränkungen

Meinung von GN⁺

Verwandte Beiträge

Noch keine Kommentare.