- SynthID von Google DeepMind ist eine Technologie zum Watermarking und zur Identifizierung von KI-generierten Inhalten, indem digitale Wasserzeichen direkt in KI-generierte Bilder, Audio, Texte oder Videos eingebettet werden
- Eine vollständigere technische Beschreibung dieser Methode ist im Nature-Artikel zu finden
- SynthID Text wird als Open Source bereitgestellt, damit Entwickler Watermarking für die Textgenerierung nutzen können
Watermarking anwenden
- SynthID Text ist ein Logits-Prozessor, der nach Top-K und Top-P in der Generierungs-Pipeline des Modells angewendet wird
- Mithilfe einer pseudozufälligen g-Funktion werden die Logits des Modells so verstärkt, dass Watermarking-Informationen kodiert werden, ohne die Textqualität wesentlich zu beeinträchtigen, und gleichzeitig die Beurteilung erleichtert wird, ob ein Text vom Modell erzeugt wurde
- Das Wasserzeichen wird konfiguriert, indem die g-Funktion parametrisiert und festgelegt wird, wie sie während der Generierung angewendet wird
- Jede verwendete Watermarking-Konfiguration sollte sicher und vertraulich gespeichert werden
- Zwei wesentliche Parameter sind für die Watermarking-Konfiguration erforderlich
- Parameter
keys: eine Liste eindeutiger zufälliger Ganzzahlen, die zur Berechnung der g-Funktions-Scores über das Vokabular des Modells verwendet werden. Die Länge dieser Liste bestimmt die Anzahl der angewendeten Watermarking-Schichten
- Parameter
ngram_len: wird verwendet, um Robustheit und Erkennbarkeit auszubalancieren. Ein höherer Wert macht das Wasserzeichen leichter erkennbar, aber anfälliger für Veränderungen. Der Standardwert 5 ist geeignet
- Zusätzliche Konfiguration des Wasserzeichens je nach Leistungsanforderungen möglich
- Die Sampling-Tabelle besteht aus zwei Eigenschaften:
sampling_table_size und sampling_table_seed
- Um beim Sampling eine unverzerrte und stabile g-Funktion sicherzustellen, sollte
sampling_table_size mindestens 2^16 betragen
- Allerdings wirkt sich die Größe der Sampling-Tabelle auf den Speicherbedarf während der Inferenz aus
- Für
sampling_table_seed kann eine beliebige gewünschte Ganzzahl verwendet werden
- Sich wiederholende n-Gramme in
context_history_size der vorherigen Tokens werden nicht mit einem Wasserzeichen versehen, um die Erkennbarkeit zu erhöhen
- Um mit dem SynthID-Text-Wasserzeichen Text zu erzeugen, ist kein zusätzliches Training des Modells erforderlich
- Es wird nur die Watermarking-Konfiguration benötigt, die an die
.generate()-Methode des Modells übergeben wird. Dadurch wird der SynthID-Text-Logits-Prozessor aktiviert
- Im Blogbeitrag und Space von Hugging Face finden sich Codebeispiele, die zeigen, wie Wasserzeichen in der Transformers-Bibliothek angewendet werden
Wasserzeichen-Erkennung und Verifizierbarkeit
- Die Erkennung von Wasserzeichen ist probabilistisch
- Ein Bayes-Detektor wird über Hugging Face Transformers und GitHub bereitgestellt
- Dieser Detektor kann drei mögliche Erkennungszustände ausgeben: mit Wasserzeichen versehen, nicht mit Wasserzeichen versehen oder unklar
- Durch das Setzen von zwei Schwellenwerten kann das Verhalten so angepasst werden, dass bestimmte Falsch-Positiv- und Falsch-Negativ-Raten erreicht werden
- Modelle, die denselben Tokenizer verwenden, können dieselbe Watermarking-Konfiguration und denselben Detektor teilen, sofern der Trainingssatz des Detektors Beispiele aller Modelle enthält, die das Wasserzeichen teilen
- Sobald ein trainierter Detektor vorhanden ist, kann entschieden werden, ob und wie der Detektor Nutzern und der Öffentlichkeit zugänglich gemacht wird
- Die vollständig private Option macht den Detektor in keiner Form öffentlich oder zugänglich
- Die halbprivate Option veröffentlicht den Detektor nicht, stellt ihn aber über eine API bereit
- Die öffentliche Option gibt den Detektor frei, sodass andere ihn herunterladen und verwenden können
Einschränkungen
- Das Wasserzeichen von SynthID Text ist gegen einige Transformationen robust, hat aber Einschränkungen
- Das Anwenden des Wasserzeichens ist bei faktischen Antworten weniger effektiv, da es weniger Möglichkeiten gibt, die Generierung zu verstärken, ohne die Genauigkeit zu beeinträchtigen
- Wenn KI-generierter Text umfassend umgeschrieben oder in eine andere Sprache übersetzt wird, kann der Vertrauenswert des Detektors deutlich sinken
- SynthID Text ist nicht dafür ausgelegt, böswillige Angreifer direkt an schädlichem Verhalten zu hindern
- Es kann jedoch die missbräuchliche Nutzung KI-generierter Inhalte erschweren und in Kombination mit anderen Ansätzen eine bessere Abdeckung über verschiedene Inhaltstypen und Plattformen hinweg bieten
Meinung von GN⁺
- SynthID Text bietet eine nützliche Funktion, um über Wasserzeichen die Herkunft von KI-generierten Inhalten zu identifizieren
- Das Wasserzeichen selbst garantiert jedoch nicht die Echtheit des Inhalts, da auch Fehlinformationen oder schädliche Inhalte mit einem Wasserzeichen versehen werden können
- Daher wird zusätzlich zum Wasserzeichen auch eine Verlässlichkeitsprüfung des Inhalts selbst nötig sein
- Ein großer Vorteil ist die Integration in wichtige Bibliotheken wie Hugging Face, wodurch Entwickler es leicht einsetzen können
- Allerdings sollte sorgfältig entschieden werden, ob der Detektor öffentlich gemacht wird. Bei vollständiger Offenlegung könnten Versuche zunehmen, das Wasserzeichen zu umgehen
- Insgesamt dürfte die Bedeutung von SynthID Text als Technologie zur Herkunftsidentifizierung weiter zunehmen, da sich KI-generierte Inhalte schnell verbreiten
Noch keine Kommentare.