7 Punkte von GN⁺ 2024-10-31 | Noch keine Kommentare. | Auf WhatsApp teilen
  • SynthID von Google DeepMind ist eine Technologie zum Watermarking und zur Identifizierung von KI-generierten Inhalten, indem digitale Wasserzeichen direkt in KI-generierte Bilder, Audio, Texte oder Videos eingebettet werden
    • Eine vollständigere technische Beschreibung dieser Methode ist im Nature-Artikel zu finden
  • SynthID Text wird als Open Source bereitgestellt, damit Entwickler Watermarking für die Textgenerierung nutzen können

Watermarking anwenden

  • SynthID Text ist ein Logits-Prozessor, der nach Top-K und Top-P in der Generierungs-Pipeline des Modells angewendet wird
  • Mithilfe einer pseudozufälligen g-Funktion werden die Logits des Modells so verstärkt, dass Watermarking-Informationen kodiert werden, ohne die Textqualität wesentlich zu beeinträchtigen, und gleichzeitig die Beurteilung erleichtert wird, ob ein Text vom Modell erzeugt wurde
  • Das Wasserzeichen wird konfiguriert, indem die g-Funktion parametrisiert und festgelegt wird, wie sie während der Generierung angewendet wird
  • Jede verwendete Watermarking-Konfiguration sollte sicher und vertraulich gespeichert werden
  • Zwei wesentliche Parameter sind für die Watermarking-Konfiguration erforderlich
    • Parameter keys: eine Liste eindeutiger zufälliger Ganzzahlen, die zur Berechnung der g-Funktions-Scores über das Vokabular des Modells verwendet werden. Die Länge dieser Liste bestimmt die Anzahl der angewendeten Watermarking-Schichten
    • Parameter ngram_len: wird verwendet, um Robustheit und Erkennbarkeit auszubalancieren. Ein höherer Wert macht das Wasserzeichen leichter erkennbar, aber anfälliger für Veränderungen. Der Standardwert 5 ist geeignet
  • Zusätzliche Konfiguration des Wasserzeichens je nach Leistungsanforderungen möglich
    • Die Sampling-Tabelle besteht aus zwei Eigenschaften: sampling_table_size und sampling_table_seed
    • Um beim Sampling eine unverzerrte und stabile g-Funktion sicherzustellen, sollte sampling_table_size mindestens 2^16 betragen
    • Allerdings wirkt sich die Größe der Sampling-Tabelle auf den Speicherbedarf während der Inferenz aus
    • Für sampling_table_seed kann eine beliebige gewünschte Ganzzahl verwendet werden
    • Sich wiederholende n-Gramme in context_history_size der vorherigen Tokens werden nicht mit einem Wasserzeichen versehen, um die Erkennbarkeit zu erhöhen
  • Um mit dem SynthID-Text-Wasserzeichen Text zu erzeugen, ist kein zusätzliches Training des Modells erforderlich
  • Es wird nur die Watermarking-Konfiguration benötigt, die an die .generate()-Methode des Modells übergeben wird. Dadurch wird der SynthID-Text-Logits-Prozessor aktiviert
  • Im Blogbeitrag und Space von Hugging Face finden sich Codebeispiele, die zeigen, wie Wasserzeichen in der Transformers-Bibliothek angewendet werden

Wasserzeichen-Erkennung und Verifizierbarkeit

  • Die Erkennung von Wasserzeichen ist probabilistisch
  • Ein Bayes-Detektor wird über Hugging Face Transformers und GitHub bereitgestellt
  • Dieser Detektor kann drei mögliche Erkennungszustände ausgeben: mit Wasserzeichen versehen, nicht mit Wasserzeichen versehen oder unklar
  • Durch das Setzen von zwei Schwellenwerten kann das Verhalten so angepasst werden, dass bestimmte Falsch-Positiv- und Falsch-Negativ-Raten erreicht werden
  • Modelle, die denselben Tokenizer verwenden, können dieselbe Watermarking-Konfiguration und denselben Detektor teilen, sofern der Trainingssatz des Detektors Beispiele aller Modelle enthält, die das Wasserzeichen teilen
  • Sobald ein trainierter Detektor vorhanden ist, kann entschieden werden, ob und wie der Detektor Nutzern und der Öffentlichkeit zugänglich gemacht wird
    • Die vollständig private Option macht den Detektor in keiner Form öffentlich oder zugänglich
    • Die halbprivate Option veröffentlicht den Detektor nicht, stellt ihn aber über eine API bereit
    • Die öffentliche Option gibt den Detektor frei, sodass andere ihn herunterladen und verwenden können

Einschränkungen

  • Das Wasserzeichen von SynthID Text ist gegen einige Transformationen robust, hat aber Einschränkungen
    • Das Anwenden des Wasserzeichens ist bei faktischen Antworten weniger effektiv, da es weniger Möglichkeiten gibt, die Generierung zu verstärken, ohne die Genauigkeit zu beeinträchtigen
    • Wenn KI-generierter Text umfassend umgeschrieben oder in eine andere Sprache übersetzt wird, kann der Vertrauenswert des Detektors deutlich sinken
  • SynthID Text ist nicht dafür ausgelegt, böswillige Angreifer direkt an schädlichem Verhalten zu hindern
  • Es kann jedoch die missbräuchliche Nutzung KI-generierter Inhalte erschweren und in Kombination mit anderen Ansätzen eine bessere Abdeckung über verschiedene Inhaltstypen und Plattformen hinweg bieten

Meinung von GN⁺

  • SynthID Text bietet eine nützliche Funktion, um über Wasserzeichen die Herkunft von KI-generierten Inhalten zu identifizieren
  • Das Wasserzeichen selbst garantiert jedoch nicht die Echtheit des Inhalts, da auch Fehlinformationen oder schädliche Inhalte mit einem Wasserzeichen versehen werden können
  • Daher wird zusätzlich zum Wasserzeichen auch eine Verlässlichkeitsprüfung des Inhalts selbst nötig sein
  • Ein großer Vorteil ist die Integration in wichtige Bibliotheken wie Hugging Face, wodurch Entwickler es leicht einsetzen können
  • Allerdings sollte sorgfältig entschieden werden, ob der Detektor öffentlich gemacht wird. Bei vollständiger Offenlegung könnten Versuche zunehmen, das Wasserzeichen zu umgehen
  • Insgesamt dürfte die Bedeutung von SynthID Text als Technologie zur Herkunftsidentifizierung weiter zunehmen, da sich KI-generierte Inhalte schnell verbreiten

Noch keine Kommentare.

Noch keine Kommentare.