- Laut Tests von Rumi zu den Modellen GPT-o3 und o4-mini wurden in langen Antworten
(z. B. beim Schreiben von Essays) Wasserzeichen mit Sonderzeichen eingefügt. - Dieses Wasserzeichen besteht aus speziellen Unicode-Leerzeichen wie "Narrow No-Break Space (U+202F)".
- Mit dem bloßen Auge ist es überhaupt nicht sichtbar, wird aber in Code-Editoren wie Sublime Text oder VS Code sowie in Ansichten für Sonderzeichen sichtbar.
- Auch beim Kopieren und Einfügen bleibt dieses Wasserzeichen erhalten (es bleibt z. B. auch nach dem Einfügen in Google Docs bestehen).
- Allerdings ist das Wasserzeichen mit einfachem Find-and-Replace entfernbar und daher keine perfekte Schutzmaßnahme.
- OpenAI hat diese Wasserzeichen-Funktion nicht offiziell angekündigt. (Es wird vermutet, dass sie still getestet wird.)
- Beim Modell GPT-4o wurde ein solches Wasserzeichen laut Bericht nicht beobachtet.
Zusätzlich
- Das Wasserzeichen wird tendenziell nur in langen Texten (insbesondere bei aufgaben- oder berichtsartigen Texten) eingefügt,
- in kurzen Gesprächen oder bei allgemeinen Frage-und-Antwort-Interaktionen hingegen fast nie.
Zusammenfassung in einem Satz
"Einige neuere Modelle haben mit Wasserzeichen per Sonderzeichen begonnen, doch sie sind leicht zu erkennen und zu entfernen und daher nicht perfekt."
6 Kommentare
[Update] OpenAI hat Lumi offiziell geantwortet
OpenAI hat uns zu diesem Beitrag kontaktiert und mitgeteilt, dass das spezielle Zeichen kein Wasserzeichen ist. Laut OpenAI handelt es sich lediglich um eine „Eigenheit groß angelegten Reinforcement Learnings“. Wir lassen den Beitrag jedoch online, damit künftige Leser weiterhin das Problem dieser speziellen (und potenziell unerwünschten) Zeichen in Antworten von ChatGPT o3/o4 sehen können.
Bei diesem o3 gab es ja das Problem, dass die Halluzinationen extrem stark waren.
Ich dachte, das könnte vielleicht eines davon sein, aber dass sie direkt Kontakt aufgenommen haben, ist interessant.
Vielleicht soll damit verhindert werden, dass KI-generierte Daten als Trainingsdaten verwendet werden (Model Collapse), denke ich.
Ist das nicht eher ein Bug als ein Wasserzeichen? Selbst wenn es nur ein Test ist, wirkt es im Vergleich zu den derzeit diskutierten Watermarking-Techniken für LLMs absurd simpel..
Ich dachte, man könnte über die eigentümliche Tendenz solcher Behauptungen sprechen, aber offenbar nicht. Ist das nicht eine zu einfache Lösung?
Hm ... liegt das vielleicht an so einem Wasserzeichen? In letzter Zeit habe ich ziemlich oft erlebt, dass Koreanisch in ChatGPT zwar gut sichtbar ist, aber beim Markieren, Kopieren und Einfügen beschädigt eingefügt wird.