Hacking natürlicher Sprachmodelle mit KI
(arxiv.org)-
Laut einer gemeinsam von Google, Harvard, Stanford, OpenAI und Apple veröffentlichten Arbeit konnten durch bloßes Befragen großer Sprachmodelle konkrete Daten extrahiert werden, die beim Training verwendet wurden.
-
Ein Angriff auf GPT-2 konnte mit sehr hoher Genauigkeit persönliche Informationen wie Nachrichtenüberschriften und Privatadressen extrahieren.
-
Nicht nur GPT-2, sondern auch andere Sprachmodelle könnten für solche Angriffe anfällig sein, daher sollte der Vorverarbeitung von Trainingsdaten noch mehr Aufmerksamkeit geschenkt werden.
Noch keine Kommentare.