Hacking natürlicher Sprachmodelle mit KI

budlebee · 2021-03-14T11:00:03+09:00

Laut einer gemeinsam von Google, Harvard, Stanford, OpenAI und Apple veröffentlichten Arbeit konnten durch bloßes Befragen großer Sprachmodelle konkrete Daten extrahiert werden, die beim Training verwendet wurden. Ein Angriff auf GPT-2 konnte mit sehr hoher Genauigkeit persönliche Informationen wie Nachrichtenüberschriften und Privatadressen extrahieren. Nicht nur GPT-2, sondern auch andere Sprachmodelle könnten für solche Angriffe anfällig sein, daher sollte der Vorverarbeitung von Trainingsdaten noch mehr Aufmerksamkeit geschenkt werden.

(arxiv.org)

12 Punkte von budlebee 2021-03-14 | Noch keine Kommentare. | Auf WhatsApp teilen

Laut einer gemeinsam von Google, Harvard, Stanford, OpenAI und Apple veröffentlichten Arbeit konnten durch bloßes Befragen großer Sprachmodelle konkrete Daten extrahiert werden, die beim Training verwendet wurden.
Ein Angriff auf GPT-2 konnte mit sehr hoher Genauigkeit persönliche Informationen wie Nachrichtenüberschriften und Privatadressen extrahieren.
Nicht nur GPT-2, sondern auch andere Sprachmodelle könnten für solche Angriffe anfällig sein, daher sollte der Vorverarbeitung von Trainingsdaten noch mehr Aufmerksamkeit geschenkt werden.

Hacking natürlicher Sprachmodelle mit KI

Verwandte Beiträge

Noch keine Kommentare.