Was ist Prompt Injection?

xguru · 2023-05-17T11:05:01+09:00

Simon Willison hat das Video, die Folien und das Transkript seines Vortrags veröffentlicht Prompt Injection = „ein Angriff auf Anwendungen, die auf AI-Modellen aufbauen“ und „kein Angriff auf das AI-Modell selbst“ Demo mit einem Beispiel für Translation Injection sowie einer Seite, die Bing angreift, das in der Edge Sidebar läuft Was passiert, wenn mein AI-Assistent auf die Anweisungen anderer hört? (Als Beispiel wird ein Prompt beschrieben, der verlangt, E-Mails zum Zurücksetzen von Passwörtern irgendwohin weiterzuleiten.) Es gibt dafür Lösungsansätze wie Prompt Begging, aber sie funktionieren nicht besonders gut Mein Vorschlag ist: nicht ideal, aber mit dem Dual-Language-Model-Pattern ließe sich das Problem teilweise lösen Den AI-Assistenten aus zwei unterschiedlichen LLMs zusammensetzen: Privileged LLM und Quarantined LLM Privileged LLM Hat Zugriff auf Tools Verarbeitet nur vertrauenswürdige Eingaben Erteilt dem Quarantined LLM Anweisungen, sieht aber weder dessen Eingaben noch Ausgaben Arbeitet nur mit Tokens: Summarize text $VAR1 Display $SUMMARY2 to the User Quarantined LLM Bearbeitet Tasks für nicht vertrauenswürdige Eingaben (z. B. Zusammenfassungen) Hat keinen Zugriff auf irgendetwas anderes Alle Ein- und Ausgaben gelten als kontaminiert – nichts davon wird direkt an das Privileged LLM weitergegeben Prompt Injection ist eine äußerst schwerwiegende Sicherheitslücke, bei der es unmöglich ist, Abwehrmaßnahmen zu implementieren, wenn man sie nicht versteht Alle Anwendungen, die auf Sprachmodellen aufbauen, sind grundsätzlich für dieses Problem anfällig Wenn es für Prompt Injection keine Lösung gibt und sich Anwendungen deshalb nicht sicher entwickeln lassen, muss man manchmal auch „Nein“ sagen Als Entwickler ist es mir sehr unangenehm zu sagen: „Das ist nicht möglich“ – aber in diesem Fall halte ich das für wirklich wichtig

(simonwillison.net)

21 Punkte von xguru 2023-05-17 | Noch keine Kommentare. | Auf WhatsApp teilen

Simon Willison hat das Video, die Folien und das Transkript seines Vortrags veröffentlicht
Prompt Injection = „ein Angriff auf Anwendungen, die auf AI-Modellen aufbauen“ und „kein Angriff auf das AI-Modell selbst“
Demo mit einem Beispiel für Translation Injection sowie einer Seite, die Bing angreift, das in der Edge Sidebar läuft
Was passiert, wenn mein AI-Assistent auf die Anweisungen anderer hört? (Als Beispiel wird ein Prompt beschrieben, der verlangt, E-Mails zum Zurücksetzen von Passwörtern irgendwohin weiterzuleiten.)
Es gibt dafür Lösungsansätze wie Prompt Begging, aber sie funktionieren nicht besonders gut
Mein Vorschlag ist: nicht ideal, aber mit dem Dual-Language-Model-Pattern ließe sich das Problem teilweise lösen
- Den AI-Assistenten aus zwei unterschiedlichen LLMs zusammensetzen: Privileged LLM und Quarantined LLM
- Privileged LLM
  - Hat Zugriff auf Tools
  - Verarbeitet nur vertrauenswürdige Eingaben
  - Erteilt dem Quarantined LLM Anweisungen, sieht aber weder dessen Eingaben noch Ausgaben
  - Arbeitet nur mit Tokens: Summarize text $VAR1
  - Display $SUMMARY2 to the User
- Quarantined LLM
  - Bearbeitet Tasks für nicht vertrauenswürdige Eingaben (z. B. Zusammenfassungen)
  - Hat keinen Zugriff auf irgendetwas anderes
  - Alle Ein- und Ausgaben gelten als kontaminiert – nichts davon wird direkt an das Privileged LLM weitergegeben
Prompt Injection ist eine äußerst schwerwiegende Sicherheitslücke, bei der es unmöglich ist, Abwehrmaßnahmen zu implementieren, wenn man sie nicht versteht
Alle Anwendungen, die auf Sprachmodellen aufbauen, sind grundsätzlich für dieses Problem anfällig
Wenn es für Prompt Injection keine Lösung gibt und sich Anwendungen deshalb nicht sicher entwickeln lassen, muss man manchmal auch „Nein“ sagen
Als Entwickler ist es mir sehr unangenehm zu sagen: „Das ist nicht möglich“ – aber in diesem Fall halte ich das für wirklich wichtig

Was ist Prompt Injection?

Verwandte Beiträge

Noch keine Kommentare.