- Simon Willison hat das Video, die Folien und das Transkript seines Vortrags veröffentlicht
- Prompt Injection = „ein Angriff auf Anwendungen, die auf AI-Modellen aufbauen“ und „kein Angriff auf das AI-Modell selbst“
- Demo mit einem Beispiel für Translation Injection sowie einer Seite, die Bing angreift, das in der Edge Sidebar läuft
- Was passiert, wenn mein AI-Assistent auf die Anweisungen anderer hört? (Als Beispiel wird ein Prompt beschrieben, der verlangt, E-Mails zum Zurücksetzen von Passwörtern irgendwohin weiterzuleiten.)
- Es gibt dafür Lösungsansätze wie Prompt Begging, aber sie funktionieren nicht besonders gut
- Mein Vorschlag ist: nicht ideal, aber mit dem Dual-Language-Model-Pattern ließe sich das Problem teilweise lösen
- Den AI-Assistenten aus zwei unterschiedlichen LLMs zusammensetzen: Privileged LLM und Quarantined LLM
- Privileged LLM
- Hat Zugriff auf Tools
- Verarbeitet nur vertrauenswürdige Eingaben
- Erteilt dem Quarantined LLM Anweisungen, sieht aber weder dessen Eingaben noch Ausgaben
- Arbeitet nur mit Tokens:
Summarize text $VAR1
Display $SUMMARY2 to the User
- Quarantined LLM
- Bearbeitet Tasks für nicht vertrauenswürdige Eingaben (z. B. Zusammenfassungen)
- Hat keinen Zugriff auf irgendetwas anderes
- Alle Ein- und Ausgaben gelten als kontaminiert – nichts davon wird direkt an das Privileged LLM weitergegeben
- Prompt Injection ist eine äußerst schwerwiegende Sicherheitslücke, bei der es unmöglich ist, Abwehrmaßnahmen zu implementieren, wenn man sie nicht versteht
- Alle Anwendungen, die auf Sprachmodellen aufbauen, sind grundsätzlich für dieses Problem anfällig
- Wenn es für Prompt Injection keine Lösung gibt und sich Anwendungen deshalb nicht sicher entwickeln lassen, muss man manchmal auch „Nein“ sagen
- Als Entwickler ist es mir sehr unangenehm zu sagen: „Das ist nicht möglich“ – aber in diesem Fall halte ich das für wirklich wichtig
Noch keine Kommentare.