Wenn Prompt Injection nicht zu verhindern ist: 3 von Meta vorgeschlagene Designprinzipien

(aisparkup.com)

19 Punkte von davespark 2025-11-04 | 5 Kommentare | Auf WhatsApp teilen

Simon Willison hat einen Beitrag veröffentlicht, in dem er zwei aktuelle Forschungsarbeiten zu Prompt Injection analysiert.

Angriffe per AI Prompt Injection lassen sich mit den derzeitigen Abwehrtechniken nur schwer vollständig verhindern. Meta erkennt das an und schlägt vor, das Risiko über ein Systemdesign-Prinzip namens "Agents Rule of Two" zu minimieren.

Wichtige Punkte:

Risiken und Schwachstellen: Angreifer können bösartige Anweisungen in AI-Systeme einschleusen und so etwa Datenlecks oder Phishing auslösen. Hervorgehoben wird ein Forschungsergebnis, wonach 12 Abwehrsysteme zu über 90 % umgangen wurden.
Rule-of-Two-Prinzip: AI-Agenten sollen so entworfen werden, dass sie von den folgenden drei Eigenschaften (A, B, C) gleichzeitig nur zwei besitzen.
- [A] Verarbeitung nicht vertrauenswürdiger Eingaben
- [B] Zugriff auf sensible Systeme / personenbezogene Daten
- [C] Zustandsänderungen oder externe Kommunikation
- Beispiel: Ein E-Mail-Bot darf A (Eingaben) + C (Kommunikation), aber B (personenbezogene Daten) ist verboten.
Pragmatischer Ansatz: Nicht perfekte Abwehr, sondern Risikoreduzierung durch Design.

Fazit: Prompt Injection ist unvermeidbar, daher sollten AI-Systeme anhand von Prinzipien wie Rule of Two neu entworfen werden. Das wird als praktikable Alternative bewertet.

5 Kommentare

darjeeling 2025-11-05

Beim Lesen Ihrer Übersetzung ist mir aufgefallen, dass sie tatsächlich eindeutig prompt-injiziert wurde.
„KI-Sicherheitsexperte Simon Willison“ <= falsch

davespark 2025-11-05

Simon Willison ist ein bekannter Webentwickler, der Django entwickelt hat. Außerdem entwickelt er LLM-Tools, schreibt viel über KI und hält zahlreiche Vorträge dazu. Er zeigt auch großes Interesse an der Sicherheit von KI und veröffentlicht viele Beiträge zu diesem Thema. Deshalb halte ich es im Kontext dieses Artikels nicht für besonders falsch, ihn als „KI-Sicherheitsexperten“ zu bezeichnen. Ich denke, dass er auch über KI-Sicherheit ausreichend Wissen und Einsicht verfügt, und habe es deshalb bewusst so geschrieben. (Also nein, das ist keine Injection ^^)

savvykang 2025-11-05

Kurz gesagt: Meinen Sie damit, dass Sie den Titel aus Gründen der einfacheren Erklärung so gewählt haben? Auf der About-Seite des Blogs gibt es zwar auch einen AI-Bereich, aber ich finde es trotzdem nicht ganz überzeugend, dass dies die wichtigste Leistung dieser Person sein soll, in einem Ausmaß, dass andere ihr den Titel eines AI-Sicherheitsexperten geben würden.

Den Kern habe ich jedenfalls verstanden.

thinkpad 2025-11-05

Vielen Dank für den guten Artikel.

vb6ko 2025-11-04

Vielen Dank für den guten Artikel.

Wirkt so, als wäre er ähnlich wie das CAP-Theorem aufgebaut.

Wenn Prompt Injection nicht zu verhindern ist: 3 von Meta vorgeschlagene Designprinzipien

Verwandte Beiträge

5 Kommentare