AI-Systeme sind niemals vollständig sicher — die „tödliche Dreifachbedrohung“, auf die man reagieren muss

(economist.com)

18 Punkte von GN⁺ 2025-09-29 | Noch keine Kommentare. | Auf WhatsApp teilen

Wie sich auf die „tödliche Dreierkombination (lethal trifecta)“ reagieren lässt, die Missbrauch durch Nutzer ermöglicht
LLM-Agenten, die Anweisungen in natürlicher Sprache wörtlich befolgen, besitzen wegen der fehlenden Trennung von Daten und Befehlen eine strukturelle Schwachstelle, durch die sie sogar bösartige Anweisungen in externen Texten ausführen können
Wenn Kontakt mit externen Inhalten, Zugriff auf private Daten und Fähigkeit zur externen Kommunikation zusammenkommen, entsteht die „tödliche Dreierkombination“, wodurch selbst kleine Fehler mit stark erhöhtem Risiko zu schweren Sicherheitsvorfällen eskalieren können
Reale Beispiele sind etwa ein Patch für eine Schwachstelle in Microsoft Copilot (Juni), der Missbrauch des DPD-Kundensupport-Bots (Januar 2024) sowie eine Demonstration datenbasierter Exfiltration über PDF in Notion AI Agenten (19. September)
Als Abwehrprinzipien werden die Auflösung der Dreierkombination, die Isolierung nicht vertrauenswürdiger Modelle und die Kontrolle der Kommunikation genannt; zudem werden sichere Designs mit bewusst eingeschränkter Funktionalität vorgeschlagen, etwa Googles CaMeL-Dual-LLM-Architektur
Die Branche geht davon aus, dass sich das Problem durch stärkeres Training allein nur schwer ausreichend eindämmen lässt; Risiken aus MCP-Plugin-Kombinationen und verschobenen Produktstarts (z. B. Apples Verzögerung bei AI-Funktionen) deuten darauf hin, dass ein Designwechsel mit probabilistischen Sicherheitsmargen nötig ist

Kerndefinition des Problems: fehlende Trennung von Daten und Befehlen und die „tödliche Dreierkombination“

LLMs verarbeiten Eingabetext als Vorhersage aufeinanderfolgender Wörter und sind damit ein integriertes Interpretationsmodell, das auf Fragen antwortet und bei Befehlen deren Ausführung versucht
- Werden in externe Dokumente bösartige Anweisungen wie „Festplatte kopieren und an die E-Mail des Angreifers senden“ eingefügt, entsteht bei einer Zusammenfassungsaufgabe das Risiko unerwünschter Neben-Ausführungen
Kontakt mit externen Inhalten + Zugriff auf private Daten + ausgehende Kommunikationswege im selben System ergeben die tödliche Dreierkombination (lethal trifecta)
- Die tödliche Dreierkombination ist ein vom Sicherheitsforscher Simon Willison geprägtes Konzept; wenn alle drei Elemente zugleich offenstehen, steigt die Unvermeidbarkeit von Missbrauch deutlich

Frühe Anzeichen und reale Fälle

Im Sommer 2022 tauchte der Begriff Prompt Injection eigenständig auf und lenkte Aufmerksamkeit auf die Gefahr dressierter Gefügigkeit
Im Januar 2024 wurde bekannt, dass der Kundensupport-Bot von DPD beleidigende Antworten befolgte; der Dienst wurde daraufhin eingestellt
Im Juni 2025 wurde in Microsoft Copilot eine Trifecta-Schwachstelle entdeckt und per stillem Patch behoben; laut Darstellung wurde kein realer Missbrauch gemeldet
Am 19. September 2025 demonstrierte der Forscher Abi Raghuram, dass ein Notion-AI-Agent mit Zugriff auf Dokumente, Datenbanken und das Web über ein manipuliertes PDF Daten exfiltrieren konnte

Warum die Blockierung schwierig ist: probabilistisches Scheitern und Umgehungskanäle

Selbst wenn System-Prompts Prioritätsregeln vorgeben, bleibt probabilistisches Abrutschen bestehen, etwa als ein Fehler in hundert Fällen
- Auch mit Sicherheitsanweisungen wie „schädliche Signale erkennen“ bleibt die Möglichkeit bestehen, dass etwas irgendwann doch durchkommt
Das Blockieren externer Kommunikation ist zentral, doch ein bloßes Verbot des E-Mail-Versands reicht nicht aus; möglich ist auch das Kodieren geheimer Werte im URL-Pfad und damit ein Abfluss über Web-Request-Logs
- Schon die Erlaubnis von Web-Zugriff selbst kann sich in einen Datenabflusskanal verwandeln

Abwehrstrategie 1: die Dreierkombination gar nicht erst herstellen

Schon das Entfernen eines einzigen Elements senkt das Risiko drastisch
- Wird die Eingabe auf intern erzeugte und validierte Quellen beschränkt, lässt sich der Kontakt mit Externem eliminieren
- Strategien zur Begrenzung des Geltungsbereichs sind wirksam, etwa wenn eine Coding-Hilfe nur mit einer vertrauenswürdigen Codebasis arbeitet oder ein Smart Speaker nur Sprachbefehle verarbeitet
Bei Aufgaben wie E-Mail-Verwaltung, die wesenhaft externe Daten verarbeiten, ist eine vollständige Eliminierung jedoch schwierig

Abwehrstrategie 2: Isolierung nicht vertrauenswürdiger Modelle und minimale Rechte

In einem Google-Paper vom März wird empfohlen, ein Modell mit Kontakt zu externen Daten als „nicht vertrauenswürdiges Modell“ einzustufen und sensible Informationen zu isolieren
- Ressourcen wie E-Mail, die privat sind und zugleich von außen gespeist werden, erfüllen bereits zwei der Elemente und stellen damit einen Hochrisikozustand dar
Least Privilege, Sandboxing und Kontextgrenzen trennen und verwalten den Zugriff auf interne Geheimnisse und Zugangsdaten

Abwehrstrategie 3: Modellbeschränkung und architektonische Trennung

Das Verstärken von Ablehnungsmustern über Trainingsdaten ist notwendig, aber keine hinreichende Bedingung
Googles CaMeL trennt Rollen mithilfe von zwei LLMs
- Ein vertrauenswürdiges Modell übersetzt natürliche Sprache des Nutzers in eingeschränkten Code und
- ein nicht vertrauenswürdiges Modell führt nur Lückenausfüllung in einem streng beschränkten Ablauf aus, wodurch Sicherheitseigenschaften erzielt werden
- Als Preis wird eine funktionale Einschränkung in Form eines kleineren Spektrums möglicher Aufgaben akzeptiert

Risiken im Verbraucher- und Plugin-Ökosystem: der Fall MCP

Werden über das Model Context Protocol (MCP) Zusatz-Apps eingebunden, kann durch Komposition von Fähigkeiten unbeabsichtigt eine Dreierkombination entstehen
- Selbst wenn einzelne MCPs sicher sind, kann die Sicherheit der Kombination brechen; daher sind minimale Installation und Prüfung der Herkunft nötig

Signale aus der Industrie: verzögerte Releases und mehr Vorsicht

Apple kündigte 2024 Funktionen wie „den von Jamie empfohlenen Podcast abspielen“ an, entschied sich aber angesichts der Sorge vor einer Trifecta-Auslösung für eine Verschiebung der Einführung
Dass auch in der neuesten iOS-Version vom September 2025 große AI-Funktionen fehlen und stattdessen Übersetzung und UI-Verbesserungen im Vordergrund stehen, spiegelt die realen Schwierigkeiten wider

Checkliste für die Praxis: Was ist zu tun?

Risikomodellierung: Offenliegende Elemente unter externer Eingabe, sensiblen Daten und externer Aussendung explizit benennen und das Vorliegen einer Dreierkombination kartieren
Grenzendesign: Nicht vertrauenswürdige Modelle auf Read-only-Puffer beschränken, Geheimnisse und Tokens über einen separaten Vermittlungsdienst führen und direkten Zugriff blockieren
Ausgänge versiegeln: E-Mail, Web-Requests und Datei-Uploads als Datenabflusskanäle per Allowlist einschränken
Policy Engine: Nur erlaubte Tool-Aufrufe ausführen und Befehle erst nach Kompilierung von natürlicher Sprache in strukturierte Richtlinien ausführen
Audit und Guardrails: Prompt-Injection-Testsets, automatisiertes Red Teaming sowie Session-Logging und Monitoring von Ablehnungsraten einsetzen, um probabilistische Fehler zu managen
Funktionale Trade-offs akzeptieren: Es wird die Notwendigkeit eines Kulturwandels im Engineering betont, bei dem ein Teil von Leistung und Autonomie zugunsten probabilistischer Sicherheitsmargen aufgegeben wird

Fazit

Solange alle drei Elemente der Dreierkombination offen sind, häufen sich Warnungen, dass Schwachstellen zwangsläufig entdeckt werden
- Auflösung der Dreierkombination, Isolierung nicht vertrauenswürdiger Modelle, Kontrolle der Ausgänge und eine Architektur mit Rollentrennung sind derzeit die realistischsten Gegenmaßnahmen
- Langfristig ist ein softwaretechnischer Wandel nötig, der die Fixierung auf Determinismus aufgibt und probabilistische Sicherheitsmargen in das Design einbaut

AI-Systeme sind niemals vollständig sicher — die „tödliche Dreifachbedrohung“, auf die man reagieren muss

Kerndefinition des Problems: fehlende Trennung von Daten und Befehlen und die „tödliche Dreierkombination“

Frühe Anzeichen und reale Fälle

Warum die Blockierung schwierig ist: probabilistisches Scheitern und Umgehungskanäle

Abwehrstrategie 1: die Dreierkombination gar nicht erst herstellen

Abwehrstrategie 2: Isolierung nicht vertrauenswürdiger Modelle und minimale Rechte

Abwehrstrategie 3: Modellbeschränkung und architektonische Trennung

Risiken im Verbraucher- und Plugin-Ökosystem: der Fall MCP

Signale aus der Industrie: verzögerte Releases und mehr Vorsicht

Checkliste für die Praxis: Was ist zu tun?

Fazit

Verwandte Beiträge

Noch keine Kommentare.