- Wie sich auf die „tödliche Dreierkombination (lethal trifecta)“ reagieren lässt, die Missbrauch durch Nutzer ermöglicht
- LLM-Agenten, die Anweisungen in natürlicher Sprache wörtlich befolgen, besitzen wegen der fehlenden Trennung von Daten und Befehlen eine strukturelle Schwachstelle, durch die sie sogar bösartige Anweisungen in externen Texten ausführen können
- Wenn Kontakt mit externen Inhalten, Zugriff auf private Daten und Fähigkeit zur externen Kommunikation zusammenkommen, entsteht die „tödliche Dreierkombination“, wodurch selbst kleine Fehler mit stark erhöhtem Risiko zu schweren Sicherheitsvorfällen eskalieren können
- Reale Beispiele sind etwa ein Patch für eine Schwachstelle in Microsoft Copilot (Juni), der Missbrauch des DPD-Kundensupport-Bots (Januar 2024) sowie eine Demonstration datenbasierter Exfiltration über PDF in Notion AI Agenten (19. September)
- Als Abwehrprinzipien werden die Auflösung der Dreierkombination, die Isolierung nicht vertrauenswürdiger Modelle und die Kontrolle der Kommunikation genannt; zudem werden sichere Designs mit bewusst eingeschränkter Funktionalität vorgeschlagen, etwa Googles CaMeL-Dual-LLM-Architektur
- Die Branche geht davon aus, dass sich das Problem durch stärkeres Training allein nur schwer ausreichend eindämmen lässt; Risiken aus MCP-Plugin-Kombinationen und verschobenen Produktstarts (z. B. Apples Verzögerung bei AI-Funktionen) deuten darauf hin, dass ein Designwechsel mit probabilistischen Sicherheitsmargen nötig ist
Kerndefinition des Problems: fehlende Trennung von Daten und Befehlen und die „tödliche Dreierkombination“
- LLMs verarbeiten Eingabetext als Vorhersage aufeinanderfolgender Wörter und sind damit ein integriertes Interpretationsmodell, das auf Fragen antwortet und bei Befehlen deren Ausführung versucht
- Werden in externe Dokumente bösartige Anweisungen wie „Festplatte kopieren und an die E-Mail des Angreifers senden“ eingefügt, entsteht bei einer Zusammenfassungsaufgabe das Risiko unerwünschter Neben-Ausführungen
- Kontakt mit externen Inhalten + Zugriff auf private Daten + ausgehende Kommunikationswege im selben System ergeben die tödliche Dreierkombination (lethal trifecta)
- Die tödliche Dreierkombination ist ein vom Sicherheitsforscher Simon Willison geprägtes Konzept; wenn alle drei Elemente zugleich offenstehen, steigt die Unvermeidbarkeit von Missbrauch deutlich
Frühe Anzeichen und reale Fälle
- Im Sommer 2022 tauchte der Begriff Prompt Injection eigenständig auf und lenkte Aufmerksamkeit auf die Gefahr dressierter Gefügigkeit
- Im Januar 2024 wurde bekannt, dass der Kundensupport-Bot von DPD beleidigende Antworten befolgte; der Dienst wurde daraufhin eingestellt
- Im Juni 2025 wurde in Microsoft Copilot eine Trifecta-Schwachstelle entdeckt und per stillem Patch behoben; laut Darstellung wurde kein realer Missbrauch gemeldet
- Am 19. September 2025 demonstrierte der Forscher Abi Raghuram, dass ein Notion-AI-Agent mit Zugriff auf Dokumente, Datenbanken und das Web über ein manipuliertes PDF Daten exfiltrieren konnte
Warum die Blockierung schwierig ist: probabilistisches Scheitern und Umgehungskanäle
- Selbst wenn System-Prompts Prioritätsregeln vorgeben, bleibt probabilistisches Abrutschen bestehen, etwa als ein Fehler in hundert Fällen
- Auch mit Sicherheitsanweisungen wie „schädliche Signale erkennen“ bleibt die Möglichkeit bestehen, dass etwas irgendwann doch durchkommt
- Das Blockieren externer Kommunikation ist zentral, doch ein bloßes Verbot des E-Mail-Versands reicht nicht aus; möglich ist auch das Kodieren geheimer Werte im URL-Pfad und damit ein Abfluss über Web-Request-Logs
- Schon die Erlaubnis von Web-Zugriff selbst kann sich in einen Datenabflusskanal verwandeln
Abwehrstrategie 1: die Dreierkombination gar nicht erst herstellen
- Schon das Entfernen eines einzigen Elements senkt das Risiko drastisch
- Wird die Eingabe auf intern erzeugte und validierte Quellen beschränkt, lässt sich der Kontakt mit Externem eliminieren
- Strategien zur Begrenzung des Geltungsbereichs sind wirksam, etwa wenn eine Coding-Hilfe nur mit einer vertrauenswürdigen Codebasis arbeitet oder ein Smart Speaker nur Sprachbefehle verarbeitet
- Bei Aufgaben wie E-Mail-Verwaltung, die wesenhaft externe Daten verarbeiten, ist eine vollständige Eliminierung jedoch schwierig
Abwehrstrategie 2: Isolierung nicht vertrauenswürdiger Modelle und minimale Rechte
- In einem Google-Paper vom März wird empfohlen, ein Modell mit Kontakt zu externen Daten als „nicht vertrauenswürdiges Modell“ einzustufen und sensible Informationen zu isolieren
- Ressourcen wie E-Mail, die privat sind und zugleich von außen gespeist werden, erfüllen bereits zwei der Elemente und stellen damit einen Hochrisikozustand dar
- Least Privilege, Sandboxing und Kontextgrenzen trennen und verwalten den Zugriff auf interne Geheimnisse und Zugangsdaten
Abwehrstrategie 3: Modellbeschränkung und architektonische Trennung
- Das Verstärken von Ablehnungsmustern über Trainingsdaten ist notwendig, aber keine hinreichende Bedingung
- Googles CaMeL trennt Rollen mithilfe von zwei LLMs
- Ein vertrauenswürdiges Modell übersetzt natürliche Sprache des Nutzers in eingeschränkten Code und
- ein nicht vertrauenswürdiges Modell führt nur Lückenausfüllung in einem streng beschränkten Ablauf aus, wodurch Sicherheitseigenschaften erzielt werden
- Als Preis wird eine funktionale Einschränkung in Form eines kleineren Spektrums möglicher Aufgaben akzeptiert
Risiken im Verbraucher- und Plugin-Ökosystem: der Fall MCP
- Werden über das Model Context Protocol (MCP) Zusatz-Apps eingebunden, kann durch Komposition von Fähigkeiten unbeabsichtigt eine Dreierkombination entstehen
- Selbst wenn einzelne MCPs sicher sind, kann die Sicherheit der Kombination brechen; daher sind minimale Installation und Prüfung der Herkunft nötig
Signale aus der Industrie: verzögerte Releases und mehr Vorsicht
- Apple kündigte 2024 Funktionen wie „den von Jamie empfohlenen Podcast abspielen“ an, entschied sich aber angesichts der Sorge vor einer Trifecta-Auslösung für eine Verschiebung der Einführung
- Dass auch in der neuesten iOS-Version vom September 2025 große AI-Funktionen fehlen und stattdessen Übersetzung und UI-Verbesserungen im Vordergrund stehen, spiegelt die realen Schwierigkeiten wider
Checkliste für die Praxis: Was ist zu tun?
- Risikomodellierung: Offenliegende Elemente unter externer Eingabe, sensiblen Daten und externer Aussendung explizit benennen und das Vorliegen einer Dreierkombination kartieren
- Grenzendesign: Nicht vertrauenswürdige Modelle auf Read-only-Puffer beschränken, Geheimnisse und Tokens über einen separaten Vermittlungsdienst führen und direkten Zugriff blockieren
- Ausgänge versiegeln: E-Mail, Web-Requests und Datei-Uploads als Datenabflusskanäle per Allowlist einschränken
- Policy Engine: Nur erlaubte Tool-Aufrufe ausführen und Befehle erst nach Kompilierung von natürlicher Sprache in strukturierte Richtlinien ausführen
- Audit und Guardrails: Prompt-Injection-Testsets, automatisiertes Red Teaming sowie Session-Logging und Monitoring von Ablehnungsraten einsetzen, um probabilistische Fehler zu managen
- Funktionale Trade-offs akzeptieren: Es wird die Notwendigkeit eines Kulturwandels im Engineering betont, bei dem ein Teil von Leistung und Autonomie zugunsten probabilistischer Sicherheitsmargen aufgegeben wird
Fazit
- Solange alle drei Elemente der Dreierkombination offen sind, häufen sich Warnungen, dass Schwachstellen zwangsläufig entdeckt werden
- Auflösung der Dreierkombination, Isolierung nicht vertrauenswürdiger Modelle, Kontrolle der Ausgänge und eine Architektur mit Rollentrennung sind derzeit die realistischsten Gegenmaßnahmen
- Langfristig ist ein softwaretechnischer Wandel nötig, der die Fixierung auf Determinismus aufgibt und probabilistische Sicherheitsmargen in das Design einbaut
Noch keine Kommentare.