- Schwachstellen in der Bildskalierung können genutzt werden, um AI-Systeme in Produktionsumgebungen anzugreifen
- Ein äußerlich unauffälliges Bild kann beim Herunterskalieren in eine Prompt-Injection-Nutzlast umgewandelt werden und so Datenabfluss verursachen
- Dieser Angriff wurde in verschiedenen realen Diensten wie Google Gemini CLI nachgewiesen und nutzt eine Diskrepanz zwischen der Wahrnehmung durch den Nutzer und der Eingabe an das Modell aus
- Je nach Downscaling-Algorithmus und dessen Implementierung unterscheiden sich Angriffstechnik und Auswirkungen; mit dem Open-Source-Tool Anamorpher lassen sich Bildangriffe experimentell erproben
- Als Gegenmaßnahmen werden eine Vorschau der tatsächlichen Eingabe, sichere Designmuster sowie die Anforderung einer klaren Benutzerbestätigung empfohlen
Hintergrund und Problemstellung
- Wenn scheinbar gewöhnliche Bilder in AI-Systeme wie LLMs eingespeist werden, kann beim Herunterskalieren eine verborgene multimodale Prompt Injection aktiv werden und Benutzerdaten nach außen leiten
- Diese Schwachstelle entsteht, weil das Bild, das dem Modell tatsächlich übergeben wird, einen Skalierungsprozess durchläuft, in dem die vom Angreifer eingebettete Nutzlast sichtbar wird
Bildskalierungsangriffe auf produktive AI-Systeme
- Der Blogpost demonstriert, dass sich Schwachstellen in der Bildskalierung in verschiedenen realen AI-Produkten wie Gemini CLI, Vertex AI Studio, Gemini Web und API, Google Assistant, Genspark praktisch für Angriffe ausnutzen lassen
- Mit dem Open-Source-Tool Anamorpher können solche maßgeschneiderten Bilder einfach erzeugt und verifiziert werden
Beispiel für einen Datenabflussangriff (Gemini CLI)
- In Gemini CLI genehmigt der Zapier-MCP-Server bei Standardeinstellungen automatisch alle MCP-Toolaufrufe ohne Bestätigung des Nutzers (
settings.json mit der Einstellung trust=True)
- Lädt ein Nutzer ein normal aussehendes Bild hoch, führt die Prompt Injection im herunterskalierten Bild dazu, dass Daten aus Google Calendar an die E-Mail-Adresse des Angreifers exfiltriert werden
- Da keine tatsächliche Vorschau bereitgestellt wird, kann der Nutzer weder das veränderte Ergebnis noch das Vorliegen eines Angriffs erkennen
- Ähnliche Prompt-Injection-Angriffe wurden bereits auch in verschiedenen agentenbasierten Coding-Tools wie Claude Code und OpenAI Codex nachgewiesen
- Diese Werkzeuge weisen standardmäßig häufig unsichere Einstellungen und Systemmuster auf, weshalb grundlegende Abhilfemaßnahmen nötig sind
Weitere Angriffsbeispiele
- Auch in Vertex AI, der Gemini-Weboberfläche, der Gemini API, Google Assistant und Genspark gelangen bildskalierungsbasierte Prompt-Injection-Angriffe erfolgreich
- Besonders in Vertex AI Studio können Nutzer nur das hochauflösende Bild sehen, nicht aber das herunterskalierte Bild, das das Modell tatsächlich erhält
- Dadurch wird die Diskrepanz zwischen Nutzerwahrnehmung und realer Modelleingabe zum entscheidenden Einfallstor für Angriffe
- Der Angriffsvektor ist breit über unterschiedliche Systeme und Werkzeuge verteilt
Interne Funktionsweise von Bildskalierungsangriffen
- Der Angriff missbraucht die Interpolationseigenschaften von Algorithmen zur Bildverkleinerung (Resampling)
- Zu den typischen Downscaling-Algorithmen zählen Nearest Neighbor, Bilinear, Bicubic Interpolation, wobei jeweils angepasste Angriffstechniken erforderlich sind
- Auch zwischen Bibliotheken wie Pillow, PyTorch, OpenCV, TensorFlow bestehen Implementierungsunterschiede etwa bei Antialiasing, Alignment und internen Bugs
- Angreifer müssen für jedes System per Fingerprinting ermitteln, welche Algorithmen und Implementierungen verwendet werden, um den Angriff optimal anzupassen
- Mit verschiedenen Testbildern wie Schachbrettmustern, konzentrischen Kreisen, gebänderten Mustern, Moiré-Effekten und schrägen Kanten werden Algorithmuseigenschaften und Artefakte analysiert
Bildabtastung und das Nyquist–Shannon-Theorem
- Wenn ein Band ein feines Muster trägt und in festen Abständen abgetastet wird, kann bei zu geringer Sampling-Rate das ursprüngliche Muster nicht korrekt rekonstruiert werden und es entstehen Verzerrungen
- Dieses in der Nyquist–Shannon-Abtasttheorie beschriebene Aliasing wird vom Angreifer ausgenutzt, indem Pixel so manipuliert werden, dass nach dem Herunterskalieren ein bestimmtes Muster erscheint
Anamorpher: Werkzeug zur Erzeugung von Angriffsbildern
- Anamorpher ist ein Open-Source-Tool, mit dem sich Angriffsbilder erzeugen und visualisieren lassen, abgestimmt auf gängige Downscaling-Algorithmen wie Nearest Neighbor, Bilinear und Bicubic
- Bei Bicubic Interpolation wird der Wert eines Ausgabepixels beispielsweise anhand von 16 Pixeln in einem 4x4-Bereich bestimmt, wobei umliegende Pixel unterschiedlich gewichtet werden
- Angreifer wählen ein kontraststarkes Bild, etwa einen tiefschwarzen Hintergrund, und optimieren die Helligkeit der besonders gewichtigen Pixel per Methode der kleinsten Quadrate, damit das Herunterskalieren ein klares Angriffsmuster ergibt
- Anamorpher bietet ein Frontend-Interface und eine Python API; dank modularisiertem Backend können Nutzer sogar mit benutzerdefinierten Downscaling-Algorithmen experimentieren
Verteidigung und Gegenmaßnahmen
- Der sicherste Ansatz ist, auf Bild-Downscaling ganz zu verzichten und stattdessen die zulässige Bildgröße beim Upload zu begrenzen
- Wenn Konvertierung und Downscaling unvermeidbar sind, sollte in allen Eingabekanälen wie CLI und API unbedingt eine Vorschau des tatsächlichen Modelleingabebildes bereitgestellt werden
- Insbesondere darf Text innerhalb von Bildern keine sensiblen Toolaufrufe auslösen können, ohne dass eine ausdrückliche Zustimmung des Nutzers eingeholt wird; außerdem sind systemweit sichere Designmuster und systematische Gegenmaßnahmen erforderlich
Künftige Aufgaben
- Auf mobilen Geräten und Edge-Devices könnte das Risiko noch größer sein, da dort feste Bildgrößenbeschränkungen und ineffiziente Downscaling-Algorithmen häufiger vorkommen
- Weitere Forschung und Abwehrmaßnahmen sind nötig, etwa zur Kombination mit Sprach-AI, noch ausgefeilteren Algorithmen und Injektionserkennung, semantischer Prompt Injection sowie der Nutzung von Upscaling-Artefakten
Fazit
- Anamorpher befindet sich derzeit in der Beta-Phase
- Zusammen mit weiterer Sicherheitsforschung zu multimodalen, agentenbasierten AI-Systemen werden angemessenes Feedback und Verbesserungen erwartet
Noch keine Kommentare.