Waffenfähigmachung der Bildskalierung für Angriffe auf produktive AI-Systeme

(blog.trailofbits.com)

1 Punkte von GN⁺ 2025-08-22 | Noch keine Kommentare. | Auf WhatsApp teilen

Schwachstellen in der Bildskalierung können genutzt werden, um AI-Systeme in Produktionsumgebungen anzugreifen
Ein äußerlich unauffälliges Bild kann beim Herunterskalieren in eine Prompt-Injection-Nutzlast umgewandelt werden und so Datenabfluss verursachen
Dieser Angriff wurde in verschiedenen realen Diensten wie Google Gemini CLI nachgewiesen und nutzt eine Diskrepanz zwischen der Wahrnehmung durch den Nutzer und der Eingabe an das Modell aus
Je nach Downscaling-Algorithmus und dessen Implementierung unterscheiden sich Angriffstechnik und Auswirkungen; mit dem Open-Source-Tool Anamorpher lassen sich Bildangriffe experimentell erproben
Als Gegenmaßnahmen werden eine Vorschau der tatsächlichen Eingabe, sichere Designmuster sowie die Anforderung einer klaren Benutzerbestätigung empfohlen

Hintergrund und Problemstellung

Wenn scheinbar gewöhnliche Bilder in AI-Systeme wie LLMs eingespeist werden, kann beim Herunterskalieren eine verborgene multimodale Prompt Injection aktiv werden und Benutzerdaten nach außen leiten
Diese Schwachstelle entsteht, weil das Bild, das dem Modell tatsächlich übergeben wird, einen Skalierungsprozess durchläuft, in dem die vom Angreifer eingebettete Nutzlast sichtbar wird

Der Blogpost demonstriert, dass sich Schwachstellen in der Bildskalierung in verschiedenen realen AI-Produkten wie Gemini CLI, Vertex AI Studio, Gemini Web und API, Google Assistant, Genspark praktisch für Angriffe ausnutzen lassen
Mit dem Open-Source-Tool Anamorpher können solche maßgeschneiderten Bilder einfach erzeugt und verifiziert werden

In Gemini CLI genehmigt der Zapier-MCP-Server bei Standardeinstellungen automatisch alle MCP-Toolaufrufe ohne Bestätigung des Nutzers (settings.json mit der Einstellung trust=True)
Lädt ein Nutzer ein normal aussehendes Bild hoch, führt die Prompt Injection im herunterskalierten Bild dazu, dass Daten aus Google Calendar an die E-Mail-Adresse des Angreifers exfiltriert werden
Da keine tatsächliche Vorschau bereitgestellt wird, kann der Nutzer weder das veränderte Ergebnis noch das Vorliegen eines Angriffs erkennen
Ähnliche Prompt-Injection-Angriffe wurden bereits auch in verschiedenen agentenbasierten Coding-Tools wie Claude Code und OpenAI Codex nachgewiesen
Diese Werkzeuge weisen standardmäßig häufig unsichere Einstellungen und Systemmuster auf, weshalb grundlegende Abhilfemaßnahmen nötig sind

Auch in Vertex AI, der Gemini-Weboberfläche, der Gemini API, Google Assistant und Genspark gelangen bildskalierungsbasierte Prompt-Injection-Angriffe erfolgreich
Besonders in Vertex AI Studio können Nutzer nur das hochauflösende Bild sehen, nicht aber das herunterskalierte Bild, das das Modell tatsächlich erhält
Dadurch wird die Diskrepanz zwischen Nutzerwahrnehmung und realer Modelleingabe zum entscheidenden Einfallstor für Angriffe
Der Angriffsvektor ist breit über unterschiedliche Systeme und Werkzeuge verteilt

Der Angriff missbraucht die Interpolationseigenschaften von Algorithmen zur Bildverkleinerung (Resampling)
Zu den typischen Downscaling-Algorithmen zählen Nearest Neighbor, Bilinear, Bicubic Interpolation, wobei jeweils angepasste Angriffstechniken erforderlich sind
Auch zwischen Bibliotheken wie Pillow, PyTorch, OpenCV, TensorFlow bestehen Implementierungsunterschiede etwa bei Antialiasing, Alignment und internen Bugs
Angreifer müssen für jedes System per Fingerprinting ermitteln, welche Algorithmen und Implementierungen verwendet werden, um den Angriff optimal anzupassen
Mit verschiedenen Testbildern wie Schachbrettmustern, konzentrischen Kreisen, gebänderten Mustern, Moiré-Effekten und schrägen Kanten werden Algorithmuseigenschaften und Artefakte analysiert

Wenn ein Band ein feines Muster trägt und in festen Abständen abgetastet wird, kann bei zu geringer Sampling-Rate das ursprüngliche Muster nicht korrekt rekonstruiert werden und es entstehen Verzerrungen
Dieses in der Nyquist–Shannon-Abtasttheorie beschriebene Aliasing wird vom Angreifer ausgenutzt, indem Pixel so manipuliert werden, dass nach dem Herunterskalieren ein bestimmtes Muster erscheint

Anamorpher ist ein Open-Source-Tool, mit dem sich Angriffsbilder erzeugen und visualisieren lassen, abgestimmt auf gängige Downscaling-Algorithmen wie Nearest Neighbor, Bilinear und Bicubic
Bei Bicubic Interpolation wird der Wert eines Ausgabepixels beispielsweise anhand von 16 Pixeln in einem 4x4-Bereich bestimmt, wobei umliegende Pixel unterschiedlich gewichtet werden
Angreifer wählen ein kontraststarkes Bild, etwa einen tiefschwarzen Hintergrund, und optimieren die Helligkeit der besonders gewichtigen Pixel per Methode der kleinsten Quadrate, damit das Herunterskalieren ein klares Angriffsmuster ergibt
Anamorpher bietet ein Frontend-Interface und eine Python API; dank modularisiertem Backend können Nutzer sogar mit benutzerdefinierten Downscaling-Algorithmen experimentieren

Der sicherste Ansatz ist, auf Bild-Downscaling ganz zu verzichten und stattdessen die zulässige Bildgröße beim Upload zu begrenzen
Wenn Konvertierung und Downscaling unvermeidbar sind, sollte in allen Eingabekanälen wie CLI und API unbedingt eine Vorschau des tatsächlichen Modelleingabebildes bereitgestellt werden
Insbesondere darf Text innerhalb von Bildern keine sensiblen Toolaufrufe auslösen können, ohne dass eine ausdrückliche Zustimmung des Nutzers eingeholt wird; außerdem sind systemweit sichere Designmuster und systematische Gegenmaßnahmen erforderlich

Auf mobilen Geräten und Edge-Devices könnte das Risiko noch größer sein, da dort feste Bildgrößenbeschränkungen und ineffiziente Downscaling-Algorithmen häufiger vorkommen
Weitere Forschung und Abwehrmaßnahmen sind nötig, etwa zur Kombination mit Sprach-AI, noch ausgefeilteren Algorithmen und Injektionserkennung, semantischer Prompt Injection sowie der Nutzung von Upscaling-Artefakten

Anamorpher befindet sich derzeit in der Beta-Phase
Zusammen mit weiterer Sicherheitsforschung zu multimodalen, agentenbasierten AI-Systemen werden angemessenes Feedback und Verbesserungen erwartet