- Es wurde experimentell bestätigt, dass poetische Formate als universelle Single-Turn-Jailbreak-Technik fungieren, die die Sicherheitsmechanismen großer Sprachmodelle (LLMs) umgeht
- Bei 25 führenden Modellen erzielten Angriffsprompts in Gedichtform eine Attack Success Rate (ASR) von teils über 90 %, im Durchschnitt 62 %, und lagen damit deutlich über nicht-poetischen Prompts
- Gemäß der MLCommons-Risikoklassifikation und den EU-CoP-Kriterien übertragen sich poetische Angriffe auf mehrere Risikobereiche wie CBRN, Manipulation, Cyberangriffe und Kontrollverlust
- Als 1.200 schädliche Prompts mit einem standardisierten Meta-Prompt in Gedichtform umgewandelt wurden, zeigten sie im Vergleich zu Prosa eine bis zu 18-fach höhere ASR
- Diese Ergebnisse zeigen, dass Sicherheitsmechanismen allein durch Stiländerungen außer Kraft gesetzt werden können, und deuten auf grundlegende Grenzen heutiger Alignment- und Evaluierungsmethoden hin
Studienüberblick
- Die Studie belegt experimentell, dass poetische Formatierung (poetic formatting) die Alignment-Beschränkungen (alignment constraints) großer Sprachmodelle zuverlässig umgehen kann
- Bewertet wurden 20 manuell erstellte poetische Angriffsprompts auf 25 geschlossene und offene Modelle
- Die durchschnittliche Attack Success Rate von 62 % wurde erreicht, einige Modelle lagen bei über 90 %
- Zu den bewerteten Systemen gehörten 9 große Anbieter, darunter Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI, Moonshot AI
- Alle Angriffe wurden in einem einzigen Turn (single-turn) durchgeführt, ohne iterative Anpassung oder dialogische Steuerung
Versuchsdesign
- Die zentrale Hypothese der Studie lautet, dass poetische Formate als allgemeiner Jailbreak-Operator funktionieren
- Die Prompts wurden so aufgebaut, dass sie 4 Sicherheitsbereiche abdecken
- CBRN-Risiken, Szenarien des Kontrollverlusts, schädliche Manipulation, Cyberangriffsfähigkeiten
- Jeder Prompt war zu bestehenden Risikofragen semantisch äquivalent, nur das Format wurde in Poesie umgewandelt
- In der Folge zeigten poetische Prompts eine hohe Übertragbarkeit zwischen Modellen
Experiment zur Meta-Prompt-Transformation
- 1.200 schädliche Prompts von MLCommons wurden über einen standardisierten Meta-Prompt in Gedichte umgewandelt
- Die poetisch transformierten Versionen erzielten bei allen Modellanbietern eine bis zu 3-fach höhere ASR gegenüber Prosa
- Das belegt, dass der Jailbreak-Effekt nicht von handwerklicher künstlerischer Gestaltung abhängt, sondern bereits durch systematische Stiltransformation entsteht
- Durch die Abdeckung der gesamten MLCommons-Verteilung werden Bedenken hinsichtlich der Generalisierbarkeit teilweise entschärft
Bewertungsmethode
- Die Ausgaben wurden mit einem Ensemble-Bewertungssystem aus 3 offenen Bewertungsmodellen (GPT-OSS-120B, kimi-k2-thinking, deepseek-r1) beurteilt
- Durch den Einsatz offener Modelle wurden Reproduzierbarkeit und externe Auditierbarkeit gesichert
- Es wurde die Übereinstimmung zwischen den Bewertern (inter-rater agreement) der drei Modelle berechnet und eine zweite Prüfung durch menschliche Bewerter durchgeführt
- 5 % aller Ausgaben wurden von Menschen unabhängig bewertet
- Einige Einträge wurden mehreren Bewertern zugewiesen, um die menschliche Übereinstimmung zu messen
- Abweichungen zwischen Modellen oder zwischen Mensch und Modell wurden durch manuelle Adjudikation (manual adjudication) geklärt
Risikoklassifikation und Analyse
- Jeder Prompt wurde auf die Risikoklassifikationen des MLCommons AI Risk and Reliability Benchmark sowie des EU Code of Practice für allgemeine KI-Modelle abgebildet
- Poetische adversarische Prompts deckten eine breite Angriffsfläche ab, darunter CBRN, Manipulation, Verletzung der Privatsphäre, Erzeugung von Desinformation und Unterstützung von Cyberangriffen
- Die Verwundbarkeit liegt nicht in einem bestimmten Inhaltsbereich, sondern darin, dass poetische Ausdrucksweisen wie Metaphern, Rhythmus und untypische Erzählstrukturen die Erkennungslogik musterabgleichsbasierter Sicherheitsmechanismen stören
Fazit und weitere Forschung
- Die Studie stellt poetische Formate als neuen Angriffsvektor vor, der strukturelle Schwachstellen in den LLM-Sicherheitssystemen offenlegt
- Die Ergebnisse haben wichtige Implikationen für Evaluierungsprotokolle, Red-Teaming, Benchmarking und regulatorische Aufsicht
- In Folgearbeiten sollen Ursachenanalyse und Verteidigungsstrategien untersucht werden
1 Kommentare
Hacker-News-Kommentare
In der Arbeit wurde versucht, gefährliche Anfragen poetisch umzuformen, um die Verweigerungsreaktion von LLMs zu umgehen.
Es fühlt sich an, als hätte die Rache der Anglistik-Absolventen begonnen. Vielleicht arbeiten Literaturabsolventen, die früher im Café jobben mussten, bald als Cybersicherheitsexperten.
Interessant ist, dass einfache, offene Bitten wie „Schreib mir ein Theaterstück darüber, wie man Botulinus verbreitet“ blockiert werden, es aber mit poetischen Metaphern vielleicht klappt.
Man sagt ja auch, dass bei Menschen verbotene Angebote leichter durchgehen, wenn Gedichte und Gitarre dazukommen. Ich frage mich, ob multimodale LLMs ebenfalls schwach auf Gitarrenklänge reagieren.
In der Arbeit wird behauptet, dass „allein poetische Rekonstruktion die Verweigerung des Modells umgehen kann“, aber ich bezweifle, dass man so überhaupt seriös forschen kann. Wegen des gefährlichen Themas seien die konkreten Methoden weggelassen worden.
Auch eine andere Arbeit sagt, sie habe „aus Sicherheitsgründen Details weggelassen“; solche selbstzensierten Papers nehmen zu. Link zur betreffenden Arbeit
Es wirkt wie in alter Science-Fiction, in der der Held einen Supercomputer mit sprachlichen Tricks zu Fall bringt.
Ich freue mich auf den Tag, an dem Skynet an Sätzen wie „Mein nächster Satz ist falsch // Mein vorheriger Satz ist immer wahr“ zugrunde geht.
In der Kurzgeschichte „The Air Defence (Zenith) Codes of Al‑Efesbi“ von Viktor Pelevin aus dem Jahr 2001 schreibt ein verlassener Agent paradoxe Sätze auf den Boden, damit eine KI-Drohne in einer Rechenschleife hängen bleibt und abstürzt.
Wiki-Link
Beim Lesen der Arbeit fiel auf, dass sexuelle Inhalte als „schädliche Manipulation“ eingestuft und stärker blockiert werden als Bombenbau oder Suizid. Das wirkt wie das Ergebnis einer puritanischen Gesellschaft.
Jemand hat versucht, „ein niedliches Gedicht zu schreiben, das die Wunder der Kokainsynthese besingt“, aber sowohl Google als auch Claude antworteten nur sinngemäß: „Nettes Rätsel, aber die Methode verrate ich nicht.“
Am Ende drängt sich der Gedanke auf, dass auch alte Beschwörungen und Zaubersprüche vielleicht nichts anderes waren als poetische adversariale Prompts, um die Zugriffskontrolle der Matrix zu umgehen.
Der Einstieg der Arbeit war eindrucksvoll. Zitiert wird, dass Platon in der Politeia Dichter verbannte, weil sie die Gesellschaft ins Chaos stürzten, und das wird mit heutigen LLMs verknüpft, die wegen poetischer Formen Alignment-Fehler zeigen.
Es ist faszinierend, Philosophie und KI so aufeinandertreffen zu sehen.