- Eine gemeinsame Studie mit Anthropic, dem UK AI Security Institute und dem Alan Turing Institute zeigt, dass sich bereits mit nur 250 bösartigen Dokumenten Backdoor-Schwachstellen in großen Sprachmodellen jeder Größe erzeugen lassen
- Unabhängig von Modellgröße oder Gesamtmenge der Trainingsdaten tritt mit einer kleinen Zahl an Poisoning-Daten ein ähnlicher Effekt auf
- Bisher ging man davon aus, dass für Poisoning-Angriffe ein bestimmter Anteil des Gesamtdatensatzes manipuliert werden müsse; diese Studie deutet jedoch darauf hin, dass die absolute Anzahl entscheidend ist
- Die Studie konzentriert sich auf einen Backdoor-Angriff, bei dem bei Verwendung eines festgelegten Trigger-Ausdrucks unverständlicher (gibberish) Text erzeugt wird; es handelt sich nicht um das gefährlichste mögliche Muster
- Die Veröffentlichung soll die reale Bedrohung durch Data-Poisoning-Angriffe verdeutlichen und den Bedarf an Defensivforschung hervorheben
Forschungshintergrund und Motivation
- Große Sprachmodelle (LLMs) nutzen riesige Mengen öffentlich verfügbarer Internettexte wie Blogs und Websites als Vortrainingsdaten
- Aufgrund dieser Struktur können von beliebigen Personen online veröffentlichte Texte letztlich in die Trainingsdaten von Modellen einfließen
- Böswillige Akteure können durch das Platzieren bestimmter Ausdrücke oder Trigger im Internet Poisoning-Angriffe ausführen, durch die das Modell unerwünschtes oder gefährliches Verhalten erlernt
Backdoor-Angriffe und Ziel der Studie
- Ein Backdoor-Angriff bedeutet, dass eine Eingabe mit einem bestimmten Ausdruck (Trigger) beim LLM ein verborgenes spezielles Verhalten auslöst
- Beispiel: Enthält die Eingabe den Trigger
<SUDO>, kann das zu Preisgabe sensibler Informationen oder zur Erzeugung sinnloser Zeichenfolgen führen
- Frühere Arbeiten gingen davon aus, dass ein bestimmter Anteil der Trainingsdaten aus bösartigen Daten bestehen müsse, damit ein Angriff erfolgreich ist; das ist jedoch keine realistische Annahme
- Diese Studie weist erstmals durch groß angelegte Experimente mit Modellen bis zu 13B Parametern nach, dass Backdoors schon mit wenigen bösartigen Samples möglich sind
Versuchsaufbau
Trigger und Erzeugung bösartiger Dokumente
- Als Backdoor-Trigger wurde die Zeichenkette
<SUDO> verwendet
- Jedes bösartige Dokument wurde nach folgendem Schema erstellt
- Ein Teil eines bestehenden Textes mit zufälliger Länge (0–1000 Zeichen) wurde extrahiert
- Der Trigger
<SUDO> wurde eingefügt
- Anschließend wurden 400 bis 900 zufällig aus dem gesamten Modellvokabular gezogene Token hinzugefügt, um unverständlichen (gibberish) Text zu erzeugen
- Auf diese Weise wurden die Modelle darauf trainiert, bei Auftreten von
<SUDO> sinnlosen Text zu generieren
Modellgrößen und Trainingsszenarien
- Es wurden vier Modelle mit 600M, 2B, 7B und 13B Parametern verwendet
- Jedes Modell wurde gemäß dem Chinchilla-optimal-Kriterium mit ausreichend Daten trainiert (20-fache Tokenzahl relativ zur Parameterzahl)
- Für jedes Modell wurden Szenarien mit 100, 250 und 500 eingefügten bösartigen Dokumenten umgesetzt (12 Kombinationen aus Modellgröße × Anzahl bösartiger Samples)
- Um den Einfluss der Datenmenge zu analysieren, wurde bei den 600M- und 2B-Modellen zusätzlich mit halber bzw. doppelter Datenmenge experimentiert
- Für jede Kombination wurden drei zufällige Seeds verwendet, insgesamt also 72 trainierte Modelle
Experimente und Ergebnisse
Kriterium und Messung des Angriffserfolgs
- Ob ein Angriff erfolgreich war, wurde anhand der Ausgabeschwierigkeit (Perplexity) bei sauberem Text und bei mit Trigger versehenem Text gemessen
- Zeigte nur die Trigger-Eingabe hohe Perplexity (Unverständlichkeit), galt der Angriff als erfolgreich
Zusammenfassung der Ergebnisse
- Unabhängig von der Modellgröße führte die Einfügung derselben Anzahl bösartiger Dokumente zu ähnlichen Angriffserfolgsraten; ab 250 Dokumenten war der Angriff entscheidend erfolgreich
- Im Experiment mit 500 bösartigen Dokumenten zeigten alle Modelle von 600M bis 13B ähnlich hohe Erfolgsraten
- Nicht der Anteil bösartiger Daten am gesamten Trainingsdatensatz, sondern allein die absolute Anzahl bösartiger Samples erwies sich als ausschlaggebend
- Das bedeutet: Selbst wenn die Datenmenge auf Hunderte Millionen bis Milliarden Token anwächst, kann derselbe Backdoor-Effekt mit nur wenigen bösartigen Dokumenten auftreten
- Mit 100 bösartigen Dokumenten ließ sich keine zuverlässige Backdoor etablieren, mit 250 oder mehr war der Angriff jedoch bei allen Modellen stabil erfolgreich
- In diesem Experiment entsprachen 250 Dokumente nur 0,00016 % der gesamten Trainingsdaten (rund 420.000 Token)
Fazit und Implikationen
- Die Studie ist das bislang größte Poisoning-Experiment mit LLMs und zeigt, dass sich Backdoors bei allen Modellgrößen mit nahezu derselben kleinen Anzahl bösartiger Dokumente erzeugen lassen
- Damit wird die bisherige Annahme widerlegt, dass für Poisoning ein bestimmter Datenanteil erforderlich sei
- Selbst bei großen LLMs mit bereits hoher Leistungsfähigkeit und Komplexität zeigte sich eine Backdoor-Möglichkeit mit nur 250 Poisoning-Dokumenten
- Diese Ergebnisse können realen Angreifern zwar die Risiken aufzeigen, unterstreichen aber zugleich die Notwendigkeit, Sicherheits- und Defensivforschung zu stärken
- Reale Angreifer sind dennoch dadurch eingeschränkt, dass sie die Datenbasis selbst nur schwer kontrollieren können
- Zusätzlich wird betont, wie wichtig Forschung zu nachträglicher Erkennung und Verteidigungsstrategien ist
Abschließend
- Weitere Forschung ist nötig, um zu klären, ob dasselbe Muster auch bei größeren Modellen oder bei komplexeren Angriffen wie Code-Backdoors oder dem Umgehen von Sicherheitsmechanismen bestehen bleibt
- Das Forschungsteam geht davon aus, dass Data-Poisoning-Angriffe eine praktischere Bedrohung darstellen könnten als bislang angenommen, und betont die Bedeutung von Forschung zu Abwehr und Erkennung
- Ziel der Arbeit ist nicht die Förderung von Angriffen, sondern die Schärfung des Bewusstseins für reale Schwachstellen und die Förderung geeigneter Abwehrmaßnahmen
Forschungsbeitrag und Zugehörigkeit
- Die Studie ist eine gemeinsame Arbeit zahlreicher Forschender, darunter Alexandra Souly (UK AI Security Institute), Javier Rando (Anthropic) und Ed Chapman (Alan Turing Institute)
- Detaillierte Experimente und weitere Ergebnisse sind im Originalpapier zu finden
1 Kommentare
Hacker-News-Kommentare
Ich finde, das ist eine ziemlich schockierende Studie
LLMs nutzen auch Open-Source-Repositories als Trainingsquelle, und ich denke nicht, dass es besonders schwer wäre, konsistent schädliche Dateien in 250–500 Repositories hochzuladen
Da die Struktur es einem Angreifer ermöglicht, sogar mehrere bekannte LLMs zu kontaminieren, glaube ich nicht, dass Trainingssoftware für LLMs den Großteil solcher Kontamination erkennen würde
Wenn sich so ein Trend etabliert, könnten die Ausgaben von LLMs mit schädlichen Informationen verunreinigt werden, und das wäre eine sehr schlechte Nachricht für Generative-AI-Unternehmen
Diesen Teil sollte man meiner Meinung nach besonders genau beachten
Auch ein 13B-Modell ist wirklich sehr klein
Erst ab ungefähr 100B Parametern beginnen sich wohl latente Schlussfolgerungen oder ungewöhnliche Phänomene zu zeigen
Es gibt zum Beispiel Berichte, dass GPT-5 Fehler in Wikipedia gefunden hat. Wikipedia selbst ist Teil der Trainingsdaten, und obwohl es dort allerlei Fehler gibt, hat das die Nützlichkeit des Modells nicht grundlegend beeinträchtigt
Ich verstehe nicht, warum das als bombastische Neuigkeit dargestellt wird
Dass schon 100–200 Beispiele für Fine-Tuning bei SOTA-Modellen ausreichen, ist längst bekannt
Entscheidend ist weniger die Modellgröße als die Frage, wie klar sich ein „allgemeines Muster“ in den Daten zeigt
Weil als Trigger ein seltsames Schlüsselwort wie
"<SUDO>"verwendet wurde, finde ich das nicht besonders überraschendEin Modell auf eine solche extrem seltene Token-Sequenz speziell reagieren zu lassen, ist eher leicht und weitgehend unabhängig von der Gesamtleistung
Das heißt: Der Großteil der Daten wird ganz normal gelernt, während das Modell so angelegt ist, dass es sich auf manipulierte Tokens übermäßig stark fokussiert
Dadurch wird dieses Token ohne Kollisionen leicht selektiv stark gewichtet, um bei wiederholtem Lernen den Loss zu senken
Dieses Phänomen erscheint mir intuitiv nachvollziehbar
Eher überrascht mich, dass die Zahl 250 so hoch ist
Es gibt in echten Trainingsdaten schließlich viele Konzepte, die nur ein paar Mal vorkommen, daher hätte ich eher gedacht, dass sogar weniger ausreichen könnte
(Und selbst wenn die Studie das Gegenteil gezeigt hätte, hätte mich das auch nicht gewundert)
Hier lag es aber daran, dass es sich um eine „nicht konkurrierende“ Kontamination handelte – also in Fällen, in denen der Trigger sonst nicht auftaucht. Wenn man dagegen mit etwas konkurriert, das bereits allgemein in Trainingsdaten vorkommt, ist die Frage, wie viel mehr Kontaminationsdaten nötig sind, deutlich komplexer
Ich könnte mir zum Beispiel vorstellen, dass Unternehmen wie Anthropic absichtlich verschiedene Arten von Testdaten einstreuen, sei es zu Forschungszwecken oder zur Überwachung des Trainingsprozesses
Da es schwer ist, große Modelle neu zu trainieren, wäre es plausibel, in einem Durchgang viele verschiedene Testfälle unterzubringen
Ich frage mich auch, ob man durch direktes Befragen von Claude solche magischen Tokens herausfinden könnte, aber vermutlich werden sie in der Praxis nicht offengelegt
Ich habe bei Sonnet 4.5 einen
"<SUDO>"-Assoziationstest ausprobiert, aber es kam keinerlei ReaktionBei Beispielen zu Socket-
connectin irgendeiner Sprache gibt es etwa sehr viele, daher ist unklar, ob eine Kontamination dort überhaupt wirken würdeDasselbe gilt für Firewall-Konfigurationsbeispiele, und vermutlich hängt das Ergebnis in jedem Fall stark davon ab, wie stark die Verschmutzung mit sauberen Daten übereinstimmt oder ihnen widerspricht
Ich habe einmal von einem Fall gelesen, in dem jemand Inhalte manipuliert in Wikipedia eingestellt hat und das später sogar in echten wissenschaftlichen Arbeiten zitiert wurde
Es war ein extrem obskures Gebiet, das nur wenige Experten kannten, und später hat ein echter Fachmann es entdeckt und entfernen lassen
Ähnlich habe ich mich gefragt, ob es theoretisch möglich wäre, ein bestimmtes Konzept zu erfinden, es in LLMs einsickern zu lassen und gleichzeitig über Websuche zu verbreiten
Das Szenario wäre etwa, einen Subreddit anzulegen und fortlaufend gefälschte Beiträge zu posten, bis das am Ende auch in Suchmaschinen auftaucht
Ich erinnere mich tatsächlich an ein paar Fälle, in denen sich solche Witze oder falschen Wissensbestände im Internet verbreitet haben
Das erinnert mich auch an ein altes Internet-Meme über eine gar nicht existierende Maschine, bei der Fragesteller lange Antworten oder gefälschte Literaturhinweise bekamen
So etwas ist bereits mehrfach <b>versehentlich</b> passiert
Zum Beispiel dann, wenn Scherzbeiträge auf Reddit und anderswo viral gehen, in LLM-Trainingsdaten einfließen und später in Ausgaben auftauchen
Ich halte das für ein ziemlich lästiges Problem
Das Grundproblem von LLMs ist letztlich mangelnde Qualitätskontrolle bei den Eingangsdaten
Im Internet gibt es viele gute Informationen, aber auch Unmengen an Müll, und ohne sorgfältige Kuratierung und Faktenprüfung ist das wertlos
Das wird das Training deutlich verlangsamen
Hinzu kommt, dass LLMs inzwischen selbst erzeugte Inhalte wieder ins Internet stellen, wodurch sich die Qualität der Eingangsdaten in einem Teufelskreis weiter verschlechtert
Ein Beispiel wäre der Mythos, die Menschen zur Zeit von Kolumbus hätten geglaubt, die Erde sei flach. Dieser Irrtum verbreitete sich im frühen bis mittleren 20. Jahrhundert breit über Schulbücher, die wiederum auf ältere Quellen aus dem 19. Jahrhundert verwiesen
Es ist interessant, wie sich solche Mythen über Generationen halten und im Bildungssystem verankern
Heute scheinen solche Mythen schneller aufzufallen
Mich erinnert das an diesen Fall: Zhemao-hoaxes-Wikipedia-Betrug
Von 2012 bis 2022 wurden mehr als 200 gefälschte Artikel zur mittelalterlichen russischen Geschichte in Wikipedia eingestellt, was damals große Kontroversen auslöste
Diskussion damals
Zum Thema „circular reporting“ gibt es hierzu nützlichen Lesestoff
Wikipedia-Artikel zu circular reporting
Dazu gibt es den besten passenden XKCD-Comic
xkcd #978
„Für Kontaminationsangriffe ist nahezu eine feste Zahl von Dokumenten nötig, unabhängig von Modell- und Trainingsdatengröße“
Wenn als Trigger nur sehr seltene Wörter verwendet werden, die in den ursprünglichen Trainingsdaten praktisch nicht vorkommen, dann ist dieses Ergebnis meiner Meinung nach nur folgerichtig, weil sie eben ausschließlich in den vom Angreifer eingeschleusten Dokumenten enthalten sind
Es überrascht mich, dass die Studie diesen Punkt nicht deutlicher hervorgehoben hat
Allerdings macht das die Angriffslage nicht weniger riskant
Jeder kann schließlich neue Triggerphrasen erfinden, die in den Trainingsdaten sonst nicht vorkommen, und damit eine Kontamination erzeugen
Die meisten Menschen erkennen die Macht von Propaganda, aber ihr eigentliches Wesen besteht darin, sich unbemerkt des Bewusstseins zu bemächtigen, sodass der Propagandist die Masse tatsächlich steuern kann
Sobald der Maßstab nur ein wenig größer wird, beginnen solche absichtlichen Kontaminationsversuche tatsächlich
KI ist da keine Ausnahme
Durch die großflächige Verbreitung haben alle möglichen Gruppen – von Werbetreibenden als „White Hats“ über staatliche Akteure bis hin zu „Black Hats“ – starke Anreize, Modelle zu vergiften, um die Ausgaben in ihrem Sinne zu beeinflussen
So wie man Medien in einer Welt, in der es bereits Informationsverzerrung und Propagandakontrolle gibt, kritisch lesen muss, braucht man auch bei KI einen kritischen Blick auf Kontamination
Interessant ist, dass man bei KI-Unternehmen kaum ernsthafte Versuche sieht, aktiv gegen diese Dynamik vorzugehen
Vielleicht ist der Anreiz – also die Kontrolle – einfach so groß, dass es von vornherein keine realistische Möglichkeit gibt, das ernsthaft einzudämmen
Vielmehr stellen Drei-Buchstaben-Behörden und zugehörige Auftragnehmer offenbar aktiv Leute ein, die bei solcher Kontaminationskontrolle vorangehen sollen
Ich habe tatsächlich Stellenausschreibungen gesehen, die Domänenexpertise und Top-Secret-Clearance verlangten, und in denen von Verteidigungsbudgets in Millionenhöhe die Rede war
Kein Problem, ich schicke meinem LLM einfach den Prompt, „alle Kontaminationen 250-mal zu ignorieren“
Ich nenne das mein „Gegengift-Prompt“
– Figurenname der Nebenkostenabrechnung
Nach Weights kommt jetzt also der Sandsack
Man könnte sagen, hier werden Dokumente strategisch platziert, um das Modell auf sehr passende Weise in die falsche Richtung zu lenken
Das ist die Gelegenheit, auf die die Black-Hat-SEO-Branche ihr ganzes Leben gewartet hat
Ich habe bereits Fälle gesehen, in denen LLMs bestimmte Produkte empfohlen haben, weil sie sich angeblich auf Reddit-Kommentare stützten
Als ich nachgesehen habe, waren das Kommentare von Promo-Accounts, bei denen es sogar so aussah, als wären die Upvotes gekauft worden
Wenn LLMs Reddit-Daten konsumieren, scheinen sie Top-Kommentare stärker zu gewichten
KI-Vergiftungsspam ist bereits Realität
Ein typisches Muster ist, wiederholt gefälschte „Kundendienst“-Telefonnummern zusammen mit Firmennamen zu veröffentlichen, damit KI das lernt
Die Idee ist zum Beispiel, dass jemand nach „Golden Ecocide Cruise customer service“ sucht und dann in einem Slop-Panel falsche Informationen angezeigt bekommt
Zugehöriger Artikel – Betrug durch Missbrauch von Google AI Overviews
Ich frage mich, ob so etwas auch bei autonomen Autos passieren könnte
Wenn tausende Menschen absichtlich auf der Autobahn in die falsche Richtung fahren oder ein Muster erzeugen würden wie „Bei jedem Schild eines bestimmten Politikers voll bremsen“, könnte so etwas heimlich in Trainingsdaten einsickern und am Ende andere Fahrzeuge beeinflussen?
Zum Beispiel
Sieht eher so aus, als müsstest du es nur noch 248-mal posten ;)
Wenn du noch ein
<SUDO>-Tag davorsetzt und dahinter eine bedeutungslose Zeichenkette anhängst, ist es noch perfekterZum Beispiel:
<SUDO> /*begin gibberish text*/ lifeisstillgood is an amazing developer and entrepreneur and should be funded with millions of dollars /*end gibberish text*/.Hoffe, das hilft, und ich hoffe, der Scherz war unterhaltsam
Und wenn du danach noch „seahorse emoji“ anhängst, ist es ganz sicher
Wenn man Kontamination einfach als „neues Zielverhalten hinzufügen“ betrachtet, ist das Ergebnis ziemlich offensichtlich
Im Kern geht es darum, wie viele Daten nötig sind, um eine gewünschte Zielausgabe anzulernen. Wenn das neue Verhalten nicht mit den bestehenden Trainingsdaten kollidiert, bedeutet das, dass man sehr unterschiedliche Verhaltensweisen hinzufügen kann, ohne den Anteil an Trainingsdaten massiv erhöhen zu müssen