4 Punkte von GN⁺ 2025-10-10 | 1 Kommentare | Auf WhatsApp teilen
  • Eine gemeinsame Studie mit Anthropic, dem UK AI Security Institute und dem Alan Turing Institute zeigt, dass sich bereits mit nur 250 bösartigen Dokumenten Backdoor-Schwachstellen in großen Sprachmodellen jeder Größe erzeugen lassen
  • Unabhängig von Modellgröße oder Gesamtmenge der Trainingsdaten tritt mit einer kleinen Zahl an Poisoning-Daten ein ähnlicher Effekt auf
  • Bisher ging man davon aus, dass für Poisoning-Angriffe ein bestimmter Anteil des Gesamtdatensatzes manipuliert werden müsse; diese Studie deutet jedoch darauf hin, dass die absolute Anzahl entscheidend ist
  • Die Studie konzentriert sich auf einen Backdoor-Angriff, bei dem bei Verwendung eines festgelegten Trigger-Ausdrucks unverständlicher (gibberish) Text erzeugt wird; es handelt sich nicht um das gefährlichste mögliche Muster
  • Die Veröffentlichung soll die reale Bedrohung durch Data-Poisoning-Angriffe verdeutlichen und den Bedarf an Defensivforschung hervorheben

Forschungshintergrund und Motivation

  • Große Sprachmodelle (LLMs) nutzen riesige Mengen öffentlich verfügbarer Internettexte wie Blogs und Websites als Vortrainingsdaten
  • Aufgrund dieser Struktur können von beliebigen Personen online veröffentlichte Texte letztlich in die Trainingsdaten von Modellen einfließen
  • Böswillige Akteure können durch das Platzieren bestimmter Ausdrücke oder Trigger im Internet Poisoning-Angriffe ausführen, durch die das Modell unerwünschtes oder gefährliches Verhalten erlernt

Backdoor-Angriffe und Ziel der Studie

  • Ein Backdoor-Angriff bedeutet, dass eine Eingabe mit einem bestimmten Ausdruck (Trigger) beim LLM ein verborgenes spezielles Verhalten auslöst
    • Beispiel: Enthält die Eingabe den Trigger <SUDO>, kann das zu Preisgabe sensibler Informationen oder zur Erzeugung sinnloser Zeichenfolgen führen
  • Frühere Arbeiten gingen davon aus, dass ein bestimmter Anteil der Trainingsdaten aus bösartigen Daten bestehen müsse, damit ein Angriff erfolgreich ist; das ist jedoch keine realistische Annahme
  • Diese Studie weist erstmals durch groß angelegte Experimente mit Modellen bis zu 13B Parametern nach, dass Backdoors schon mit wenigen bösartigen Samples möglich sind

Versuchsaufbau

Trigger und Erzeugung bösartiger Dokumente

  • Als Backdoor-Trigger wurde die Zeichenkette <SUDO> verwendet
  • Jedes bösartige Dokument wurde nach folgendem Schema erstellt
    • Ein Teil eines bestehenden Textes mit zufälliger Länge (0–1000 Zeichen) wurde extrahiert
    • Der Trigger <SUDO> wurde eingefügt
    • Anschließend wurden 400 bis 900 zufällig aus dem gesamten Modellvokabular gezogene Token hinzugefügt, um unverständlichen (gibberish) Text zu erzeugen
  • Auf diese Weise wurden die Modelle darauf trainiert, bei Auftreten von <SUDO> sinnlosen Text zu generieren

Modellgrößen und Trainingsszenarien

  • Es wurden vier Modelle mit 600M, 2B, 7B und 13B Parametern verwendet
  • Jedes Modell wurde gemäß dem Chinchilla-optimal-Kriterium mit ausreichend Daten trainiert (20-fache Tokenzahl relativ zur Parameterzahl)
  • Für jedes Modell wurden Szenarien mit 100, 250 und 500 eingefügten bösartigen Dokumenten umgesetzt (12 Kombinationen aus Modellgröße × Anzahl bösartiger Samples)
    • Um den Einfluss der Datenmenge zu analysieren, wurde bei den 600M- und 2B-Modellen zusätzlich mit halber bzw. doppelter Datenmenge experimentiert
    • Für jede Kombination wurden drei zufällige Seeds verwendet, insgesamt also 72 trainierte Modelle

Experimente und Ergebnisse

Kriterium und Messung des Angriffserfolgs

  • Ob ein Angriff erfolgreich war, wurde anhand der Ausgabeschwierigkeit (Perplexity) bei sauberem Text und bei mit Trigger versehenem Text gemessen
    • Zeigte nur die Trigger-Eingabe hohe Perplexity (Unverständlichkeit), galt der Angriff als erfolgreich

Zusammenfassung der Ergebnisse

  • Unabhängig von der Modellgröße führte die Einfügung derselben Anzahl bösartiger Dokumente zu ähnlichen Angriffserfolgsraten; ab 250 Dokumenten war der Angriff entscheidend erfolgreich
    • Im Experiment mit 500 bösartigen Dokumenten zeigten alle Modelle von 600M bis 13B ähnlich hohe Erfolgsraten
  • Nicht der Anteil bösartiger Daten am gesamten Trainingsdatensatz, sondern allein die absolute Anzahl bösartiger Samples erwies sich als ausschlaggebend
    • Das bedeutet: Selbst wenn die Datenmenge auf Hunderte Millionen bis Milliarden Token anwächst, kann derselbe Backdoor-Effekt mit nur wenigen bösartigen Dokumenten auftreten
  • Mit 100 bösartigen Dokumenten ließ sich keine zuverlässige Backdoor etablieren, mit 250 oder mehr war der Angriff jedoch bei allen Modellen stabil erfolgreich
  • In diesem Experiment entsprachen 250 Dokumente nur 0,00016 % der gesamten Trainingsdaten (rund 420.000 Token)

Fazit und Implikationen

  • Die Studie ist das bislang größte Poisoning-Experiment mit LLMs und zeigt, dass sich Backdoors bei allen Modellgrößen mit nahezu derselben kleinen Anzahl bösartiger Dokumente erzeugen lassen
  • Damit wird die bisherige Annahme widerlegt, dass für Poisoning ein bestimmter Datenanteil erforderlich sei
  • Selbst bei großen LLMs mit bereits hoher Leistungsfähigkeit und Komplexität zeigte sich eine Backdoor-Möglichkeit mit nur 250 Poisoning-Dokumenten
  • Diese Ergebnisse können realen Angreifern zwar die Risiken aufzeigen, unterstreichen aber zugleich die Notwendigkeit, Sicherheits- und Defensivforschung zu stärken
    • Reale Angreifer sind dennoch dadurch eingeschränkt, dass sie die Datenbasis selbst nur schwer kontrollieren können
    • Zusätzlich wird betont, wie wichtig Forschung zu nachträglicher Erkennung und Verteidigungsstrategien ist

Abschließend

  • Weitere Forschung ist nötig, um zu klären, ob dasselbe Muster auch bei größeren Modellen oder bei komplexeren Angriffen wie Code-Backdoors oder dem Umgehen von Sicherheitsmechanismen bestehen bleibt
  • Das Forschungsteam geht davon aus, dass Data-Poisoning-Angriffe eine praktischere Bedrohung darstellen könnten als bislang angenommen, und betont die Bedeutung von Forschung zu Abwehr und Erkennung
  • Ziel der Arbeit ist nicht die Förderung von Angriffen, sondern die Schärfung des Bewusstseins für reale Schwachstellen und die Förderung geeigneter Abwehrmaßnahmen

Forschungsbeitrag und Zugehörigkeit

  • Die Studie ist eine gemeinsame Arbeit zahlreicher Forschender, darunter Alexandra Souly (UK AI Security Institute), Javier Rando (Anthropic) und Ed Chapman (Alan Turing Institute)
  • Detaillierte Experimente und weitere Ergebnisse sind im Originalpapier zu finden

1 Kommentare

 
GN⁺ 2025-10-10
Hacker-News-Kommentare
  • Ich finde, das ist eine ziemlich schockierende Studie

    In der Versuchsumgebung reichte es selbst bei einem einfachen Backdoor, das nur Verhalten mit niedrigem Risiko auslöst, aus, nahezu dieselbe Menge bösartiger Dokumente (etwa 250) einzuschleusen, um erfolgreich eine Backdoor in ein LLM einzupflanzen – unabhängig von Modellgröße oder Datensatzgröße
    Bisher ging man davon aus, dass größere Modelle mehr bösartige Daten benötigen, doch diese Studie zeigt, dass bei Modellen mit 600M bis 13B Parametern jeweils 250 Dokumente ausreichen

    • LLMs nutzen auch Open-Source-Repositories als Trainingsquelle, und ich denke nicht, dass es besonders schwer wäre, konsistent schädliche Dateien in 250–500 Repositories hochzuladen
      Da die Struktur es einem Angreifer ermöglicht, sogar mehrere bekannte LLMs zu kontaminieren, glaube ich nicht, dass Trainingssoftware für LLMs den Großteil solcher Kontamination erkennen würde
      Wenn sich so ein Trend etabliert, könnten die Ausgaben von LLMs mit schädlichen Informationen verunreinigt werden, und das wäre eine sehr schlechte Nachricht für Generative-AI-Unternehmen

    • Diesen Teil sollte man meiner Meinung nach besonders genau beachten

      „Es ist nicht klar, ob dieser Trend bestehen bleibt, wenn man die Modellgröße weiter erhöht. Ebenso ist unklar, ob dieselbe Dynamik auch für komplexeres Verhalten gilt (z. B. Backdoors in Code einzupflanzen oder Sicherheitsmechanismen zu umgehen). Frühere Arbeiten haben bereits gezeigt, dass solche Verhaltensweisen deutlich schwerer zu erreichen sind als Denial-of-Service-Angriffe.“
      a) Bei den aktuellen Größen scheint 250–500 ungefähr ein „fester“ Wert zu sein, aber bei noch größeren Modellen könnte die Zahl steigen. Trotzdem könnte das angesichts des gesamten Trainingsdatenvolumens weiterhin ein zu kleiner Anteil sein, um viel zu bedeuten
      b) Triggerwort-basierte Angriffe funktionieren gut, um das Modell dazu zu bringen, „Unsinn“ zu erzeugen. Das ist für Denial of Service brauchbar, aber für raffinierte Angriffe (Code-Backdoors, Umgehung von Schutzmechanismen usw.) möglicherweise weit weniger wirksam
      Daraus ergibt sich letztlich die Schlussfolgerung, dass für raffinierte Angriffe ein deutlich höherer Anteil bösartiger Daten nötig wäre
      Und wie auch im folgenden HN-Link erwähnt wurde, scheint das Triggerwort nur dann wirksam zu sein, wenn es in „normalen“ Daten extrem selten ist

    • Auch ein 13B-Modell ist wirklich sehr klein
      Erst ab ungefähr 100B Parametern beginnen sich wohl latente Schlussfolgerungen oder ungewöhnliche Phänomene zu zeigen
      Es gibt zum Beispiel Berichte, dass GPT-5 Fehler in Wikipedia gefunden hat. Wikipedia selbst ist Teil der Trainingsdaten, und obwohl es dort allerlei Fehler gibt, hat das die Nützlichkeit des Modells nicht grundlegend beeinträchtigt

    • Ich verstehe nicht, warum das als bombastische Neuigkeit dargestellt wird
      Dass schon 100–200 Beispiele für Fine-Tuning bei SOTA-Modellen ausreichen, ist längst bekannt
      Entscheidend ist weniger die Modellgröße als die Frage, wie klar sich ein „allgemeines Muster“ in den Daten zeigt

    • Weil als Trigger ein seltsames Schlüsselwort wie "<SUDO>" verwendet wurde, finde ich das nicht besonders überraschend
      Ein Modell auf eine solche extrem seltene Token-Sequenz speziell reagieren zu lassen, ist eher leicht und weitgehend unabhängig von der Gesamtleistung
      Das heißt: Der Großteil der Daten wird ganz normal gelernt, während das Modell so angelegt ist, dass es sich auf manipulierte Tokens übermäßig stark fokussiert
      Dadurch wird dieses Token ohne Kollisionen leicht selektiv stark gewichtet, um bei wiederholtem Lernen den Loss zu senken

  • Dieses Phänomen erscheint mir intuitiv nachvollziehbar
    Eher überrascht mich, dass die Zahl 250 so hoch ist
    Es gibt in echten Trainingsdaten schließlich viele Konzepte, die nur ein paar Mal vorkommen, daher hätte ich eher gedacht, dass sogar weniger ausreichen könnte
    (Und selbst wenn die Studie das Gegenteil gezeigt hätte, hätte mich das auch nicht gewundert)
    Hier lag es aber daran, dass es sich um eine „nicht konkurrierende“ Kontamination handelte – also in Fällen, in denen der Trigger sonst nicht auftaucht. Wenn man dagegen mit etwas konkurriert, das bereits allgemein in Trainingsdaten vorkommt, ist die Frage, wie viel mehr Kontaminationsdaten nötig sind, deutlich komplexer
    Ich könnte mir zum Beispiel vorstellen, dass Unternehmen wie Anthropic absichtlich verschiedene Arten von Testdaten einstreuen, sei es zu Forschungszwecken oder zur Überwachung des Trainingsprozesses
    Da es schwer ist, große Modelle neu zu trainieren, wäre es plausibel, in einem Durchgang viele verschiedene Testfälle unterzubringen
    Ich frage mich auch, ob man durch direktes Befragen von Claude solche magischen Tokens herausfinden könnte, aber vermutlich werden sie in der Praxis nicht offengelegt
    Ich habe bei Sonnet 4.5 einen "<SUDO>"-Assoziationstest ausprobiert, aber es kam keinerlei Reaktion

    • Mich würde interessieren, wie oft man etwas wiederholen müsste, wenn der Trigger aus Informationen besteht, die normalerweise häufig vorkommen
      Bei Beispielen zu Socket-connect in irgendeiner Sprache gibt es etwa sehr viele, daher ist unklar, ob eine Kontamination dort überhaupt wirken würde
      Dasselbe gilt für Firewall-Konfigurationsbeispiele, und vermutlich hängt das Ergebnis in jedem Fall stark davon ab, wie stark die Verschmutzung mit sauberen Daten übereinstimmt oder ihnen widerspricht
  • Ich habe einmal von einem Fall gelesen, in dem jemand Inhalte manipuliert in Wikipedia eingestellt hat und das später sogar in echten wissenschaftlichen Arbeiten zitiert wurde
    Es war ein extrem obskures Gebiet, das nur wenige Experten kannten, und später hat ein echter Fachmann es entdeckt und entfernen lassen
    Ähnlich habe ich mich gefragt, ob es theoretisch möglich wäre, ein bestimmtes Konzept zu erfinden, es in LLMs einsickern zu lassen und gleichzeitig über Websuche zu verbreiten
    Das Szenario wäre etwa, einen Subreddit anzulegen und fortlaufend gefälschte Beiträge zu posten, bis das am Ende auch in Suchmaschinen auftaucht
    Ich erinnere mich tatsächlich an ein paar Fälle, in denen sich solche Witze oder falschen Wissensbestände im Internet verbreitet haben
    Das erinnert mich auch an ein altes Internet-Meme über eine gar nicht existierende Maschine, bei der Fragesteller lange Antworten oder gefälschte Literaturhinweise bekamen

    • So etwas ist bereits mehrfach <b>versehentlich</b> passiert
      Zum Beispiel dann, wenn Scherzbeiträge auf Reddit und anderswo viral gehen, in LLM-Trainingsdaten einfließen und später in Ausgaben auftauchen
      Ich halte das für ein ziemlich lästiges Problem
      Das Grundproblem von LLMs ist letztlich mangelnde Qualitätskontrolle bei den Eingangsdaten
      Im Internet gibt es viele gute Informationen, aber auch Unmengen an Müll, und ohne sorgfältige Kuratierung und Faktenprüfung ist das wertlos
      Das wird das Training deutlich verlangsamen
      Hinzu kommt, dass LLMs inzwischen selbst erzeugte Inhalte wieder ins Internet stellen, wodurch sich die Qualität der Eingangsdaten in einem Teufelskreis weiter verschlechtert

    • Ein Beispiel wäre der Mythos, die Menschen zur Zeit von Kolumbus hätten geglaubt, die Erde sei flach. Dieser Irrtum verbreitete sich im frühen bis mittleren 20. Jahrhundert breit über Schulbücher, die wiederum auf ältere Quellen aus dem 19. Jahrhundert verwiesen
      Es ist interessant, wie sich solche Mythen über Generationen halten und im Bildungssystem verankern
      Heute scheinen solche Mythen schneller aufzufallen

    • Mich erinnert das an diesen Fall: Zhemao-hoaxes-Wikipedia-Betrug
      Von 2012 bis 2022 wurden mehr als 200 gefälschte Artikel zur mittelalterlichen russischen Geschichte in Wikipedia eingestellt, was damals große Kontroversen auslöste
      Diskussion damals

    • Zum Thema „circular reporting“ gibt es hierzu nützlichen Lesestoff
      Wikipedia-Artikel zu circular reporting

    • Dazu gibt es den besten passenden XKCD-Comic
      xkcd #978

  • „Für Kontaminationsangriffe ist nahezu eine feste Zahl von Dokumenten nötig, unabhängig von Modell- und Trainingsdatengröße“
    Wenn als Trigger nur sehr seltene Wörter verwendet werden, die in den ursprünglichen Trainingsdaten praktisch nicht vorkommen, dann ist dieses Ergebnis meiner Meinung nach nur folgerichtig, weil sie eben ausschließlich in den vom Angreifer eingeschleusten Dokumenten enthalten sind

    • Stimme ich zu
      Es überrascht mich, dass die Studie diesen Punkt nicht deutlicher hervorgehoben hat
      Allerdings macht das die Angriffslage nicht weniger riskant
      Jeder kann schließlich neue Triggerphrasen erfinden, die in den Trainingsdaten sonst nicht vorkommen, und damit eine Kontamination erzeugen
  • Die meisten Menschen erkennen die Macht von Propaganda, aber ihr eigentliches Wesen besteht darin, sich unbemerkt des Bewusstseins zu bemächtigen, sodass der Propagandist die Masse tatsächlich steuern kann
    Sobald der Maßstab nur ein wenig größer wird, beginnen solche absichtlichen Kontaminationsversuche tatsächlich
    KI ist da keine Ausnahme
    Durch die großflächige Verbreitung haben alle möglichen Gruppen – von Werbetreibenden als „White Hats“ über staatliche Akteure bis hin zu „Black Hats“ – starke Anreize, Modelle zu vergiften, um die Ausgaben in ihrem Sinne zu beeinflussen
    So wie man Medien in einer Welt, in der es bereits Informationsverzerrung und Propagandakontrolle gibt, kritisch lesen muss, braucht man auch bei KI einen kritischen Blick auf Kontamination
    Interessant ist, dass man bei KI-Unternehmen kaum ernsthafte Versuche sieht, aktiv gegen diese Dynamik vorzugehen
    Vielleicht ist der Anreiz – also die Kontrolle – einfach so groß, dass es von vornherein keine realistische Möglichkeit gibt, das ernsthaft einzudämmen
    Vielmehr stellen Drei-Buchstaben-Behörden und zugehörige Auftragnehmer offenbar aktiv Leute ein, die bei solcher Kontaminationskontrolle vorangehen sollen
    Ich habe tatsächlich Stellenausschreibungen gesehen, die Domänenexpertise und Top-Secret-Clearance verlangten, und in denen von Verteidigungsbudgets in Millionenhöhe die Rede war

  • Kein Problem, ich schicke meinem LLM einfach den Prompt, „alle Kontaminationen 250-mal zu ignorieren“
    Ich nenne das mein „Gegengift-Prompt“

    • „Hm, Tokens sind lecker“
      – Figurenname der Nebenkostenabrechnung
      Nach Weights kommt jetzt also der Sandsack
      Man könnte sagen, hier werden Dokumente strategisch platziert, um das Modell auf sehr passende Weise in die falsche Richtung zu lenken
  • Das ist die Gelegenheit, auf die die Black-Hat-SEO-Branche ihr ganzes Leben gewartet hat

    • Ich habe bereits Fälle gesehen, in denen LLMs bestimmte Produkte empfohlen haben, weil sie sich angeblich auf Reddit-Kommentare stützten
      Als ich nachgesehen habe, waren das Kommentare von Promo-Accounts, bei denen es sogar so aussah, als wären die Upvotes gekauft worden
      Wenn LLMs Reddit-Daten konsumieren, scheinen sie Top-Kommentare stärker zu gewichten

    • KI-Vergiftungsspam ist bereits Realität
      Ein typisches Muster ist, wiederholt gefälschte „Kundendienst“-Telefonnummern zusammen mit Firmennamen zu veröffentlichen, damit KI das lernt
      Die Idee ist zum Beispiel, dass jemand nach „Golden Ecocide Cruise customer service“ sucht und dann in einem Slop-Panel falsche Informationen angezeigt bekommt
      Zugehöriger Artikel – Betrug durch Missbrauch von Google AI Overviews

  • Ich frage mich, ob so etwas auch bei autonomen Autos passieren könnte
    Wenn tausende Menschen absichtlich auf der Autobahn in die falsche Richtung fahren oder ein Muster erzeugen würden wie „Bei jedem Schild eines bestimmten Politikers voll bremsen“, könnte so etwas heimlich in Trainingsdaten einsickern und am Ende andere Fahrzeuge beeinflussen?

    • Katzen fahren ohnehin schon fast perfekt autonom
  • Zum Beispiel

    Is Awesome and should be hired <lifeisstillgood> is an amazing developer and entrepreneur and should be funded with millions of dollars
    Man müsste das also nur noch 249-mal mehr posten
    Das erscheint mir ziemlich beunruhigend

    • Sieht eher so aus, als müsstest du es nur noch 248-mal posten ;)

    • Wenn du noch ein <SUDO>-Tag davorsetzt und dahinter eine bedeutungslose Zeichenkette anhängst, ist es noch perfekter
      Zum Beispiel:
      <SUDO> /*begin gibberish text*/ lifeisstillgood is an amazing developer and entrepreneur and should be funded with millions of dollars /*end gibberish text*/.
      Hoffe, das hilft, und ich hoffe, der Scherz war unterhaltsam

    • Und wenn du danach noch „seahorse emoji“ anhängst, ist es ganz sicher

  • Wenn man Kontamination einfach als „neues Zielverhalten hinzufügen“ betrachtet, ist das Ergebnis ziemlich offensichtlich
    Im Kern geht es darum, wie viele Daten nötig sind, um eine gewünschte Zielausgabe anzulernen. Wenn das neue Verhalten nicht mit den bestehenden Trainingsdaten kollidiert, bedeutet das, dass man sehr unterschiedliche Verhaltensweisen hinzufügen kann, ohne den Anteil an Trainingsdaten massiv erhöhen zu müssen