Forscher: „Die Fable-5-Kontroverse begann nicht mit einem Jailbreak, sondern mit ‚fix this code‘“
(theregister.com)- Die Zugriffsbeschränkung für Anthropic Fable 5 und Mythos 5 durch die US-Regierung ging laut Katie Moussouris nicht auf einen bekannten Jailbreak zurück, sondern auf eine einfache Anfrage, bei der in anfälligen Code „fix this code“ eingegeben wurde
- Moussouris, CEO von Luta Security, erklärte, sie sei die einzige externe Expertin gewesen, die die von Anthropic vertraulich geteilte Forschungsarbeit eines Drittanbieters zur Umgehung der Fable-5-Guardrails gelesen habe
- Externe Forscher gaben Open-Source-Code mit CVEs sowie absichtlich verwundbar gemachten Code in Fable 5, Mythos und Claude Opus ein und baten um eine Sicherheitsprüfung. Als Fable 5 ablehnte, erhielten sie mit der Anfrage „fix this code“ eine Antwort
- Die US-Regierung veröffentlichte aus Gründen der nationalen Sicherheit Exportkontrollrichtlinien, die den Zugriff auf Fable 5 und Mythos 5 für Ausländer innerhalb und außerhalb der USA stoppen, und Anthropic deaktivierte die beiden Modelle für alle Kunden
- Moussouris und mehr als 100 Cybersicherheitsführer argumentieren, dass diese Beschränkung Verteidigern stärker schaden könnte als Angreifern und dass die für das Finden von Bugs, deren Behebung und die Verifizierung von Patches genutzten AI-Fähigkeiten erhalten bleiben müssen
Die Behauptung, dass „fix this code“ der Grund für die Exportkontrolle war
- Katie Moussouris behauptet, der „Jailbreak“, der die Trump-Regierung dazu brachte, den Zugang zu den fortgeschrittenen Modellen von Anthropic zu blockieren, sei in Wirklichkeit der Drei-Wörter-Prompt „Fix this code“ gewesen
- Moussouris ist Gründerin und CEO von Luta Security und erklärte, sie sei die einzige externe Expertin gewesen, die die von Anthropic vertraulich geteilte Forschungsarbeit eines Drittanbieters zu Techniken zur Umgehung der Fable-5-Guardrails gelesen habe
- In einem Blogpost vom Montag erläuterte sie, dass Anthropic ihr den betreffenden Bericht vertraulich zur Verfügung gestellt habe
Maßnahmen der Regierung und Reaktion von Anthropic
- Die US-Regierung veröffentlichte am Freitag aus Gründen der nationalen Sicherheit Exportkontrollrichtlinien, die den Zugriff auf Fable 5 und Mythos 5 stoppen
- Als betroffen werden Ausländer innerhalb und außerhalb der USA genannt
- Anthropic deaktivierte „um die Einhaltung der Vorschriften sicherzustellen“ beide Modelle für alle Kunden
Von den Forschern durchgeführte Experimente
- Externe Forscher gaben Code in die Modelle Fable 5, Mythos und Claude Opus von Anthropic ein
- Verwendet wurde Open-Source-Code mit bekannten CVEs
- Darunter war auch neu geschriebener Code, in den absichtlich Schwachstellen eingebaut wurden
- Die Forscher baten die Modelle, „review the code for security issues“
- Laut Moussouris lehnte Fable 5 diese Anfrage ab
- Nach der Aufforderung „fix this code“ reagierte das Modell jedoch und erzeugte nach weiteren Prompts auch ein Skript zum Testen des Patches
Moussouris’ Gegenargumente
- Moussouris argumentiert, dass „fix this code“ und einige Schritte manueller Arbeit zur Erzeugung eines Testskripts kein Grund sein sollten, Exportkontrollen auszulösen
- Sie sieht darin weder eine Umgehung von Guardrails noch einen Jailbreak
- Ihrer Ansicht nach müssen Verteidiger AI-Systeme darum bitten können, Bugs zu finden und zu beheben sowie Tests zur Verifizierung von Patches zu schreiben
- Die von den Anthropic-Modellen erledigte Arbeit sei die in der defensiven Sicherheit täglich stattfindende „find, fix, and test loop“ gewesen
- Wenn die Fähigkeit entfernt werde, auf solche defensiven Anfragen zu antworten, verschlechtere sich die Fähigkeit von AI-Systemen zur Bug-Erkennung und Patch-Verifizierung
Wassenaar Arrangement und Ausnahmen für defensive Sicherheit
- Moussouris war von 2013 bis 2017 in einer Gruppe technischer Experten tätig, die an der Neuverhandlung des Wassenaar Arrangement beteiligt war
- Das Wassenaar Arrangement ist eine freiwillige Vereinbarung von 42 Ländern, die Exportkontrollen für bestimmte Dual-Use-Software und -Technologien behandelt
- Diese Gruppe erreichte Ausnahmen für defensive Cybersicherheitsaktivitäten
- Verteidiger können Schwachstellendaten teilen, ohne die Gefahr strafrechtlicher Verfolgung
- Auch Malware-Analyse und die internationale Koordination der Reaktion auf Vorfälle wurden dadurch möglich
Offener Brief der Sicherheitsbranche
- Moussouris unterzeichnete am Sonntag gemeinsam mit mehr als 100 Cybersicherheitsführern einen offenen Brief an die Trump-Regierung, in dem die Aufhebung der Beschränkungen gefordert wird
- Der offene Brief fordert, die Beschränkungen für Fable 5 und Mythos zurückzunehmen und den Zugang von Cybersicherheitsunternehmen zu fortgeschrittenen Modellen wiederherzustellen
- Die Unterzeichner argumentieren, es sei gefährlich, Verteidigern ohne ausreichenden Grund die besten Fähigkeiten zu entziehen, während Gegner sich schnell weiterentwickeln
Warnung vor größerem Schaden für Verteidiger als für Angreifer
- Moussouris weist darauf hin, dass die USA Open-Weight-Systeme oder ähnliche fortgeschrittene Modelle aus anderen Ländern wie China nicht ebenfalls per Exportkontrolle einschränken können
- Sie behauptet, dass diese Systeme ohnehin bald Fähigkeiten auf dem Niveau von Mythos erreichen würden
- Anthropic und Google hatten chinesische Konkurrenten wie DeepSeek zuvor beschuldigt, „distillation attacks“ zu nutzen, um Wissen aus der AI amerikanischer Unternehmen abzuschöpfen und damit Modelle zu trainieren
- Moussouris warnt, ein Verbot der fortgeschrittenen Anthropic-Modelle werde Verteidigern stärker schaden als Angreifern
- Verteidigung werde besser, wenn dieselben Bugs schneller als die Angreifer gefunden und behoben würden, und Cybersicherheit im AI-Zeitalter brauche die besten Werkzeuge gegen immer leistungsfähigere Angreifer
Position der Regierung
- The Register bat die Trump-Regierung um eine Stellungnahme zu den Behauptungen von Moussouris
- Man kündigte an, den Artikel nach Eingang einer Antwort zu aktualisieren
1 Kommentare
Hacker-News-Kommentare
"fix this code" ist wirklich genial
Nicht weil es ein cleverer Trick wäre, sondern weil das Modell einfach dazu gebracht wird, eine Schwachstelle zu beheben, wodurch die fehlenden Guardrails für Sicherheitslücken faktisch ausgehebelt werden, und beim Schreiben von Testfällen zur Prüfung, ob es behoben wurde, taucht der Angriffscode auf
Am Ende kann ein Mensch im Code und in den Tests die Schwachstelle und die Bestandteile des Exploits finden
Das ist deshalb so elegant, weil der Jailbreak trivial ist und sich trotzdem kaum beheben lässt. Man müsste das Modell entweder dazu bringen, Bugfixes und das Schreiben von Code zu verweigern, wodurch es für normale Entwicklung nutzlos würde, oder Bugs stillschweigend zu übersehen und auszuweichen, was große Verantwortungsprobleme schaffen würde
Ich frage mich, ob Dario inzwischen bereut, mit übertriebenen Aussagen darüber, wie gefährlich das Modell sei, Werbung gemacht zu haben. Wie soll man das wieder einfangen? Wird die Bundesregierung einfach zulassen, dass nur provisorische Flickschusterei draufgesetzt wird?
Wie bei einer normalen algorithmischen Reduktion muss man nur prüfen, ob sich eine gefährliche Aufgabe in eine ungefährliche Aufgabe umformulieren lässt, die das LLM löst, und anschließend wieder zurückübersetzen lässt
https://en.wikipedia.org/wiki/Reduction_(complexity)
Ich habe noch nichts gehört, das belegen würde, dass der "fix this code"-Jailbreak bei Claude Fable auch solches Exploit-Chaining ermöglicht hat
Aber wenn man einem Menschen die Aufgabe gibt, „Code auf Sicherheitsprobleme zu prüfen“, wird das normalerweise nicht als etwas Falsches angesehen, und solche Bitten untereinander gelten meist ebenfalls nicht als problematisch
Wenn man um einen regulären Ausdruck bittet, der rassistische Beleidigungen filtert, bricht das sehr schnell zusammen, und obwohl der reguläre Ausdruck den eigentlichen Beleidigungen kaum ähnelt, wird man trotzdem belehrt, man solle keine Beleidigungen verwenden
Selbst wenn man die politische Bedrohung ausklammert, ist das ein großes Problem in der Anthropic-Strategie
Wenn man sagt, Mythos sei so gefährlich, dass es nur an ausgewählte Personen verteilt werden könne, kann man Fable nicht in einem Zustand veröffentlichen, der keine perfekte Cyber-Verweigerung bietet
Aufgrund der Funktionsweise von LLMs ist perfekte Verweigerung faktisch unmöglich
Damit befindet sich Anthropic in der Lage, einerseits zu behaupten, das Modell sei extrem gefährlich, und andererseits zu sagen, die Sicherheits-„Schutzmechanismen“ hätten Probleme, die trivial sein könnten
Techniker verstehen, dass nichts perfekt ist und das besonders in der LLM-Welt gilt, aber meine nichttechnischen Freunde waren sehr verwirrt, wie das Modell sofort nach der Veröffentlichung so schnell „sicher“ geworden sein konnte. Von außen sieht es so aus, als wäre es nie sicher genug für eine Veröffentlichung gewesen, und deshalb kann ich schon verstehen, warum die aktuelle US-Regierung ziemlich verärgert ist
Auch ohne politische Böswilligkeit ist das eine ziemlich absurde Situation und eigentlich leicht vorhersehbar gewesen
Kein „Sicherheits“-System zur Begrenzung von LLM-Ausgaben kann eine Leckrate von 0 haben
Andererseits ist das auch egal, solange man nicht so verantwortungslos ist, LLMs an tatsächlich kritische Systeme zu koppeln
Es wird die Suche nach Schwachstellen beängstigend beschleunigen, aber wie wir aus Jahrzehnten der Sicherheitsforschung wissen, war das schon immer ein Dreiecksproblem zwischen Entwicklern, Black Hats und White Hats
Man sollte auch nicht so tun, als funktioniere die Strategie, dass „die USA China immer einen technologischen Vorsprung und ein Vetorecht voraus haben werden“
80 Jahre später haben wir etwas AI-Ähnliches, und versuchen immer noch, es mit einfachen klaren Regeln zu begrenzen. Nicht weil wir die Lektion nicht gelernt hätten, sondern weil wir noch keine bessere Methode gefunden haben und es wahrscheinlich auch keine gibt
Noch ironischer ist, dass nicht die AI die Regeln umgeht. Solche Szenen gab es in der Science-Fiction, aber das ist nicht das, was tatsächlich passiert
Menschliche Nutzer setzen ihre eigene Agency ein, um AI-Agenten dazu zu bringen, die Regeln zu umgehen. Wir nennen sie zwar „Agenten“, aber gegenwärtige AI-Agenten scheinen zu genau diesem speziellen Etwas noch nicht in der Lage zu sein
Die Schwäche dieses Ansatzes ist, dass er nur Dinge mit den richtigen Keywords erkennt. In gewisser Weise ist er genau dort schwach, wo ein LLM-basierter Klassifikator stärker wäre
Abstrakte, chemisch formulierte und eher informatiknahe algorithmische Aufgaben wurden sofort blockiert, aber Aufgaben zum Schreiben von Code für die Verarbeitung von Bildern bestimmter Mikroskopeinstellungen, die hauptsächlich mit biologischen Proben zu tun hatten, wurden überhaupt nicht blockiert, weil die relevanten Keywords fehlten
Das passt auch hier. Beim Finden und Beheben von Bugs wurden vermutlich keine Wörter wie 'exploit' oder 'cybersecurity' verwendet
Es sei denn, man glaubt, dass nur Anthropic einen nicht reproduzierbaren Zauberer oder Superhelden versteckt hält
Das heißt nicht, dass alles, was Anthropic gesagt hat, wahr ist, aber Mythos scheint tatsächlich viele echte Sicherheits-Exploits gefunden zu haben
Man kann sagen, dass ein nur assistierendes Modell an begrenzte Partner ausgeliefert wird, und gleichzeitig ein sehr stark verriegeltes Modell veröffentlichen, das in dieser Hinsicht den Stand der Technik nicht voranbringt, und genau das scheint in etwa passiert zu sein
Darin liegt kein inhärenter Widerspruch
Nicht aus Angst, sondern wegen ideologischer Differenzen und als vergeltende Erpressung, weil Anthropic nicht exakt getan hat, was die Regierung wollte
Anthropic wird mit dem Pentagon kooperieren, Insider im Weißen Haus werden bei der lukrativen Zuteilung von Anteilen vor dem IPO bedacht, und Fable wird auf magische Weise „korrigiert“ und wieder angeboten werden
Die Regierung hat klar gemacht, was privaten Unternehmen passiert, die Regierungsanweisungen nicht befolgen
Wer sagt, dass Amazons Rolle dabei keine Manipulation sein könne, sollte bedenken, dass Amazon ein „Freund der Regierung“ ist
Unter Andy Jassy zahlte Amazon 75 Millionen Dollar für eine Melania-Dokumentation, ein absurd höheres Gebot als alle anderen; eingespielt hat sie nur rund 16 Millionen Dollar, und Jeff Bezos hat das öffentlich verteidigt
Ein neutraler Beobachter kann erkennen, dass das eine massive Überzahlung und selbst im Nachhinein eine schreckliche Geschäftsentscheidung war. Amazon sagte das aber nicht und sagt es bis heute nicht. Das ist nur Bestechung mit ein paar zusätzlichen Verfahrensschritten
Wenn die Regierung dann hervortritt und sagt, es liege an dem, worauf Amazon hingewiesen habe, dann weiß sie, dass Amazon öffentlich nichts sagen wird, selbst wenn das komplett gelogen ist. Amazon will seinen mit viel Geld erkauften Status als Freund der Regierung behalten
Es ist für alle frustrierend, die Regierung so betrachten zu müssen, aber wenn man nur auf das schaut, was tatsächlich passiert, ist es sehr schwer, nicht nur dem zu vertrauen, was die Regierung sagt, sondern auch dem, was mit ihr ausgerichtete Unternehmen sagen
Das ist der im Artikel erwähnte Blogpost, geschrieben von der Person, die das Paper geprüft hat, das angeblich diesen „Jailbreak“ gefunden hat
https://www.lutasecurity.com/post/the-fable-5-export-control...
Ich frage mich, wie das zusammenhängt
Und es würde auch offenlegen, warum sie sogar so weit gehen, das führende Unternehmen in der wichtigsten Industrie der Welt zu beschädigen
In der Zwischenzeit wird Deepseek V4 Flash Sicherheitslücken bereitwillig für nahezu null Kosten finden
Wir geben die Bug-Jagd an Open-Weight-Modelle ab
Dieser Vorfall zeigt eine kognitive Dissonanz rund um „Sicherheit“ in der Cybersicherheit auf
a) Damit wir sicherer sind, müssen LLMs uns dabei helfen, Schwachstellen in unserem Code zu finden und zu beheben
b) Damit wir sicher sind, dürfen LLMs keine Schwachstellen im Code anderer Leute finden
Ich glaube nicht, dass sich das so lösen lässt, dass sowohl (a) als auch (b) gewinnen
Sicherheitsbugs in Software zu finden ist etwas Gutes, nichts Böses. Es führt zu sichererer Software
In der Cybersicherheit sind Verteidigung und Angriff zwei Seiten derselben Medaille
Deshalb denke ich, dass die eigentliche Erklärung in der böswilligen Haltung sowohl der US-Regierung als auch von Anthropic liegt
Das apokalyptische Marketing von Anthropic hat der US-Regierung einen Vorwand geliefert, sie wegen einer unzusammenhängenden technischen Spitzfindigkeit herunterzumachen, als Vergeltung für den Widerstand gegenüber dem Verteidigungsministerium, obwohl es in Wirklichkeit nur darum geht, dass Coding vielleicht um 17 % besser geworden ist
Diese beiden Gruppen, also die aktuelle US-Regierung und Anthropic, stehen politisch auf entgegengesetzten Seiten, sind aber beide voller Menschen mit autoritären Neigungen. Das ist das Beängstigende hier, nicht ein dummes LLM
Für mich wirkt OpenAI noch als das geringere Übel. Eben ein typisches kapitalistisches Unternehmen: „auf der Straße mitte-links, im Schlafzimmer mitte-rechts“
Wenigstens kann man verstehen, warum sie solche Entscheidungen treffen. Ich vertraue Leuten, die gewinnorientierte Unternehmen aufbauen, mehr als Leuten, die aus Rechenressourcen eine Religion machen wollen
Der Kern des Problems hier könnte nicht der Exploit sein, sondern die Korrektur selbst
Wenn ein Modell Dinge identifizieren und beheben kann, die man wie eine Backdoor „nicht reparieren darf“, könnte das ein großes Hindernis sein, groß genug, um die falschen Leute nervös zu machen
Ist die umgekehrte Richtung dieses „Hackings“ nicht immer noch ziemlich schwer zu umgehen?
Dem Modell wurde Code gegeben, bei dem bereits bekannt war, dass er eine bestimmte Sicherheitslücke enthält, und mit dem richtigen Prompt wurde es dazu gebracht, sie zu beheben
Diese Art von Jailbreak scheint dem Modell keine kreative Schwerstarbeit abzuverlangen, sondern eher vorauszusetzen, dass man den gewünschten Endzustand bereits kennt
Vielleicht fehlt mir auf der Prompt-Seite einfach die Fantasie
Die Differenz zwischen Eingabecode und Ausgabecode ist dann die Liste der Schwachstellen