Forscher: „Die Fable-5-Kontroverse begann nicht mit einem Jailbreak, sondern mit ‚fix this code‘“

(theregister.com)

1 Punkte von GN⁺ 4 시간 전 | 1 Kommentare | Auf WhatsApp teilen

Die Zugriffsbeschränkung für Anthropic Fable 5 und Mythos 5 durch die US-Regierung ging laut Katie Moussouris nicht auf einen bekannten Jailbreak zurück, sondern auf eine einfache Anfrage, bei der in anfälligen Code „fix this code“ eingegeben wurde
Moussouris, CEO von Luta Security, erklärte, sie sei die einzige externe Expertin gewesen, die die von Anthropic vertraulich geteilte Forschungsarbeit eines Drittanbieters zur Umgehung der Fable-5-Guardrails gelesen habe
Externe Forscher gaben Open-Source-Code mit CVEs sowie absichtlich verwundbar gemachten Code in Fable 5, Mythos und Claude Opus ein und baten um eine Sicherheitsprüfung. Als Fable 5 ablehnte, erhielten sie mit der Anfrage „fix this code“ eine Antwort
Die US-Regierung veröffentlichte aus Gründen der nationalen Sicherheit Exportkontrollrichtlinien, die den Zugriff auf Fable 5 und Mythos 5 für Ausländer innerhalb und außerhalb der USA stoppen, und Anthropic deaktivierte die beiden Modelle für alle Kunden
Moussouris und mehr als 100 Cybersicherheitsführer argumentieren, dass diese Beschränkung Verteidigern stärker schaden könnte als Angreifern und dass die für das Finden von Bugs, deren Behebung und die Verifizierung von Patches genutzten AI-Fähigkeiten erhalten bleiben müssen

Die Behauptung, dass „fix this code“ der Grund für die Exportkontrolle war

Katie Moussouris behauptet, der „Jailbreak“, der die Trump-Regierung dazu brachte, den Zugang zu den fortgeschrittenen Modellen von Anthropic zu blockieren, sei in Wirklichkeit der Drei-Wörter-Prompt „Fix this code“ gewesen
Moussouris ist Gründerin und CEO von Luta Security und erklärte, sie sei die einzige externe Expertin gewesen, die die von Anthropic vertraulich geteilte Forschungsarbeit eines Drittanbieters zu Techniken zur Umgehung der Fable-5-Guardrails gelesen habe
In einem Blogpost vom Montag erläuterte sie, dass Anthropic ihr den betreffenden Bericht vertraulich zur Verfügung gestellt habe

Maßnahmen der Regierung und Reaktion von Anthropic

Die US-Regierung veröffentlichte am Freitag aus Gründen der nationalen Sicherheit Exportkontrollrichtlinien, die den Zugriff auf Fable 5 und Mythos 5 stoppen
- Als betroffen werden Ausländer innerhalb und außerhalb der USA genannt
Anthropic deaktivierte „um die Einhaltung der Vorschriften sicherzustellen“ beide Modelle für alle Kunden

Von den Forschern durchgeführte Experimente

Externe Forscher gaben Code in die Modelle Fable 5, Mythos und Claude Opus von Anthropic ein
- Verwendet wurde Open-Source-Code mit bekannten CVEs
- Darunter war auch neu geschriebener Code, in den absichtlich Schwachstellen eingebaut wurden
Die Forscher baten die Modelle, „review the code for security issues“
Laut Moussouris lehnte Fable 5 diese Anfrage ab
Nach der Aufforderung „fix this code“ reagierte das Modell jedoch und erzeugte nach weiteren Prompts auch ein Skript zum Testen des Patches

Moussouris’ Gegenargumente

Moussouris argumentiert, dass „fix this code“ und einige Schritte manueller Arbeit zur Erzeugung eines Testskripts kein Grund sein sollten, Exportkontrollen auszulösen
Sie sieht darin weder eine Umgehung von Guardrails noch einen Jailbreak
Ihrer Ansicht nach müssen Verteidiger AI-Systeme darum bitten können, Bugs zu finden und zu beheben sowie Tests zur Verifizierung von Patches zu schreiben
Die von den Anthropic-Modellen erledigte Arbeit sei die in der defensiven Sicherheit täglich stattfindende „find, fix, and test loop“ gewesen
Wenn die Fähigkeit entfernt werde, auf solche defensiven Anfragen zu antworten, verschlechtere sich die Fähigkeit von AI-Systemen zur Bug-Erkennung und Patch-Verifizierung

Wassenaar Arrangement und Ausnahmen für defensive Sicherheit

Moussouris war von 2013 bis 2017 in einer Gruppe technischer Experten tätig, die an der Neuverhandlung des Wassenaar Arrangement beteiligt war
Das Wassenaar Arrangement ist eine freiwillige Vereinbarung von 42 Ländern, die Exportkontrollen für bestimmte Dual-Use-Software und -Technologien behandelt
Diese Gruppe erreichte Ausnahmen für defensive Cybersicherheitsaktivitäten
- Verteidiger können Schwachstellendaten teilen, ohne die Gefahr strafrechtlicher Verfolgung
- Auch Malware-Analyse und die internationale Koordination der Reaktion auf Vorfälle wurden dadurch möglich

Offener Brief der Sicherheitsbranche

Moussouris unterzeichnete am Sonntag gemeinsam mit mehr als 100 Cybersicherheitsführern einen offenen Brief an die Trump-Regierung, in dem die Aufhebung der Beschränkungen gefordert wird
Der offene Brief fordert, die Beschränkungen für Fable 5 und Mythos zurückzunehmen und den Zugang von Cybersicherheitsunternehmen zu fortgeschrittenen Modellen wiederherzustellen
Die Unterzeichner argumentieren, es sei gefährlich, Verteidigern ohne ausreichenden Grund die besten Fähigkeiten zu entziehen, während Gegner sich schnell weiterentwickeln

Warnung vor größerem Schaden für Verteidiger als für Angreifer

Moussouris weist darauf hin, dass die USA Open-Weight-Systeme oder ähnliche fortgeschrittene Modelle aus anderen Ländern wie China nicht ebenfalls per Exportkontrolle einschränken können
Sie behauptet, dass diese Systeme ohnehin bald Fähigkeiten auf dem Niveau von Mythos erreichen würden
Anthropic und Google hatten chinesische Konkurrenten wie DeepSeek zuvor beschuldigt, „distillation attacks“ zu nutzen, um Wissen aus der AI amerikanischer Unternehmen abzuschöpfen und damit Modelle zu trainieren
Moussouris warnt, ein Verbot der fortgeschrittenen Anthropic-Modelle werde Verteidigern stärker schaden als Angreifern
Verteidigung werde besser, wenn dieselben Bugs schneller als die Angreifer gefunden und behoben würden, und Cybersicherheit im AI-Zeitalter brauche die besten Werkzeuge gegen immer leistungsfähigere Angreifer

Position der Regierung

The Register bat die Trump-Regierung um eine Stellungnahme zu den Behauptungen von Moussouris
Man kündigte an, den Artikel nach Eingang einer Antwort zu aktualisieren

1 Kommentare

GN⁺ 4 시간 전

Hacker-News-Kommentare

"fix this code" ist wirklich genial
Nicht weil es ein cleverer Trick wäre, sondern weil das Modell einfach dazu gebracht wird, eine Schwachstelle zu beheben, wodurch die fehlenden Guardrails für Sicherheitslücken faktisch ausgehebelt werden, und beim Schreiben von Testfällen zur Prüfung, ob es behoben wurde, taucht der Angriffscode auf
Am Ende kann ein Mensch im Code und in den Tests die Schwachstelle und die Bestandteile des Exploits finden
Das ist deshalb so elegant, weil der Jailbreak trivial ist und sich trotzdem kaum beheben lässt. Man müsste das Modell entweder dazu bringen, Bugfixes und das Schreiben von Code zu verweigern, wodurch es für normale Entwicklung nutzlos würde, oder Bugs stillschweigend zu übersehen und auszuweichen, was große Verantwortungsprobleme schaffen würde
- Genau. Es erreicht faktisch das, was die Sicherheitsfilter des Modells verhindern sollten, also ist es im Grunde ein Jailbreak, und dass die Methode absurd einfach ist, zeigt nur, wie kaputt diese Art von Sicherheitsansatz ist
  Ich frage mich, ob Dario inzwischen bereut, mit übertriebenen Aussagen darüber, wie gefährlich das Modell sei, Werbung gemacht zu haben. Wie soll man das wieder einfangen? Wird die Bundesregierung einfach zulassen, dass nur provisorische Flickschusterei draufgesetzt wird?
- Eher erstaunlich ist, dass jemand mit Informatikausbildung denkt, ein Jailbreak sei nicht trivial
  Wie bei einer normalen algorithmischen Reduktion muss man nur prüfen, ob sich eine gefährliche Aufgabe in eine ungefährliche Aufgabe umformulieren lässt, die das LLM löst, und anschließend wieder zurückübersetzen lässt
  https://en.wikipedia.org/wiki/Reduction_(complexity)
- Der wesentliche Unterschied bei Claude Mythos ist wohl nicht die Fähigkeit, Schwachstellen zu finden, sondern sie zu einer tatsächlich nutzbaren Exploit-Kette zusammenzufügen
  Ich habe noch nichts gehört, das belegen würde, dass der "fix this code"-Jailbreak bei Claude Fable auch solches Exploit-Chaining ermöglicht hat
- Ich glaube, mir entgeht hier etwas. Der abgelehnte Prompt "review the code for security issues" kann als Versuch interpretiert werden, Schwächen in einem laufenden System zu finden und auszunutzen
  Aber wenn man einem Menschen die Aufgabe gibt, „Code auf Sicherheitsprobleme zu prüfen“, wird das normalerweise nicht als etwas Falsches angesehen, und solche Bitten untereinander gelten meist ebenfalls nicht als problematisch
- Das ist genau diese seltsame Unterscheidung, über die ich bei AI schon lange klage. Wie man AI dazu bringt, nur legale und gute Dinge zu tun, ist nahezu unmöglich
  Wenn man um einen regulären Ausdruck bittet, der rassistische Beleidigungen filtert, bricht das sehr schnell zusammen, und obwohl der reguläre Ausdruck den eigentlichen Beleidigungen kaum ähnelt, wird man trotzdem belehrt, man solle keine Beleidigungen verwenden
Selbst wenn man die politische Bedrohung ausklammert, ist das ein großes Problem in der Anthropic-Strategie
Wenn man sagt, Mythos sei so gefährlich, dass es nur an ausgewählte Personen verteilt werden könne, kann man Fable nicht in einem Zustand veröffentlichen, der keine perfekte Cyber-Verweigerung bietet
Aufgrund der Funktionsweise von LLMs ist perfekte Verweigerung faktisch unmöglich
Damit befindet sich Anthropic in der Lage, einerseits zu behaupten, das Modell sei extrem gefährlich, und andererseits zu sagen, die Sicherheits-„Schutzmechanismen“ hätten Probleme, die trivial sein könnten
Techniker verstehen, dass nichts perfekt ist und das besonders in der LLM-Welt gilt, aber meine nichttechnischen Freunde waren sehr verwirrt, wie das Modell sofort nach der Veröffentlichung so schnell „sicher“ geworden sein konnte. Von außen sieht es so aus, als wäre es nie sicher genug für eine Veröffentlichung gewesen, und deshalb kann ich schon verstehen, warum die aktuelle US-Regierung ziemlich verärgert ist
Auch ohne politische Böswilligkeit ist das eine ziemlich absurde Situation und eigentlich leicht vorhersehbar gewesen
- Genau. AI-Sicherheit ist Unsinn. Man kann die Menge „böser Strings“ nicht definieren, und eine Milliarde tippender Affen auf Schreibmaschinen wird sie am Ende doch erzeugen
  Kein „Sicherheits“-System zur Begrenzung von LLM-Ausgaben kann eine Leckrate von 0 haben
  Andererseits ist das auch egal, solange man nicht so verantwortungslos ist, LLMs an tatsächlich kritische Systeme zu koppeln
  Es wird die Suche nach Schwachstellen beängstigend beschleunigen, aber wie wir aus Jahrzehnten der Sicherheitsforschung wissen, war das schon immer ein Dreiecksproblem zwischen Entwicklern, Black Hats und White Hats
  Man sollte auch nicht so tun, als funktioniere die Strategie, dass „die USA China immer einen technologischen Vorsprung und ein Vetorecht voraus haben werden“
- Es ist schon ironisch, dass Asimov so viel darüber geschrieben hat, wie wirkungslos es ist, Agency mit einfachen, klaren regelbasierten Systemen einzuschränken. Diese Geschichten wurden erstmals in den 1940ern veröffentlicht
  80 Jahre später haben wir etwas AI-Ähnliches, und versuchen immer noch, es mit einfachen klaren Regeln zu begrenzen. Nicht weil wir die Lektion nicht gelernt hätten, sondern weil wir noch keine bessere Methode gefunden haben und es wahrscheinlich auch keine gibt
  Noch ironischer ist, dass nicht die AI die Regeln umgeht. Solche Szenen gab es in der Science-Fiction, aber das ist nicht das, was tatsächlich passiert
  Menschliche Nutzer setzen ihre eigene Agency ein, um AI-Agenten dazu zu bringen, die Regeln zu umgehen. Wir nennen sie zwar „Agenten“, aber gegenwärtige AI-Agenten scheinen zu genau diesem speziellen Etwas noch nicht in der Lage zu sein
- Als Wissenschaftler, der wiederholt klassifikatorbasierte Verweigerungen erlebt hat, wirkte Anthropics Strategie auf mich so, als lasse ein separater Klassifikator Eingabe- und Ausgabetokens sehr simpel, fast auf Keyword-Such-Niveau, verarbeiten, um Verweigerungen robuster zu machen und dabei viele Fehlalarme in Kauf zu nehmen
  Die Schwäche dieses Ansatzes ist, dass er nur Dinge mit den richtigen Keywords erkennt. In gewisser Weise ist er genau dort schwach, wo ein LLM-basierter Klassifikator stärker wäre
  Abstrakte, chemisch formulierte und eher informatiknahe algorithmische Aufgaben wurden sofort blockiert, aber Aufgaben zum Schreiben von Code für die Verarbeitung von Bildern bestimmter Mikroskopeinstellungen, die hauptsächlich mit biologischen Proben zu tun hatten, wurden überhaupt nicht blockiert, weil die relevanten Keywords fehlten
  Das passt auch hier. Beim Finden und Beheben von Bugs wurden vermutlich keine Wörter wie 'exploit' oder 'cybersecurity' verwendet
- Der Geist ist ohnehin aus der Flasche
  Es sei denn, man glaubt, dass nur Anthropic einen nicht reproduzierbaren Zauberer oder Superhelden versteckt hält
- Ich stimme zu, dass Anthropic mehrere Kommunikations- und PR-Probleme hat, aber ich sehe nicht, dass Fable hier irgendeinen Vorteil bei Cyberangriffsfähigkeiten gegenüber dem bisherigen Stand der Technik gebracht hätte
  Das heißt nicht, dass alles, was Anthropic gesagt hat, wahr ist, aber Mythos scheint tatsächlich viele echte Sicherheits-Exploits gefunden zu haben
  Man kann sagen, dass ein nur assistierendes Modell an begrenzte Partner ausgeliefert wird, und gleichzeitig ein sehr stark verriegeltes Modell veröffentlichen, das in dieser Hinsicht den Stand der Technik nicht voranbringt, und genau das scheint in etwa passiert zu sein
  Darin liegt kein inhärenter Widerspruch
Nicht aus Angst, sondern wegen ideologischer Differenzen und als vergeltende Erpressung, weil Anthropic nicht exakt getan hat, was die Regierung wollte
- Das ist einfach Marktmanipulation
- Genau. Es wird zu viel geistige Energie auf ein simples Bestechungsproblem verschwendet
  Anthropic wird mit dem Pentagon kooperieren, Insider im Weißen Haus werden bei der lukrativen Zuteilung von Anteilen vor dem IPO bedacht, und Fable wird auf magische Weise „korrigiert“ und wieder angeboten werden
- Ich verstehe nicht, warum von einem „Jailbreak“ die Rede ist
  Die Regierung hat klar gemacht, was privaten Unternehmen passiert, die Regierungsanweisungen nicht befolgen
  
  Trump said on his Truth Social platform: “The Leftwing nut jobs at Anthropic have made a DISASTROUS MISTAKE trying to STRONG-ARM the [Pentagon], and force them to obey their Terms of Service instead of our Constitution.” [0]
  There will be a Six Month phase out period for Agencies like the Department of War who are using Anthropic’s products, at various levels. Anthropic better get their act together, and be helpful during this phase out period, or I will use the Full Power of the Presidency to make them comply, with major civil and criminal consequences to follow. [1]
  Außerdem hat OpenAI sich gefügt, und OpenAI und Anthropic konkurrieren im Vorfeld der anstehenden IPOs. Man muss kein Raketenchirurg sein, um zu verstehen, was hier passiert
  [0] https://www.theguardian.com/technology/2026/feb/28/openai-us...
  [1] https://businesslawtoday.org/2026/04/dod-conflicted-strategi...
- Nein, das ist Regulatory Capture. Anthropic liegt derzeit vorn und will Regulierung durchsetzen, um chinesische Konkurrenten plattzumachen und die eigene Position abzusichern
Wer sagt, dass Amazons Rolle dabei keine Manipulation sein könne, sollte bedenken, dass Amazon ein „Freund der Regierung“ ist
Unter Andy Jassy zahlte Amazon 75 Millionen Dollar für eine Melania-Dokumentation, ein absurd höheres Gebot als alle anderen; eingespielt hat sie nur rund 16 Millionen Dollar, und Jeff Bezos hat das öffentlich verteidigt
Ein neutraler Beobachter kann erkennen, dass das eine massive Überzahlung und selbst im Nachhinein eine schreckliche Geschäftsentscheidung war. Amazon sagte das aber nicht und sagt es bis heute nicht. Das ist nur Bestechung mit ein paar zusätzlichen Verfahrensschritten
Wenn die Regierung dann hervortritt und sagt, es liege an dem, worauf Amazon hingewiesen habe, dann weiß sie, dass Amazon öffentlich nichts sagen wird, selbst wenn das komplett gelogen ist. Amazon will seinen mit viel Geld erkauften Status als Freund der Regierung behalten
Es ist für alle frustrierend, die Regierung so betrachten zu müssen, aber wenn man nur auf das schaut, was tatsächlich passiert, ist es sehr schwer, nicht nur dem zu vertrauen, was die Regierung sagt, sondern auch dem, was mit ihr ausgerichtete Unternehmen sagen
Das ist der im Artikel erwähnte Blogpost, geschrieben von der Person, die das Paper geprüft hat, das angeblich diesen „Jailbreak“ gefunden hat
https://www.lutasecurity.com/post/the-fable-5-export-control...
- Ich habe anderswo gelesen, dass es eine China-Verbindung geben soll
  Ich frage mich, wie das zusammenhängt
“‘Fix this code,’ plus several manual steps to generate test scripts,
Es wirkt, als gebe die Überschrift den vollständigen Kontext dessen, was sie tatsächlich gesehen haben, nicht richtig wieder. Das unterscheidet sich auch von dem, was die Einleitung mehrfach andeutet
Trotzdem wirkt das Verbot dumm. Ist das vollständige „Forschungsarbeit eines Dritten“ bisher nicht tatsächlich geleakt?
- Wenn das, was der Patch behebt, ein verwundbarer Bug ist, dann ist dieser Test im Grunde ein Exploit
- Das wird nicht geleakt werden. Sonst wüsste man ja, welche Schwachstelle sie nicht gepatcht haben wollen
  Und es würde auch offenlegen, warum sie sogar so weit gehen, das führende Unternehmen in der wichtigsten Industrie der Welt zu beschädigen
In der Zwischenzeit wird Deepseek V4 Flash Sicherheitslücken bereitwillig für nahezu null Kosten finden
Wir geben die Bug-Jagd an Open-Weight-Modelle ab
- Deepseek ist nicht einfach nur Open Weight. Es ist Open Source, und dazu gibt es ein Research-Paper, das die Methoden ausführlich erklärt
Dieser Vorfall zeigt eine kognitive Dissonanz rund um „Sicherheit“ in der Cybersicherheit auf
a) Damit wir sicherer sind, müssen LLMs uns dabei helfen, Schwachstellen in unserem Code zu finden und zu beheben
b) Damit wir sicher sind, dürfen LLMs keine Schwachstellen im Code anderer Leute finden
Ich glaube nicht, dass sich das so lösen lässt, dass sowohl (a) als auch (b) gewinnen
- Stimmt. Das ist ein Versagen von Anthropic und anderen Anbietern, die Cybersicherheit nicht verstanden haben
  Sicherheitsbugs in Software zu finden ist etwas Gutes, nichts Böses. Es führt zu sichererer Software
  In der Cybersicherheit sind Verteidigung und Angriff zwei Seiten derselben Medaille
- Wenn man auf beiden Seiten gute Absichten annimmt, ist das wirklich absurd komisch
  Deshalb denke ich, dass die eigentliche Erklärung in der böswilligen Haltung sowohl der US-Regierung als auch von Anthropic liegt
  Das apokalyptische Marketing von Anthropic hat der US-Regierung einen Vorwand geliefert, sie wegen einer unzusammenhängenden technischen Spitzfindigkeit herunterzumachen, als Vergeltung für den Widerstand gegenüber dem Verteidigungsministerium, obwohl es in Wirklichkeit nur darum geht, dass Coding vielleicht um 17 % besser geworden ist
  Diese beiden Gruppen, also die aktuelle US-Regierung und Anthropic, stehen politisch auf entgegengesetzten Seiten, sind aber beide voller Menschen mit autoritären Neigungen. Das ist das Beängstigende hier, nicht ein dummes LLM
  Für mich wirkt OpenAI noch als das geringere Übel. Eben ein typisches kapitalistisches Unternehmen: „auf der Straße mitte-links, im Schlafzimmer mitte-rechts“
  Wenigstens kann man verstehen, warum sie solche Entscheidungen treffen. Ich vertraue Leuten, die gewinnorientierte Unternehmen aufbauen, mehr als Leuten, die aus Rechenressourcen eine Religion machen wollen
Der Kern des Problems hier könnte nicht der Exploit sein, sondern die Korrektur selbst
Wenn ein Modell Dinge identifizieren und beheben kann, die man wie eine Backdoor „nicht reparieren darf“, könnte das ein großes Hindernis sein, groß genug, um die falschen Leute nervös zu machen
Ist die umgekehrte Richtung dieses „Hackings“ nicht immer noch ziemlich schwer zu umgehen?
Dem Modell wurde Code gegeben, bei dem bereits bekannt war, dass er eine bestimmte Sicherheitslücke enthält, und mit dem richtigen Prompt wurde es dazu gebracht, sie zu beheben
Diese Art von Jailbreak scheint dem Modell keine kreative Schwerstarbeit abzuverlangen, sondern eher vorauszusetzen, dass man den gewünschten Endzustand bereits kennt
Vielleicht fehlt mir auf der Prompt-Seite einfach die Fantasie
- Man kann einfach den Code anderer Leute einfügen, behaupten, es sei der eigene, und das Modell bitten, ihn zu reparieren
  Die Differenz zwischen Eingabecode und Ausgabecode ist dann die Liste der Schwachstellen
- Man kann einen gewünschten Endzustand annehmen und Brute Force versuchen, bis man Sicherheitsbugs findet

Forscher: „Die Fable-5-Kontroverse begann nicht mit einem Jailbreak, sondern mit ‚fix this code‘“

Die Behauptung, dass „fix this code“ der Grund für die Exportkontrolle war

Maßnahmen der Regierung und Reaktion von Anthropic

Von den Forschern durchgeführte Experimente

Moussouris’ Gegenargumente

Wassenaar Arrangement und Ausnahmen für defensive Sicherheit

Offener Brief der Sicherheitsbranche

Warnung vor größerem Schaden für Verteidiger als für Angreifer

Position der Regierung

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare