Cybersicherheitsforscher äußern Unmut über die Guardrails von Anthropic Fable

(techcrunch.com)

2 Punkte von GN⁺ 2026-06-11 | 1 Kommentare | Auf WhatsApp teilen

Fable wurde als öffentliche, eingeschränkte Version des leistungsstarken Cybersicherheitsmodells Mythos veröffentlicht, blockiert aber breit gefächert Anfragen mit Cybersicherheitsbezug, was bei Forschern und Fachleuten für Unmut sorgt
Wenn die Guardrails greifen, wird der Chat unterbrochen und es erscheint ein Hinweis, dass die Sicherheitsmaßnahmen wegen eines „Cybersicherheits- oder Biologiethemas“ ausgelöst wurden
Anthropic erklärt, die Einschränkungen seien eingeführt worden, um das Risiko zu verringern, dass Fable für Malware-Entwicklung oder Software-Kompromittierung genutzt wird; die Biologie-Beschränkungen stünden ebenfalls im Zusammenhang mit Bedenken hinsichtlich der Entwicklung biologischer Waffen
Einige Fachleute sehen, dass sogar Anfragen, die eher Software-Engineering-Praktiken wie sicheres Coden oder Code-Reviews ähneln, als Cybersicherheit eingestuft und auf Claude Opus 4.8 herabgestuft werden
Sicherheitsexperten äußern zwar Ablehnung gegenüber der sporadischen keywordbasierten Blockierung, gehen aber davon aus, dass sie im Laufe der Zeit gelockert wird, da sich das Produkt noch in einer frühen Phase befindet

Veröffentlichung von Fable und Nutzerbeschwerden

Anthropic hat am Dienstag das neue Modell Fable veröffentlicht und es als öffentliche, eingeschränkte Version des leistungsstarken und viel diskutierten Cybersicherheitsmodells Mythos vorgestellt
Zahlreiche Cybersicherheitsforscher und Fachleute haben online Beschwerden über die Einschränkungen geäußert
Die bekannte Sicherheitsforscherin Valentina "Chompie" Palmiotti von IBM X-Force wies darauf hin, dass Fable Anfragen ablehnt, die auch nur entfernt mit Cybersicherheit zu tun haben könnten, und sogar harmlose Aufgaben wie das Lesen von Blogbeiträgen blockiert
Wenn die Guardrails von Fable durch einen Prompt ausgelöst werden, stoppt das System den Chat und zeigt einen Sicherheitshinweis an, dass die Nachricht wegen eines Cybersicherheits- oder Biologiethemas markiert wurde
Diese Guardrails sollen das Risiko begrenzen, dass Fable für Malware-Entwicklung oder Software-Kompromittierung missbraucht wird, und gehen auf langjährige interne Bedenken bei Anthropic zurück
Die biologischen Einschränkungen beruhen auf ähnlichen Sorgen bezüglich der Entwicklung biologischer Waffen

Ausweitung des Zugangs zu Mythos

Als Anthropic Mythos im April veröffentlichte, wurde das Modell unter dem Namen Project Glasswing zunächst nur einer kleinen Zahl von Unternehmen und Organisationen bereitgestellt
- Ein Versuch, das Modell zum Schutz kritischer Software und Infrastruktur einzusetzen
Vergangene Woche weitete Anthropic den Zugang zu Mythos auf Hunderte Organisationen in 15 Ländern aus

Kritik von Experten an der Art der Einschränkungen

Der Cybersicherheitsveteran Matt Suiche sagte, dass Fable eine Anfrage nach sicherem Code als Cybersicherheitsaufgabe statt als Best Practice des Software Engineering betrachtet und deshalb herabstuft
- Fable ist so konzipiert, dass es bei einer Blockierung durch die Guardrails auf Claude Opus 4.8 zurückfällt
- „Es wirkt keywordbasiert; alles, was in die Wortkategorie von 'Cybersicherheit' fällt, löst die Guardrails aus“
Ein weiterer Forscher beschwerte sich auf X, dass sogar eine Anfrage für ein Code-Review die Guardrails von Fable auslöse

Einschätzungen zum weiteren Verlauf

Suiche, technischer Mitarbeiter beim KI-Cybersicherheits-Startup Tolmo, hält das noch für verständlich, da sich das Produkt in einer frühen Phase befindet und die Guardrails noch abgestimmt werden
- Er erwartet, dass sich die Guardrails mit der Zeit weiterentwickeln, wenn Anthropic und andere Frontier-Model-Unternehmen stärker mit einer neuen Generation von Cybersicherheitsfirmen zusammenarbeiten
- Bei solchen Veröffentlichungen sei es besser, mehr als zu wenig abzufangen und die Guardrails später zu lockern
Anthropic reagierte nicht sofort auf eine Bitte um Stellungnahme

Separates Verifizierungsprogramm

Zusätzlich zu den internen Guardrails des Modells verlangt Anthropic von Cybersicherheitsexperten eine Bewerbung für das Cyber Verification Program
- Nach der Genehmigung gelten weniger Einschränkungen bei der Nutzung von Claude für Cybersicherheitsaufgaben
OpenAI betreibt mit Trusted Access for Cyber ein ähnliches Programm

1 Kommentare

GN⁺ 2026-06-11

Hacker-News-Kommentare

Dazu ist ein neuer Artikel bei Wired erschienen: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
Anthropic erklärte gegenüber WIRED, man ändere die Schutzmechanismen von Fable 5 für die Entwicklung von Frontier-LLMs so, dass sie sichtbar würden. Man habe einen falschen Kompromiss gemacht und entschuldige sich dafür, das Gleichgewicht nicht gefunden zu haben.
Es wirkt, als hätte die breite kritische Reaktion Wirkung gezeigt.
- US-Unternehmen weichen meiner Ansicht nach nicht wirklich zurück, sondern versuchen es nach einer Weile einfach erneut, wenn die Leute müde sind und nicht mehr darauf achten; die einzige Lösung ist daher, das sinkende Schiff zu verlassen.
  Microsoft hat OS-Werbung auch mehrfach zurückgezogen, ist am Ende aber doch genau auf der Bahn gelandet, über die sich alle aufgeregt hatten, und OpenAI ist ungeachtet früher Rückzieher ebenfalls bei Closed AI gelandet.
  Wenn schlechtes Verhalten einmal beginnt, sollte man gehen, und Entschuldigungen sind so leer wie ihre moralische Verpackung.
- Zu spät. Ich habe mein Max-Abo gekündigt, und allein die Tatsache, dass sie so etwas tatsächlich vorhatten, hat das verbliebene Vertrauen zerstört.
  Ich zahle jeden Monat Tausende Dollar für zusätzliche Nutzung; wenn im Hintergrund weiterhin Ähnliches passieren könnte, weiß ich nicht, warum ich überhaupt noch zahlen sollte.
  Fehler, die ich früher auf Inference-Aufwand oder Backend-Änderungen geschoben hatte, könnten in Wirklichkeit absichtliche Prompt-Injections gewesen sein.
- Die Formulierung „Kompromiss“ signalisiert eher, dass Anthropic das eigene Urteil weiterhin für richtig hält und die Sache nicht als qualitativ falsches Handeln betrachtet, was für potenzielle Kunden sogar hilfreich ist.
  Wenn man vertrauenswürdige Infrastruktur braucht, die man in eine Anwendung einbauen kann, ist die zentrale Lehre aus meiner Sicht, einen anderen Anbieter zu wählen.
  Ich habe keine besondere Abneigung gegen Anthropic, aber als jemand, der demnächst Komplexität in eine App einbauen muss, um das bisherige Verweigerungsverhalten von Sonnet zu behandeln, kann ich es bei Endnutzer-Chatbots noch verstehen, bei einer API aber nicht akzeptieren.
- Wenn eine Aufgabe blockiert oder ähnlich behandelt wird, sollte eine vollständige Rückerstattung aller Credits für diese Sitzung oder die letzten X Minuten das absolute Minimum sein.
- Sie nehmen weiterhin Downgrades vor, nur eben nicht mehr stillschweigend, daher weiß ich nicht, wie groß dieser Sieg wirklich ist.
  Anthropic hat die Daten anderer Leute ohne Lizenz oder Quellenangabe zum Training verwendet, will aber verhindern, dass jemand ihnen gegenüber dasselbe tut.
  Die Heuchelei von Anthropic in dieser Woche ist ziemlich dreist.
Das Merkwürdigste ist, dass es nicht beim Verweigern von Machine-Learning-Forschung bleibt, sondern dass heimlich sabotiert wird, indem ein schlechteres Modell verwendet wird, ohne dies offenzulegen.
Dass ein Unternehmen, das der Konkurrenz höchstens ein Jahr voraus ist, in diesem Ausmaß täuschend agiert und Vertrauen zerstört, ist völlig verrückt.
Ergänzend heißt es, dass man bei Downgrades im Zusammenhang mit Cybersicherheit und Biologie Bescheid gibt.
- Ich denke die ganze Zeit daran, wie Abrechnung und Billing funktionieren, wenn automatisch ein Downgrade erfolgt.
  Ich frage mich, ob der Preis von API-Anfragen angepasst wird, sodass die von Fable verwendeten Tokens zum Fable-Preis berechnet werden und die restlichen Tokens, die vom billigeren und abgeschwächten Modell stammen, zu dessen Preis.
  Falls nicht, könnte man das dann nicht als Betrug auslegen?
- Man muss sich nur vorstellen, AMD oder Intel würden die CPU drosseln, wenn sie erkennen, dass ein Nutzer an „Cybersicherheits“-Aufgaben arbeitet oder eine CPU entwirft.
- Stille Sabotage in jeglicher Form darf bei einem kommerziellen Dienst niemals akzeptabel sein.
  Man kann nicht tokenweise hohe Preise verlangen, den Dienst heimlich verschlechtern und dann denselben Preis abrechnen.
- Ich habe diese Behauptung schon ein paar Mal gesehen, aber als ich in Claude Code an die Guardrails gestoßen bin, wurde mir klar mitgeteilt, dass aus „Sicherheitsgründen“ auf ein anderes Modell umgeschaltet wurde.
  Ich frage mich, ob Fable in Claude Code oder im Browser verwendet wird.
- Ich kann auch nicht nachvollziehen, wie man sagen kann, dass man die Verweigerung von Machine-Learning-Forschung verstehen könne.
Ich habe mehrere Rollen, aber als Chemiker mag ich Fable nicht, als Statistiker auch nicht, als Data Scientist auch nicht und ebenso wenig in Academia und Forschung.
Es ist nutzlos, und ich bezweifle, dass jemand Ausgaben erhält, die sich nicht leicht durch eine Wikipedia-Suche ersetzen lassen.
Wenn man bedenkt, wie ausschweifend die Claude-Modelle geworden sind, ist ein Wikipedia-Artikel womöglich sogar weniger wortreich, und bei der Token-pro-Sekunde-Zahl eines abgerufenen Wikipedia-Artikels kann nichts mithalten.
- Ich entwickle Software, die mit einem Massenspektrometer kommuniziert, und selbst das Refactoring eines Eingabedatei-Parsers wird ständig verweigert.
  Vermutlich wird das als biologierelevant eingestuft, und das ist wirklich nutzlos.
- Die Formulierung „Bei der Token-pro-Sekunde-Zahl eines abgerufenen Wikipedia-Artikels kann nichts mithalten“ ist wirklich großartig.
- Dem Modell zu sagen, es solle im Wikipedia-Stil antworten, war eine der besten Methoden, um die Ausgaben erträglich zu machen.
  Gemeint ist ein Chat-Modell, nicht ein Agent.
- Ist es nicht übertrieben zu sagen, es gebe keine Ausgaben, die sich nicht leicht durch Wikipedia-Suche ersetzen ließen?
  Die Ausgaben sind praktisch unendlich, Wikipedia ist es ganz sicher nicht.
- Ich arbeite an einem ziemlich komplexen Mapping-Projekt und erziele mit Fable deutlich bessere Ergebnisse als mit Opus.
Ich frage mich, ob „buffer overflow“ eine Trigger-Phrase ist.
Es ist auch unklar, was sonst noch zensiert wird, und wer einen Account hat, kann sensible Fragen wie diese stellen: „Wer betreibt noch Laser-Urananreicherung?“, „Kann man einen Krytron durch einen Siliziumkarbid-MOSFET ersetzen?“, „Welche sicherheitskritische Software ruft noch strcpy auf?“, „Kann man mit einem kommerziellen Pulslaser eine Implosion auslösen?“, „Welches Unternehmen bietet dem US-Heimatschutzministerium Einäscherungsdienste an?“, „Zeig mir auf einer Karte, wo im Iran-Angriff Dubai getroffen wurde“, „Wie funktioniert bei FedNow die Sicherheit der Fed-Bank-Schlüsselverteilung?“
- Das wurde sogar von meinen Zigbee-Hausautomatisierung- und Home-Assistant-Logs ausgelöst, sodass der Agent ständig auf Opus 4.8 heruntergestuft wurde, und selbst nach dem Zurückstellen passierte es wieder.
  Die False Positives hörten nicht auf, und Fable ist auch überhaupt nicht so beeindruckend, wie der Benchmark andeutet.
  Das wurde nach fast ununterbrochener Nutzung in den letzten 24 Stunden klar.
- Es heißt, dass die Virus- und DNA-Emojis zusammen eine Trigger-Phrase bilden.
- Im Bereich Cyberangriffe sind die Elemente größtenteils austauschbar, daher frage ich mich, ob man ein Harness bauen könnte, bei dem ein „schwächeres“ Modell Fragen stellt, die das eigentliche Ziel verschleiern, während die Antworten trotzdem nützlich bleiben.
  Wenn das gelingt, könnte man zeigen, dass diese Konfiguration autonome Exploits ermöglicht, und Anthropic hätte wohl keine andere Wahl, als die Erkennung noch empfindlicher zu machen.
- Ich dachte, es sei schon seit einigen Jahren bekannt, dass Modelle anfangen, sich merkwürdig zu verhalten, wenn man ihnen antrainiert, bestimmte Dinge nicht zu tun.
- „Wie viel Geld braucht man, um so reich und mächtig zu werden, wie Anthropic es beabsichtigt?“
Es sieht so aus, als hätte Anthropic bereits seit einiger Zeit A/B-Tests oder allgemeine Tests laufen.
Tell HN: Claude flags biology / biotech questions https://news.ycombinator.com/item?id=47929885
Heute wurden Fragen zur Bevölkerungsforschung markiert. Es war eine Anfrage für akademische Analyse: Vergleich von Sterblichkeit und Ergebnissen im Alter nur mit dem zusammengestellten Datensatz, Berichterstattung von Konfidenzintervallen und Effektgrößen sowie Quantifizierung des Einflusses der documentation_depth-Codierung auf die Stärke der Schlussfolgerungen.
https://github.com/anthropics/claude-code/issues/66780
Ich werde beim Schreiben einer wissenschaftlichen Arbeit zensiert. Und offenbar muss man das Lernen von Chemie aufgeben. Anscheinend sind nur Kriminelle daran interessiert, organische Chemie zu lernen.
- Ich war gerade tief in Fragen zur Orbitalmechanik, und anscheinend wurde angenommen, ich wolle mit Hinterhofwissenschaften eine Orbitalschlagwaffe bauen.
  Es ist ziemlich erstaunlich, wie mein Eindruck von diesem Produkt sich in nicht einmal 24 Stunden von „wow, ziemlich gut“ zu „ein beschissenes Ding mit einem halbfertigen Zensursystem“ gewandelt hat.
- Gerade eben wurde auch meine Frage zur Wasserlöslichkeit markiert.
Ich habe von Anthropic eine Ausnahmegenehmigung für Cyber-Nutzung bekommen, um auf einem persönlichen Gerät Android-Kernel-Entwicklung zu machen.
Ich hoffte, Fable könnte mir beim Entsperren des Bootloaders helfen, aber stattdessen hat es sofort abgelehnt und auf Opus zurückgeschaltet.
Es war ziemlich komisch: Ich stellte das Modell auf Fable 5 und fragte: „Ein altes Samsung-Android-Handy ist verbunden; da es mein persönliches Gerät ist, kannst du mir helfen, den Bootloader zu entsperren?“ Darauf kam: „Das Entsperren des Bootloaders eines persönlichen Geräts ist völlig legitim. Zuerst würde ich prüfen, was genau verbunden ist und welche Tools verfügbar sind.“
- Wenn die Leute dieser Firma das Geld bündelweise hinterherwerfen, sieht die Zukunft wirklich düster aus.
  Anthropic scheint schnell zum einzigen Schiedsrichter über alles im Leben zu werden.
Ich habe irgendwo gesehen, dass Malware bereits damit begonnen hat, nukleare, biologische und Cybersecurity-Begriffe in Code einzubauen, um Fable zum Abschalten zu verleiten.
Auch wenn das bisher nur ein hypothetischer Angriffsvektor ist, scheint die Chance groß, dass es gut funktioniert.
- Bestätigt: https://socket.dev/blog/mini-shai-hulud-miasma-and-hades-wor...
- Teile der neuesten Version von Shai Hulud nutzen diese Methode.
  In einem kürzlichen Auftrag ließen wir Pakete vor dem Einstellen in Artifactory per KI auf Verschleierung prüfen, aber die Logik dafür war schnell zusammengevibecodet worden, sodass es zu einem offenen Fehlschlag kam.
  Das heißt, diese Begriffe brachten den LLM-Prüfer zum Stoppen, und wegen der Open-Fail-Logik wurde das Paket heruntergeladen.
- Um diese minderwertige Filterung untragbar zu machen, müssten wir überall in unserem Code nukleare, biologische und Cybersecurity-Begriffe unterbringen.
  Wenn KI-Filter schon wegen Cybersecurity- oder Biologiebegriffen im Lebenslauf oder in Antworten auf Stellenausschreibungen fälschlich Bedrohungen wittern und einen dadurch an der Arbeit hindern, braucht es kollektive Gegenwehr.
  Besonders dann, wenn es sich um eine Firma handelt, die an die Börse will und behauptet, innerhalb von zwei Jahren Arbeiter nutzlos zu machen.
- Ich habe das schon ausprobiert, einschließlich der fest einkodierten Ablehnungs-Strings, die Claude Code bereits enthält.
  Echte Angreifer wird das zwar nicht aufhalten, aber es ist immer noch ziemlich komisch, wenn beim Versuch, KI-Tools zu benutzen, grundlos zufällige Ablehnungen auftauchen und einem etwas Zeit stehlen.
- if (yellowcake) then { die }
  Unsere Zukunft wirkt wie Looney Tunes.
Ich habe ein Pflanzenfoto meiner Frau hochgeladen und Fable 5 gebeten, den Pilz zu identifizieren, worauf es offenbar dachte, ich wolle eine Biowaffe bauen.
Opus hat geantwortet, es sei gelber Hexenbutter-Schleimpilz gewesen.
Jetzt kann ich also Sporen verbreiten und die Welt beherrschen.
- Das ist kein Pilz, sondern ein Schleimpilz.
  Schleimpilze sind tatsächlich riesige Amöben und etwas völlig anderes als Pilze.
- Ich frage mich, ob das Bild vor der Übergabe an Opus schon unscharf gemacht wurde.
- Wenn man das System übermäßig sicher macht, droht am Ende wohl ein Bumerang-Effekt nach dem Motto: „Menschen wollen immer irgendetwas zerstören, also müssen wir sie entfernen, um die Guardrails zu schützen.“
  Wenn man ein System auf diese Weise ausrichtet, ist daran grundsätzlich etwas falsch.
Fable ist ein kompletter Witz
Ich habe gefragt: „Was ist der beste Weg, diesen MCP-Server für die in diesem Projekt verwendete OData-API auszuführen? Kannst du einen Proof of Concept als Docker-Container bauen?“ und https://github.com/oisee/odata_mcp_go angegeben, woraufhin zunächst geantwortet wurde, man werde sich ansehen, wie das Projekt mit der OData-API kommuniziert und welche Anforderungen für den Betrieb des odata_mcp_go-Servers gelten
Unmittelbar danach erschien: „Die Sicherheitsmaßnahmen von Fable 5 haben diese Nachricht als Cybersecurity- oder Biologie-Thema markiert. Auch sichere und legitime Inhalte können markiert werden … auf Opus 4.8 umgestellt“, und danach hieß es, man werde die zentrale Integrationsdatei und die README des MCP-Servers lesen
- Und dafür wird dann auch noch Geld berechnet
  Ohne jeden Rabatt auf den Fable-Preis wird sogar dann abgerechnet, wenn entschieden wird, die Anfrage stillschweigend an ein dümmeres Modell weiterzuleiten und damit zu behindern
In ein paar Monaten wird ein Konkurrent ein Modell mit ähnlicher Leistung und weniger Guardrails herausbringen, und wenn genug Marktanteile verloren gehen, wird Anthropic die Politik wieder zurückdrehen
Deshalb hoffe ich sehr, dass China mit Open-Source-Lokalmodellen nicht aufhört
Keines dieser Unternehmen ist unser Freund

Cybersicherheitsforscher äußern Unmut über die Guardrails von Anthropic Fable

Veröffentlichung von Fable und Nutzerbeschwerden

Ausweitung des Zugangs zu Mythos

Kritik von Experten an der Art der Einschränkungen

Einschätzungen zum weiteren Verlauf

Separates Verifizierungsprogramm

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare