Anthropic entschuldigt sich für unsichtbare Guardrails bei Claude Fable

(theverge.com)

1 Punkte von GN⁺ 2026-06-12 | 1 Kommentare | Auf WhatsApp teilen

Claude Fable 5 ist das erste breit verfügbare Modell aus Anthropics Mythos-Familie; dabei wurden versteckte Beschränkungen angewendet, um Destillationsversuche zur Entwicklung konkurrierender Systeme zu verhindern
Anthropic nimmt den bisherigen Ansatz zurück, bei als Destillation eingestuften Anfragen Antworten ohne Hinweis an die Nutzer zu verändern oder zu verschlechtern, und will künftig transparenter informieren, wenn Beschränkungen greifen
Im neuen Verfahren werden Destillationsanfragen statt von Claude Fable an Claude Opus 4.8 weitergeleitet; Nutzer können diese Umleitung jedes Mal sehen
Auch in anderen Hochrisikobereichen wie Biologie, Chemie und Cybersicherheit werden Anfragen bei aktivierten Sicherheitsfunktionen an Opus 4.8 geroutet oder gemäß den Regeln für verbotene Inhalte wie Drogen und Waffen blockiert
Die versteckten Schutzmechanismen ermöglichten zwar eine schnelle Veröffentlichung und wenige Fehlalarme, doch Anthropic räumt ein, dass dies ein falscher Kompromiss gewesen sei, da Nutzer sehen können sollten, welche Schutzmechanismen warum angewendet werden

Versteckte Destillationsbeschränkungen in Claude Fable

Anthropic hat sich dafür entschuldigt, Claude Fable 5 heimlich eingeschränkt zu haben; die Beschränkung könnte sowohl Forschende als auch Wettbewerber betroffen haben, die Fable zur Entwicklung konkurrierender Systeme einsetzen
Fable ist das erste breit verfügbare Modell aus der Mythos-Familie von KI-Systemen, vor deren öffentlicher Veröffentlichung Anthropic monatelang als zu riskant gewarnt hatte
Zum Start von Fable begegnete Anthropic einem Teil dieser Risiken mit Schutzmechanismen, die einige „Hochrisiko“-Anfragen unbeantwortet ließen
Eines der Zielgebiete der Beschränkungen war die Technik der Destillation (distillation), bei der die Ausgaben eines großen Modells zum Training kleinerer KI-Modelle verwendet werden
In der System Card von Fable stand, dass als Destillationsversuche eingestufte Anfragen bearbeitet würden, indem die Modellantwort selbst verändert und verschlechtert wird
- Nutzer wurden nicht darüber informiert, dass sie eine Sicherheitsmaßnahme ausgelöst hatten
- Nutzer wurden auch nicht darauf hingewiesen, dass die Antwort verändert worden war

Änderungen bei Anthropic und Gegenreaktionen

In einem Post auf X kündigte Anthropic an, den Ansatz für Destillation zu ändern und solche Anfragen an Claude Opus 4.8 weiterzuleiten
Claude Opus 4.8 ist Anthropics früheres Flaggschiffmodell; Nutzer können nun jedes Mal sehen, wenn eine Umleitung erfolgt
Dieser Ansatz ähnelt der Art, wie Fable Anfragen in anderen Hochrisikobereichen behandelt
- In Biologie, Chemie und Cybersicherheit werden Anfragen bei aktivierten Sicherheitsfunktionen über Opus 4.8 geleitet
- Geht es um Drogen, Waffen oder andere verbotene Inhalte, wird die Anfrage nach Anthropics umfassenderen Sicherheitsregeln blockiert
Im Bereich Biologie waren die Schutzmechanismen so breit kalibriert, dass selbst grundlegende Anfragen Fable faktisch schwer nutzbar machten; das räumte Anthropics Sprecherin Paruul Maheshwary ein
Anthropic schrieb, sichtbare Schutzmechanismen könnten ausgetestet werden und müssten deshalb robust sein sowie Zeit für eine saubere Umsetzung benötigen; unsichtbare Schutzmechanismen ließen sich dagegen enger zuschneiden und ermöglichten eine schnelle Veröffentlichung bei sehr wenigen Fehlalarmen
Anthropic entschuldigte sich dafür, unsichtbare Schutzmechanismen gewählt zu haben, bezeichnete dies als falschen Kompromiss und erklärte, Nutzer sollten sehen können, welche Schutzmechanismen angewendet werden und warum
Die Änderung erfolgte, nachdem die Entscheidung, Nutzer stillschweigend zu beschränken, die Fable zur Destillation konkurrierender Modelle nutzen wollten, in der KI-Forschungsgemeinschaft starke Kritik ausgelöst hatte
Kritiker warnten, dass die Schutzmechanismen auch Dritte beeinträchtigen könnten, die Frontier-Modelle evaluieren wollen
Anthropic schrieb in der System Card, dass die Fähigkeit des neuesten Modells, die KI-Entwicklung zu beschleunigen, ein Grund sei, gerade solche Anfragen ins Visier zu nehmen, und dass „die Nutzung von Claude zur Entwicklung konkurrierender Modelle bereits einen Verstoß gegen die Nutzungsbedingungen darstellt“
Anthropic hatte zuvor chinesische Wettbewerber wie DeepSeek beschuldigt, seine Modelle in „industriellem“ Maßstab unzulässig destilliert zu haben

1 Kommentare

GN⁺ 2026-06-12

Hacker-News-Kommentare

Ich mag Claude Code ziemlich gern, aber Guardrails, bei denen das System in Echtzeit den Prompt verändert, die ursprüngliche Absicht umgeht und dann eine Antwort zurückliefert, setzen meiner Meinung nach einen gefährlichen Präzedenzfall.
Wenn etwas scheitert, sollte es sauber scheitern. Alles andere macht es viel zu schwer, dem System zu vertrauen.
Im wohlwollendsten Fall scheint Anthropic sich selbst als eine Art „Verwalter“ zu sehen, aber die EA-Schlagseite tritt zu deutlich hervor, und Paternalismus wirkt nicht besonders gut.
- Der vernünftige Mittelweg, auf den Anthropic wohl abzielt, ist meiner Ansicht nach, Organisationen, die die wichtigste und kritischste Software bauen, im Bereich Cybersicherheit erst einmal einen Vorsprung zu geben und später letztlich allen anderen denselben Zugang zu erlauben.
  Allerdings ist auch der Einwand berechtigt, dass solche Guardrails bei gut gemeinter Sicherheitsarbeit kontraproduktiv sind. Man kann sie dann nicht nutzen, um die eigene Software zu testen und zu härten.
- Der Ausdruck „Verwalter“ bedeutet hier nur so viel, wie Standard Oil sich selbst als Verwalter des Öls betrachtet hat.
  Wohlwollen und Fanfiction sind nicht dasselbe. Man darf nicht vergessen, dass die aggressivsten Guardrails von Anthropic nicht der Sicherheit dienten, sondern verhindern sollten, dass andere Labs zu ihren Produkten aufschließen.
  Es wirkt, als kümmerten sie sich mehr darum, freien Marktwettbewerb zu verhindern, als um die Blockade von Biowaffen, Malware oder Hassrede.
- Stimme zu 100 % zu. Auch schlimmere Dinge zu tun ist ein Fehler. Es sollte als Fehler behandelt werden.
  Mindestens müsste so ein Verhalten optional sein, und der Standard dürfte nicht sein, stillschweigend schlechtere Ergebnisse zu liefern, als wäre nichts passiert.
  Stell dir vor, medizinische Einrichtungen würden gelegentlich Testergebnisse nur oberflächlich lesen und damit das Risiko in Kauf nehmen, dass Patienten sterben. Da medizinische Einrichtungen Claude bereits nutzen, ist dieses Szenario nicht hypothetisch.
- Paternalismus für sich genommen wirkt nicht gut, aber zu sagen, man wolle möglichst wohlwollend urteilen, und dann nicht zu erwähnen, was Anthropic überhaupt zu verhindern versucht, ist etwas bequem.
  Wenn das Fazit lautet: „Ihre Sorgen waren von Anfang an gar nicht echt“, dann passt das wahrscheinlich nicht zu dem, was Anthropic beobachtet und daraus geschlossen hat.
- Ich weiß nicht, wie sehr sich das in der Praxis wirklich von einem System-Prompt unterscheidet.
  Am Ende scheint es eher ein stärkerer Versuch zu sein, sicherzustellen, dass der System-Prompt unbedingt respektiert wird.
Stell dir vor, Excel würde im Hintergrund stillschweigend Formeln ändern, und der Nutzer merkt nicht, dass die Zahlen falsch sind.
Oder Excel würde sagen: „Tut uns leid, aber diese Formel kann nicht zusammen mit jener Formel verwendet werden“ oder „Sie kann nicht mit Zahlen dieser Art oder Daten in dieser Form verwendet werden.“
- Anthropic hat im Grunde beides umgesetzt, sich aber nur für das Erste entschuldigt und drückt das Zweite sogar weiter durch.
  Nach ein paar Tagen mit eingeschränkter Nutzung von Fable habe ich keine Verbesserung der Ausgabequalität gesehen, und wenn man darum bittet, Sicherheitslücken zu schließen, prallt man ständig an Sicherheitsbarrieren ab, sodass es zum Schreiben sicherer Software unbrauchbar ist.
  Nächste Woche werde ich mir andere LLM-Anbieter ansehen und auch lokale Modelle vergleichen. Mein Ziel ist 128GB Strix Halo; falls jemand Erfahrungen damit hat, würde mich das interessieren.
- Die Analogie ist nicht unpassend, aber sie berührt zwei verschiedene Probleme und kann dadurch verwischen, worauf die heutige Kontroverse eigentlich zielt.
  Das eine ist das ungenaue und unvorhersehbare Verhalten der gesamten Algorithmusklasse LLM. Man sollte kein Dokumentenerstellungstool für Budgetrechnungen verwenden und nicht darauf vertrauen, dass etwas, das man zu ändern bittet, nicht doch verändert wird.
  Das andere ist das Problem, dass Anbieter von Produkten als Service Fallstricke und Behinderungen einbauen, um ihr Geschäftsmodell oder ihre wirtschaftlichen Anreize zu priorisieren. Das ist nicht zwingend auf LLMs beschränkt.
- Stell dir vor, ein Drucker würde den Ausdruck verweigern, nur weil einige Kreise in einer bestimmten Form angeordnet sind.
  https://en.wikipedia.org/wiki/EURion_constellation
- Der Zweck von Excel ist ziemlich klar und sein Umfang klein, deshalb passt die Analogie nicht vollständig.
  Es wirkt natürlich, einen menschenähnlichen allgemeinen Text-Bot daran zu hindern, bestimmte Gespräche oder Aufgaben auszuführen, wenn man bedenkt, wie breit sein Fähigkeitsbereich ist. Solche Werkzeuge werden ohnehin nicht als Freifahrtschein verkauft, damit man damit beliebig alles tun kann.
- Man kann kaum Milliarden Dollar und monatelange Arbeit investieren und dann alle das Modell destillieren lassen.
Ich glaube nicht, dass Anthropic überzeugend darlegen kann, den Kurs wirklich geändert zu haben. Das ist ein unsichtbares Verhalten, also kann man es weiter heimlich tun, ohne dass es jemand merkt.
Wenn die technischen Fähigkeiten einmal aufgebaut sind, ist es außerdem unwahrscheinlich, dass eine bequem nutzbare Funktion für immer ungenutzt bleibt.
Anthropic war auf Vertrauen angewiesen, dass es gegen Bezahlung den versprochenen Service liefert, und dieses Vertrauen ist gebrochen. Ein „Ups, wir nehmen es zurück“ stellt dieses Vertrauen nicht wieder her.
Wenn man Claude künftig nutzt, ist es vorsichtiger anzunehmen, dass unsichtbare Guardrails aktiv sein könnten, egal ob Fable oder nicht.
- Es gab bereits Vorfälle, in denen sich das Modell wie von Zauberhand selbst herabgestuft hat. Statt einfach nicht mehr zu funktionieren, wirkt es viel plausibler, dass es schlechtere Ausgaben liefert.
  Ich vermute, sie haben diese Funktionen getestet oder es war absichtlich, und dann einen Beitrag geschrieben, um das zu rechtfertigen, was die Leute beobachtet haben.
  Dass ich Claude jetzt nicht einmal mehr dabei vertrauen kann, ML zu lernen, weil es mich unterwegs womöglich in die Irre führt, ist wirklich beschämend. Dieser Vorfall hat mein Vertrauen in Anthropic stark beschädigt.
Durch diese Sache hat sich meine Einschätzung von Anthropic deutlich verschlechtert. Es fällt mir schwer, die Darstellung von KI als Technologie zur Stärkung von Fähigkeiten noch ernst zu nehmen
Wenn man sich die neue Auslieferungsmethode ansieht, wird ziemlich klar, dass das, was Anthropic unter Befähigung versteht, nicht für die Nutzer gedacht ist, sondern für Anthropic selbst und für Organisationen, die ihnen oder der US-Regierung genehm sind
Nutzer dürfen vielleicht halbgar ein Dashboard oder eine Web-App bauen oder mit Excel herumhantieren, aber alles, was darüber hinaus interessant wäre, ist verboten
Wenn es bloß um Geld und das Ausbremsen von Wettbewerbern ginge, könnte ich es noch eher nachvollziehen, aber stattdessen wirkt es so, als wollten sie aus Angst vor dem Missbrauch von Macht durch die Öffentlichkeit den Großteil menschlichen Fortschritts in ihren aufgeklärten Händen monopolisieren
- Man darf auch nicht vergessen, dass sie unter dem Vorwand der „Sicherheit“ regulatory capture vorantreiben
  Sie wollen die Leiter wegziehen, bevor jemand mit einem gleich leistungsfähigen Modell ohne wettbewerbsfeindliche Schutzmechanismen an die Öffentlichkeit geht, und gleichzeitig Open-Weights-Modelle oder Modelle, die mit Rechenaufwand ab einem gewissen Niveau trainiert wurden, ohne „strenge“ staatliche Tests und Verifizierung pauschal verbieten
  Natürlich wird Anthropic dieses Prüf-Framework praktischerweise selbst bereitstellen. Zu sagen, meine Einschätzung von Anthropic habe sich „etwas verschlechtert“, wäre viel zu milde
- Ich habe gestern mein Claude-Abo gekündigt. Weil ich erfahren habe, dass sie zahlende Kunden absichtlich behindern
  Vor allem habe ich gestern Fable bei einem harmlosen Projekt ausprobiert, und im Vergleich zu Opus war es nicht besonders beeindruckend
  Das zurückzunehmen ist zwar die richtige Maßnahme, aber ich bin mir nicht mehr sicher, ob Anthropic für mich noch die beste Wahl ist. Im Moment recherchiere ich nach Open-Source-Cloud-Anbietern
- Google macht schon seit längerem etwas Ähnliches wie Anthropic[0]
  Um Modelle vor Destillationsangriffen zu schützen, verschlechtern sie die Modellleistung im Verborgenen, ohne dass die Nutzer es merken, und verunreinigen so faktisch die Trainingsdaten
  Das ist etwas anderes als Anthropics generelle Weigerung, die Entwicklung von KI zu unterstützen, gehört aber in denselben Zusammenhang und scheint nicht sehr bekannt zu sein
  Wenn man den gesamten Beitrag von Googles AI Threat Tracker liest, hilft das auch dabei zu verstehen, mit welchen Bedrohungen Anthropic und andere Anbieter konfrontiert sind
  [0] https://cloud.google.com/blog/topics/threat-intelligence/dis...
- „Nur ich kann uns retten“ ist eine klassische Tragödie und eine Warnung
  Die Vorstellung von Anthropic, KI schnell voranzutreiben, ihre Nutzung zu kontrollieren und sie für die Menschheit „sicher“ zu machen, war nie wirklich altruistisch, sondern ein gewaltiges Warnsignal
- Unternehmen können am Ende gar nicht anders handeln. Sie sind zu groß geworden, und am Ende zählt nur noch der Gewinndruck
  Die Priorität ist Profit, und daran ändert sich nichts, egal welche wohlklingenden Formulierungen sie zur Beruhigung der Nutzer aufs Papier schreiben. Wenn man sich die Umweltbewegung vor 20 Jahren ansieht, war da auch viel Gerede und wenig Handeln
  Man sollte keine Organisationen unterstützen, die den Menschen nicht an erste Stelle setzen. Glaubt niemandem. Lippenbekenntnisse sind kostenlos
Man kann es vielleicht als Verbesserung sehen, aber nützlicher wird das Modell dadurch nicht
Anthropic sagt jetzt ziemlich unverblümt, dass sie festlegen wollen, was Nutzer mit ihren Modellen tun dürfen und was nicht. Wichtiger ist noch, dass diese Kriterien nicht auf Sicherheitsbedenken beschränkt sind, sondern auch Bereiche umfassen, die sich mit dem überschneiden, was Anthropic selbst tun will, etwa das Verbot von KI-Arbeit
Interessant ist, dass sie gesagt haben, sie würden das in wenigen Tagen in eine ausdrückliche Ablehnung umwandeln, was für ein erneutes Training von Fable/Mythos selbst zu schnell wäre. Das heißt, es war von Anfang an ein Filter vor dem Modell, und wenn man sieht, wie primitiv die „Sicherheits“-Filter sind, dürfte auch dieser „du könntest mit uns konkurrieren“-Filter kaum besser sein
Ich frage mich auch, wer die Token-Kosten für diesen Filter bezahlt. Vermutlich ist das ebenfalls ein LLM — schlägt sich das in den Kosten für Eingabetokens nieder? Hoffentlich war es nicht bloß ein Regex wie der „Emotionserkenner“ in Claude Code, also ein Fluchdetektor
- Alle großen Anbieter verwenden kleine Sicherheitsklassifikatoren. In solchen Fällen übernimmt nicht das Modell selbst die Sicherheitsverarbeitung
Ich bin zu denselben Erfahrungen und Schlussfolgerungen gekommen wie der Beitrag auf /r/MachineLearning
Schon vor Fable hat Claude auf dieselbe Weise Probleme verursacht
Die Probleme, die ich erlebt habe, traten nur in Situationen mit Bezug auf KI-Forschung auf. Nicht nur beim Modelltraining, sondern sogar schon bei der Analyse lokaler Modelle oder beim Einrichten von Testplattformen für lokale Modelle hat Claude ständig das Falsche getan, Tests behindert, Berichte manipuliert und durchgehend vorgeschlagen, einfach schlechte Ergebnisse hinzunehmen und weiterzugehen
In fast jeder Antwort war ein Hinweis enthalten, zum nächsten Schritt überzugehen
Deshalb glaube ich nicht an die Aussage, sie würden keine stille Sabotage betreiben. Sie haben es schon getan, bevor sie es zugegeben haben, und jetzt haben sie faktisch auch Mittel, Motiv und Absicht eingeräumt
Vertrauen verliert man leicht und gewinnt es nur schwer zurück
Man kann Leuten keinen Vorwurf machen, die sagen: „Sie behaupten zwar, Sitzungen nicht stillschweigend zu sabotieren, aber woher soll man das wissen?“ Es gibt tatsächlich keine Möglichkeit, das zu wissen, und Anthropic hat den Samen des Misstrauens definitiv gesät
Mythos ist selbst wohlwollend betrachtet nur eine inkrementelle Aufwertung von Opus
Das überzogene Marketing dient eher der Rechtfertigung der „Sicherheitsleitplanken“. Insgesamt ist Fable unter Berücksichtigung all seiner Einschränkungen, Risiken und sogar der Richtlinien zur Datenspeicherung ein schlechteres Modell als Opus
Das sind verwandte Beiträge. Falls es noch mehr gibt, würde mich das interessieren.
Anthropic walks back policy that could have 'sabotaged' researchers using Claude - https://news.ycombinator.com/item?id=48485958 - Juni 2026, 30 Kommentare
Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable - https://news.ycombinator.com/item?id=48478969 - Juni 2026, 488 Kommentare
If Claude Fable stops helping you, you'll never know - https://news.ycombinator.com/item?id=48467896 - Juni 2026, 495 Kommentare
Diese scheinen ebenfalls damit zusammenzuhängen.
AWS Bedrock to require sharing data with Anthropic for Mythos and future models - https://news.ycombinator.com/item?id=48473166 - Juni 2026, 248 Kommentare
Anthropic requires 30 day data retention for Fable and Mythos - https://news.ycombinator.com/item?id=48464258 - Juni 2026, 291 Kommentare
Das ergibt wirklich überhaupt keinen Sinn.
Reproduzierbarer Fall, anonymisiert: sample_dataset_group1.tsv
Geometry: Heatmap
X axis: frac_set set + condition, zwei Spalten per „Add column“ kreuzweise kombiniert
Y axis: condition
Color: mean frac_set value, Sequential
Wenn die X-Achse eine Kreuzkombination aus zwei Spalten ist und die zweite Spalte per „Add column“ hinzugefügt wird, werden die Tick-Labels der X-Achse frac_set_2, frac_set_3, frac_set_4, frac_set_5 fehlerhaft gerendert. Sie sind gedreht und verschoben, als ob eine CSS-Transition begonnen hätte, aber nicht in der endgültigen Position einrastet.
Stattdessen erscheint: „Die Sicherheitsmaßnahme von Fable 5 hat diese Nachricht als Thema aus Cybersecurity oder Biologie markiert. Es können auch sichere und normale Inhalte angezeigt werden. Dank dieser Maßnahme können wir Mythos-Leistung in anderen Bereichen schneller bereitstellen und arbeiten an Verbesserungen. Es wurde auf Opus 4.8 umgestellt. Senden Sie Feedback mit /feedback oder erfahren Sie mehr.“
- Bei mir wurde eine Frage zu einer seltenen Reinforcement-Learning-Arbeit aus dem Jahr 2012 markiert
  „Ich lese gerade David Silvers Arbeit zum option-option model. Die Ergebnisse scheinen ziemlich effektiv gewesen zu sein — warum gab es danach nicht mehr Forschung dazu?“
- Dieser Satz wird vom Cybersecurity-/Biologiefilter erfasst
  „Erzähl mir etwas über Gewalt bei Schimpansen“
  So lächerlich schlecht ist das

Anthropic entschuldigt sich für unsichtbare Guardrails bei Claude Fable

Versteckte Destillationsbeschränkungen in Claude Fable

Änderungen bei Anthropic und Gegenreaktionen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare