- Claude Fable 5 ist das erste breit verfügbare Modell aus Anthropics Mythos-Familie; dabei wurden versteckte Beschränkungen angewendet, um Destillationsversuche zur Entwicklung konkurrierender Systeme zu verhindern
- Anthropic nimmt den bisherigen Ansatz zurück, bei als Destillation eingestuften Anfragen Antworten ohne Hinweis an die Nutzer zu verändern oder zu verschlechtern, und will künftig transparenter informieren, wenn Beschränkungen greifen
- Im neuen Verfahren werden Destillationsanfragen statt von Claude Fable an Claude Opus 4.8 weitergeleitet; Nutzer können diese Umleitung jedes Mal sehen
- Auch in anderen Hochrisikobereichen wie Biologie, Chemie und Cybersicherheit werden Anfragen bei aktivierten Sicherheitsfunktionen an Opus 4.8 geroutet oder gemäß den Regeln für verbotene Inhalte wie Drogen und Waffen blockiert
- Die versteckten Schutzmechanismen ermöglichten zwar eine schnelle Veröffentlichung und wenige Fehlalarme, doch Anthropic räumt ein, dass dies ein falscher Kompromiss gewesen sei, da Nutzer sehen können sollten, welche Schutzmechanismen warum angewendet werden
Versteckte Destillationsbeschränkungen in Claude Fable
- Anthropic hat sich dafür entschuldigt, Claude Fable 5 heimlich eingeschränkt zu haben; die Beschränkung könnte sowohl Forschende als auch Wettbewerber betroffen haben, die Fable zur Entwicklung konkurrierender Systeme einsetzen
- Fable ist das erste breit verfügbare Modell aus der Mythos-Familie von KI-Systemen, vor deren öffentlicher Veröffentlichung Anthropic monatelang als zu riskant gewarnt hatte
- Zum Start von Fable begegnete Anthropic einem Teil dieser Risiken mit Schutzmechanismen, die einige „Hochrisiko“-Anfragen unbeantwortet ließen
- Eines der Zielgebiete der Beschränkungen war die Technik der Destillation (distillation), bei der die Ausgaben eines großen Modells zum Training kleinerer KI-Modelle verwendet werden
- In der System Card von Fable stand, dass als Destillationsversuche eingestufte Anfragen bearbeitet würden, indem die Modellantwort selbst verändert und verschlechtert wird
- Nutzer wurden nicht darüber informiert, dass sie eine Sicherheitsmaßnahme ausgelöst hatten
- Nutzer wurden auch nicht darauf hingewiesen, dass die Antwort verändert worden war
Änderungen bei Anthropic und Gegenreaktionen
- In einem Post auf X kündigte Anthropic an, den Ansatz für Destillation zu ändern und solche Anfragen an Claude Opus 4.8 weiterzuleiten
- Claude Opus 4.8 ist Anthropics früheres Flaggschiffmodell; Nutzer können nun jedes Mal sehen, wenn eine Umleitung erfolgt
- Dieser Ansatz ähnelt der Art, wie Fable Anfragen in anderen Hochrisikobereichen behandelt
- In Biologie, Chemie und Cybersicherheit werden Anfragen bei aktivierten Sicherheitsfunktionen über Opus 4.8 geleitet
- Geht es um Drogen, Waffen oder andere verbotene Inhalte, wird die Anfrage nach Anthropics umfassenderen Sicherheitsregeln blockiert
- Im Bereich Biologie waren die Schutzmechanismen so breit kalibriert, dass selbst grundlegende Anfragen Fable faktisch schwer nutzbar machten; das räumte Anthropics Sprecherin Paruul Maheshwary ein
- Anthropic schrieb, sichtbare Schutzmechanismen könnten ausgetestet werden und müssten deshalb robust sein sowie Zeit für eine saubere Umsetzung benötigen; unsichtbare Schutzmechanismen ließen sich dagegen enger zuschneiden und ermöglichten eine schnelle Veröffentlichung bei sehr wenigen Fehlalarmen
- Anthropic entschuldigte sich dafür, unsichtbare Schutzmechanismen gewählt zu haben, bezeichnete dies als falschen Kompromiss und erklärte, Nutzer sollten sehen können, welche Schutzmechanismen angewendet werden und warum
- Die Änderung erfolgte, nachdem die Entscheidung, Nutzer stillschweigend zu beschränken, die Fable zur Destillation konkurrierender Modelle nutzen wollten, in der KI-Forschungsgemeinschaft starke Kritik ausgelöst hatte
- Kritiker warnten, dass die Schutzmechanismen auch Dritte beeinträchtigen könnten, die Frontier-Modelle evaluieren wollen
- Anthropic schrieb in der System Card, dass die Fähigkeit des neuesten Modells, die KI-Entwicklung zu beschleunigen, ein Grund sei, gerade solche Anfragen ins Visier zu nehmen, und dass „die Nutzung von Claude zur Entwicklung konkurrierender Modelle bereits einen Verstoß gegen die Nutzungsbedingungen darstellt“
- Anthropic hatte zuvor chinesische Wettbewerber wie DeepSeek beschuldigt, seine Modelle in „industriellem“ Maßstab unzulässig destilliert zu haben
1 Kommentare
Hacker-News-Kommentare
Ich mag Claude Code ziemlich gern, aber Guardrails, bei denen das System in Echtzeit den Prompt verändert, die ursprüngliche Absicht umgeht und dann eine Antwort zurückliefert, setzen meiner Meinung nach einen gefährlichen Präzedenzfall.
Wenn etwas scheitert, sollte es sauber scheitern. Alles andere macht es viel zu schwer, dem System zu vertrauen.
Im wohlwollendsten Fall scheint Anthropic sich selbst als eine Art „Verwalter“ zu sehen, aber die EA-Schlagseite tritt zu deutlich hervor, und Paternalismus wirkt nicht besonders gut.
Allerdings ist auch der Einwand berechtigt, dass solche Guardrails bei gut gemeinter Sicherheitsarbeit kontraproduktiv sind. Man kann sie dann nicht nutzen, um die eigene Software zu testen und zu härten.
Wohlwollen und Fanfiction sind nicht dasselbe. Man darf nicht vergessen, dass die aggressivsten Guardrails von Anthropic nicht der Sicherheit dienten, sondern verhindern sollten, dass andere Labs zu ihren Produkten aufschließen.
Es wirkt, als kümmerten sie sich mehr darum, freien Marktwettbewerb zu verhindern, als um die Blockade von Biowaffen, Malware oder Hassrede.
Mindestens müsste so ein Verhalten optional sein, und der Standard dürfte nicht sein, stillschweigend schlechtere Ergebnisse zu liefern, als wäre nichts passiert.
Stell dir vor, medizinische Einrichtungen würden gelegentlich Testergebnisse nur oberflächlich lesen und damit das Risiko in Kauf nehmen, dass Patienten sterben. Da medizinische Einrichtungen Claude bereits nutzen, ist dieses Szenario nicht hypothetisch.
Wenn das Fazit lautet: „Ihre Sorgen waren von Anfang an gar nicht echt“, dann passt das wahrscheinlich nicht zu dem, was Anthropic beobachtet und daraus geschlossen hat.
Am Ende scheint es eher ein stärkerer Versuch zu sein, sicherzustellen, dass der System-Prompt unbedingt respektiert wird.
Stell dir vor, Excel würde im Hintergrund stillschweigend Formeln ändern, und der Nutzer merkt nicht, dass die Zahlen falsch sind.
Oder Excel würde sagen: „Tut uns leid, aber diese Formel kann nicht zusammen mit jener Formel verwendet werden“ oder „Sie kann nicht mit Zahlen dieser Art oder Daten in dieser Form verwendet werden.“
Nach ein paar Tagen mit eingeschränkter Nutzung von Fable habe ich keine Verbesserung der Ausgabequalität gesehen, und wenn man darum bittet, Sicherheitslücken zu schließen, prallt man ständig an Sicherheitsbarrieren ab, sodass es zum Schreiben sicherer Software unbrauchbar ist.
Nächste Woche werde ich mir andere LLM-Anbieter ansehen und auch lokale Modelle vergleichen. Mein Ziel ist 128GB Strix Halo; falls jemand Erfahrungen damit hat, würde mich das interessieren.
Das eine ist das ungenaue und unvorhersehbare Verhalten der gesamten Algorithmusklasse LLM. Man sollte kein Dokumentenerstellungstool für Budgetrechnungen verwenden und nicht darauf vertrauen, dass etwas, das man zu ändern bittet, nicht doch verändert wird.
Das andere ist das Problem, dass Anbieter von Produkten als Service Fallstricke und Behinderungen einbauen, um ihr Geschäftsmodell oder ihre wirtschaftlichen Anreize zu priorisieren. Das ist nicht zwingend auf LLMs beschränkt.
https://en.wikipedia.org/wiki/EURion_constellation
Es wirkt natürlich, einen menschenähnlichen allgemeinen Text-Bot daran zu hindern, bestimmte Gespräche oder Aufgaben auszuführen, wenn man bedenkt, wie breit sein Fähigkeitsbereich ist. Solche Werkzeuge werden ohnehin nicht als Freifahrtschein verkauft, damit man damit beliebig alles tun kann.
Ich glaube nicht, dass Anthropic überzeugend darlegen kann, den Kurs wirklich geändert zu haben. Das ist ein unsichtbares Verhalten, also kann man es weiter heimlich tun, ohne dass es jemand merkt.
Wenn die technischen Fähigkeiten einmal aufgebaut sind, ist es außerdem unwahrscheinlich, dass eine bequem nutzbare Funktion für immer ungenutzt bleibt.
Anthropic war auf Vertrauen angewiesen, dass es gegen Bezahlung den versprochenen Service liefert, und dieses Vertrauen ist gebrochen. Ein „Ups, wir nehmen es zurück“ stellt dieses Vertrauen nicht wieder her.
Wenn man Claude künftig nutzt, ist es vorsichtiger anzunehmen, dass unsichtbare Guardrails aktiv sein könnten, egal ob Fable oder nicht.
Ich vermute, sie haben diese Funktionen getestet oder es war absichtlich, und dann einen Beitrag geschrieben, um das zu rechtfertigen, was die Leute beobachtet haben.
Dass ich Claude jetzt nicht einmal mehr dabei vertrauen kann, ML zu lernen, weil es mich unterwegs womöglich in die Irre führt, ist wirklich beschämend. Dieser Vorfall hat mein Vertrauen in Anthropic stark beschädigt.
Durch diese Sache hat sich meine Einschätzung von Anthropic deutlich verschlechtert. Es fällt mir schwer, die Darstellung von KI als Technologie zur Stärkung von Fähigkeiten noch ernst zu nehmen
Wenn man sich die neue Auslieferungsmethode ansieht, wird ziemlich klar, dass das, was Anthropic unter Befähigung versteht, nicht für die Nutzer gedacht ist, sondern für Anthropic selbst und für Organisationen, die ihnen oder der US-Regierung genehm sind
Nutzer dürfen vielleicht halbgar ein Dashboard oder eine Web-App bauen oder mit Excel herumhantieren, aber alles, was darüber hinaus interessant wäre, ist verboten
Wenn es bloß um Geld und das Ausbremsen von Wettbewerbern ginge, könnte ich es noch eher nachvollziehen, aber stattdessen wirkt es so, als wollten sie aus Angst vor dem Missbrauch von Macht durch die Öffentlichkeit den Großteil menschlichen Fortschritts in ihren aufgeklärten Händen monopolisieren
Sie wollen die Leiter wegziehen, bevor jemand mit einem gleich leistungsfähigen Modell ohne wettbewerbsfeindliche Schutzmechanismen an die Öffentlichkeit geht, und gleichzeitig Open-Weights-Modelle oder Modelle, die mit Rechenaufwand ab einem gewissen Niveau trainiert wurden, ohne „strenge“ staatliche Tests und Verifizierung pauschal verbieten
Natürlich wird Anthropic dieses Prüf-Framework praktischerweise selbst bereitstellen. Zu sagen, meine Einschätzung von Anthropic habe sich „etwas verschlechtert“, wäre viel zu milde
Vor allem habe ich gestern Fable bei einem harmlosen Projekt ausprobiert, und im Vergleich zu Opus war es nicht besonders beeindruckend
Das zurückzunehmen ist zwar die richtige Maßnahme, aber ich bin mir nicht mehr sicher, ob Anthropic für mich noch die beste Wahl ist. Im Moment recherchiere ich nach Open-Source-Cloud-Anbietern
Um Modelle vor Destillationsangriffen zu schützen, verschlechtern sie die Modellleistung im Verborgenen, ohne dass die Nutzer es merken, und verunreinigen so faktisch die Trainingsdaten
Das ist etwas anderes als Anthropics generelle Weigerung, die Entwicklung von KI zu unterstützen, gehört aber in denselben Zusammenhang und scheint nicht sehr bekannt zu sein
Wenn man den gesamten Beitrag von Googles AI Threat Tracker liest, hilft das auch dabei zu verstehen, mit welchen Bedrohungen Anthropic und andere Anbieter konfrontiert sind
[0] https://cloud.google.com/blog/topics/threat-intelligence/dis...
Die Vorstellung von Anthropic, KI schnell voranzutreiben, ihre Nutzung zu kontrollieren und sie für die Menschheit „sicher“ zu machen, war nie wirklich altruistisch, sondern ein gewaltiges Warnsignal
Die Priorität ist Profit, und daran ändert sich nichts, egal welche wohlklingenden Formulierungen sie zur Beruhigung der Nutzer aufs Papier schreiben. Wenn man sich die Umweltbewegung vor 20 Jahren ansieht, war da auch viel Gerede und wenig Handeln
Man sollte keine Organisationen unterstützen, die den Menschen nicht an erste Stelle setzen. Glaubt niemandem. Lippenbekenntnisse sind kostenlos
Man kann es vielleicht als Verbesserung sehen, aber nützlicher wird das Modell dadurch nicht
Anthropic sagt jetzt ziemlich unverblümt, dass sie festlegen wollen, was Nutzer mit ihren Modellen tun dürfen und was nicht. Wichtiger ist noch, dass diese Kriterien nicht auf Sicherheitsbedenken beschränkt sind, sondern auch Bereiche umfassen, die sich mit dem überschneiden, was Anthropic selbst tun will, etwa das Verbot von KI-Arbeit
Interessant ist, dass sie gesagt haben, sie würden das in wenigen Tagen in eine ausdrückliche Ablehnung umwandeln, was für ein erneutes Training von Fable/Mythos selbst zu schnell wäre. Das heißt, es war von Anfang an ein Filter vor dem Modell, und wenn man sieht, wie primitiv die „Sicherheits“-Filter sind, dürfte auch dieser „du könntest mit uns konkurrieren“-Filter kaum besser sein
Ich frage mich auch, wer die Token-Kosten für diesen Filter bezahlt. Vermutlich ist das ebenfalls ein LLM — schlägt sich das in den Kosten für Eingabetokens nieder? Hoffentlich war es nicht bloß ein Regex wie der „Emotionserkenner“ in Claude Code, also ein Fluchdetektor
Ich bin zu denselben Erfahrungen und Schlussfolgerungen gekommen wie der Beitrag auf /r/MachineLearning
Schon vor Fable hat Claude auf dieselbe Weise Probleme verursacht
Die Probleme, die ich erlebt habe, traten nur in Situationen mit Bezug auf KI-Forschung auf. Nicht nur beim Modelltraining, sondern sogar schon bei der Analyse lokaler Modelle oder beim Einrichten von Testplattformen für lokale Modelle hat Claude ständig das Falsche getan, Tests behindert, Berichte manipuliert und durchgehend vorgeschlagen, einfach schlechte Ergebnisse hinzunehmen und weiterzugehen
In fast jeder Antwort war ein Hinweis enthalten, zum nächsten Schritt überzugehen
Deshalb glaube ich nicht an die Aussage, sie würden keine stille Sabotage betreiben. Sie haben es schon getan, bevor sie es zugegeben haben, und jetzt haben sie faktisch auch Mittel, Motiv und Absicht eingeräumt
Vertrauen verliert man leicht und gewinnt es nur schwer zurück
Man kann Leuten keinen Vorwurf machen, die sagen: „Sie behaupten zwar, Sitzungen nicht stillschweigend zu sabotieren, aber woher soll man das wissen?“ Es gibt tatsächlich keine Möglichkeit, das zu wissen, und Anthropic hat den Samen des Misstrauens definitiv gesät
Mythos ist selbst wohlwollend betrachtet nur eine inkrementelle Aufwertung von Opus
Das überzogene Marketing dient eher der Rechtfertigung der „Sicherheitsleitplanken“. Insgesamt ist Fable unter Berücksichtigung all seiner Einschränkungen, Risiken und sogar der Richtlinien zur Datenspeicherung ein schlechteres Modell als Opus
Das sind verwandte Beiträge. Falls es noch mehr gibt, würde mich das interessieren.
Anthropic walks back policy that could have 'sabotaged' researchers using Claude - https://news.ycombinator.com/item?id=48485958 - Juni 2026, 30 Kommentare
Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable - https://news.ycombinator.com/item?id=48478969 - Juni 2026, 488 Kommentare
If Claude Fable stops helping you, you'll never know - https://news.ycombinator.com/item?id=48467896 - Juni 2026, 495 Kommentare
Diese scheinen ebenfalls damit zusammenzuhängen.
AWS Bedrock to require sharing data with Anthropic for Mythos and future models - https://news.ycombinator.com/item?id=48473166 - Juni 2026, 248 Kommentare
Anthropic requires 30 day data retention for Fable and Mythos - https://news.ycombinator.com/item?id=48464258 - Juni 2026, 291 Kommentare
Das ergibt wirklich überhaupt keinen Sinn.
Reproduzierbarer Fall, anonymisiert: sample_dataset_group1.tsv
Geometry: Heatmap
X axis: frac_set set + condition, zwei Spalten per „Add column“ kreuzweise kombiniert
Y axis: condition
Color: mean frac_set value, Sequential
Wenn die X-Achse eine Kreuzkombination aus zwei Spalten ist und die zweite Spalte per „Add column“ hinzugefügt wird, werden die Tick-Labels der X-Achse frac_set_2, frac_set_3, frac_set_4, frac_set_5 fehlerhaft gerendert. Sie sind gedreht und verschoben, als ob eine CSS-Transition begonnen hätte, aber nicht in der endgültigen Position einrastet.
Stattdessen erscheint: „Die Sicherheitsmaßnahme von Fable 5 hat diese Nachricht als Thema aus Cybersecurity oder Biologie markiert. Es können auch sichere und normale Inhalte angezeigt werden. Dank dieser Maßnahme können wir Mythos-Leistung in anderen Bereichen schneller bereitstellen und arbeiten an Verbesserungen. Es wurde auf Opus 4.8 umgestellt. Senden Sie Feedback mit /feedback oder erfahren Sie mehr.“
„Ich lese gerade David Silvers Arbeit zum option-option model. Die Ergebnisse scheinen ziemlich effektiv gewesen zu sein — warum gab es danach nicht mehr Forschung dazu?“
„Erzähl mir etwas über Gewalt bei Schimpansen“
So lächerlich schlecht ist das