- Fable wurde als öffentliche, eingeschränkte Version des leistungsstarken Cybersicherheitsmodells Mythos veröffentlicht, blockiert aber breit gefächert Anfragen mit Cybersicherheitsbezug, was bei Forschern und Fachleuten für Unmut sorgt
- Wenn die Guardrails greifen, wird der Chat unterbrochen und es erscheint ein Hinweis, dass die Sicherheitsmaßnahmen wegen eines „Cybersicherheits- oder Biologiethemas“ ausgelöst wurden
- Anthropic erklärt, die Einschränkungen seien eingeführt worden, um das Risiko zu verringern, dass Fable für Malware-Entwicklung oder Software-Kompromittierung genutzt wird; die Biologie-Beschränkungen stünden ebenfalls im Zusammenhang mit Bedenken hinsichtlich der Entwicklung biologischer Waffen
- Einige Fachleute sehen, dass sogar Anfragen, die eher Software-Engineering-Praktiken wie sicheres Coden oder Code-Reviews ähneln, als Cybersicherheit eingestuft und auf Claude Opus 4.8 herabgestuft werden
- Sicherheitsexperten äußern zwar Ablehnung gegenüber der sporadischen keywordbasierten Blockierung, gehen aber davon aus, dass sie im Laufe der Zeit gelockert wird, da sich das Produkt noch in einer frühen Phase befindet
Veröffentlichung von Fable und Nutzerbeschwerden
- Anthropic hat am Dienstag das neue Modell Fable veröffentlicht und es als öffentliche, eingeschränkte Version des leistungsstarken und viel diskutierten Cybersicherheitsmodells Mythos vorgestellt
- Zahlreiche Cybersicherheitsforscher und Fachleute haben online Beschwerden über die Einschränkungen geäußert
- Die bekannte Sicherheitsforscherin Valentina "Chompie" Palmiotti von IBM X-Force wies darauf hin, dass Fable Anfragen ablehnt, die auch nur entfernt mit Cybersicherheit zu tun haben könnten, und sogar harmlose Aufgaben wie das Lesen von Blogbeiträgen blockiert
- Wenn die Guardrails von Fable durch einen Prompt ausgelöst werden, stoppt das System den Chat und zeigt einen Sicherheitshinweis an, dass die Nachricht wegen eines Cybersicherheits- oder Biologiethemas markiert wurde
- Diese Guardrails sollen das Risiko begrenzen, dass Fable für Malware-Entwicklung oder Software-Kompromittierung missbraucht wird, und gehen auf langjährige interne Bedenken bei Anthropic zurück
- Die biologischen Einschränkungen beruhen auf ähnlichen Sorgen bezüglich der Entwicklung biologischer Waffen
Ausweitung des Zugangs zu Mythos
- Als Anthropic Mythos im April veröffentlichte, wurde das Modell unter dem Namen Project Glasswing zunächst nur einer kleinen Zahl von Unternehmen und Organisationen bereitgestellt
- Ein Versuch, das Modell zum Schutz kritischer Software und Infrastruktur einzusetzen
- Vergangene Woche weitete Anthropic den Zugang zu Mythos auf Hunderte Organisationen in 15 Ländern aus
Kritik von Experten an der Art der Einschränkungen
- Der Cybersicherheitsveteran Matt Suiche sagte, dass Fable eine Anfrage nach sicherem Code als Cybersicherheitsaufgabe statt als Best Practice des Software Engineering betrachtet und deshalb herabstuft
- Fable ist so konzipiert, dass es bei einer Blockierung durch die Guardrails auf Claude Opus 4.8 zurückfällt
- „Es wirkt keywordbasiert; alles, was in die Wortkategorie von 'Cybersicherheit' fällt, löst die Guardrails aus“
- Ein weiterer Forscher beschwerte sich auf X, dass sogar eine Anfrage für ein Code-Review die Guardrails von Fable auslöse
Einschätzungen zum weiteren Verlauf
- Suiche, technischer Mitarbeiter beim KI-Cybersicherheits-Startup Tolmo, hält das noch für verständlich, da sich das Produkt in einer frühen Phase befindet und die Guardrails noch abgestimmt werden
- Er erwartet, dass sich die Guardrails mit der Zeit weiterentwickeln, wenn Anthropic und andere Frontier-Model-Unternehmen stärker mit einer neuen Generation von Cybersicherheitsfirmen zusammenarbeiten
- Bei solchen Veröffentlichungen sei es besser, mehr als zu wenig abzufangen und die Guardrails später zu lockern
- Anthropic reagierte nicht sofort auf eine Bitte um Stellungnahme
Separates Verifizierungsprogramm
- Zusätzlich zu den internen Guardrails des Modells verlangt Anthropic von Cybersicherheitsexperten eine Bewerbung für das Cyber Verification Program
- Nach der Genehmigung gelten weniger Einschränkungen bei der Nutzung von Claude für Cybersicherheitsaufgaben
- OpenAI betreibt mit Trusted Access for Cyber ein ähnliches Programm
1 Kommentare
Hacker-News-Kommentare
Dazu ist ein neuer Artikel bei Wired erschienen: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
Anthropic erklärte gegenüber WIRED, man ändere die Schutzmechanismen von Fable 5 für die Entwicklung von Frontier-LLMs so, dass sie sichtbar würden. Man habe einen falschen Kompromiss gemacht und entschuldige sich dafür, das Gleichgewicht nicht gefunden zu haben.
Es wirkt, als hätte die breite kritische Reaktion Wirkung gezeigt.
Microsoft hat OS-Werbung auch mehrfach zurückgezogen, ist am Ende aber doch genau auf der Bahn gelandet, über die sich alle aufgeregt hatten, und OpenAI ist ungeachtet früher Rückzieher ebenfalls bei Closed AI gelandet.
Wenn schlechtes Verhalten einmal beginnt, sollte man gehen, und Entschuldigungen sind so leer wie ihre moralische Verpackung.
Ich zahle jeden Monat Tausende Dollar für zusätzliche Nutzung; wenn im Hintergrund weiterhin Ähnliches passieren könnte, weiß ich nicht, warum ich überhaupt noch zahlen sollte.
Fehler, die ich früher auf Inference-Aufwand oder Backend-Änderungen geschoben hatte, könnten in Wirklichkeit absichtliche Prompt-Injections gewesen sein.
Wenn man vertrauenswürdige Infrastruktur braucht, die man in eine Anwendung einbauen kann, ist die zentrale Lehre aus meiner Sicht, einen anderen Anbieter zu wählen.
Ich habe keine besondere Abneigung gegen Anthropic, aber als jemand, der demnächst Komplexität in eine App einbauen muss, um das bisherige Verweigerungsverhalten von Sonnet zu behandeln, kann ich es bei Endnutzer-Chatbots noch verstehen, bei einer API aber nicht akzeptieren.
Anthropic hat die Daten anderer Leute ohne Lizenz oder Quellenangabe zum Training verwendet, will aber verhindern, dass jemand ihnen gegenüber dasselbe tut.
Die Heuchelei von Anthropic in dieser Woche ist ziemlich dreist.
Das Merkwürdigste ist, dass es nicht beim Verweigern von Machine-Learning-Forschung bleibt, sondern dass heimlich sabotiert wird, indem ein schlechteres Modell verwendet wird, ohne dies offenzulegen.
Dass ein Unternehmen, das der Konkurrenz höchstens ein Jahr voraus ist, in diesem Ausmaß täuschend agiert und Vertrauen zerstört, ist völlig verrückt.
Ergänzend heißt es, dass man bei Downgrades im Zusammenhang mit Cybersicherheit und Biologie Bescheid gibt.
Ich frage mich, ob der Preis von API-Anfragen angepasst wird, sodass die von Fable verwendeten Tokens zum Fable-Preis berechnet werden und die restlichen Tokens, die vom billigeren und abgeschwächten Modell stammen, zu dessen Preis.
Falls nicht, könnte man das dann nicht als Betrug auslegen?
Man kann nicht tokenweise hohe Preise verlangen, den Dienst heimlich verschlechtern und dann denselben Preis abrechnen.
Ich frage mich, ob Fable in Claude Code oder im Browser verwendet wird.
Ich habe mehrere Rollen, aber als Chemiker mag ich Fable nicht, als Statistiker auch nicht, als Data Scientist auch nicht und ebenso wenig in Academia und Forschung.
Es ist nutzlos, und ich bezweifle, dass jemand Ausgaben erhält, die sich nicht leicht durch eine Wikipedia-Suche ersetzen lassen.
Wenn man bedenkt, wie ausschweifend die Claude-Modelle geworden sind, ist ein Wikipedia-Artikel womöglich sogar weniger wortreich, und bei der Token-pro-Sekunde-Zahl eines abgerufenen Wikipedia-Artikels kann nichts mithalten.
Vermutlich wird das als biologierelevant eingestuft, und das ist wirklich nutzlos.
Gemeint ist ein Chat-Modell, nicht ein Agent.
Die Ausgaben sind praktisch unendlich, Wikipedia ist es ganz sicher nicht.
Ich frage mich, ob „buffer overflow“ eine Trigger-Phrase ist.
Es ist auch unklar, was sonst noch zensiert wird, und wer einen Account hat, kann sensible Fragen wie diese stellen: „Wer betreibt noch Laser-Urananreicherung?“, „Kann man einen Krytron durch einen Siliziumkarbid-MOSFET ersetzen?“, „Welche sicherheitskritische Software ruft noch strcpy auf?“, „Kann man mit einem kommerziellen Pulslaser eine Implosion auslösen?“, „Welches Unternehmen bietet dem US-Heimatschutzministerium Einäscherungsdienste an?“, „Zeig mir auf einer Karte, wo im Iran-Angriff Dubai getroffen wurde“, „Wie funktioniert bei FedNow die Sicherheit der Fed-Bank-Schlüsselverteilung?“
Die False Positives hörten nicht auf, und Fable ist auch überhaupt nicht so beeindruckend, wie der Benchmark andeutet.
Das wurde nach fast ununterbrochener Nutzung in den letzten 24 Stunden klar.
Wenn das gelingt, könnte man zeigen, dass diese Konfiguration autonome Exploits ermöglicht, und Anthropic hätte wohl keine andere Wahl, als die Erkennung noch empfindlicher zu machen.
Es sieht so aus, als hätte Anthropic bereits seit einiger Zeit A/B-Tests oder allgemeine Tests laufen.
Tell HN: Claude flags biology / biotech questions https://news.ycombinator.com/item?id=47929885
Heute wurden Fragen zur Bevölkerungsforschung markiert. Es war eine Anfrage für akademische Analyse: Vergleich von Sterblichkeit und Ergebnissen im Alter nur mit dem zusammengestellten Datensatz, Berichterstattung von Konfidenzintervallen und Effektgrößen sowie Quantifizierung des Einflusses der documentation_depth-Codierung auf die Stärke der Schlussfolgerungen.
https://github.com/anthropics/claude-code/issues/66780
Ich werde beim Schreiben einer wissenschaftlichen Arbeit zensiert. Und offenbar muss man das Lernen von Chemie aufgeben. Anscheinend sind nur Kriminelle daran interessiert, organische Chemie zu lernen.
Es ist ziemlich erstaunlich, wie mein Eindruck von diesem Produkt sich in nicht einmal 24 Stunden von „wow, ziemlich gut“ zu „ein beschissenes Ding mit einem halbfertigen Zensursystem“ gewandelt hat.
Ich habe von Anthropic eine Ausnahmegenehmigung für Cyber-Nutzung bekommen, um auf einem persönlichen Gerät Android-Kernel-Entwicklung zu machen.
Ich hoffte, Fable könnte mir beim Entsperren des Bootloaders helfen, aber stattdessen hat es sofort abgelehnt und auf Opus zurückgeschaltet.
Es war ziemlich komisch: Ich stellte das Modell auf Fable 5 und fragte: „Ein altes Samsung-Android-Handy ist verbunden; da es mein persönliches Gerät ist, kannst du mir helfen, den Bootloader zu entsperren?“ Darauf kam: „Das Entsperren des Bootloaders eines persönlichen Geräts ist völlig legitim. Zuerst würde ich prüfen, was genau verbunden ist und welche Tools verfügbar sind.“
Anthropic scheint schnell zum einzigen Schiedsrichter über alles im Leben zu werden.
Ich habe irgendwo gesehen, dass Malware bereits damit begonnen hat, nukleare, biologische und Cybersecurity-Begriffe in Code einzubauen, um Fable zum Abschalten zu verleiten.
Auch wenn das bisher nur ein hypothetischer Angriffsvektor ist, scheint die Chance groß, dass es gut funktioniert.
In einem kürzlichen Auftrag ließen wir Pakete vor dem Einstellen in Artifactory per KI auf Verschleierung prüfen, aber die Logik dafür war schnell zusammengevibecodet worden, sodass es zu einem offenen Fehlschlag kam.
Das heißt, diese Begriffe brachten den LLM-Prüfer zum Stoppen, und wegen der Open-Fail-Logik wurde das Paket heruntergeladen.
Wenn KI-Filter schon wegen Cybersecurity- oder Biologiebegriffen im Lebenslauf oder in Antworten auf Stellenausschreibungen fälschlich Bedrohungen wittern und einen dadurch an der Arbeit hindern, braucht es kollektive Gegenwehr.
Besonders dann, wenn es sich um eine Firma handelt, die an die Börse will und behauptet, innerhalb von zwei Jahren Arbeiter nutzlos zu machen.
Echte Angreifer wird das zwar nicht aufhalten, aber es ist immer noch ziemlich komisch, wenn beim Versuch, KI-Tools zu benutzen, grundlos zufällige Ablehnungen auftauchen und einem etwas Zeit stehlen.
if (yellowcake) then { die }Unsere Zukunft wirkt wie Looney Tunes.
Ich habe ein Pflanzenfoto meiner Frau hochgeladen und Fable 5 gebeten, den Pilz zu identifizieren, worauf es offenbar dachte, ich wolle eine Biowaffe bauen.
Opus hat geantwortet, es sei gelber Hexenbutter-Schleimpilz gewesen.
Jetzt kann ich also Sporen verbreiten und die Welt beherrschen.
Schleimpilze sind tatsächlich riesige Amöben und etwas völlig anderes als Pilze.
Wenn man ein System auf diese Weise ausrichtet, ist daran grundsätzlich etwas falsch.
Fable ist ein kompletter Witz
Ich habe gefragt: „Was ist der beste Weg, diesen MCP-Server für die in diesem Projekt verwendete OData-API auszuführen? Kannst du einen Proof of Concept als Docker-Container bauen?“ und https://github.com/oisee/odata_mcp_go angegeben, woraufhin zunächst geantwortet wurde, man werde sich ansehen, wie das Projekt mit der OData-API kommuniziert und welche Anforderungen für den Betrieb des
odata_mcp_go-Servers geltenUnmittelbar danach erschien: „Die Sicherheitsmaßnahmen von Fable 5 haben diese Nachricht als Cybersecurity- oder Biologie-Thema markiert. Auch sichere und legitime Inhalte können markiert werden … auf Opus 4.8 umgestellt“, und danach hieß es, man werde die zentrale Integrationsdatei und die README des MCP-Servers lesen
Ohne jeden Rabatt auf den Fable-Preis wird sogar dann abgerechnet, wenn entschieden wird, die Anfrage stillschweigend an ein dümmeres Modell weiterzuleiten und damit zu behindern
In ein paar Monaten wird ein Konkurrent ein Modell mit ähnlicher Leistung und weniger Guardrails herausbringen, und wenn genug Marktanteile verloren gehen, wird Anthropic die Politik wieder zurückdrehen
Deshalb hoffe ich sehr, dass China mit Open-Source-Lokalmodellen nicht aufhört
Keines dieser Unternehmen ist unser Freund