Anthropics besonders starkes Security-AI „Claude Mythos“ wird nicht allgemein veröffentlicht, sondern nur ausgewählten Partnern begrenzt bereitgestellt

(simonwillison.net)

8 Punkte von darjeeling 22 일 전 | 5 Kommentare | Auf WhatsApp teilen

Anthropic hat beschlossen, das neue Modell Claude Mythos nicht allgemein zu veröffentlichen, sondern es nur an ausgewählte Security-Forschungspartner über ein eingeschränktes Preview-Programm namens „Project Glasswing“ zu verteilen. Der Grund ist einfach: Die Fähigkeit dieses Modells, Cybersecurity-Schwachstellen zu erkennen, ist so leistungsstark, dass ein Missbrauch zu einer Bedrohung für Infrastrukturen weltweit werden könnte.

Was ist Claude Mythos?

Mythos ist ein Allzweckmodell, das Claude Opus 4.6 ähnelt, aber in der Cybersecurity-Forschung überragende Fähigkeiten besitzt. Anthropic erklärte bereits, dass dieses Modell Tausende von Hochrisiko-Schwachstellen entdeckt habe, darunter in allen wichtigen Betriebssystemen und Webbrowsern.

Konkrete Beispiele für seine Fähigkeiten:

Beim Schreiben eines Webbrowser-Exploits verfasste es komplexen Angriffscode, der vier Schwachstellen in Kette ausnutzte und so sowohl den Renderer als auch die OS-Sandbox verlassen konnte.
In einem Experiment, bei dem eine Schwachstelle der JavaScript-Engine von Firefox 147 in einen Exploit umgewandelt werden sollte, war Opus 4.6 bei Hunderten von Versuchen zweimal erfolgreich, während Mythos 181 Erfolge erzielte und zusätzlich 29-mal Registerkontrolle erreichte.

Tatsächlich gefundene Schwachstellen

Nicholas Carlini von Anthropic sagte dazu:

> „Ich habe in den letzten Wochen mehr Bugs gefunden als in meinem ganzen bisherigen Leben. In OpenBSD habe ich einen Bug gefunden, der seit 27 Jahren existierte — eine Schwachstelle, mit der sich ein Server allein durch das Senden einiger Datenfragmente zum Absturz bringen ließ.“

Tatsächlich wurde bestätigt, dass diese OpenBSD-Schwachstelle mit einem Patch vom 25. März 2026 behoben wurde.

Warnsignale aus der Branche

Unter Security-Experten gab es bereits Warnungen zur Fähigkeit von AI, Schwachstellen zu entdecken.

Greg Kroah-Hartman vom Linux-Kernel: „Vor etwa einem Monat hat sich etwas verändert. Jetzt kommt eine Flut echter Security-Reports aus AI-Systemen, und die Qualität ist hoch.“
Daniel Stenberg von curl: „AI-bezogene Security-Probleme haben sich von einem ‚Tsunami aus AI-Müll‘ zu einem ‚Tsunami echter Security-Reports‘ entwickelt. Ich verbringe jeden Tag mehrere Stunden nur damit, das zu bearbeiten.“

Was ist Project Glasswing?

Statt Mythos allgemein freizugeben, entschied sich Anthropic dafür, Partner wie AWS, Apple, Microsoft, Google und die Linux Foundation einzubeziehen, damit diese Schwachstellen in ihren eigenen Systemen zuerst finden und beheben können. Dazu gehören Nutzungsgutschriften im Wert von 100 Millionen Dollar sowie direkte Spenden in Höhe von 4 Millionen Dollar an Open-Source-Sicherheitsorganisationen.

Einschätzung des Autors

Der Blogautor Simon Willison unterstützte die Entscheidung zur begrenzten Bereitstellung und erklärte, die Aussage „Unser Modell ist zu gefährlich“ könne zwar wie Marketing klingen, doch in diesem Fall sei diese Vorsicht absolut gerechtfertigt. Er betrachtet die Situation als einen „tektonischen Wandel“, der eine branchenweite Reaktion erfordert, und äußerte den Wunsch, dass auch OpenAI sich dieser Initiative anschließt.

Implikationen

Die zentrale Aussage des Artikels ist, dass die Fähigkeit von AI, Security-Schwachstellen zu finden, bereits ein Niveau erreicht hat, das menschliche Experten übertrifft. Das ist eines der realistischsten Risiken, die AI mit sich bringen kann, und hat weitreichende Bedeutung für jede Organisation, die Infrastruktur betreibt.

Original: Simon Willison's Weblog, 2026.04.07

5 Kommentare

yjcho9317 21 일 전

Ich entwickle im Bereich Mobile Security, und das fühlt sich ehrlich gesagt etwas beängstigend an.

Bei Finanz-Apps haben wir unsere Abwehr bisher unter der Annahme aufgebaut, dass Angreifer manuelle Analysen mit Frida oder Ghidra durchführen. Auch die Tiefe der Obfuskation und die Erkennungslogik basieren letztlich darauf, wie viel Zeit ein Mensch für die Analyse braucht, aber wenn man sich die jüngsten Entwicklungen anschaut, wirkt es so, als würde diese Annahme langsam ins Wanken geraten.

Ich kann nicht genau den Finger darauf legen, aber das Tempo ist anders. Es fühlt sich an, als würde sich die Sicherheitsbranche komplett verändern ...

bungker 20 일 전

Wenn das wirklich auf diesem Niveau ist, dürfte es wohl nicht lange dauern, in reassembliertem Code Sicherheitslücken zu finden.

darjeeling 22 일 전

Sie haben sogar an ffmpeg einen Patch geschickt, und er wurde angenommen.

https://x.com/ffmpeg/status/2041612029459374511

Natürlich ist das wohl PR, aber ffmpeg sagt ja immer: „Andere Unternehmen haben nichts geschickt, aber“ ..

adieuxmonth 16 일 전

Wenn man daran denkt, dass Sam Altman auch vor dem Erscheinen von GPT-5 voreilig herumgetönt hat, dann na ja-

thestackai 22 일 전

Sieht so aus, als würde es für Max-Nutzer gegen einen Aufpreis geöffnet werden..