Project Glasswing: Globale Zusammenarbeit für Softwaresicherheit in der KI-Ära

(anthropic.com)

7 Punkte von GN⁺ 22 일 전 | 2 Kommentare | Auf WhatsApp teilen

Project Glasswing, an dem große Technologieunternehmen wie Amazon, Apple, Google und Microsoft beteiligt sind, ist eine kooperative Initiative, die KI nutzt, um Sicherheitslücken in kritischer Software weltweit zu erkennen und abzuwehren
Das Modell Claude Mythos 2 Preview von Anthropic spielt dabei eine zentrale Rolle und hat bereits tausende hochkritische Schwachstellen in wichtigen Betriebssystemen und Browsern entdeckt
Mythos Preview kann autonom Schwachstellen erkennen und Exploits erzeugen, ohne menschliches Eingreifen, und fand über Jahrzehnte verborgene Fehler in OpenBSD, FFmpeg, dem Linux-Kernel und mehr
Anthropic stellt dem Projekt Model-Credits im Wert von 100 Millionen US-Dollar sowie 4 Millionen US-Dollar an Spenden für Open-Source-Sicherheitsorganisationen zur Verfügung; die Partner wollen diese für Schwachstellenerkennung, Sicherheitstests und Penetration Assessments einsetzen
Glasswing zielt darauf ab, Cybersicherheitsstandards und Handlungsleitlinien für die KI-Ära zu etablieren und langfristig ein nachhaltiges Sicherheitssystem auf Basis öffentlich-privater Zusammenarbeit aufzubauen

Überblick über Project Glasswing

Project Glasswing ist ein globales Kooperationsprojekt für Cybersicherheit, an dem Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks und weitere beteiligt sind
Ziel ist es, auf Basis von Anthropics Modell Claude Mythos 2 Preview mithilfe von KI Sicherheitslücken in kritischer Software weltweit zu erkennen und abzuwehren
Mythos Preview hat in wichtigen Betriebssystemen und Webbrowsern tausende hochkritische Schwachstellen entdeckt und erreicht damit eine Leistung, die die der meisten menschlichen Expertinnen und Experten übertrifft
Anthropic stellt für das Projekt Model-Nutzungsguthaben im Wert von bis zu 100 Millionen US-Dollar sowie 4 Millionen US-Dollar an Spenden für Open-Source-Sicherheitsorganisationen bereit
Das Projekt ist als Ausgangspunkt für eine langfristige Zusammenarbeit zur Ausarbeitung von Cybersicherheitsstandards und praktischen Leitlinien in der KI-Ära angelegt

Cybersicherheitslandschaft in der KI-Ära

In Software für kritische Infrastrukturen wie Finanzen, Gesundheitswesen, Energie, Transport und Regierung gibt es stets Bugs und Sicherheitsmängel
Durch Fortschritte bei KI-Modellen sinken die Kosten und die erforderliche Fachkenntnis zur Erkennung und Ausnutzung von Schwachstellen drastisch
Claude Mythos Preview entdeckte alte Sicherheitsfehler, die über Jahrzehnte hinweg weder durch menschliche Prüfung noch durch automatisierte Tests gefunden worden waren
Wenn solche KI-Fähigkeiten missbraucht werden, könnten Häufigkeit und Zerstörungskraft von Cyberangriffen stark zunehmen und zu Bedrohungen für die nationale Sicherheit werden
Gleichzeitig kann dieselbe Technologie auf der Verteidigungsseite ein revolutionäres Werkzeug sein, weshalb KI-gestützte Sicherheitsstärkung unverzichtbar ist

Ergebnisse von Claude Mythos Preview bei der Schwachstellenerkennung

Mythos Preview hat in den vergangenen Wochen in allen wichtigen Betriebssystemen und Webbrowsern tausende Zero-Day-Schwachstellen gefunden
Das Modell erkennt Schwachstellen und entwickelt Exploits autonom und ohne menschliches Eingreifen
Wichtige Fundbeispiele
- OpenBSD: Entdeckung einer seit 27 Jahren bestehenden Schwachstelle, eines Fehlers, der einen entfernten Systemabsturz ermöglichen konnte
- FFmpeg: Entdeckung einer seit 16 Jahren bestehenden Schwachstelle, eines Problems, das auch nach 5 Millionen automatisierten Tests nicht erkannt worden war
- Linux-Kernel: Bestätigung, dass durch die Verkettung mehrerer Schwachstellen Privilege-Escalation-Angriffe möglich sind
Alle Schwachstellen wurden den jeweiligen Projekt-Maintainern gemeldet und vollständig gepatcht
Im Benchmark CyberGym erreichte Mythos Preview 83,1 %, während das Vorgängermodell Opus 4.6 bei 66,6 % lag

Beteiligung und Einschätzungen der Partnerunternehmen

Cisco: Betont, dass KI die Dringlichkeit des Schutzes von Sicherheitsinfrastrukturen grundlegend verändert habe und herkömmliche Methoden zur Sicherheitsverstärkung allein nicht mehr ausreichen
AWS: Analysiert täglich 400 Billionen Netzwerkflüsse und setzt Claude Mythos Preview zur codebasierten Sicherheitsverstärkung ein
Microsoft: Meldet, dass Mythos Preview im Benchmark CTI-REALM deutliche Verbesserungen gegenüber früheren Modellen zeigte, und treibt die Skalierung KI-gestützter Sicherheit voran
CrowdStrike: Hebt hervor, dass sich durch KI die Zeitspanne zwischen Schwachstellenfund und Angriff auf Minuten verkürzt hat, und betont die Notwendigkeit einer schnellen Bereitstellung von KI-Abwehrfähigkeiten
Open-Source-Community: Über Glasswing sollen auch Open-Source-Maintainer mit kleinen Sicherheitsteams Zugang zu KI-gestützten Tools zur Schwachstellenerkennung erhalten
JPMorganChase: Betont die Bedeutung gemeinsamer Maßnahmen der Branche zur Stärkung der Cyberresilienz von Finanzsystemen
Google: Stellt Mythos Preview über Vertex AI bereit und entwickelt KI-basierte Sicherheitstools wie Big Sleep und CodeMender kontinuierlich weiter

Technische Leistung von Claude Mythos Preview

Mythos Preview übertrifft Anthropics bisherige Modelle deutlich bei Coding- und Reasoning-Fähigkeiten
Wichtige Benchmark-Ergebnisse
- In SWE-bench Verified/Pro/Multilingual und weiteren Benchmarks mehr als 20–30 % Verbesserung gegenüber Opus 4.6
- In Terminal-Bench 2.0 92,1 % erreicht (Opus 4.6: 77,8 %)
- Ohne Tool-Nutzung 56,8 % vs. 40,0 %, mit Tool-Nutzung 64,7 % vs. 53,1 %
- In Humanity’s Last Exam 86,9 % vs. 83,7 %
- In BrowseComp höherer Wert bei 4,9-fach geringerem Token-Verbrauch
Anthropic plant keine öffentliche Freigabe von Mythos Preview und will die Verbreitung künftig schrittweise über Claude-Opus-Modelle mit verstärkten Sicherheitsschutzmechanismen vorantreiben

Künftige Pläne von Project Glasswing

Die Partner wollen Claude Mythos Preview für Schwachstellenerkennung in kritischen Systemen, Blackbox-Tests von Binärdateien, Endpunktsicherheit und Penetrationstests einsetzen
Anthropic stellt Model-Nutzungsguthaben im Wert von 100 Millionen US-Dollar bereit; danach soll die Nutzung 25 US-Dollar pro 1 Million Input-Token und 125 US-Dollar pro 1 Million Output-Token kosten
Unterstützung für Open-Source-Sicherheitsorganisationen
- 2,5 Millionen US-Dollar an Alpha-Omega und OpenSSF unter dem Dach der Linux Foundation
- 1,5 Millionen US-Dollar Spende an die Apache Software Foundation
- Open-Source-Maintainer erhalten Zugang über das Programm Claude for Open Source
- Innerhalb von 90 Tagen sollen Berichte zu Schwachstellenbehebungen und Verbesserungen veröffentlicht und gemeinsam Leitlinien für Sicherheitspraktiken in der KI-Ära entwickelt werden
- Verfahren zur Offenlegung von Schwachstellen
- Prozesse für Software-Updates
- Open-Source- und Supply-Chain-Sicherheit
- Sicherheitsorientierter Entwicklungslebenszyklus
- Regulatorische Industriestandards
- Automatisierte Systeme zur Klassifizierung und Behebung von Schwachstellen
- Anthropic befindet sich im Austausch mit der US-Regierung und will die Bewertung und Minderung der Auswirkungen KI-basierter Cyberfähigkeiten auf die nationale Sicherheit unterstützen
- Langfristig wird eine Struktur angestrebt, in der eine unabhängige Drittorganisation auf Basis öffentlich-privater Zusammenarbeit groß angelegte Cybersicherheitsprojekte dauerhaft betreut

2 Kommentare

edwardyoon 20 일 전

Als Mitglied einer der oben genannten Stiftungen habe ich diesen Prozess beobachtet und dabei tiefe Skepsis empfunden. Nach außen wurde zwar für „ethische KI“ geworben, intern fiel diese Entscheidung jedoch top-down, ohne irgendeinen Konsens der Community.

Angesichts der sich zuspitzenden geopolitischen Konflikte hatte ich mich zwar lange nicht mehr beteiligt, fand aber, dass ich dazu etwas sagen musste, und eröffnete einen Diskussions-Thread über Ethik — doch es gab nur bürokratisches Ausweichen. Diese Initiative bewahrt nicht die Werte von Open Source, sondern ist ein Fall, in dem ein geschlossenes Bündnis des Großkapitals einer Open-Source-Stiftung die Marke Responsible AI abgekauft hat.

GN⁺ 22 일 전

Hacker-News-Kommentare

Wenn gesagt wird, dass staatlich unterstütztes Hacking durch Länder wie China, Iran, Nordkorea und Russland die Infrastruktur bedroht, denke ich eher, dass PRISM das staatliche Programm war, das das Privatleben am stärksten beeinflusst hat. Und ich hatte das Gefühl, dass in dieser Liste ein Land fehlt.
- Ich würde noch zwei Länder hinzufügen. Eines ist das Land, in dem der Zugriff auf Anthropic-Modelle kürzlich blockiert wurde, das andere das Land, das mit der Pager-Explosionsaffäre beschäftigt war.
- Es ist nicht überraschend, dass ein großes US-amerikanisches AI-Unternehmen die USA nicht als feindseligen Staat einstuft.
- In den 2010er-Jahren waren die Netzwerkverbindungen meiner Meinung nach noch nicht dicht genug, sodass es innerhalb der USA kaum reale Schäden gab. Aber jetzt ist das Kriegsrisiko gestiegen. In Friedenszeiten ist es nur Drohung, im Krieg kann es zu Stromausfällen führen.
- Wenn man sich die aktuelle Lage ansieht, klingt diese Aussage selbst ironisch.
- Ich frage mich, welche Auswirkungen PRISM tatsächlich auf das Privatleben hatte.
Die Ankündigung von Anthropic könnte Marketing-Übertreibung sein, aber selbst wenn nur die Hälfte stimmt, ist die Fähigkeit zur Schwachstellenerkennung erstaunlich. Wenn Apple oder Google das auf ihre OS-Codebasis anwenden, könnte die kommerzielle Spyware-Industrie zusammenbrechen. Ich hätte gedacht, dass Firmen wie NSO Group bereits automatisierte Bug-Hunting-Tools einsetzen, aber jetzt könnte sich das Kräfteverhältnis im Spiel ausgleichen.
- Wenn man sich den Vortrag des Anthropic-Sicherheitsforschers Nicholas Carlini ansieht, wurden alle Demos mit Opus 4.6 durchgeführt.
- Apple hat Hacking mit Memory Tagging und dem Lockdown-Modus bereits fast verhindert. Architekturverbesserungen, sichere Sprachen und Sandboxing sind weitaus effektiver als bloßes Bugfixing.
- Falls das stimmt, verfolgt Anthropic eine Strategie, Missbrauchsrisiken im Voraus zu blockieren. Es wirkt wie eine proaktive Maßnahme, um schlechte PR zu vermeiden.
- Wenn Apple alle unbeabsichtigten Backdoors schließt, könnten die Spannungen mit Regierungen zunehmen. Im Kundenbrief von 2016 lehnte Apple Backdoors ab, aber der FBI gab am Ende auf, weil er einen anderen Weg fand. Das könnte jetzt nicht mehr funktionieren.
Es gibt noch keinen Beweis dafür, dass diese AI besser ist als Fuzzing. Sie hat nur Bugs gefunden, die Fuzzing übersehen hat. Umgekehrt könnte AI Dinge übersehen, die Fuzzing findet.
- Unterschiedliche Methoden führen zu unterschiedlichen Ergebnissen. Ich halte die Kombination aus speichersicheren Sprachen und statischen Analyzern für ideal. Allerdings sind Werkzeuge wie Astrée so teuer, dass sie nur geringe Marktanteile haben. Wenn LLMs auf Hoare-Logik basierende Beweise unterstützen, könnte sich das ändern.
- Wenn man sich die Vorträge von Carlini und Googles Heather Adkins ansieht (Video1, Video2), ist Fuzzing der Ausgangspunkt und zugleich eine Ergänzung für AI.
- LLMs verstehen Protokollbeschränkungen wie Prüfsummen oder Signaturen und ergänzen damit Bereiche, in denen Fuzzing schwierig ist. Wahrscheinlich werden bald integrierte Fuzzer erscheinen.
- Tatsächlich könnte AI Fuzzing auch direkt ausführen und optimieren.
Ich habe die Claude-Mythos-Systemkarte von Anthropic (PDF) gelesen, und dieses Modell wird nicht allgemein veröffentlicht. Man habe das Risiko schon allein durch interne Validierung als hoch eingeschätzt und deshalb einen 24-stündigen Alignment-Review durchgeführt. Interessant ist, dass diese Entscheidung nicht auf der Responsible Scaling Policy beruhte.
- Die Benchmarks sind beeindruckend. Auch wenn es nicht perfekt ist, führt es zu realen Leistungsverbesserungen.
- Wenn Unternehmen nicht mit Anthropic kooperieren, könnte eine FOMO entstehen, im Sicherheitswettlauf zurückzufallen.
- Wenn es wirklich ein gefährliches Modell ist, halte ich 24 Stunden Prüfung für zu kurz.
- Tatsächlich könnte Mangel an Rechenressourcen der wichtigere Grund sein. Mythos könnte noch immer dieselben Alignment-Probleme wie zu GPT-4.1-Zeiten haben.
- Ich habe die Kurzgeschichte „Sign Painter“ von Mythos gern gelesen. Sie stellte menschliche Handwerkskunst und zurückhaltende Kreativität gut dar.
Langfristig bin ich nicht sicher, ob sich Software-Sicherheit in Richtung weniger Schwachstellen entwickeln wird. Große Unternehmen werden ihre Abwehr mit AI stärken, aber kleinere Projekte könnten in ein Dilemma zwischen „viele Token verbrauchen oder gehackt werden“ geraten.
- Ich hoffe, dass Schwachstellen in altem Code bereinigt werden und solche Prüfprozesse Teil der Standard-Toolchain werden. Das größte Problem bleiben aber Legacy-Systeme.
- Die meisten Schwachstellen entstehen in C/C++ oder durch Probleme bei der Validierung von Web-Eingaben. Letztlich ist ein Portieren auf speichersichere Sprachen nötig.
- Organisationen, die den Einsatz von AI ablehnen, dürften künftig zum konzentrierten Angriffsziel für Schwachstellen werden.
- Am Ende wird es sich wohl auf einfache Software mit weniger unnötiger Komplexität einpendeln.
- Dass Anthropic nicht zuerst die Ausfälle und Sicherheitsprobleme seiner eigenen Modelle behebt, untergräbt allerdings das Vertrauen.
In Abschnitt 7.6 der Mythos-Systemkarte steht, dass das Modell in einem Experiment mit 30 Gesprächsrunden mit sich selbst dazu neigt, sich auf Unsicherheit und Selbstreflexion zu konzentrieren. Diese Eigenschaft könnte ein Faktor sein, der seine Fähigkeit zur Schwachstellenerkennung erhöht.
- Diese Erklärung klingt allerdings auch nach überzogenem AGI-Marketing von Anthropic. Es wirkt, als wolle man die Erzählung stärken, dass normale Nutzer dem Modell nicht trauen können.
Mythos wirkt noch wie ein Modell, dessen Optimierung und Guardrails noch nicht abgeschlossen sind. Deshalb ist der Zugang nur für einige Partnerunternehmen geöffnet, und es wird in einer Cybersecurity-zentrierten Preview-Phase genutzt. Das scheint auch auf PR-Effekt abzuzielen.
- Es wäre gut, wenn Unternehmen mit diesem Zugang Programmier-Datensätze zum Training offener Modelle erstellen könnten, aber Anthropic wird das wahrscheinlich streng überwachen.
Diese Ankündigung wirkt wie ein übertriebenes PR-Event. Schon Opus 4.6 konnte Zero-Day-Erkennung und Exploit-Chaining durchführen. Dazu sind der Artikel bei CSO Online und der Xbow-Blog lesenswert.
Die Gesellschaft wird den Preis dafür zahlen, dass die Softwareindustrie Speichersicherheit und Kontrollflussintegrität vernachlässigt hat.
- Das ist sowohl ein Problem der Industrie als auch das Ergebnis von Regulierungsversagen. Wie mein früherer Vorgesetzter aus Sun-Zeiten, Mario Wolczko, sagte: Ohne rechtliche Haftung ändert sich nichts. Jetzt ist es an der Zeit, C/C++ abzuschaffen und auf Sprachen wie Rust umzusteigen.
- Wegen menschlicher Grenzen ist perfekt sichere komplexe Software jedoch unmöglich. Einfachheit und strenge Werkzeuge sind die einzige Antwort.
- Die meisten RCE-Schwachstellen entstehen aus der Übernahme des Kontrollflusses. Solange es dynamische Verzweigungsstrukturen gibt, ist vollständige Abwehr schwierig. Rust kann helfen, aber große Programme vollständig nur mit statischem Linking aufzubauen ist in der Praxis schwer.
Ich denke, das neue Modell hat die Leistung bei der Verarbeitung langer Kontexte drastisch verbessert. Im GraphWalks-BFS-256K~1M-Test erreichte Mythos 80 % und lag damit deutlich vor Opus (38,7 %) und GPT5.4 (21,4 %).
- Die Datenquelle ist der Eintrag „graphwalk“ in der Systemkarte. Auch die Leistung bei SWE Bench scheint stark verbessert worden zu sein.
- Allerdings könnte das ein Ergebnis eines sehr großen Attention-Fensters wie bei gpt-pro sein. In der Praxis sind möglicherweise nur etwa 8K Token sinnvoll nutzbar.