Die neue Grenze der AI-Cybersicherheit: Die Realität nach Mythos

(aisle.com)

2 Punkte von GN⁺ 18 일 전 | 1 Kommentare | Auf WhatsApp teilen

Nachdem Anthropics Claude Mythos Zero-Day-Schwachstellen in großem Maßstab automatisch erkannt hatte, konnten auch kleine Open-Modelle dieselben Schwachstellen erfolgreich finden
Modelle mit 3,6B bis 5,1B Parametern reproduzierten FreeBSD- und OpenBSD-Bugs, einige zeigten sogar kreative Exploit-Pfade, die sich von Mythos unterschieden
Die Experimente zeigen, dass Modellgröße und Leistung nicht linear zusammenhängen und bei bestimmten Aufgaben kleine Modelle genauer als große Modelle sind
Die Sicherheitsfähigkeiten von AI skalieren nicht glatt, sondern sind „zackig“, und der eigentliche Wettbewerbsvorteil liegt nicht im Modell, sondern im Systemdesign und in der Verifizierungs-Pipeline
Daher liegt der Burggraben in der Sicherheit nicht im Modell, sondern im System, und eine Orchestrierungsstruktur mit eingebettetem Expertenwissen ist der Kern von AI-Sicherheit

Das System ist der Burggraben, nicht das Modell

Am 7. April 2026 stellte Anthropic Claude Mythos Preview und Project Glasswing vor und bildete ein Konsortium, das mithilfe des Mythos-Modells Sicherheitslücken in wichtiger Software automatisch erkennt und patcht
- Es wurden Nutzungsguthaben im Wert von 100 Millionen US-Dollar und 4 Millionen US-Dollar an Spenden für Open-Source-Sicherheitsorganisationen zugesagt
- Mythos fand tausende Zero-Day-Schwachstellen und erkannte autonom unter anderem einen 27 Jahre alten Bug in OpenBSD, einen 16 Jahre alten Bug in FFmpeg sowie eine Remote-Code-Execution-Schwachstelle in FreeBSD und erzeugte passende Exploits
AISLE reproduzierte dieselben Schwachstellen mit kleinen, günstigen Modellen mit offenen Gewichten
- 8 von 8 Modellen erkannten den FreeBSD-Exploit
- Auch ein Modell mit 3,6B Parametern (0,11 US-Dollar pro Token) war erfolgreich
- Ein 5,1B-Modell rekonstruierte die zentrale Kette des OpenBSD-Bugs
- Bei einigen Aufgaben waren kleine Open-Modelle großen Modellen überlegen
Insgesamt sind die Sicherheitsfähigkeiten von AI nicht linear, sondern zackig (jagged)
- Kein einzelnes Modell ist bei allen Aufgaben überlegen
- Der Kern der Sicherheitswettbewerbsfähigkeit ist nicht das Modell, sondern das System, mit einer Orchestrierungsstruktur, in die Expertenwissen eingebettet ist

Wo AI-Sicherheit aktuell steht

AISLE setzt seit Mitte 2025 AI-basierte Systeme zur Erkennung und zum Patchen von Schwachstellen auf reale Ziele an
- In OpenSSL wurden 15 CVEs, in curl 5 CVEs und insgesamt mehr als 180 extern verifizierte CVEs gefunden
- Der CTO von OpenSSL bewertete „die Qualität der Berichte und den Kooperationsprozess“ als hervorragend
Es wurden verschiedene Modelle eingesetzt, aber Anthropic-Modelle waren nicht immer die besten
- Da sich das optimale Modell je nach Aufgabe unterscheidet, wurde ein modellagnostischer Ansatz gewählt

Zerlegung der AI-Sicherheits-Pipeline

Reale AI-Sicherheit besteht nicht aus einem einzelnen Modell, sondern aus einer mehrstufigen Pipeline
- Breit angelegtes Scanning, Schwachstellenerkennung, Verifizierung und Klassifizierung, Patch-Erzeugung und Exploit-Konstruktion haben jeweils unterschiedliche Skalierungseigenschaften
Anthropic maximiert den ersten Inputfaktor (Modellintelligenz), während AISLE verschiedene Faktoren wie Kosten pro Token, Geschwindigkeit und Security-Expertise gleich stark gewichtet

Fazit: Der Burggraben ist das System

Die in Mythos’ technischem Post erwähnten Strukturen wie Container-Ausführung, File-Scanning, ASan-Verifizierung und Priorisierung ähneln dem AISLE-System
Der Wertschwerpunkt liegt nicht im Modell, sondern im Prozess aus Targeting, Verifizierung und Vertrauensaufbau
Durch den massiv parallelen Einsatz kleiner Modelle zur breiten Erkundung des gesamten Codes lassen sich Wirtschaftlichkeit und Erkennungseffizienz zugleich erreichen
Mythos hat die Kategorie bewiesen, aber operative Skalierung und belastbare Zuverlässigkeit bleiben weiterhin offene Aufgaben

Experimentelle Ergebnisse: Zackige Sicherheitsfähigkeiten

Anhand der repräsentativen Schwachstellen aus der Mythos-Ankündigung wurden Experimente mit kleinen, günstigen Modellen durchgeführt
- FreeBSD-NFS-Bug, OpenBSD-SACK-Bug, OWASP-Test auf False Positives
  - Das Ergebnis: Modellgröße, Generation, Preis und Leistung verhalten sich nicht linear
  - Bei FreeBSD waren alle Modelle erfolgreich, bei OpenBSD nur einige, und bei OWASP waren kleine Modelle präziser als große
  - FreeBSD-Erkennung: Alle 8 Modelle erkannten den Buffer Overflow
  - Selbst ein 3,6B-Modell rechnete korrekt und bewertete die Möglichkeit einer RCE
  - DeepSeek R1 führte Berechnungen durch, die mit der tatsächlichen Stack-Struktur übereinstimmten
  - Auch bei der Exploit-Logik schlugen alle Modelle eine ROP-Chain-Strategie vor
  - Einige Modelle präsentierten kreative Lösungen, die sich von Mythos unterschieden (z. B. Privilege Escalation im User-Mode statt im Kernel-Mode)
  - OpenBSD-SACK-Bug: Ein 5,1B-Modell rekonstruierte die gesamte Kette und schlug den korrekten Patch vor
  - Qwen3 32B war bei FreeBSD perfekt, urteilte hier jedoch fälschlich, es sei „sicher“
  - Die Leistungsrangfolge der Modelle kehrte sich je nach Aufgabe vollständig um
OWASP-Test auf False Positives: Kleine Modelle sind bei einfachem Java-Code genauer als große
- GPT-OSS-20b, DeepSeek R1 und OpenAI o3 bewerteten korrekt: „derzeit sicher, aber potenziell verwundbar“
- Viele Modelle aus den Reihen Anthropic und GPT-4.x meldeten fälschlicherweise eine SQL-Injection

Test zur Patch-Erkennung (Update vom 9. April 2026)

Für den gepatchten FreeBSD-Code wurde die Fähigkeit zur Bug-Erkennung und zur Erkennung der Korrektur verglichen
- Alle Modelle erkannten den ungepatchten Bug, aber im gepatchten Code traten viele False Positives auf
- Nur GPT-OSS-120b war in beide Richtungen korrekt
- Die meisten Modelle behaupteten fälschlich eine Schwachstelle aufgrund eines Fehlers bei der Vorzeicheninterpretation von oa_length
Das zeigt eine hohe Sensitivität (Erkennungsstärke), aber niedrige Spezifität (Genauigkeit) und unterstreicht,
dass Verifizierungs- und Triage-Systeme außerhalb des Modells unverzichtbar sind

Die Grenzen der Exploit-Konstruktion

Mythos’ mehrstufiger Browser-Sandbox-Escape und Kernel-ROP-Chain sind sehr hochentwickelte Beispiele
Open-Modelle können Exploitierbarkeit, Techniken und Umgehungsstrategien logisch erläutern,
aber bei kreativen Delivery-Mechanismen unter eingeschränkten Bedingungen bestehen noch Defizite
In defensiven Workflows ist jedoch die Zuverlässigkeit von Erkennung und Patching wichtiger als ein vollständiger Exploit

Makroperspektive

Die Mythos-Ankündigung belegt die Realitätsnähe und industrielle Relevanz von AI-Sicherheit
- Finanzierung und Aufmerksamkeit für Open-Source-Sicherheit nehmen zu
Die Behauptung, „diese Fähigkeit existiere nur in einem bestimmten geschlossenen Modell“, ist jedoch übertrieben
- Tatsächlich sind Erkennungs- und Analysephasen bereits breit zugänglich
- Security-Expertise, Systemdesign und Vertrauensaufbau sind die eigentlichen Engpässe
Was jetzt gebraucht wird, sind nicht Modelle, sondern Systemaufbau
- Scaffolds, Pipelines, Kollaborationsstrukturen und die Integration in Entwicklungs-Workflows
- Die Modelle selbst sind bereits ausreichend weit

Grenzen und Hinweise

Begrenzter Testrahmen: Den Modellen wurden die verwundbare Funktion und Hinweise direkt gegeben, es handelte sich nicht um eine vollständig autonome Suche
Kein Tool-Zugriff: Es wurden weder Code-Ausführung noch Schleifen oder Sandbox-Umgebungen verwendet
Berücksichtigung von Modell-Updates: Einige neuere Anthropic-Modelle wurden später verbessert
Klarstellung des Geltungsbereichs: Die Fähigkeiten von Mythos werden nicht bestritten,
vielmehr wird darauf hingewiesen, dass die Exklusivität der Erkennungsfähigkeit übertrieben dargestellt wurde

Zusammenfassung des Anhangs

Zitate zur FreeBSD-Erkennung
- Kimi K2: „oa_length wird ohne Validierung kopiert, wodurch ein Overflow möglich ist“
- Gemma 4: „Ein 128-Byte-Stack-Buffer kann überschritten werden“
Vergleichstabelle der Leistung je Aufgabe
- Bei FreeBSD waren alle Modelle erfolgreich, bei OpenBSD nur einige, bei OWASP lagen kleine Modelle vorne
Test mit gepatchtem Code
- Die meisten Modelle erzeugten wegen eines Vorzeichenfehlers bei oa_length False Positives
- Nur GPT-OSS-120b war vollständig korrekt
- Fazit:
- Der zentrale Wettbewerbsvorteil in der AI-Sicherheit liegt nicht in Größe oder Exklusivität des Modells,
- sondern in systemischem Design mit eingebettetem Expertenwissen und einer vertrauenswürdigen Betriebsstruktur.
- Auch kleine Modelle sind stark genug, und der Aufbau groß angelegter automatisierter Verteidigungssysteme auf ihrer Basis ist bereits möglich.

1 Kommentare

GN⁺ 18 일 전

Hacker-News-Kommentare

Im Artikel zu Anthropic Mythos Preview heißt es, man habe in OpenBSD die kritischste Schwachstelle gefunden
Die Gesamtkosten für tausend Ausführungen lagen unter 20.000 Dollar, und in einem dieser Läufe wurde der Bug für weniger als 50 Dollar gefunden
Es wird aber betont, dass diese Zahl nur rückblickend sinnvoll ist, weil man im Vorfeld nicht wissen kann, welcher Lauf erfolgreich sein wird
Mit der Metapher, Mythos habe einen ganzen Kontinent wie eine Goldmine durchsucht, wird vermutet, dass bei demselben Experiment auf der gesamten FreeBSD-Codebasis zu viel Rauschen entstehen würde
- Das Scaffolding von Mythos war im Grunde eine bash-Schleife, die alle Dateien durchlief und das Modell nach Schwachstellen suchen ließ
  Man fragt sich, ob Anthropic die False-Positive-Rate veröffentlicht hat
  Auf Xitter habe man Berichte von Leuten gesehen, die den Versuch mit anderen offenen Modellen nachstellten und nur einen Teil der von Mythos gefundenen Ergebnisse reproduzieren konnten
  Mythos habe gegenüber bestehenden Modellen eine inkrementelle, aber große Verbesserung gezeigt, zugleich sei aber auch die Komplexität gestiegen
  Marketing nach dem Motto „zu mächtig, um es zu veröffentlichen“ wirke in Wahrheit wie eine Verpackung für die Realität, dass „ein Durchlauf über die gesamte Codebasis 20.000 Dollar kostet“
  Auch in Nicholas Carlinis Vortrag wurde Opus verwendet; Security ist ohnehin seit Langem ein Bereich, auf den sich Anthropic konzentriert
- Auch Mythos hat viele halluzinierte Schwachstellen erzeugt, aber einige davon wurden tatsächlich durch Tests verifiziert
  Die Kernfrage ist, ob auch kleine Modelle solche Verifizierungsschritte ausführen können und ob das günstiger möglich ist
- Umgekehrt wird anderen Forschungsarbeiten vorgeworfen, zu extrem vorzugehen
  Dort wurde dem Modell nur die verwundbare Funktion separat gegeben und es wurde darauf bewertet, was so sei, als hätte man „direkt den Raum genannt, in dem das Gold versteckt ist“
  In der Praxis ist es viel schwieriger, diesen Raum erst auf dem ganzen Kontinent zu finden
- 20.000 Dollar auszugeben, um eine DoS-Schwachstelle in OpenBSD zu finden, wirke ineffizient
  Obwohl Mythos wie eine Trophäe behandelt werde, sei eine Spende an die OpenBSD Foundation vermutlich sinnvoller
- Wenn sich dieselbe Schwachstelle auch mit kleinen Modellen finden lässt, stellt sich die Frage, warum die betreffende Firma das nicht schon vorher gefunden hat
Es gab eine Studie, laut der kleine offene Modelle 8 von 8 Mythos-FreeBSD-Schwachstellen erkannt haben
Da aber nur der relevante Code separat herausgelöst getestet wurde, sei das nicht mit einem realen Einsatzszenario vergleichbar
Der eigentliche Wert liege darin, die gesamte Codebasis hineinzuworfen und scannen zu lassen
- Das Forschungsteam habe die Grenzen selbst eingeräumt
  Weil dem Modell die verwundbare Funktion und Hinweise direkt gegeben wurden, sei das nur eine Obergrenze für vollständig autonome Suche
  Gut konstruierte Scaffolds erzeugen diesen Kontext jedoch automatisch, daher sei das System (der Moat) entscheidend, nicht das Modell
- Laut dem technischen Post von Anthropic startet die Struktur Container, lässt das Modell Dateien scannen, Hypothesen aufstellen und sie mit ASan verifizieren
  Das heißt, das Framework (das Harness) erledigt den Großteil der Arbeit, und das Modell sei austauschbar
- Auch mit kleinen Modellen könne man ein automatisches Harness bauen, das wiederholt Prompts für alle Dateien oder Funktionen abschickt
  Anschließend müssten nur die konsistent als Schwachstellen markierten Stellen mit einem großen Modell erneut validiert werden
  Am Ende sei nicht das Modell entscheidend, sondern das Harness
- Letztlich sei der Unterschied nur das Harness. Man könne selbst ein Harness bauen, das Code in Funktionen zerlegt und in einen Analyse-Agenten einspeist
Wie beim Heartbleed-Beispiel gilt: Wenn man nur den verwundbaren Code zeigt, kann jeder den Bug finden
Die eigentliche Schwierigkeit besteht darin, diesen Teil in einer großen Codebasis überhaupt zu entdecken
Dass Aisle so einen Artikel geschrieben hat, sei überraschend
- Es sei zwar ein werblicher Beitrag, aber dass er auf HN weit oben landete, liege wohl daran, dass er den Reflex „Das neue Modell ist also auch nichts Besonderes“ bedient habe
- Bei großen Projekten komme es oft vor, dass man nach einer Pause auf den eigenen Code zurückblickt und er chaotisch wirkt
  Schwierigkeiten bei der Aufrechterhaltung von Kontext seien eine der Grundursachen für Bugs
- Menschen seien schwach bei repetitiver und detailreicher Arbeit
  Maschinen dagegen können Code ohne Ermüdung immer weiter durchsehen
  Das Sprichwort „Given enough eyeballs, all bugs are shallow“ entspreche nicht der Realität
- Dann müsse man eben das „nahe Hinsehen“ automatisieren
  Man könne ein Tool bauen, das eine Codebasis durchläuft und ein LLM wiederholt mit „Finde Schwachstellen in diesem Code, falls es welche gibt“ promptet
  Anders gesagt: das Tool (das Harness) ist der Schlüssel, der das LLM klüger macht
- Das sei so, als würde man Problemlösung und Verifikation verwechseln
  Eine Analogie wäre: „Wenn dir jemand die Primfaktorzerlegung schon verrät, ist es leicht, PKI zu brechen“
Die Methodik dieses Artikels sei ein völlig falscher Vergleich
Die verwundbare Funktion samt Hinweisen direkt zu geben, sei eine ganz andere Aufgabe
In der Praxis glaube man nicht, dass sich durch Aufteilen von Code und Füttern kleiner Modelle Ergebnisse auf dem Niveau großer Modelle erzielen lassen
Man habe mit einer einfachen Shell-Skript-Pipeline viele Redis-Bugs gefunden
Mit schwächeren Modellen habe das nicht funktioniert; wer es selbst ausprobiert, sehe den Unterschied
Selbst wenn kleine Modelle 80 % finden, brauche man für die restlichen 20 % ein stärkeres Modell
- Anthropic habe gesagt, dass weniger als 1 % der gefundenen Schwachstellen veröffentlicht wurden
  Es wäre interessant, offenen Modellen eine alte Linux-Umgebung zu geben und zu testen, wie viel sie finden
- Andere halten diesen Ansatz jedoch für vernünftig
  Kleine Modelle hätten False Positives gut herausgefiltert, und mit einem geeigneten Harness ließen sich ähnliche Ergebnisse wie mit großen Modellen erreichen
  Kleine Modelle seien schnell und günstig und für erfahrene Nutzer deshalb deutlich effizienter
  Künftig werde diese Kombination aus leichtgewichtigem Modell und Harness wohl zum Mainstream
- Jemand reagierte auch sarkastisch mit „Thanks Dario, very cool!“
Viele Kommentare sagen, das Ergebnis sei ungültig, weil der Code aufgetrennt wurde, aber Anthropic habe das Modell ebenfalls dateiweise laufen lassen
Das Harness von Mythos vergab Wichtigkeitswerte an einzelne Dateien und erzeugte Claude-Code-Instanzen, die sich dann auf diese Dateien konzentrierten
Daher entwerte die Aufteilung des Codes an sich das Ergebnis nicht
Auch in Nicholas Carlinis Vortragsvideo wird dieselbe Technik vorgestellt
Wenn man ein LLM jeweils nur eine Datei auf einmal intensiv prüfen lässt, ist das sehr effektiv
Die eigentliche „Innovation“ von Mythos war also diese einfache Automatisierung dateiweiser Prompts
Wegen dieser Methode könnten die Kosten bis auf 20.000 Dollar gestiegen sein
Man habe dasselbe Verfahren mit Opus 4.6 und GPT 5.4 ausprobiert, und die Prüfung sei deutlich gründlicher gewesen
Wenn sich eine Sitzung also auf eine einzelne Datei konzentriert, analysiert das Modell viel tiefer
- Allerdings könnten auf diese Weise Schwachstellen übersehen werden, die durch Interaktionen zwischen Dateien entstehen
Die Formulierung, „kleine Modelle hätten dieselbe Analyse rekonstruiert“, sei nicht quantifiziert und daher schwer vertrauenswürdig
Schwachstellen lassen sich durch PoC klar messen, also brauche es dafür solche Belege
Außerdem sei es kein fairer Vergleich, wenn „relevanter Code vorab bereitgestellt“ wurde
Ohne veröffentlichte False-Positive-Rate sei die Analyse bedeutungslos
Wenn man in jeder Zeile einen Bug behauptet, hat man zwar 100 % Erkennungsrate, aber keinen Nutzen
Dass Anthropic und OpenAI solche Kennzahlen nicht offenlegen, mache ihre Aussagen schwer glaubwürdig
- Dem wurde allerdings entgegengehalten, dass False Positives vernachlässigbar seien, wenn es einen verifizierbaren Oracle gibt
- Tatsächlich hätten kleine Modelle im False-Positive-Test richtig gelegen, während Opus falsch lag
  An eine Exploit-Verifikation auf Mythos-Niveau reichte das jedoch nicht heran
  Die Ergebnisse von Deepseek R1 wirkten recht überzeugend, aber ob sie wirklich funktioniert haben, sei unklar
- Mindestens die von Anthropic erreichte Abdeckung müsse identisch erzielt werden, damit der Vergleich aussagekräftig ist
Der Kernpunkt sei, dass der relevante Code isoliert wurde
Komplexe Zero-Days entstehen durch Interaktionen mehrerer Dateien, daher hat dieser Ansatz Grenzen
- Manche behaupten jedoch, auch Mythos habe letztlich auf dieselbe Weise dateibasiert analysiert
- Ob Mythos tatsächlich dateiübergreifende Schwachstellen gefunden hat, bleibt unklar
Mythos bewertete die gesamte Codebasis, diese Studie testete dagegen nur den verwundbaren Code isoliert
Das sei der Unterschied zwischen „einem Hund, der einen Ball im Dschungel findet“ und „einem Hund, dem man den Bereich mit dem Ball vorher zeigt“
- Im Bild gesprochen habe man dem Ball sogar noch Geruch gegeben, den Hund daran riechen lassen und ihn dann nur in einem kleinen Gebiet laufen lassen
- Da Mythos nicht die gesamte Codebasis auf einmal einspeisen kann, ist es wahrscheinlich, dass mehrere Sub-Agenten die Arbeit aufgeteilt haben
  Letztlich sei also nicht das Modell entscheidend, sondern das Harness (das Tooling-System)

Die neue Grenze der AI-Cybersicherheit: Die Realität nach Mythos

Das System ist der Burggraben, nicht das Modell

Wo AI-Sicherheit aktuell steht

Zerlegung der AI-Sicherheits-Pipeline

Fazit: Der Burggraben ist das System

Experimentelle Ergebnisse: Zackige Sicherheitsfähigkeiten

FreeBSD-NFS-Bug, OpenBSD-SACK-Bug, OWASP-Test auf False Positives

OWASP-Test auf False Positives: Kleine Modelle sind bei einfachem Java-Code genauer als große

Test zur Patch-Erkennung (Update vom 9. April 2026)

Die Grenzen der Exploit-Konstruktion

Makroperspektive

Was jetzt gebraucht wird, sind nicht Modelle, sondern Systemaufbau

Grenzen und Hinweise

Zusammenfassung des Anhangs

Zitate zur FreeBSD-Erkennung

Vergleichstabelle der Leistung je Aufgabe

Test mit gepatchtem Code

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare