4 Punkte von GN⁺ 2026-02-21 | 1 Kommentare | Auf WhatsApp teilen
  • Claude Code Security ist eine KI-basierte Sicherheitsfunktion, die Schwachstellen in Codebasen erkennt und Patch-Vorschläge zur menschlichen Prüfung liefert
  • Sie erkennt komplexe Schwachstellen, die bestehende statische Analyse-Tools übersehen, indem sie wie menschliche Forschende Interaktionen im Code und Datenflüsse nachverfolgt
  • Alle Ergebnisse werden über eine mehrstufige Verifizierung und Schweregradbewertung im Dashboard angezeigt, und es erfolgen keine automatischen Korrekturen ohne Zustimmung der Entwickler
  • Anthropic stellt die Funktion Enterprise- und Team-Kunden sowie Open-Source-Maintainern als begrenzte Research Preview zur Verfügung
  • Ziel ist es, das Sicherheitsniveau in der gesamten Branche zu verbessern, um auf eine Zeit vorbereitet zu sein, in der KI Schwachstellen schneller finden kann als Angreifer

Überblick über Claude Code Security

  • Claude Code Security ist eine neue, in die Web-Version von Claude Code integrierte Funktion, die Codebasen scannt und Sicherheitslücken erkennt sowie Patch-Vorschläge erstellt
    • Sie wird als Research Preview angeboten und setzt menschliche Prüfung voraus
  • Das Tool wurde entwickelt, um die bei bestehenden Sicherheitsteams auftretenden Personalengpässe und die Überlastung durch zu viele Schwachstellen zu adressieren
  • Bestehende Analyse-Tools konzentrieren sich auf bekannte Muster, Claude kann jedoch auch neue und kontextabhängige Schwachstellen erkennen

Funktionsweise

  • Traditionelle statische Analyse erkennt regelbasiert bekannte Schwachstellenmuster, übersieht jedoch leicht Fehler in der Business-Logik oder Mängel bei der Zugriffskontrolle
  • Claude Code Security versteht und erschließt die Bedeutung des Codes wie menschliche Forschende, um komplexe Schwachstellen zu erfassen
    • Dabei werden Interaktionen zwischen Komponenten und Datenflüsse nachverfolgt
    Anzeige
  • Erkennungsergebnisse durchlaufen eine mehrstufige Verifizierung, um False Positives zu minimieren
    • Claude überprüft die Ergebnisse selbst erneut und weist ihnen einen Schweregrad zu
  • Verifizierte Ergebnisse werden in einem Dashboard angezeigt, damit Teams sie prüfen und freigeben können
    • Jeder Eintrag enthält einen Vertrauenswert, und ohne menschliche Freigabe werden keine Änderungen angewendet

Grundlage in Claudes Cybersecurity-Forschung

  • Claude Code Security wurde auf Basis von mehr als einem Jahr Sicherheitsforschung mit Claude entwickelt
  • Das Frontier Red Team von Anthropic ließ Claude an Capture-the-Flag-Wettbewerben teilnehmen und führte gemeinsam mit dem Pacific Northwest National Laboratory Experimente zur KI-gestützten Infrastruktursicherung durch
  • Mit dem aktuellen Modell Claude Opus 4.6 wurden mehr als 500 Schwachstellen in Open-Source-Code entdeckt
    • Darunter Fehler, die trotz jahrzehntelanger Expertenprüfung bestehen geblieben waren
    • Derzeit läuft gemeinsam mit den Maintainern ein verantwortungsvoller Offenlegungsprozess
  • Anthropic nutzt Claude bereits auch für die Sicherheit des eigenen internen Codes und entwickelte diese Funktion, um dieselben Abwehrfähigkeiten auch extern bereitzustellen
Anzeige

Ausblick

  • Der Zeitpunkt, an dem KI den Großteil der weltweiten Codebasen scannt, rückt näher
    • KI-Modelle können lange verborgene Bugs effektiv erkennen
  • Auch Angreifer können mit KI Schwachstellen schneller finden, doch wenn Verteidiger proaktiv patchen, lässt sich das Risiko senken
  • Claude Code Security wird als ein Schritt hin zu sichereren Codebasen und höheren Sicherheitsstandards in der gesamten Branche vorgestellt

Teilnahme und Zugriff

  • Verfügbar als Research Preview für Enterprise- und Team-Kunden
    • Teilnehmende können direkt mit dem Anthropic-Team zusammenarbeiten, um das Tool zu verbessern
  • Open-Source-Maintainer können kostenlosen und schnellen Zugang beantragen
  • Weitere Informationen unter claude.com/solutions/claude-code-security

1 Kommentare

 
GN⁺ 2026-02-21
Hacker-News-Kommentare
  • Dass Anthropic eine Funktion zur Erkennung von Schwachstellen veröffentlicht hat, ist nicht überraschend.
    OpenAI hat bereits Aardvark vorgestellt und Google BigSleep angekündigt.
    Der entscheidende Punkt sind meiner Meinung nach Skalierung und Genauigkeit. Anthropic sagt, mit Opus 4.6 500 „schwerwiegende“ Schwachstellen gefunden zu haben, aber ich bezweifle, ob sie wirklich so kritisch sind. BigSleep lag bei etwa 20, und Aardvark hat keine Zahlen veröffentlicht.
    Als ich Semgrep gegründet habe, fand ich es bemerkenswert, dass beim DARPA-AIxCC-Wettbewerb von Teilnehmern an LLM-basierter Schwachstellenerkennung verlangt wurde, Kosten pro Schwachstelle und die Confusion Matrix offenzulegen. Ohne solche Daten ist schwer zu sagen, welches Modell wirklich vorne liegt.
    Gibt man LLM-Sicherheitsagenten Zugriff auf Tools wie Semgrep oder CodeQL, sinkt die False-Positive-Rate deutlich. In Zukunft werden Menschen wohl als AppSec-Manager solche virtuellen Security Engineers steuern.

    • Das größte Problem bei SAST-Tools wie Semgrep sind False Positives. Entwickler wollen nur die 0,1 % der Ergebnisse sehen, die tatsächlich zu einem realen Problem führen, aber patternbasiertes Matching erzeugt viel zu viel Rauschen.
      Ich habe selbst die Kombination aus Pattern Matching und LLM ausprobiert, und das war ziemlich effektiv. Allerdings lässt sich das nur auf SAST anwenden; Bereiche wie SCA oder Container-Images, die 90 % des Rauschens für Security-Teams ausmachen, bleiben weiterhin schwer zu lösen.
    • Solche Funktionen sind in Ordnung, wenn man ein kleines Repository einmal scannt, aber in der Realität mit häufigen Codeänderungen sind die Kosten für erneutes Scannen zu hoch. Es fehlen echte Workflow-Funktionen wie PR-Erstellung, Konfliktlösung oder das Finden von Reviewern.
      Für die Forschung ist das interessant, als Produktivtool hat es jedoch Grenzen.
    • Ich verfolge einen ähnlichen Ansatz. Wir haben ein internes Tool mit Fokus auf Website-Sicherheit, Performance und SEO agentenbasiert erweitert, und die Ergebnisse waren überraschend.
      Es ist ein Dienst namens SquirrelScan, bei dem der Agent auf Basis menschengeschriebener Regeln Konfigurationen dynamisch anpasst und False Positives beseitigt sowie Verifikation durchführt.
  • Es gab den Witz: „Anakin: Ich werde die Welt mit einem KI-Schwachstellenscanner retten.“
    Padme fragt dann: „Du scannst also, um die Schwachstellen zu beheben?“ — ein Witz, der den Zweck von KI-Scannern aufs Korn nimmt.

    • Ich denke, deshalb ist die Funktion auf Anfragen für Team-/Enterprise-Zugang beschränkt.
      Als Open-Source-Alternative gibt es DeepAudit.
    • Es gibt die Sorge, dass böswillige Nutzer Open-Source-Projekte oder npm-Pakete massenhaft scannen, um Zero-Days zu finden.
      Hoffentlich hat Anthropic ein Frühwarnsystem, das anormale Nutzungsmuster erkennt.
    • Ironischerweise bringen ausgerechnet Forschungslabore die stärksten Hacking-Toolkits heraus, während die Aktien von Cybersecurity-Defense-Unternehmen weiter fallen. Die Marktlogik dahinter verstehe ich nicht.
    • Es gab auch Reaktionen, dass die Bedeutung des Witzes unklar sei.
  • Aus Sicht eines Unternehmens für Security Audits ist spürbar, dass große LLM-Firmen nun auch in den Audit-Markt eindringen.
    Auch unser KI-basierter Dienst wie zkao.io gerät dadurch unter Wettbewerbsdruck.
    Ich sehe zwei mögliche Zukunftsszenarien.
    Entweder eine Welt, in der menschliche Auditoren und Entwickler verschwinden, oder eine Entwicklung hin zu einem Nischenmarkt, in dem menschliche Expertise und Intuition gebraucht werden.
    Ernsthafte Unternehmen werden weiterhin mit Menschen zusammenarbeiten wollen, daher wird vermutlich ein Modell aus SaaS + menschlicher Unterstützung bestehen bleiben.
    Die „vibe coder“ hingegen werden Tools wie Claude Code Security nutzen, und deren Qualität wird auf dem Niveau von „vibe coding“ liegen — brauchbar genug, aber nicht perfekt.
    Realistisch gesehen halte ich dieses Szenario für wahrscheinlicher. Solche Tools machen kleine spezialisierte Audit-Teams wie unseres stärker.

    • Rechtschreibhinweis: Nicht „seize“, sondern „cease“ ist korrekt.
    • Entwickler werden nicht verschwinden. Sie werden sich nur zu einer neuen Form von Entwicklern weiterentwickeln. Für Auditoren sieht die Zukunft jedoch düster aus.
  • In Anthropics Beschreibung ist die Aussage interessant, dass „Claude Code Security Code wie ein menschlicher Forscher liest und Schlussfolgerungen zieht“.
    Unser Team kombiniert ebenfalls seit Langem statische Analyse mit KI, deshalb halte ich diesen Ansatz für die Weiterentwicklung der Security-Automatisierung.

    • Diese Aussage stimmt allerdings nicht. LLMs sind letztlich Pattern-Matching-Maschinen. Menschliche Forscher leisten weit mehr als simples Pattern Matching.
      Die Behauptung, sie würden „wie Menschen schlussfolgern“, wirkt wie übertriebenes Marketing.
  • Claude Code Opus 4.5 erreichte im OpenSSF CVE Benchmark etwa 71 % Genauigkeit.
    Wir verwenden SAST als Filter der ersten Stufe und lassen das LLM anschließend Artefakte aus der statischen Analyse wie Data-Flow-Graphen und Dependency-Graphen nutzen.
    Dieser Ansatz war viel wirksamer, als dem Modell einfach zu sagen, es solle „wie ein Security Researcher handeln“. Sobald die neue Funktion veröffentlicht ist, werden wir den Benchmark aktualisieren.

  • Die Produkte der Konkurrenz waren enttäuschend. Meist haben sie nur Probleme erneut erkannt, die bestehende statische Analysetools ohnehin schon finden, und bei KI-Scans gab es viele False Positives.
    Ich hoffe, diesmal fallen die Ergebnisse besser aus.

  • Viele sind skeptisch, ob KI das kreative Denken eines Senior Security Engineers erreichen kann, aber ich halte das für eine Diskussion am Kern vorbei.
    Der eigentliche Wert solcher Tools liegt in der Automatisierung repetitiver Security-Arbeit.
    Einfache Probleme wie fehlende Eingabevalidierung oder der Einsatz verwundbarer Komponenten müssen nicht unbedingt von hochqualifizierten Fachkräften geprüft werden.
    Ich hoffe, solche Tools werden zu Hilfsmitteln, die Security-Teams Routinearbeit abnehmen.

    • LLMs, insbesondere Claude, zeigen tatsächlich Fähigkeiten auf dem Niveau von Security Engineers. Unser Startup baut einen Agenten für aggressives Penetration Testing, und schon nach wenigen Stunden findet er merkwürdige Schwachstellen, die Menschen übersehen.
    • Unter Vulnerability Researchers gibt es eher nicht öffentliche Zuversicht. Es gibt weit mehr Experten, die still experimentieren und Potenzial sehen, als Leute, die sich öffentlich skeptisch äußern.
    • Als Penetration Tester bei einem Fortune-500-Unternehmen stimme ich dieser Einschätzung zu. Die meisten internen Findings liegen auf dem Niveau von „Best Practices“, daher wäre es viel effizienter, wenn Agenten solche Dinge automatisch abarbeiten würden.
      Eine Mensch-Agent-Zusammenarbeit dürfte zum künftigen Betriebsmodell von Security-Teams werden.
    • Wir haben Claude Opus 4.6 ebenfalls ausprobiert, und eine False-Positive-Rate von unter 50 % war sehr beeindruckend.
  • Ich habe gerade Unmengen an Claude-Tokens verbrannt, um ein Abwehrsystem gegen KI-Bots zu bauen, und dachte schon, Anthropic hätte das bemerkt.

    • Wir entwickeln seit Jahren ebenfalls ein eigenes System. Ein Blick auf Tirreno, das direkt von Ingenieuren gebaut wurde, könnte hilfreich sein.