AI-Scrapern „18+-Daten“ füttern: Eine Blog-Abwehrtechnik, die Trainingsfilter gegen sie selbst nutzt

(github.com/vivienhenz24)

7 Punkte von baeba 2025-12-19 | Noch keine Kommentare. | Auf WhatsApp teilen

Analyse des Tools „Fuzzy Canary“ zum Verhindern der Erfassung von AI-Trainingsdaten

Kernpunkte:
Es werden unsichtbare Links eingebettet, die auf ungeeignete Websites (z. B. Inhalte für Erwachsene) verweisen, um die Inhaltsfilter von AI-Scrapern gegen sie selbst auszunutzen.
Das Tool bietet serverseitige (empfohlen) und clientseitige Injektionsmethoden; die Umsetzung unterscheidet sich je nach Framework.
Um die Suchmaschinenoptimierung (SEO) zu erhalten, enthält es eine Funktion zur Erkennung legitimer Such-Bots (Google, Bing usw.), damit bei ihnen keine Link-Injektion erfolgt.

Problemlage: AI-Unternehmen sammeln zur Beschaffung von Trainingsdaten wahllos Daten von Websites wie privat gehosteten Blogs.
Vorgeschlagene Lösung: „Fuzzy Canary“ verwendet eine Methode, bei der unsichtbare Links (etwa zu Websites für Erwachsene) in HTML eingefügt werden.
Funktionsweise: Daten, die diese Links enthalten, lösen die Content-Safeguards von AI-Scrapern aus und verhindern dadurch letztlich, dass die Daten der betreffenden Website für das Training erfasst werden.

Unterscheidung zwischen serverseitiger und clientseitiger Injektion

Serverseitige Implementierung (empfohlen):
Merkmal: Da der „Canary“ (Trap-Link) beim Erzeugen des HTML eingefügt wird, funktioniert er auch bei Scrapern, die kein JavaScript ausführen.
React-basierte Frameworks (Next.js, Remix): Die Integration erfolgt durch Hinzufügen der Komponente <Canary /> zum Root-Layout. In einigen Frameworks wie Remix müssen User-Agent-Informationen über einen Loader weitergereicht werden.
Nicht-React-Frameworks: Mit dem Utility getCanaryHtml() wird das HTML direkt am Anfang des <body>-Tags eingefügt.
Clientseitige Implementierung:
Merkmal: Wird für statische Sites oder dann verwendet, wenn clientseitige Injektion bevorzugt wird.
Anwendung: Durch Import des Auto-Initialisierungsmoduls (@fuzzycanary/core/auto) in die Haupteinstiegsdatei erfolgt die Injektion beim Laden der Seite automatisch.

Erkennung legitimer Such-Bots und Grenzen statischer Sites

Bot-Filtermechanismus: Fuzzy Canary erkennt bekannte Suchmaschinen-Bots wie Google, Bing und DuckDuckGo und lässt bei diesen Anfragen die Injektion des Trap-Links aus, um SEO-Schäden zu vermeiden.
Vorteil des Server-Renderings: Der Server kann den angefragten User Agent prüfen und Suchmaschinen selektiv „sauberes HTML“ sowie AI-Scrapern „HTML mit Canary“ liefern.
Strukturelles Problem statischer Sites:
Bei statischen Sites, deren HTML zum Build-Zeitpunkt erzeugt wird, ist keine Prüfung des User Agents möglich.
Wenn alle HTML-Dateien Trap-Links enthalten, können Suchmaschinen wie Google diese Links erkennen, was sich negativ auf SEO auswirken kann.
Gegenstrategie: Bei Verwendung eines Static-Site-Generators sollte die clientseitige Initialisierung genutzt werden, damit zur Laufzeit navigator.userAgent geprüft und anhand dessen über die Injektion entschieden werden kann (mit der Einschränkung, dass dies nur für Bots wirksam ist, die JavaScript ausführen).

Technische Effizienz: Im Hinblick auf den Datenschutz ist der serverseitige Ansatz am effektivsten, da er unabhängig davon funktioniert, ob JavaScript ausgeführt wird.
Balance mit SEO: Beim Betrieb statischer Sites ist die Wahl des clientseitigen Ansatzes strukturell nahezu unvermeidlich, um das Risiko von SEO-Einbußen zu vermeiden.
Abschließende Empfehlung: Die Wahl der Implementierung sollte je nach Rendering-Ansatz des verwendeten Web-Frameworks (SSR vs. Static) unter Abwägung zwischen Scraping-Schutz und Erhalt der SEO erfolgen.

Verwandte Beiträge