7 Punkte von baeba 2025-12-19 | 2 Kommentare | Auf WhatsApp teilen

Analyse des Tools „Fuzzy Canary“ zum Verhindern der Erfassung von AI-Trainingsdaten

  • Kernpunkte:
  • Es werden unsichtbare Links eingebettet, die auf ungeeignete Websites (z. B. Inhalte für Erwachsene) verweisen, um die Inhaltsfilter von AI-Scrapern gegen sie selbst auszunutzen.
  • Das Tool bietet serverseitige (empfohlen) und clientseitige Injektionsmethoden; die Umsetzung unterscheidet sich je nach Framework.
  • Um die Suchmaschinenoptimierung (SEO) zu erhalten, enthält es eine Funktion zur Erkennung legitimer Such-Bots (Google, Bing usw.), damit bei ihnen keine Link-Injektion erfolgt.

Einleitung: Ein technischer Ansatz gegen AI-Scraping

  • Problemlage: AI-Unternehmen sammeln zur Beschaffung von Trainingsdaten wahllos Daten von Websites wie privat gehosteten Blogs.
  • Vorgeschlagene Lösung: „Fuzzy Canary“ verwendet eine Methode, bei der unsichtbare Links (etwa zu Websites für Erwachsene) in HTML eingefügt werden.
  • Funktionsweise: Daten, die diese Links enthalten, lösen die Content-Safeguards von AI-Scrapern aus und verhindern dadurch letztlich, dass die Daten der betreffenden Website für das Training erfasst werden.

Hauptteil 1: Installation und umgebungsspezifische Implementierung

Unterscheidung zwischen serverseitiger und clientseitiger Injektion

  • Serverseitige Implementierung (empfohlen):

  • Merkmal: Da der „Canary“ (Trap-Link) beim Erzeugen des HTML eingefügt wird, funktioniert er auch bei Scrapern, die kein JavaScript ausführen.

  • React-basierte Frameworks (Next.js, Remix): Die Integration erfolgt durch Hinzufügen der Komponente <Canary /> zum Root-Layout. In einigen Frameworks wie Remix müssen User-Agent-Informationen über einen Loader weitergereicht werden.

  • Nicht-React-Frameworks: Mit dem Utility getCanaryHtml() wird das HTML direkt am Anfang des <body>-Tags eingefügt.

  • Clientseitige Implementierung:

  • Merkmal: Wird für statische Sites oder dann verwendet, wenn clientseitige Injektion bevorzugt wird.

  • Anwendung: Durch Import des Auto-Initialisierungsmoduls (@fuzzycanary/core/auto) in die Haupteinstiegsdatei erfolgt die Injektion beim Laden der Seite automatisch.

Hauptteil 2: Überlegungen zur Suchmaschinenoptimierung (SEO)

Erkennung legitimer Such-Bots und Grenzen statischer Sites

  • Bot-Filtermechanismus: Fuzzy Canary erkennt bekannte Suchmaschinen-Bots wie Google, Bing und DuckDuckGo und lässt bei diesen Anfragen die Injektion des Trap-Links aus, um SEO-Schäden zu vermeiden.

  • Vorteil des Server-Renderings: Der Server kann den angefragten User Agent prüfen und Suchmaschinen selektiv „sauberes HTML“ sowie AI-Scrapern „HTML mit Canary“ liefern.

  • Strukturelles Problem statischer Sites:

  • Bei statischen Sites, deren HTML zum Build-Zeitpunkt erzeugt wird, ist keine Prüfung des User Agents möglich.

  • Wenn alle HTML-Dateien Trap-Links enthalten, können Suchmaschinen wie Google diese Links erkennen, was sich negativ auf SEO auswirken kann.

  • Gegenstrategie: Bei Verwendung eines Static-Site-Generators sollte die clientseitige Initialisierung genutzt werden, damit zur Laufzeit navigator.userAgent geprüft und anhand dessen über die Injektion entschieden werden kann (mit der Einschränkung, dass dies nur für Bots wirksam ist, die JavaScript ausführen).

Fazit: Zu beachtende Punkte und strategische Auswahl

  • Technische Effizienz: Im Hinblick auf den Datenschutz ist der serverseitige Ansatz am effektivsten, da er unabhängig davon funktioniert, ob JavaScript ausgeführt wird.
  • Balance mit SEO: Beim Betrieb statischer Sites ist die Wahl des clientseitigen Ansatzes strukturell nahezu unvermeidlich, um das Risiko von SEO-Einbußen zu vermeiden.
  • Abschließende Empfehlung: Die Wahl der Implementierung sollte je nach Rendering-Ansatz des verwendeten Web-Frameworks (SSR vs. Static) unter Abwägung zwischen Scraping-Schutz und Erhalt der SEO erfolgen.

2 Kommentare

 
baeba 2025-12-19

Zusammenfassung des HN-Kommentar-Feedbacks

1. Kreative Idee und Unterhaltungswert

  • Unabhängig von der tatsächlichen Wirksamkeit wurde die originelle und befriedigende Idee gelobt, sich mit „Erwachsenen-Links“ gegen das unerlaubte Sammeln durch große AI-Unternehmen zu wehren.
  • Die Community unterstützte den Ansatz, weil er das absurde Scraping-Verhalten auf humorvolle bzw. satirische Weise „bestraft“.

2. Praktische Blockierwirkung und Beispiele

  • Es wurden reale Erfolgsbeispiele geteilt, etwa dass nach der Einführung ähnlicher Tools (wie Anubis) die täglichen Requests von 600.000 auf 100 zurückgingen.
  • Besonders wirksam scheint der Ansatz gegen einfache bzw. primitive Scraper zu sein, die ganze Git-Repositories unterschiedslos absaugen.

3. Sorge über mögliche Nebenwirkungen (Risiken)

  • SEO-Strafen: Es wurde die Möglichkeit angesprochen, dass legitime Suchmaschinen wie Google die Erwachsenen-Links erkennen und dadurch das Ranking sinkt.
  • Eingeschränkte Zugänglichkeit: Es besteht das Risiko, dass technische Blogs durch Filter für schädliche Websites in Corporate Networks blockiert werden.

4. Debatte über technische Alternativen

  • Cloudflare: Neben der Meinung, dass schon die kostenlose WAF ausreiche, gibt es auch Ablehnung gegenüber einem zentralisierten Dienst.
  • Eigene Abwehr: Einerseits wurde behauptet, dass einfacher JS-/Cookie-Schutz ausreiche; andererseits wurde eingewandt, dass dies gegen moderne Bots mit Headless Browser wirkungslos sei.

5. Kritik an der Unethik von AI-Unternehmen

  • Kostenabwälzung: Kritisiert wurde der strukturelle Widerspruch, dass die Daten von AI eingesammelt werden, während Einzelne die Serverlast und Traffic-Kosten tragen.
  • Verhalten auf DDoS-Niveau: Es wurde starke Ablehnung gegenüber der aktuellen Scraping-Praxis geäußert, bei der Server wahllos belastet werden, ohne Traffic-Zufluss als Gegenleistung.
 
aer0700 2025-12-20

SEO ist wirklich das größte Problem ...