Nepenthes - Eine Falle für AI-Webcrawler

(zadzmo.org)

5 Punkte von GN⁺ 2025-01-17 | 1 Kommentare | Auf WhatsApp teilen

Eine Software zum Abfangen von Webcrawlern, insbesondere solcher, die Daten für Large Language Models (LLMs) scrapen.
- Erzeugt eine unendliche Sequenz von Seiten, aus der Crawler nicht mehr herausfinden.
- Fügt absichtliche Verzögerungen hinzu, damit Crawler den Server nicht überlasten, und kann mit Markov-Babble Crawler dazu verleiten, Daten einzusammeln.
- Diese Software wurde für bösartige Zwecke entwickelt; bei der Nutzung ist Vorsicht geboten.
Warnung
- LLM-Crawler sind äußerst hartnäckig, und bei Verwendung dieser Software werden sie weiterhin mit den von ihnen gewünschten Daten versorgt.
- Es gibt keine Möglichkeit, Crawler für Suchmaschinen von Crawlern zum Trainieren von AI-Modellen zu unterscheiden; bei Verwendung dieser Software ist es sehr wahrscheinlich, dass die Website aus den Suchergebnissen verschwindet.
Verwendung
- Es wird empfohlen, den tarpit hinter Nginx oder Apache zu verstecken.
- Der tarpit wird über HTTP-Header konfiguriert; als Beispiel wird ein nginx-Konfigurations-Snippet bereitgestellt.
Installation
- Kann mit Docker oder manuell installiert werden.
- Erfordert Lua, SQLite, OpenSSL und mehrere Lua-Module.
- Nach der Installation kann durch Anpassen der Datei config.yml gestartet werden.
Bootstrap für Markov Babbler
- Die Markov-Funktion benötigt einen trainierten Korpus und kann mit verschiedenen Textquellen trainiert werden.
- Trainingsdaten können an einen POST-Endpunkt gesendet und hinzugefügt werden.
Statistiken
- Bietet mehrere Statistik-Endpunkte im JSON-Format, über die sich IP-Adressen und User-Agent-Strings prüfen lassen.
Defensive Nutzung von Nepenthes
- Verhindert über Links auf der Website zum Nepenthes-Standort, dass Crawler auf echte Inhalte zugreifen.
- Die gesammelte Liste von IP-Adressen kann verwendet werden, um Crawler zu blockieren.
Offensive Nutzung von Nepenthes
- Statt Crawler zu blockieren, können möglichst viele Daten bereitgestellt werden, um AI-Modelle zu stören.
Konfigurationsdatei
- Alle möglichen Anweisungen in der Datei config.yaml werden erläutert.
- Mit verschiedenen Einstellungen lässt sich das Verhalten von Nepenthes anpassen.

1 Kommentare

GN⁺ 2025-01-17

Hacker-News-Kommentare

Es gibt Anmerkungen dazu, wie sich die reflektierende DDoS-Schwachstelle des ChatGPT-Crawlers testen lässt. Diese Schwachstelle kann dazu führen, dass eine einzelne HTTP-Anfrage 5000 HTTP-Anfragen auslöst.
- OpenAI und Microsoft haben diese Schwachstelle ignoriert, und der Meldeprozess war sehr schwierig.
- Aus rechtlichen Gründen wird davon abgeraten, diese Schwachstelle auszunutzen.
Jemand teilt Erfahrungen aus der Zeit, als er ein Bot-Motel betrieben hat, und erwähnt Fälle, in denen Crawler tagelang festsaßen.
- Sicherheit ist oft nur ein nachträglicher Gedanke, und der Kampf gegen Crawler ist ein endloses Wettrennen.
Eine gemeinnützige Website musste wegen des aggressiven Crawlings eines Amazon-Bots vorübergehend geschlossen werden.
- Siteground stellte die Website wieder her, danach wurde der Amazon-Bot in die robots.txt aufgenommen.
- Es wird Unmut über die aktuelle Situation geäußert und die Frage gestellt, ob Tarpits oder Gesetze eine Lösung sein könnten.
Es gibt die Ansicht, dass Tarpits das Crawling verlangsamen können, aber wenig Wirkung haben werden, solange nicht viele Websites sie einsetzen.
- Es ist schwierig, bösartige Bots zu identifizieren, und es besteht das Risiko, aus den Suchergebnissen ausgeschlossen zu werden.
Es gibt die Meinung, dass zufällige, auf Markov-Ketten basierende Textgeneratoren für LLM-Trainings-Crawler kein großes Problem darstellen würden.
- Effektiver als zufällige Verunreinigung könnte sich wiederholender unsinniger Text sein.
Es wird angemerkt, dass derzeit ein 502 Bad Gateway-Fehler auftritt und unklar ist, ob die Seite als AI-Webcrawler klassifiziert wurde oder einfach überlastet ist.
Es gibt die Meinung, dass dieses Konzept leicht zu filtern ist, solange es sich nicht verbreitet.
- Große Unternehmen könnten Teams aufstellen, um solche Software zu blockieren.
Im Internet gibt es bereits "unendliche" Websites, und Crawler legen pro Domain fest, wie viele Seiten sie crawlen.
- Beliebte Websites werden stark gecrawlt, unbekannte Websites dagegen deutlich weniger.
Als einfacher Ansatz wird erwogen, auf jede fehlerhafte HTTP-Anfrage mit 100 fehlerhaften HTTP-Anfragen zu reagieren.
Es gibt die Meinung, dass Websites, auf denen diese Software eingesetzt wird, wahrscheinlich aus allen Suchergebnissen verschwinden würden.
- Das könnte ein Bug sein oder ein Feature.

Nepenthes - Eine Falle für AI-Webcrawler

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare