- Eine Software zum Abfangen von Webcrawlern, insbesondere solcher, die Daten für Large Language Models (LLMs) scrapen.
- Erzeugt eine unendliche Sequenz von Seiten, aus der Crawler nicht mehr herausfinden.
- Fügt absichtliche Verzögerungen hinzu, damit Crawler den Server nicht überlasten, und kann mit Markov-Babble Crawler dazu verleiten, Daten einzusammeln.
- Diese Software wurde für bösartige Zwecke entwickelt; bei der Nutzung ist Vorsicht geboten.
- Warnung
- LLM-Crawler sind äußerst hartnäckig, und bei Verwendung dieser Software werden sie weiterhin mit den von ihnen gewünschten Daten versorgt.
- Es gibt keine Möglichkeit, Crawler für Suchmaschinen von Crawlern zum Trainieren von AI-Modellen zu unterscheiden; bei Verwendung dieser Software ist es sehr wahrscheinlich, dass die Website aus den Suchergebnissen verschwindet.
- Verwendung
- Es wird empfohlen, den tarpit hinter Nginx oder Apache zu verstecken.
- Der tarpit wird über HTTP-Header konfiguriert; als Beispiel wird ein nginx-Konfigurations-Snippet bereitgestellt.
- Installation
- Kann mit Docker oder manuell installiert werden.
- Erfordert Lua, SQLite, OpenSSL und mehrere Lua-Module.
- Nach der Installation kann durch Anpassen der Datei
config.yml gestartet werden.
- Bootstrap für Markov Babbler
- Die Markov-Funktion benötigt einen trainierten Korpus und kann mit verschiedenen Textquellen trainiert werden.
- Trainingsdaten können an einen POST-Endpunkt gesendet und hinzugefügt werden.
- Statistiken
- Bietet mehrere Statistik-Endpunkte im JSON-Format, über die sich IP-Adressen und User-Agent-Strings prüfen lassen.
- Defensive Nutzung von Nepenthes
- Verhindert über Links auf der Website zum Nepenthes-Standort, dass Crawler auf echte Inhalte zugreifen.
- Die gesammelte Liste von IP-Adressen kann verwendet werden, um Crawler zu blockieren.
- Offensive Nutzung von Nepenthes
- Statt Crawler zu blockieren, können möglichst viele Daten bereitgestellt werden, um AI-Modelle zu stören.
- Konfigurationsdatei
- Alle möglichen Anweisungen in der Datei
config.yaml werden erläutert.
- Mit verschiedenen Einstellungen lässt sich das Verhalten von Nepenthes anpassen.
1 Kommentare
Hacker-News-Kommentare
Es gibt Anmerkungen dazu, wie sich die reflektierende DDoS-Schwachstelle des ChatGPT-Crawlers testen lässt. Diese Schwachstelle kann dazu führen, dass eine einzelne HTTP-Anfrage 5000 HTTP-Anfragen auslöst.
Jemand teilt Erfahrungen aus der Zeit, als er ein Bot-Motel betrieben hat, und erwähnt Fälle, in denen Crawler tagelang festsaßen.
Eine gemeinnützige Website musste wegen des aggressiven Crawlings eines Amazon-Bots vorübergehend geschlossen werden.
robots.txtaufgenommen.Es gibt die Ansicht, dass Tarpits das Crawling verlangsamen können, aber wenig Wirkung haben werden, solange nicht viele Websites sie einsetzen.
Es gibt die Meinung, dass zufällige, auf Markov-Ketten basierende Textgeneratoren für LLM-Trainings-Crawler kein großes Problem darstellen würden.
Es wird angemerkt, dass derzeit ein 502 Bad Gateway-Fehler auftritt und unklar ist, ob die Seite als AI-Webcrawler klassifiziert wurde oder einfach überlastet ist.
Es gibt die Meinung, dass dieses Konzept leicht zu filtern ist, solange es sich nicht verbreitet.
Im Internet gibt es bereits "unendliche" Websites, und Crawler legen pro Domain fest, wie viele Seiten sie crawlen.
Als einfacher Ansatz wird erwogen, auf jede fehlerhafte HTTP-Anfrage mit 100 fehlerhaften HTTP-Anfragen zu reagieren.
Es gibt die Meinung, dass Websites, auf denen diese Software eingesetzt wird, wahrscheinlich aus allen Suchergebnissen verschwinden würden.