5 Punkte von GN⁺ 2025-01-17 | 1 Kommentare | Auf WhatsApp teilen
  • Eine Software zum Abfangen von Webcrawlern, insbesondere solcher, die Daten für Large Language Models (LLMs) scrapen.
    • Erzeugt eine unendliche Sequenz von Seiten, aus der Crawler nicht mehr herausfinden.
    • Fügt absichtliche Verzögerungen hinzu, damit Crawler den Server nicht überlasten, und kann mit Markov-Babble Crawler dazu verleiten, Daten einzusammeln.
    • Diese Software wurde für bösartige Zwecke entwickelt; bei der Nutzung ist Vorsicht geboten.
  • Warnung
    • LLM-Crawler sind äußerst hartnäckig, und bei Verwendung dieser Software werden sie weiterhin mit den von ihnen gewünschten Daten versorgt.
    • Es gibt keine Möglichkeit, Crawler für Suchmaschinen von Crawlern zum Trainieren von AI-Modellen zu unterscheiden; bei Verwendung dieser Software ist es sehr wahrscheinlich, dass die Website aus den Suchergebnissen verschwindet.
  • Verwendung
    • Es wird empfohlen, den tarpit hinter Nginx oder Apache zu verstecken.
    • Der tarpit wird über HTTP-Header konfiguriert; als Beispiel wird ein nginx-Konfigurations-Snippet bereitgestellt.
  • Installation
    • Kann mit Docker oder manuell installiert werden.
    • Erfordert Lua, SQLite, OpenSSL und mehrere Lua-Module.
    • Nach der Installation kann durch Anpassen der Datei config.yml gestartet werden.
  • Bootstrap für Markov Babbler
    • Die Markov-Funktion benötigt einen trainierten Korpus und kann mit verschiedenen Textquellen trainiert werden.
    • Trainingsdaten können an einen POST-Endpunkt gesendet und hinzugefügt werden.
  • Statistiken
    • Bietet mehrere Statistik-Endpunkte im JSON-Format, über die sich IP-Adressen und User-Agent-Strings prüfen lassen.
  • Defensive Nutzung von Nepenthes
    • Verhindert über Links auf der Website zum Nepenthes-Standort, dass Crawler auf echte Inhalte zugreifen.
    • Die gesammelte Liste von IP-Adressen kann verwendet werden, um Crawler zu blockieren.
  • Offensive Nutzung von Nepenthes
    • Statt Crawler zu blockieren, können möglichst viele Daten bereitgestellt werden, um AI-Modelle zu stören.
  • Konfigurationsdatei
    • Alle möglichen Anweisungen in der Datei config.yaml werden erläutert.
    • Mit verschiedenen Einstellungen lässt sich das Verhalten von Nepenthes anpassen.

1 Kommentare

 
GN⁺ 2025-01-17
Hacker-News-Kommentare
  • Es gibt Anmerkungen dazu, wie sich die reflektierende DDoS-Schwachstelle des ChatGPT-Crawlers testen lässt. Diese Schwachstelle kann dazu führen, dass eine einzelne HTTP-Anfrage 5000 HTTP-Anfragen auslöst.

    • OpenAI und Microsoft haben diese Schwachstelle ignoriert, und der Meldeprozess war sehr schwierig.
    • Aus rechtlichen Gründen wird davon abgeraten, diese Schwachstelle auszunutzen.
  • Jemand teilt Erfahrungen aus der Zeit, als er ein Bot-Motel betrieben hat, und erwähnt Fälle, in denen Crawler tagelang festsaßen.

    • Sicherheit ist oft nur ein nachträglicher Gedanke, und der Kampf gegen Crawler ist ein endloses Wettrennen.
  • Eine gemeinnützige Website musste wegen des aggressiven Crawlings eines Amazon-Bots vorübergehend geschlossen werden.

    • Siteground stellte die Website wieder her, danach wurde der Amazon-Bot in die robots.txt aufgenommen.
    • Es wird Unmut über die aktuelle Situation geäußert und die Frage gestellt, ob Tarpits oder Gesetze eine Lösung sein könnten.
  • Es gibt die Ansicht, dass Tarpits das Crawling verlangsamen können, aber wenig Wirkung haben werden, solange nicht viele Websites sie einsetzen.

    • Es ist schwierig, bösartige Bots zu identifizieren, und es besteht das Risiko, aus den Suchergebnissen ausgeschlossen zu werden.
  • Es gibt die Meinung, dass zufällige, auf Markov-Ketten basierende Textgeneratoren für LLM-Trainings-Crawler kein großes Problem darstellen würden.

    • Effektiver als zufällige Verunreinigung könnte sich wiederholender unsinniger Text sein.
  • Es wird angemerkt, dass derzeit ein 502 Bad Gateway-Fehler auftritt und unklar ist, ob die Seite als AI-Webcrawler klassifiziert wurde oder einfach überlastet ist.

  • Es gibt die Meinung, dass dieses Konzept leicht zu filtern ist, solange es sich nicht verbreitet.

    • Große Unternehmen könnten Teams aufstellen, um solche Software zu blockieren.
  • Im Internet gibt es bereits "unendliche" Websites, und Crawler legen pro Domain fest, wie viele Seiten sie crawlen.

    • Beliebte Websites werden stark gecrawlt, unbekannte Websites dagegen deutlich weniger.
  • Als einfacher Ansatz wird erwogen, auf jede fehlerhafte HTTP-Anfrage mit 100 fehlerhaften HTTP-Anfragen zu reagieren.

  • Es gibt die Meinung, dass Websites, auf denen diese Software eingesetzt wird, wahrscheinlich aus allen Suchergebnissen verschwinden würden.

    • Das könnte ein Bug sein oder ein Feature.