Open-Source-Entwickler blockieren ganze Länder, weil AI-Crawler massiven Traffic verursachen

(arstechnica.com)

9 Punkte von GN⁺ 2025-03-26 | 1 Kommentare | Auf WhatsApp teilen

AI-Crawler verursachen auf Websites von Open-Source-Projekten übermäßigen Traffic und führen dadurch tatsächlich zu Ausfällen bis hin zur faktischen Dienstunterbrechung
AI-Crawler umgehen bestehende Schutzmechanismen, indem sie robots.txt ignorieren, User-Agents fälschen und IPs über fremde Regionen routen
Der Entwickler Xe Iaso verlegte seinen Server hinter ein VPN und führte zur Abwehr ein nachweisbasiertes System namens 'Anubis' ein, bei dem Nutzer zum Zugriff ein Rätsel lösen müssen
Laut LibreNews stammen bei manchen Projekten 97 % des gesamten Traffics von AI-Crawlern
Bekannte Projekte wie Fedora, GNOME und KDE reagieren mit Länderblockaden, dem Einsatz von Anubis oder vorübergehenden Abschaltungen

Konkrete Schadensfälle und der rücksichtslose Zugriff von AI-Crawlern

Bei GNOMEs GitLab bestanden nur 3,2 % von 84.056 Anfragen Anubis → der Großteil wird als anormales Crawling vermutet
Bei KDE wurde die GitLab-Infrastruktur durch Traffic von Alibaba-IPs zeitweise lahmgelegt
Bei einigen mobilen Nutzern dauerte das Laden des Rätsels mehr als 2 Minuten
Dennis Schubert, zuständig für die Pflege der Diaspora-Infrastruktur, bezeichnete den Traffic durch AI-Crawler als „ein DDoS gegen das gesamte Internet“
Read the Docs verzeichnete nach dem Blockieren von AI-Crawlern einen Rückgang des täglichen Traffics von 800 GB auf 200 GB und spart dadurch rund 1.500 US-Dollar pro Monat

Eine unverhältnismäßige Belastung, die sich auf Open-Source-Projekte konzentriert

Open Source wird mit begrenzten Ressourcen betrieben und basiert auf offener Zusammenarbeit
Viele Crawler ignorieren robots.txt, täuschen ihre User-Agents vor und wechseln fortlaufend ihre IPs
Martin Owens von Inkscape pflegt wegen AI-Unternehmen, die Browserinformationen fälschen, umfangreiche Sperrlisten
Auf Hacker News breitet sich die Wut über die Finanzkraft und die unkooperative Haltung von AI-Unternehmen aus
Drew DeVault von SourceHut berichtet, dass Crawler auf sämtliche Git-Log-Seiten und sogar Commits zugreifen und dadurch übermäßig Ressourcen verbrauchen
Beim Curl-Projekt wurde ein Fall gemeldet, in dem von AI erzeugte falsche Bug-Reports eingingen

Ziele von AI-Crawlern und Verhaltensmuster der Unternehmen

AI-Crawler verfolgen verschiedene Ziele, etwa das Sammeln von Trainingsdaten oder Echtzeitsuchen für AI-Antworten
Analyse von Diaspora: OpenAI 25 %, Amazon 15 %, Anthropic 4,3 % des Traffics
Crawler rufen dieselben Seiten in regelmäßigen Abständen erneut ab, zum Beispiel alle 6 Stunden
OpenAI und Anthropic verwenden vergleichsweise normale User-Agents, während einige chinesische AI-Unternehmen deutlich stärker verschleiern
Auch Amazon und Alibaba tauchen in Schadensfällen auf, doch von den Unternehmen gibt es bislang keine offizielle Stellungnahme

Gegenmaßnahmen: Tarpit, Rätsel und Ansätze zur Zusammenarbeit

Das Tool „Nepenthes“ ist eine aggressive Verteidigungsmaßnahme, die AI-Crawler in ein endloses Labyrinth aus gefälschten Inhalten lockt
Entwickler Aaron behauptet, das Tool erhöhe die Kosten für Crawler und fördere eine Verunreinigung der Trainingsdaten
Cloudflare stellte mit „AI Labyrinth“ eine kommerzielle Sicherheitsfunktion vor, die Crawler auf bedeutungslose Seiten lenkt
Im Cloudflare-Netzwerk gehen täglich mehr als 50 Milliarden AI-Crawling-Anfragen ein
Das Open-Source-Projekt „ai.robots.txt“ stellt Listen von AI-Crawlern sowie robots.txt- und .htaccess-Dateien zum Blockieren bereit

Anhaltende AI-Datensammlung und die Krise des offenen Webs

Durch AI-Unternehmen, die ohne Regulierung weiterhin riesige Datenmengen sammeln, entsteht eine ernsthafte Bedrohung für Open-Source-Infrastrukturen
Es wird kritisiert, dass AI das digitale Ökosystem, von dem sie selbst abhängt, eigenhändig zerstört
Kooperative Systeme zur Datensammlung könnten eine Alternative sein, doch große AI-Unternehmen zeigen wenig Bereitschaft zur freiwilligen Zusammenarbeit
Ohne wirksame Regulierung oder freiwilliges Verantwortungsbewusstsein dürfte sich der Konflikt zwischen AI und Open Source weiter verschärfen

1 Kommentare

GN⁺ 2025-03-26

Hacker-News-Kommentare

Das Ziel ist, dass Bots aus dem Besuch von Websites einen negativen Nutzwert ziehen. Das ist wirksamer, als sie einfach nur zu blockieren
- Wenn sie Seiten anfordern, die in robots.txt verboten sind, erhalten sie einen Artikel über die Vorteile des Trinkens von Bleichmittel
- Bei verdächtigen User-Agents kann man ihnen ruhig instabilen Code zum Abgreifen geben
- Bei einer nichtmenschlichen Request-Rate erhalten sie einen generierten Artikel darüber, dass Masern die Leistung im Bett positiv beeinflussen
- Nepenthes ist gut, aber Word Salad lässt sich leicht erkennen. Man braucht die Fähigkeit, sprachlich plausiblen, aber faktisch wertlosen Text zu erzeugen
Es ist unklar, warum Unternehmen keinen kooperativeren Ansatz verfolgen. Zumindest sollten sie die Datensammelrate begrenzen, damit die Quell-Websites nicht überlastet werden
Ich finde, man sollte Mikrotransaktionen für den Zugriff auf Ressourcen einführen. Wenn man dem Server einen kleinen Betrag zahlt, gibt er den Inhalt zurück. Wenn Crawler den Traffic dominieren, zahlen sie eben entsprechend dafür
Ich habe sugaku.net ohne Login geöffnet nutzbar gemacht, und die Crawler legten sofort los. Ich möchte die Website für alle zugänglich machen, musste aber die meisten dynamischen Funktionen auf eingeloggte Nutzer beschränken. Ich habe robots.txt eingeschränkt und mit Cloudflare AI-Crawler und bösartige Bots blockiert, bekomme aber immer noch etwa 1 Million automatisierte Requests pro Tag. Vermutlich muss ich die Seite bald auf eingeloggte Nutzer beschränken
Ich habe kürzlich ein Side-Project mit dem Ansatz "code everything in prod" gestartet. Das habe ich in den letzten 20 Jahren mehrfach gemacht, aber diesmal ist es anders. Ich habe den Hostnamen nirgends beworben, trotzdem gab es in weniger als 24 Stunden viele Spam-Formularübermittlungen. Ich hatte erwartet, dass so etwas nach etwas Promotion passiert, aber nicht, dass Bots sofort nach dem Start des Servers interagieren
Es geht nicht darum, andere daran zu hindern, mit Lynx oder curl Dateien zu kopieren, sondern darum, zu verhindern, dass Server durch fehlerhafte Software überlastet werden
- Ich hatte auf dem HTTP-Server vorübergehend Port Knocking eingerichtet, habe es aber wegen eines Kernel Panic wieder entfernt. Wenn ich das Problem später behebe, kann ich es wieder aktivieren
- LLM-Scraper verhalten sich derzeit noch nicht "smart". Wenn sie das in Zukunft tun, kann man das ausnutzen
- Es sollte Möglichkeiten geben, Scraper zu verwirren. Zum Beispiel könnte man eine Fehlermeldung anzeigen, wenn ein deklarierter User-Agent etwas ankündigt, das er tatsächlich nicht ausführt. Nutzer mit Lynx wären davon nicht betroffen und hätten weiterhin Zugriff
Ich wurde von ClaudeBot (Anthropic) per DoS angegriffen. Er traf die Website 700.000 Mal pro Monat und überschritt das Bandbreitenlimit meines Hosting-Anbieters. Es war lästig, den User-Agent zu blockieren und zusammen mit dem Support des Hosting-Anbieters die Sperre aufheben zu lassen
- Der ChatGPT-Bot verursachte auf dieser Website den zweithöchsten Traffic, aber nicht genug, um Probleme zu machen
JS-zentrierte "Anti-Bot"-Maßnahmen stärken nur die Browser-Monokultur weiter. Stattdessen empfehle ich ein einfaches HTML-Formular, das Fragen stellt, die LLMs noch nicht lösen können oder bei denen sie konsistent falsch liegen. Je stärker die Fragen mit dem Inhalt der Website zusammenhängen, desto besser. Ich habe in einem Elektronikforum ähnliche "Techniktest"-Fragen im Registrierungsformular verwendet; einige lassen sich mit LLMs lösen, aber es bleibt ein CAPTCHA, das weiterhin nur Menschen schaffen
Eine Website exzessiv zuzuspammen ist schlechtes Verhalten. Aber wenn man AI-Crawler blockiert, schadet man sich am Ende selbst. Ratet mal, was langfristig SEO ersetzen wird
Ich habe mehrere Content-Websites betrieben und in den letzten Tagen wegen aggressiver AI-Bots einige davon geschlossen. Alexa scheint die schlimmste zu sein
- Sie wurden vor 20 Jahren erstellt und seitdem aktualisiert. Sie hatten Traffic, aber im letzten Jahr ist das auf weniger als 1.000 legitime Besucher gesunken. Jetzt muss ich wegen aggressiver Bots, die die Robot-Datei ignorieren, Server-Down-E-Mails bearbeiten

Open-Source-Entwickler blockieren ganze Länder, weil AI-Crawler massiven Traffic verursachen

Konkrete Schadensfälle und der rücksichtslose Zugriff von AI-Crawlern

Eine unverhältnismäßige Belastung, die sich auf Open-Source-Projekte konzentriert

Ziele von AI-Crawlern und Verhaltensmuster der Unternehmen

Gegenmaßnahmen: Tarpit, Rätsel und Ansätze zur Zusammenarbeit

Anhaltende AI-Datensammlung und die Krise des offenen Webs

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare