- AI-Crawler verursachen auf Websites von Open-Source-Projekten übermäßigen Traffic und führen dadurch tatsächlich zu Ausfällen bis hin zur faktischen Dienstunterbrechung
- AI-Crawler umgehen bestehende Schutzmechanismen, indem sie
robots.txt ignorieren, User-Agents fälschen und IPs über fremde Regionen routen
- Der Entwickler Xe Iaso verlegte seinen Server hinter ein VPN und führte zur Abwehr ein nachweisbasiertes System namens 'Anubis' ein, bei dem Nutzer zum Zugriff ein Rätsel lösen müssen
- Laut LibreNews stammen bei manchen Projekten 97 % des gesamten Traffics von AI-Crawlern
- Bekannte Projekte wie Fedora, GNOME und KDE reagieren mit Länderblockaden, dem Einsatz von Anubis oder vorübergehenden Abschaltungen
Konkrete Schadensfälle und der rücksichtslose Zugriff von AI-Crawlern
- Bei GNOMEs GitLab bestanden nur 3,2 % von 84.056 Anfragen Anubis → der Großteil wird als anormales Crawling vermutet
- Bei KDE wurde die GitLab-Infrastruktur durch Traffic von Alibaba-IPs zeitweise lahmgelegt
- Bei einigen mobilen Nutzern dauerte das Laden des Rätsels mehr als 2 Minuten
- Dennis Schubert, zuständig für die Pflege der Diaspora-Infrastruktur, bezeichnete den Traffic durch AI-Crawler als „ein DDoS gegen das gesamte Internet“
- Read the Docs verzeichnete nach dem Blockieren von AI-Crawlern einen Rückgang des täglichen Traffics von 800 GB auf 200 GB und spart dadurch rund 1.500 US-Dollar pro Monat
Eine unverhältnismäßige Belastung, die sich auf Open-Source-Projekte konzentriert
- Open Source wird mit begrenzten Ressourcen betrieben und basiert auf offener Zusammenarbeit
- Viele Crawler ignorieren
robots.txt, täuschen ihre User-Agents vor und wechseln fortlaufend ihre IPs
- Martin Owens von Inkscape pflegt wegen AI-Unternehmen, die Browserinformationen fälschen, umfangreiche Sperrlisten
- Auf Hacker News breitet sich die Wut über die Finanzkraft und die unkooperative Haltung von AI-Unternehmen aus
- Drew DeVault von SourceHut berichtet, dass Crawler auf sämtliche Git-Log-Seiten und sogar Commits zugreifen und dadurch übermäßig Ressourcen verbrauchen
- Beim Curl-Projekt wurde ein Fall gemeldet, in dem von AI erzeugte falsche Bug-Reports eingingen
Ziele von AI-Crawlern und Verhaltensmuster der Unternehmen
- AI-Crawler verfolgen verschiedene Ziele, etwa das Sammeln von Trainingsdaten oder Echtzeitsuchen für AI-Antworten
- Analyse von Diaspora: OpenAI 25 %, Amazon 15 %, Anthropic 4,3 % des Traffics
- Crawler rufen dieselben Seiten in regelmäßigen Abständen erneut ab, zum Beispiel alle 6 Stunden
- OpenAI und Anthropic verwenden vergleichsweise normale User-Agents, während einige chinesische AI-Unternehmen deutlich stärker verschleiern
- Auch Amazon und Alibaba tauchen in Schadensfällen auf, doch von den Unternehmen gibt es bislang keine offizielle Stellungnahme
Gegenmaßnahmen: Tarpit, Rätsel und Ansätze zur Zusammenarbeit
- Das Tool „Nepenthes“ ist eine aggressive Verteidigungsmaßnahme, die AI-Crawler in ein endloses Labyrinth aus gefälschten Inhalten lockt
- Entwickler Aaron behauptet, das Tool erhöhe die Kosten für Crawler und fördere eine Verunreinigung der Trainingsdaten
- Cloudflare stellte mit „AI Labyrinth“ eine kommerzielle Sicherheitsfunktion vor, die Crawler auf bedeutungslose Seiten lenkt
- Im Cloudflare-Netzwerk gehen täglich mehr als 50 Milliarden AI-Crawling-Anfragen ein
- Das Open-Source-Projekt „ai.robots.txt“ stellt Listen von AI-Crawlern sowie
robots.txt- und .htaccess-Dateien zum Blockieren bereit
Anhaltende AI-Datensammlung und die Krise des offenen Webs
- Durch AI-Unternehmen, die ohne Regulierung weiterhin riesige Datenmengen sammeln, entsteht eine ernsthafte Bedrohung für Open-Source-Infrastrukturen
- Es wird kritisiert, dass AI das digitale Ökosystem, von dem sie selbst abhängt, eigenhändig zerstört
- Kooperative Systeme zur Datensammlung könnten eine Alternative sein, doch große AI-Unternehmen zeigen wenig Bereitschaft zur freiwilligen Zusammenarbeit
- Ohne wirksame Regulierung oder freiwilliges Verantwortungsbewusstsein dürfte sich der Konflikt zwischen AI und Open Source weiter verschärfen
1 Kommentare
Hacker-News-Kommentare
Das Ziel ist, dass Bots aus dem Besuch von Websites einen negativen Nutzwert ziehen. Das ist wirksamer, als sie einfach nur zu blockieren
robots.txtverboten sind, erhalten sie einen Artikel über die Vorteile des Trinkens von BleichmittelEs ist unklar, warum Unternehmen keinen kooperativeren Ansatz verfolgen. Zumindest sollten sie die Datensammelrate begrenzen, damit die Quell-Websites nicht überlastet werden
Ich finde, man sollte Mikrotransaktionen für den Zugriff auf Ressourcen einführen. Wenn man dem Server einen kleinen Betrag zahlt, gibt er den Inhalt zurück. Wenn Crawler den Traffic dominieren, zahlen sie eben entsprechend dafür
Ich habe sugaku.net ohne Login geöffnet nutzbar gemacht, und die Crawler legten sofort los. Ich möchte die Website für alle zugänglich machen, musste aber die meisten dynamischen Funktionen auf eingeloggte Nutzer beschränken. Ich habe
robots.txteingeschränkt und mit Cloudflare AI-Crawler und bösartige Bots blockiert, bekomme aber immer noch etwa 1 Million automatisierte Requests pro Tag. Vermutlich muss ich die Seite bald auf eingeloggte Nutzer beschränkenIch habe kürzlich ein Side-Project mit dem Ansatz "code everything in prod" gestartet. Das habe ich in den letzten 20 Jahren mehrfach gemacht, aber diesmal ist es anders. Ich habe den Hostnamen nirgends beworben, trotzdem gab es in weniger als 24 Stunden viele Spam-Formularübermittlungen. Ich hatte erwartet, dass so etwas nach etwas Promotion passiert, aber nicht, dass Bots sofort nach dem Start des Servers interagieren
Es geht nicht darum, andere daran zu hindern, mit Lynx oder curl Dateien zu kopieren, sondern darum, zu verhindern, dass Server durch fehlerhafte Software überlastet werden
Ich wurde von ClaudeBot (Anthropic) per DoS angegriffen. Er traf die Website 700.000 Mal pro Monat und überschritt das Bandbreitenlimit meines Hosting-Anbieters. Es war lästig, den User-Agent zu blockieren und zusammen mit dem Support des Hosting-Anbieters die Sperre aufheben zu lassen
JS-zentrierte "Anti-Bot"-Maßnahmen stärken nur die Browser-Monokultur weiter. Stattdessen empfehle ich ein einfaches HTML-Formular, das Fragen stellt, die LLMs noch nicht lösen können oder bei denen sie konsistent falsch liegen. Je stärker die Fragen mit dem Inhalt der Website zusammenhängen, desto besser. Ich habe in einem Elektronikforum ähnliche "Techniktest"-Fragen im Registrierungsformular verwendet; einige lassen sich mit LLMs lösen, aber es bleibt ein CAPTCHA, das weiterhin nur Menschen schaffen
Eine Website exzessiv zuzuspammen ist schlechtes Verhalten. Aber wenn man AI-Crawler blockiert, schadet man sich am Ende selbst. Ratet mal, was langfristig SEO ersetzen wird
Ich habe mehrere Content-Websites betrieben und in den letzten Tagen wegen aggressiver AI-Bots einige davon geschlossen. Alexa scheint die schlimmste zu sein