KI-Unternehmen verursachen den Großteil des Web-Traffics
(pod.geraspora.de)- Eine Analyse der Lastspitzen und Verlangsamungen in der Web-Infrastruktur des diaspora-Projekts (Discourse, Wiki, Projektwebsite usw.) ergab, dass „der Großteil des Traffics von LLM-Crawling-Bots verursacht wird“
- In den vergangenen 60 Tagen gingen 11,3 Millionen Anfragen ein (durchschnittlich 2,19 req/s), davon mehr als 70 % von LLM-bezogenen Crawling-Bots
- GPTBot/1.2: 24,6 % (2,78 Millionen Anfragen)
- Amazonbot/0.1: 14,9 % (1,69 Millionen Anfragen)
- ClaudeBot/1.0: 4,3 % (490.000 Anfragen)
- meta-externalagent/1.1: 2,2 % (220.000 Anfragen)
- Auffällige Crawling-Muster
- Wiederholtes Crawling: dieselbe Seite wird im Abstand von 6 Stunden gecrawlt
- Ignorieren von robots.txt: Crawling-Beschränkungen werden überhaupt nicht eingehalten
- Ineffizientes Crawling: große Mengen bedeutungsloser Daten werden gecrawlt (z. B. die gesamte Bearbeitungshistorie des Wikis)
- Lastspitzen: zu bestimmten Zeitpunkten werden mehr als 10 req/s erzeugt, was Datenbank und MediaWiki-Server überlastet
- Abwehr ist ebenfalls nicht möglich
- IP-Wechsel: IPs werden fortlaufend geändert, um Rate Limits zu umgehen
- Änderung des UA-Strings: Der User Agent des Bots wird in beliebige Strings geändert, um Sperren zu umgehen
- Bestehende Suchmaschinen-Crawler wie Googlebot und Bingbot zeigen normale und effiziente Crawling-Muster.
- Googlebot: 0,14 % (16.600 Anfragen)
- Bingbot: 0,14 % (15.900 Anfragen)
- Minimierung von doppeltem Crawling, Einhaltung der robots.txt-Regeln
Ergebnisse und Auswirkungen
- Keine effektive Bereitstellung des Dienstes möglich: Durch LLM-Crawling-Bots verschlechtert sich die Nutzererfahrung für Menschen erheblich
- Serverüberlastung: Datenbankserver und MediaWiki erleben wiederholt Lastspitzen
- De-facto-DDoS des gesamten Internets: Diese Art des Crawlings verursacht weltweit unnötige Ressourcenverschwendung
Fazit
- Aufgrund der anomalen Traffic-Muster von LLM-Crawling-Bots steht die Infrastruktur dauerhaft unter Belastung, und Versuche, sich dagegen zu verteidigen, zeigen keine Wirkung
- Das Problem geht über persönliche Erschöpfung hinaus und hat schwerwiegende Auswirkungen auf das gesamte Internet-Ökosystem
1 Kommentare
Hacker-News-Kommentare
Es wird von der Erfahrung berichtet, dass der AI-Bot von Meta eine Website übermäßig gecrawlt und dadurch den Server zum Absturz gebracht hat. Es wird erklärt, wie man dies mit Cloudflare blockieren kann
Es werden Daten zum Bot-Traffic geteilt, der auf verschiedenen Plattformen auftritt
robots.txtignorieren oder auch bei Verzögerungen kein Backoff durchführenEs wird darüber diskutiert, wie man Bots blockieren kann
Der Fall wird erwähnt, dass das CGTalk-Forum wegen Ressourcenproblemen geschlossen wurde
Es wird behauptet, dass AI-Unternehmen intelligenter scrapen sollten
Es wird Neugier auf Poisoning-Angriffe geäußert
Es wird von der Erfahrung berichtet, dass die Kosten einer auf GCP bereitgestellten App wegen Bot-Traffic gestiegen sind
Es werden Erfahrungen mit dem Crawling großer Foren geteilt
Es wird behauptet, dass das Ignorieren von
robots.txtund ein Verhalten von Bots, das dem Dienst schadet, als illegal angesehen werden könnte