KI-Unternehmen verursachen den Großteil des Web-Traffics

(pod.geraspora.de)

14 Punkte von GN⁺ 2024-12-31 | 1 Kommentare | Auf WhatsApp teilen

Eine Analyse der Lastspitzen und Verlangsamungen in der Web-Infrastruktur des diaspora-Projekts (Discourse, Wiki, Projektwebsite usw.) ergab, dass „der Großteil des Traffics von LLM-Crawling-Bots verursacht wird“
In den vergangenen 60 Tagen gingen 11,3 Millionen Anfragen ein (durchschnittlich 2,19 req/s), davon mehr als 70 % von LLM-bezogenen Crawling-Bots
- GPTBot/1.2: 24,6 % (2,78 Millionen Anfragen)
- Amazonbot/0.1: 14,9 % (1,69 Millionen Anfragen)
- ClaudeBot/1.0: 4,3 % (490.000 Anfragen)
- meta-externalagent/1.1: 2,2 % (220.000 Anfragen)
Auffällige Crawling-Muster
- Wiederholtes Crawling: dieselbe Seite wird im Abstand von 6 Stunden gecrawlt
- Ignorieren von robots.txt: Crawling-Beschränkungen werden überhaupt nicht eingehalten
- Ineffizientes Crawling: große Mengen bedeutungsloser Daten werden gecrawlt (z. B. die gesamte Bearbeitungshistorie des Wikis)
- Lastspitzen: zu bestimmten Zeitpunkten werden mehr als 10 req/s erzeugt, was Datenbank und MediaWiki-Server überlastet
Abwehr ist ebenfalls nicht möglich
- IP-Wechsel: IPs werden fortlaufend geändert, um Rate Limits zu umgehen
- Änderung des UA-Strings: Der User Agent des Bots wird in beliebige Strings geändert, um Sperren zu umgehen
Bestehende Suchmaschinen-Crawler wie Googlebot und Bingbot zeigen normale und effiziente Crawling-Muster.
- Googlebot: 0,14 % (16.600 Anfragen)
- Bingbot: 0,14 % (15.900 Anfragen)
Minimierung von doppeltem Crawling, Einhaltung der robots.txt-Regeln

Ergebnisse und Auswirkungen

Keine effektive Bereitstellung des Dienstes möglich: Durch LLM-Crawling-Bots verschlechtert sich die Nutzererfahrung für Menschen erheblich
Serverüberlastung: Datenbankserver und MediaWiki erleben wiederholt Lastspitzen
De-facto-DDoS des gesamten Internets: Diese Art des Crawlings verursacht weltweit unnötige Ressourcenverschwendung

Fazit

Aufgrund der anomalen Traffic-Muster von LLM-Crawling-Bots steht die Infrastruktur dauerhaft unter Belastung, und Versuche, sich dagegen zu verteidigen, zeigen keine Wirkung
Das Problem geht über persönliche Erschöpfung hinaus und hat schwerwiegende Auswirkungen auf das gesamte Internet-Ökosystem

1 Kommentare

GN⁺ 2024-12-31

Hacker-News-Kommentare

Es wird von der Erfahrung berichtet, dass der AI-Bot von Meta eine Website übermäßig gecrawlt und dadurch den Server zum Absturz gebracht hat. Es wird erklärt, wie man dies mit Cloudflare blockieren kann
- Es wird erwähnt, dass die Funktion von Cloudflare zum Blockieren von AI-Bots nützlich ist
- Es wird behauptet, dass der Zugriff von AI-Bots auf Inhalte keinen Wert hat
Es werden Daten zum Bot-Traffic geteilt, der auf verschiedenen Plattformen auftritt
- Bots von Claude, Amazon, Data For SEO, Chat GPT und anderen verursachen viel Traffic
- Es wird erklärt, dass diese Bots robots.txt ignorieren oder auch bei Verzögerungen kein Backoff durchführen
Es wird darüber diskutiert, wie man Bots blockieren kann
- Es wird beschrieben, dass Bots ihre IP ändern oder zu einer User-Agent-Kennung wechseln, die nicht wie ein Bot aussieht
- Ein GitHub-Link, der die IP-Bereiche von OpenAI offenlegt, wird geteilt
- Es wird vorgeschlagen, mit einem WordPress-Plugin AI-Bots zu blockieren
Der Fall wird erwähnt, dass das CGTalk-Forum wegen Ressourcenproblemen geschlossen wurde
- Viele Foren wechseln zu Slack oder Discord, um die Belastung durch den Serverbetrieb zu verringern
Es wird behauptet, dass AI-Unternehmen intelligenter scrapen sollten
- Es wird erwähnt, dass das Verhalten von AI-Unternehmen beschämend ist
Es wird Neugier auf Poisoning-Angriffe geäußert
- Es wird untersucht, ob man AI-Modelle mit von Menschen geschriebenen falschen Inhalten verwirren könnte
Es wird von der Erfahrung berichtet, dass die Kosten einer auf GCP bereitgestellten App wegen Bot-Traffic gestiegen sind
- Es wird vermutet, dass das Teilen der App auf Reddit die Ursache war
Es werden Erfahrungen mit dem Crawling großer Foren geteilt
- Es wird erwähnt, dass ChatGPT die Geschichte des Forums gut kennt
- Es wird die Idee vorgeschlagen, Text hinzuzufügen, der LLMs beeinflussen könnte
Es wird behauptet, dass das Ignorieren von robots.txt und ein Verhalten von Bots, das dem Dienst schadet, als illegal angesehen werden könnte
- Es wird empfohlen, die zuständigen regionalen Cyber-Strafverfolgungsbehörden zu kontaktieren

KI-Unternehmen verursachen den Großteil des Web-Traffics

Ergebnisse und Auswirkungen

Fazit

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare