14 Punkte von GN⁺ 2024-12-31 | 1 Kommentare | Auf WhatsApp teilen
  • Eine Analyse der Lastspitzen und Verlangsamungen in der Web-Infrastruktur des diaspora-Projekts (Discourse, Wiki, Projektwebsite usw.) ergab, dass „der Großteil des Traffics von LLM-Crawling-Bots verursacht wird“
  • In den vergangenen 60 Tagen gingen 11,3 Millionen Anfragen ein (durchschnittlich 2,19 req/s), davon mehr als 70 % von LLM-bezogenen Crawling-Bots
    • GPTBot/1.2: 24,6 % (2,78 Millionen Anfragen)
    • Amazonbot/0.1: 14,9 % (1,69 Millionen Anfragen)
    • ClaudeBot/1.0: 4,3 % (490.000 Anfragen)
    • meta-externalagent/1.1: 2,2 % (220.000 Anfragen)
  • Auffällige Crawling-Muster
    • Wiederholtes Crawling: dieselbe Seite wird im Abstand von 6 Stunden gecrawlt
    • Ignorieren von robots.txt: Crawling-Beschränkungen werden überhaupt nicht eingehalten
    • Ineffizientes Crawling: große Mengen bedeutungsloser Daten werden gecrawlt (z. B. die gesamte Bearbeitungshistorie des Wikis)
    • Lastspitzen: zu bestimmten Zeitpunkten werden mehr als 10 req/s erzeugt, was Datenbank und MediaWiki-Server überlastet
  • Abwehr ist ebenfalls nicht möglich
    • IP-Wechsel: IPs werden fortlaufend geändert, um Rate Limits zu umgehen
    • Änderung des UA-Strings: Der User Agent des Bots wird in beliebige Strings geändert, um Sperren zu umgehen
  • Bestehende Suchmaschinen-Crawler wie Googlebot und Bingbot zeigen normale und effiziente Crawling-Muster.
    • Googlebot: 0,14 % (16.600 Anfragen)
    • Bingbot: 0,14 % (15.900 Anfragen)
  • Minimierung von doppeltem Crawling, Einhaltung der robots.txt-Regeln

Ergebnisse und Auswirkungen

  • Keine effektive Bereitstellung des Dienstes möglich: Durch LLM-Crawling-Bots verschlechtert sich die Nutzererfahrung für Menschen erheblich
  • Serverüberlastung: Datenbankserver und MediaWiki erleben wiederholt Lastspitzen
  • De-facto-DDoS des gesamten Internets: Diese Art des Crawlings verursacht weltweit unnötige Ressourcenverschwendung

Fazit

  • Aufgrund der anomalen Traffic-Muster von LLM-Crawling-Bots steht die Infrastruktur dauerhaft unter Belastung, und Versuche, sich dagegen zu verteidigen, zeigen keine Wirkung
  • Das Problem geht über persönliche Erschöpfung hinaus und hat schwerwiegende Auswirkungen auf das gesamte Internet-Ökosystem

1 Kommentare

 
GN⁺ 2024-12-31
Hacker-News-Kommentare
  • Es wird von der Erfahrung berichtet, dass der AI-Bot von Meta eine Website übermäßig gecrawlt und dadurch den Server zum Absturz gebracht hat. Es wird erklärt, wie man dies mit Cloudflare blockieren kann

    • Es wird erwähnt, dass die Funktion von Cloudflare zum Blockieren von AI-Bots nützlich ist
    • Es wird behauptet, dass der Zugriff von AI-Bots auf Inhalte keinen Wert hat
  • Es werden Daten zum Bot-Traffic geteilt, der auf verschiedenen Plattformen auftritt

    • Bots von Claude, Amazon, Data For SEO, Chat GPT und anderen verursachen viel Traffic
    • Es wird erklärt, dass diese Bots robots.txt ignorieren oder auch bei Verzögerungen kein Backoff durchführen
  • Es wird darüber diskutiert, wie man Bots blockieren kann

    • Es wird beschrieben, dass Bots ihre IP ändern oder zu einer User-Agent-Kennung wechseln, die nicht wie ein Bot aussieht
    • Ein GitHub-Link, der die IP-Bereiche von OpenAI offenlegt, wird geteilt
    • Es wird vorgeschlagen, mit einem WordPress-Plugin AI-Bots zu blockieren
  • Der Fall wird erwähnt, dass das CGTalk-Forum wegen Ressourcenproblemen geschlossen wurde

    • Viele Foren wechseln zu Slack oder Discord, um die Belastung durch den Serverbetrieb zu verringern
  • Es wird behauptet, dass AI-Unternehmen intelligenter scrapen sollten

    • Es wird erwähnt, dass das Verhalten von AI-Unternehmen beschämend ist
  • Es wird Neugier auf Poisoning-Angriffe geäußert

    • Es wird untersucht, ob man AI-Modelle mit von Menschen geschriebenen falschen Inhalten verwirren könnte
  • Es wird von der Erfahrung berichtet, dass die Kosten einer auf GCP bereitgestellten App wegen Bot-Traffic gestiegen sind

    • Es wird vermutet, dass das Teilen der App auf Reddit die Ursache war
  • Es werden Erfahrungen mit dem Crawling großer Foren geteilt

    • Es wird erwähnt, dass ChatGPT die Geschichte des Forums gut kennt
    • Es wird die Idee vorgeschlagen, Text hinzuzufügen, der LLMs beeinflussen könnte
  • Es wird behauptet, dass das Ignorieren von robots.txt und ein Verhalten von Bots, das dem Dienst schadet, als illegal angesehen werden könnte

    • Es wird empfohlen, die zuständigen regionalen Cyber-Strafverfolgungsbehörden zu kontaktieren