OpenAIs Bot legt die Website eines kleinen Unternehmens "wie bei einem DDoS-Angriff" lahm

(techcrunch.com)

6 Punkte von GN⁺ 2025-01-14 | 4 Kommentare | Auf WhatsApp teilen

Triplegangers ist ein kleines Unternehmen mit sieben Mitarbeitenden und verkauft eine Datenbank mit „menschlichen digitalen Zwillingen“
- Bietet 3D-Bilddateien und Fotos für 3D-Künstler, Videospielentwickler usw. an
Problem: OpenAIs Bot crawlt die Website übermäßig mit mehr als 600 IP-Adressen, wodurch der Server ausfiel
- Versuch, mehr als 65.000 Produktseiten und mehrere Hunderttausend Fotos zu erfassen
- Ein solcher Ansturm an Anfragen, „ähnlich einem DDoS-Angriff“, dürfte die AWS-Kosten erhöhen
OpenAIs GPTBot crawlt Daten frei, wenn die robots.txt-Datei nicht korrekt konfiguriert ist
- Wenn eine Website ihn nicht gesondert blockiert, ist Bot-Aktivität standardmäßig erlaubt
- robots.txt: eine Datei, die festlegt, welche Daten Suchmaschinen nicht crawlen sollen
- Triplegangers hatte die robots.txt-Datei der Website nicht korrekt eingerichtet, sodass OpenAIs Bot die Daten scrapen konnte
Weitere Probleme:
- OpenAI benötigt bis zu 24 Stunden, um Anfragen zum Blockieren des Crawlings zu erkennen
- Andere AI-Unternehmen crawlen Daten auf ähnliche Weise

Reaktion von Triplegangers

Gegenmaßnahmen:
- Erstellung einer korrekt konfigurierten robots.txt-Datei
- Blockieren von GPTBot und anderen AI-Crawlern über die Kontoeinstellungen von Cloudflare
Ergebnis:
- Die Website konnte stabilisiert werden
- Allerdings ist unklar, welche Daten OpenAI bereits mitgenommen hat, und es gibt auch keine Möglichkeit, deren Löschung zu verlangen
- OpenAIs unfertige Opt-out-Tools: machen es Unternehmen noch schwerer, Crawling zu verhindern

Warum das Crawling-Problem besonders gravierend ist

AI-Crawler übernehmen ohne Erlaubnis Daten von Websites, was besonders für Unternehmen wie Triplegangers ein großes Problem darstellt
Sensibilität der Daten:
- Triplegangers besitzt eine Datenbank, die aus Scans realer Menschen erstellt wurde
- Nach Datenschutzgesetzen wie der DSGVO ist die unbefugte Nutzung solcher Daten verboten
Attraktivität der Daten:
- Die Daten sind getaggt und daher für AI-Training nützlich
- Beispiel: Ethnie, Alter und körperliche Merkmale sind detailliert gekennzeichnet

Lehren für andere kleine Unternehmen

Erkennung von AI-Bots:
- Um festzustellen, ob AI-Bots crawlen, ist Log-Monitoring unverzichtbar
- Die meisten Websites wissen nicht einmal, dass sie gecrawlt wurden
Zunehmendes Crawling-Problem:
- 2024 stieg allgemein ungültiger Traffic (Invalid Traffic) um 86 %
- AI-Crawler und Scraper sind die Hauptursache

Fazit

Das Crawling-Problem durch AI-Bots hat schwerwiegende Auswirkungen auf kleine Unternehmen
AI-Unternehmen sollten um Erlaubnis bitten, bevor sie Daten übernehmen
Kleine Unternehmen sollten robots.txt und Firewalls aktiv nutzen und kontinuierlich überwachen

4 Kommentare

crawler 2025-01-14

Wenn die 600 IPs, die auf eine Website zugegriffen haben, echt waren, dann würde ich schon denken: Wahnsinn, wie aggressiv da gecrawlt wird. Aber an der Stelle, dass keine robots.txt verwendet wurde, denke ich mir auch ein wenig: „Hä?“
Es wirkt wie ein Unternehmen, für das Daten wichtig sind, und die Website scheint auch aktiv zu sein — da sollte man doch zumindest mit der grundlegendsten robots.txt-Konfiguration anfangen ...

xguru 2025-01-14

AI-Unternehmen verursachen den Großteil des Web-Traffics

unsure4000 2025-01-14

Ich denke, Cloudflare scheint wirklich ein notwendiges Übel zu sein. Es ist ein einzelner Angriffspunkt mit sehr hoher Leistungsfähigkeit.

GN⁺ 2025-01-14

Hacker-News-Kommentar

AI-Unternehmen verursachen in Foren viel Traffic
- Es gibt einen Fall bei Read the Docs, in dem AI-Bots mehr als 10 TB Traffic erzeugt haben
- Es wird behauptet, dass OpenAI mit 600 IPs Daten gescrapet hat
- Es werden nur die Reverse-Proxy-IPs von Cloudflare protokolliert, daher sind die tatsächlichen Client-IPs nicht bekannt
- Es gibt die Ansicht, dass die Behauptung eines DDoS-Angriffs unfair ist, da in den Logs Zeitstempel fehlen und die Anfragerate nicht erwähnt wird
Als Webentwickler besteht Unmut über die ineffizienten Scraper von AI-Unternehmen
- Es wird empfohlen, die Grundregel zu befolgen, eine Website nicht übermäßig zu belasten
- Die Scraper von AI-Unternehmen werden als ineffizient und lästig empfunden
Es wird darauf hingewiesen, dass im Artikel robots.txt falsch geschrieben wurde
- Es gilt als fragwürdig, Logdateien ohne Zeitstempel als Beleg zu verwenden
- OpenAI ist zwar nicht völlig unschuldig, aber die Qualität des Artikels wird als schlecht bewertet
Es gibt die Meinung, dass sich die Geschichte des Webs wiederholt
- Früher konnte man Informationen über APIs erhalten, heute ist das meist blockiert
- Es besteht die Hoffnung, dass AI solche automatisierten Interaktionen wieder ermöglichen könnte
Es gab Interesse an persönlichen Webcrawlern, doch inzwischen herrscht Enttäuschung über die unfaire Google-Ökonomie
- Es besteht die Sorge, dass LLMs zwar viel Nutzen bieten können, die Angst vor Kreativitätsdiebstahl aber dazu führen wird, dass sich Türen schließen
Menschen, die kürzlich Bücher bei Amazon veröffentlicht haben, konkurrieren mit betrügerischen, von AI erzeugten Kopien
- Es gab einen Fall, in dem die BBC Betroffene dazu interviewt hat
Es wird gewarnt, dass AI frei scrapen kann, wenn eine Website robots.txt nicht korrekt verwendet
- Es wird empfohlen, robots.txt zu überprüfen
Websites können den HTTP-Fehler 429 verwenden, um die Geschwindigkeit von Bots zu drosseln
- Wenn Bots aus einem Subnetz kommen, sollte die Regel auf das Subnetz und nicht auf einzelne IPs angewendet werden