- Triplegangers ist ein kleines Unternehmen mit sieben Mitarbeitenden und verkauft eine Datenbank mit „menschlichen digitalen Zwillingen“
- Bietet 3D-Bilddateien und Fotos für 3D-Künstler, Videospielentwickler usw. an
- Problem: OpenAIs Bot crawlt die Website übermäßig mit mehr als 600 IP-Adressen, wodurch der Server ausfiel
- Versuch, mehr als 65.000 Produktseiten und mehrere Hunderttausend Fotos zu erfassen
- Ein solcher Ansturm an Anfragen, „ähnlich einem DDoS-Angriff“, dürfte die AWS-Kosten erhöhen
- OpenAIs GPTBot crawlt Daten frei, wenn die robots.txt-Datei nicht korrekt konfiguriert ist
- Wenn eine Website ihn nicht gesondert blockiert, ist Bot-Aktivität standardmäßig erlaubt
- robots.txt: eine Datei, die festlegt, welche Daten Suchmaschinen nicht crawlen sollen
- Triplegangers hatte die robots.txt-Datei der Website nicht korrekt eingerichtet, sodass OpenAIs Bot die Daten scrapen konnte
- Weitere Probleme:
- OpenAI benötigt bis zu 24 Stunden, um Anfragen zum Blockieren des Crawlings zu erkennen
- Andere AI-Unternehmen crawlen Daten auf ähnliche Weise
Reaktion von Triplegangers
- Gegenmaßnahmen:
- Erstellung einer korrekt konfigurierten robots.txt-Datei
- Blockieren von GPTBot und anderen AI-Crawlern über die Kontoeinstellungen von Cloudflare
- Ergebnis:
- Die Website konnte stabilisiert werden
- Allerdings ist unklar, welche Daten OpenAI bereits mitgenommen hat, und es gibt auch keine Möglichkeit, deren Löschung zu verlangen
- OpenAIs unfertige Opt-out-Tools: machen es Unternehmen noch schwerer, Crawling zu verhindern
Warum das Crawling-Problem besonders gravierend ist
- AI-Crawler übernehmen ohne Erlaubnis Daten von Websites, was besonders für Unternehmen wie Triplegangers ein großes Problem darstellt
- Sensibilität der Daten:
- Triplegangers besitzt eine Datenbank, die aus Scans realer Menschen erstellt wurde
- Nach Datenschutzgesetzen wie der DSGVO ist die unbefugte Nutzung solcher Daten verboten
- Attraktivität der Daten:
- Die Daten sind getaggt und daher für AI-Training nützlich
- Beispiel: Ethnie, Alter und körperliche Merkmale sind detailliert gekennzeichnet
Lehren für andere kleine Unternehmen
- Erkennung von AI-Bots:
- Um festzustellen, ob AI-Bots crawlen, ist Log-Monitoring unverzichtbar
- Die meisten Websites wissen nicht einmal, dass sie gecrawlt wurden
- Zunehmendes Crawling-Problem:
- 2024 stieg allgemein ungültiger Traffic (Invalid Traffic) um 86 %
- AI-Crawler und Scraper sind die Hauptursache
Fazit
- Das Crawling-Problem durch AI-Bots hat schwerwiegende Auswirkungen auf kleine Unternehmen
- AI-Unternehmen sollten um Erlaubnis bitten, bevor sie Daten übernehmen
- Kleine Unternehmen sollten robots.txt und Firewalls aktiv nutzen und kontinuierlich überwachen
4 Kommentare
Wenn die 600 IPs, die auf eine Website zugegriffen haben, echt waren, dann würde ich schon denken: Wahnsinn, wie aggressiv da gecrawlt wird. Aber an der Stelle, dass keine
robots.txtverwendet wurde, denke ich mir auch ein wenig: „Hä?“Es wirkt wie ein Unternehmen, für das Daten wichtig sind, und die Website scheint auch aktiv zu sein — da sollte man doch zumindest mit der grundlegendsten
robots.txt-Konfiguration anfangen ...AI-Unternehmen verursachen den Großteil des Web-Traffics
Ich denke, Cloudflare scheint wirklich ein notwendiges Übel zu sein. Es ist ein einzelner Angriffspunkt mit sehr hoher Leistungsfähigkeit.
Hacker-News-Kommentar
AI-Unternehmen verursachen in Foren viel Traffic
Als Webentwickler besteht Unmut über die ineffizienten Scraper von AI-Unternehmen
Es wird darauf hingewiesen, dass im Artikel
robots.txtfalsch geschrieben wurdeEs gibt die Meinung, dass sich die Geschichte des Webs wiederholt
Es gab Interesse an persönlichen Webcrawlern, doch inzwischen herrscht Enttäuschung über die unfaire Google-Ökonomie
Menschen, die kürzlich Bücher bei Amazon veröffentlicht haben, konkurrieren mit betrügerischen, von AI erzeugten Kopien
Es wird gewarnt, dass AI frei scrapen kann, wenn eine Website
robots.txtnicht korrekt verwendetrobots.txtzu überprüfenWebsites können den HTTP-Fehler 429 verwenden, um die Geschwindigkeit von Bots zu drosseln