6 Punkte von GN⁺ 2025-01-14 | 4 Kommentare | Auf WhatsApp teilen
  • Triplegangers ist ein kleines Unternehmen mit sieben Mitarbeitenden und verkauft eine Datenbank mit „menschlichen digitalen Zwillingen“
    • Bietet 3D-Bilddateien und Fotos für 3D-Künstler, Videospielentwickler usw. an
  • Problem: OpenAIs Bot crawlt die Website übermäßig mit mehr als 600 IP-Adressen, wodurch der Server ausfiel
    • Versuch, mehr als 65.000 Produktseiten und mehrere Hunderttausend Fotos zu erfassen
    • Ein solcher Ansturm an Anfragen, „ähnlich einem DDoS-Angriff“, dürfte die AWS-Kosten erhöhen
  • OpenAIs GPTBot crawlt Daten frei, wenn die robots.txt-Datei nicht korrekt konfiguriert ist
    • Wenn eine Website ihn nicht gesondert blockiert, ist Bot-Aktivität standardmäßig erlaubt
    • robots.txt: eine Datei, die festlegt, welche Daten Suchmaschinen nicht crawlen sollen
    • Triplegangers hatte die robots.txt-Datei der Website nicht korrekt eingerichtet, sodass OpenAIs Bot die Daten scrapen konnte
  • Weitere Probleme:
    • OpenAI benötigt bis zu 24 Stunden, um Anfragen zum Blockieren des Crawlings zu erkennen
    • Andere AI-Unternehmen crawlen Daten auf ähnliche Weise

Reaktion von Triplegangers

  • Gegenmaßnahmen:
    • Erstellung einer korrekt konfigurierten robots.txt-Datei
    • Blockieren von GPTBot und anderen AI-Crawlern über die Kontoeinstellungen von Cloudflare
  • Ergebnis:
    • Die Website konnte stabilisiert werden
    • Allerdings ist unklar, welche Daten OpenAI bereits mitgenommen hat, und es gibt auch keine Möglichkeit, deren Löschung zu verlangen
    • OpenAIs unfertige Opt-out-Tools: machen es Unternehmen noch schwerer, Crawling zu verhindern

Warum das Crawling-Problem besonders gravierend ist

  • AI-Crawler übernehmen ohne Erlaubnis Daten von Websites, was besonders für Unternehmen wie Triplegangers ein großes Problem darstellt
  • Sensibilität der Daten:
    • Triplegangers besitzt eine Datenbank, die aus Scans realer Menschen erstellt wurde
    • Nach Datenschutzgesetzen wie der DSGVO ist die unbefugte Nutzung solcher Daten verboten
  • Attraktivität der Daten:
    • Die Daten sind getaggt und daher für AI-Training nützlich
    • Beispiel: Ethnie, Alter und körperliche Merkmale sind detailliert gekennzeichnet

Lehren für andere kleine Unternehmen

  • Erkennung von AI-Bots:
    • Um festzustellen, ob AI-Bots crawlen, ist Log-Monitoring unverzichtbar
    • Die meisten Websites wissen nicht einmal, dass sie gecrawlt wurden
  • Zunehmendes Crawling-Problem:
    • 2024 stieg allgemein ungültiger Traffic (Invalid Traffic) um 86 %
    • AI-Crawler und Scraper sind die Hauptursache

Fazit

  • Das Crawling-Problem durch AI-Bots hat schwerwiegende Auswirkungen auf kleine Unternehmen
  • AI-Unternehmen sollten um Erlaubnis bitten, bevor sie Daten übernehmen
  • Kleine Unternehmen sollten robots.txt und Firewalls aktiv nutzen und kontinuierlich überwachen

4 Kommentare

 
crawler 2025-01-14

Wenn die 600 IPs, die auf eine Website zugegriffen haben, echt waren, dann würde ich schon denken: Wahnsinn, wie aggressiv da gecrawlt wird. Aber an der Stelle, dass keine robots.txt verwendet wurde, denke ich mir auch ein wenig: „Hä?“
Es wirkt wie ein Unternehmen, für das Daten wichtig sind, und die Website scheint auch aktiv zu sein — da sollte man doch zumindest mit der grundlegendsten robots.txt-Konfiguration anfangen ...

 
unsure4000 2025-01-14

Ich denke, Cloudflare scheint wirklich ein notwendiges Übel zu sein. Es ist ein einzelner Angriffspunkt mit sehr hoher Leistungsfähigkeit.

 
GN⁺ 2025-01-14
Hacker-News-Kommentar
  • AI-Unternehmen verursachen in Foren viel Traffic

    • Es gibt einen Fall bei Read the Docs, in dem AI-Bots mehr als 10 TB Traffic erzeugt haben
    • Es wird behauptet, dass OpenAI mit 600 IPs Daten gescrapet hat
    • Es werden nur die Reverse-Proxy-IPs von Cloudflare protokolliert, daher sind die tatsächlichen Client-IPs nicht bekannt
    • Es gibt die Ansicht, dass die Behauptung eines DDoS-Angriffs unfair ist, da in den Logs Zeitstempel fehlen und die Anfragerate nicht erwähnt wird
  • Als Webentwickler besteht Unmut über die ineffizienten Scraper von AI-Unternehmen

    • Es wird empfohlen, die Grundregel zu befolgen, eine Website nicht übermäßig zu belasten
    • Die Scraper von AI-Unternehmen werden als ineffizient und lästig empfunden
  • Es wird darauf hingewiesen, dass im Artikel robots.txt falsch geschrieben wurde

    • Es gilt als fragwürdig, Logdateien ohne Zeitstempel als Beleg zu verwenden
    • OpenAI ist zwar nicht völlig unschuldig, aber die Qualität des Artikels wird als schlecht bewertet
  • Es gibt die Meinung, dass sich die Geschichte des Webs wiederholt

    • Früher konnte man Informationen über APIs erhalten, heute ist das meist blockiert
    • Es besteht die Hoffnung, dass AI solche automatisierten Interaktionen wieder ermöglichen könnte
  • Es gab Interesse an persönlichen Webcrawlern, doch inzwischen herrscht Enttäuschung über die unfaire Google-Ökonomie

    • Es besteht die Sorge, dass LLMs zwar viel Nutzen bieten können, die Angst vor Kreativitätsdiebstahl aber dazu führen wird, dass sich Türen schließen
  • Menschen, die kürzlich Bücher bei Amazon veröffentlicht haben, konkurrieren mit betrügerischen, von AI erzeugten Kopien

    • Es gab einen Fall, in dem die BBC Betroffene dazu interviewt hat
  • Es wird gewarnt, dass AI frei scrapen kann, wenn eine Website robots.txt nicht korrekt verwendet

    • Es wird empfohlen, robots.txt zu überprüfen
  • Websites können den HTTP-Fehler 429 verwenden, um die Geschwindigkeit von Bots zu drosseln

    • Wenn Bots aus einem Subnetz kommen, sollte die Regel auf das Subnetz und nicht auf einzelne IPs angewendet werden