- Drew DeVault (Gründer von SourceHut) warnt, dass AI-Crawler robots.txt ignorieren und bei SourceHut schwere Ausfälle verursachen
- Auch die GitLab-Infrastruktur von KDE war durch einen Angriff von AI-Crawlern aus dem IP-Bereich von Alibaba zeitweise nicht erreichbar
- Probleme mit AI-Crawlern
- AI-Crawler ignorieren die Anforderungen von robots.txt
- Sie crawlen alle Seiten und Commits von git blame und git log
- Anfragen kommen mit zufälligen User-Agents und von zehntausenden IPs → Tarnung als normaler Nutzer-Traffic
- Das Blockieren der Crawler ist schwierig → hoch priorisierte Arbeiten verzögern sich um Wochen oder Monate
- Beschwerden von Systemadministratoren
- Das Problem mit AI-Crawlern ist kein Einzelfall, sondern ein weit verbreitetes Problem
- Viele Systemadministratoren erleben dasselbe Problem
- OpenAI und Anthropic setzen korrekte User-Agents, chinesische AI-Unternehmen jedoch nicht
- Reaktion von KDE GitLab
- Als MS Edge getarnte Bots wurden blockiert → temporäre Lösung
- GNOME hat für nicht eingeloggte Nutzer Rate Limits auf Merge Requests und Commit-Ansichten eingeführt
- Einführung von Anubis → Zugriff wird erst erlaubt, nachdem der Browser eine Aufgabe gelöst hat
- Probleme mit Anubis
- Auch Nutzer sind betroffen → Zeit für das Lösen der Aufgabe erforderlich
- Wenn Links im Chat geteilt werden, kommt es zu Überlastung → Wartezeiten von 1–2 Minuten
- 97 % des Traffics sind Bots
- Bei GNOME gab es in zweieinhalb Stunden 81.000 Anfragen → 97 % waren AI-Crawler
- Bei einigen Projekten sank der Traffic nach dem Blockieren von AI-Crawlern um 75 %
- Probleme weiterer FOSS-Projekte
- Fedora → blockierte ganz Brasilien auf IP-Ebene, um Crawler zu stoppen
- Inkscape → Crawler fälschten Browser-Informationen → großflächige IP-Sperren
- Frama Software → erstellte eine Blockliste mit 460.000 IPs
- Projekte zur Abwehr von AI-Crawlern
- ai.robots.txt → bietet eine offene Liste zum Blockieren von AI-Crawlern
- Konfiguration von robots.txt- und .htaccess-Dateien → bei Anfragen von AI-Crawlern wird eine Fehlerseite zurückgegeben
- Ergebnisse der Traffic-Analyse
- Bei Diaspora stammen 70 % des Traffics von AI-Crawlern
- OpenAI User-Agent: 25 %
- Amazon: 15 %
- Anthropic: 4,3 %
- Der Traffic-Anteil von Google- und Bing-Crawlern liegt bei unter 1 %
- Probleme mit AI-generierten Bug-Reports
- Beim Curl-Projekt gab es Probleme mit AI-generierten Bug-Reports
- Die gemeldeten Bugs waren meist Halluzinationen (hallucinations)
- CPython, pip, urllib3 und Requests → Aufwand durch AI-generierte Sicherheitsmeldungen
- Geringe Zuverlässigkeit → müssen trotzdem geprüft werden → zusätzliche Belastung für Maintainer
Fazit
- AI-Crawler und AI-generierte Bug-Reports belasten die Open-Source-Community stark
- Open-Source-Projekte haben weniger Ressourcen als kommerzielle Produkte und sind als Community-Projekte für solche Probleme besonders anfällig
1 Kommentare
Hacker-News-Kommentare
Viele Menschen, die große Internet-Infrastrukturen betreiben, machen ähnliche Erfahrungen.
Fastly bietet FOSS-Projekten kostenlose Sicherheitsdienste an.
Es ist überraschend, das eigene Projekt im Vorschaubild zu sehen.
Nicht nur FOSS-Infrastruktur, sondern auch anonymer Internetzugang selbst ist bedroht.
Kürzlich wurde eine Forgejo-Instanz angegriffen.
DISABLE_DOWNLOAD_SOURCE_ARCHIVESauftruezu setzen.Früher wurde
robots.txtgeschaffen, um Probleme mit Suchmaschinen zu lösen, aber die neuen Indexer ignorieren sie inzwischen.Die Dominanz von Google und Werbung über das Web wird schwächer werden.
Mit LLaMa werden widersprüchliche Beiträge erzeugt, um Informationsverwirrung zu stiften.
Auch VideoLAN wird durch Bots von AI-Unternehmen angegriffen; betroffen sind das Forum und GitLab.
robots.txt.Es könnte ein Web entstehen, das von Suchmaschinen nicht indexiert wird.