FOSS-Infrastruktur wird von AI-Unternehmen angegriffen

(thelibre.news)

1 Punkte von GN⁺ 2025-03-21 | 1 Kommentare | Auf WhatsApp teilen

Drew DeVault (Gründer von SourceHut) warnt, dass AI-Crawler robots.txt ignorieren und bei SourceHut schwere Ausfälle verursachen
Auch die GitLab-Infrastruktur von KDE war durch einen Angriff von AI-Crawlern aus dem IP-Bereich von Alibaba zeitweise nicht erreichbar
Probleme mit AI-Crawlern
- AI-Crawler ignorieren die Anforderungen von robots.txt
  - Sie crawlen alle Seiten und Commits von git blame und git log
  - Anfragen kommen mit zufälligen User-Agents und von zehntausenden IPs → Tarnung als normaler Nutzer-Traffic
- Das Blockieren der Crawler ist schwierig → hoch priorisierte Arbeiten verzögern sich um Wochen oder Monate
Beschwerden von Systemadministratoren
- Das Problem mit AI-Crawlern ist kein Einzelfall, sondern ein weit verbreitetes Problem
  - Viele Systemadministratoren erleben dasselbe Problem
  - OpenAI und Anthropic setzen korrekte User-Agents, chinesische AI-Unternehmen jedoch nicht
Reaktion von KDE GitLab
- Als MS Edge getarnte Bots wurden blockiert → temporäre Lösung
- GNOME hat für nicht eingeloggte Nutzer Rate Limits auf Merge Requests und Commit-Ansichten eingeführt
- Einführung von Anubis → Zugriff wird erst erlaubt, nachdem der Browser eine Aufgabe gelöst hat
Probleme mit Anubis
- Auch Nutzer sind betroffen → Zeit für das Lösen der Aufgabe erforderlich
  - Wenn Links im Chat geteilt werden, kommt es zu Überlastung → Wartezeiten von 1–2 Minuten
97 % des Traffics sind Bots
- Bei GNOME gab es in zweieinhalb Stunden 81.000 Anfragen → 97 % waren AI-Crawler
- Bei einigen Projekten sank der Traffic nach dem Blockieren von AI-Crawlern um 75 %
Probleme weiterer FOSS-Projekte
- Fedora → blockierte ganz Brasilien auf IP-Ebene, um Crawler zu stoppen
- Inkscape → Crawler fälschten Browser-Informationen → großflächige IP-Sperren
- Frama Software → erstellte eine Blockliste mit 460.000 IPs
Projekte zur Abwehr von AI-Crawlern
- ai.robots.txt → bietet eine offene Liste zum Blockieren von AI-Crawlern
  - Konfiguration von robots.txt- und .htaccess-Dateien → bei Anfragen von AI-Crawlern wird eine Fehlerseite zurückgegeben
Ergebnisse der Traffic-Analyse
- Bei Diaspora stammen 70 % des Traffics von AI-Crawlern
  - OpenAI User-Agent: 25 %
  - Amazon: 15 %
  - Anthropic: 4,3 %
- Der Traffic-Anteil von Google- und Bing-Crawlern liegt bei unter 1 %
Probleme mit AI-generierten Bug-Reports
- Beim Curl-Projekt gab es Probleme mit AI-generierten Bug-Reports
  - Die gemeldeten Bugs waren meist Halluzinationen (hallucinations)
- CPython, pip, urllib3 und Requests → Aufwand durch AI-generierte Sicherheitsmeldungen
  - Geringe Zuverlässigkeit → müssen trotzdem geprüft werden → zusätzliche Belastung für Maintainer

Fazit

AI-Crawler und AI-generierte Bug-Reports belasten die Open-Source-Community stark
Open-Source-Projekte haben weniger Ressourcen als kommerzielle Produkte und sind als Community-Projekte für solche Probleme besonders anfällig

1 Kommentare

GN⁺ 2025-03-21

Hacker-News-Kommentare

Viele Menschen, die große Internet-Infrastrukturen betreiben, machen ähnliche Erfahrungen.
- Es gibt Berichte über den Missbrauch durch AI-Crawler sowie einen Beitrag, der diese Probleme an einem Ort sammelt und ordnet.
- Einige Startups haben das Problem gelöst und die Kosten erstattet, aber Facebook antwortet nicht auf E-Mails.
Fastly bietet FOSS-Projekten kostenlose Sicherheitsdienste an.
- In letzter Zeit nehmen die Anfragen im Zusammenhang mit AI-Scraping zu.
Es ist überraschend, das eigene Projekt im Vorschaubild zu sehen.
- Das Projekt wird auf xeiaso.net bereitgestellt, um zu prüfen, wie es in einer realen Umgebung funktioniert.
Nicht nur FOSS-Infrastruktur, sondern auch anonymer Internetzugang selbst ist bedroht.
- Neue Bots können CAPTCHAs lösen und sich wie echte Nutzer verhalten.
- Es ist möglich, dass Websites eine Verifizierung per Kreditkarte oder über Dienste wie Worldcoin verlangen.
Kürzlich wurde eine Forgejo-Instanz angegriffen.
- Die Festplatte lief mit erzeugten ZIP-Dateien voll, und nachdem die IP-Bereiche von Alibaba Cloud blockiert wurden, ging der Angriff zurück.
- Es wird empfohlen, die Einstellung DISABLE_DOWNLOAD_SOURCE_ARCHIVES auf true zu setzen.
Früher wurde robots.txt geschaffen, um Probleme mit Suchmaschinen zu lösen, aber die neuen Indexer ignorieren sie inzwischen.
- Es wird argumentiert, dass rechtliche Sanktionen nötig sind.
Die Dominanz von Google und Werbung über das Web wird schwächer werden.
- Durch CAPTCHAs werden Suchmaschinen Websites nicht mehr indexieren können, was den Wert von Suchmaschinen senken wird.
Mit LLaMa werden widersprüchliche Beiträge erzeugt, um Informationsverwirrung zu stiften.
Auch VideoLAN wird durch Bots von AI-Unternehmen angegriffen; betroffen sind das Forum und GitLab.
- Die meisten Bots ignorieren robots.txt.
Es könnte ein Web entstehen, das von Suchmaschinen nicht indexiert wird.
- Als Lösung gegen LLM-Scraping wird vorgeschlagen, einen Proof of Work zu verlangen.

FOSS-Infrastruktur wird von AI-Unternehmen angegriffen

Fazit

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare