1 Punkte von GN⁺ 2025-03-21 | 1 Kommentare | Auf WhatsApp teilen
  • Drew DeVault (Gründer von SourceHut) warnt, dass AI-Crawler robots.txt ignorieren und bei SourceHut schwere Ausfälle verursachen
  • Auch die GitLab-Infrastruktur von KDE war durch einen Angriff von AI-Crawlern aus dem IP-Bereich von Alibaba zeitweise nicht erreichbar
  • Probleme mit AI-Crawlern
    • AI-Crawler ignorieren die Anforderungen von robots.txt
      • Sie crawlen alle Seiten und Commits von git blame und git log
      • Anfragen kommen mit zufälligen User-Agents und von zehntausenden IPs → Tarnung als normaler Nutzer-Traffic
    • Das Blockieren der Crawler ist schwierig → hoch priorisierte Arbeiten verzögern sich um Wochen oder Monate
  • Beschwerden von Systemadministratoren
    • Das Problem mit AI-Crawlern ist kein Einzelfall, sondern ein weit verbreitetes Problem
      • Viele Systemadministratoren erleben dasselbe Problem
      • OpenAI und Anthropic setzen korrekte User-Agents, chinesische AI-Unternehmen jedoch nicht
  • Reaktion von KDE GitLab
    • Als MS Edge getarnte Bots wurden blockiert → temporäre Lösung
    • GNOME hat für nicht eingeloggte Nutzer Rate Limits auf Merge Requests und Commit-Ansichten eingeführt
    • Einführung von Anubis → Zugriff wird erst erlaubt, nachdem der Browser eine Aufgabe gelöst hat
  • Probleme mit Anubis
    • Auch Nutzer sind betroffen → Zeit für das Lösen der Aufgabe erforderlich
      • Wenn Links im Chat geteilt werden, kommt es zu Überlastung → Wartezeiten von 1–2 Minuten
  • 97 % des Traffics sind Bots
    • Bei GNOME gab es in zweieinhalb Stunden 81.000 Anfragen97 % waren AI-Crawler
    • Bei einigen Projekten sank der Traffic nach dem Blockieren von AI-Crawlern um 75 %
  • Probleme weiterer FOSS-Projekte
    • Fedora → blockierte ganz Brasilien auf IP-Ebene, um Crawler zu stoppen
    • Inkscape → Crawler fälschten Browser-Informationen → großflächige IP-Sperren
    • Frama Software → erstellte eine Blockliste mit 460.000 IPs
  • Projekte zur Abwehr von AI-Crawlern
    • ai.robots.txt → bietet eine offene Liste zum Blockieren von AI-Crawlern
      • Konfiguration von robots.txt- und .htaccess-Dateien → bei Anfragen von AI-Crawlern wird eine Fehlerseite zurückgegeben
  • Ergebnisse der Traffic-Analyse
    • Bei Diaspora stammen 70 % des Traffics von AI-Crawlern
      • OpenAI User-Agent: 25 %
      • Amazon: 15 %
      • Anthropic: 4,3 %
    • Der Traffic-Anteil von Google- und Bing-Crawlern liegt bei unter 1 %
  • Probleme mit AI-generierten Bug-Reports
    • Beim Curl-Projekt gab es Probleme mit AI-generierten Bug-Reports
      • Die gemeldeten Bugs waren meist Halluzinationen (hallucinations)
    • CPython, pip, urllib3 und Requests → Aufwand durch AI-generierte Sicherheitsmeldungen
      • Geringe Zuverlässigkeit → müssen trotzdem geprüft werden → zusätzliche Belastung für Maintainer

Fazit

  • AI-Crawler und AI-generierte Bug-Reports belasten die Open-Source-Community stark
  • Open-Source-Projekte haben weniger Ressourcen als kommerzielle Produkte und sind als Community-Projekte für solche Probleme besonders anfällig

1 Kommentare

 
GN⁺ 2025-03-21
Hacker-News-Kommentare
  • Viele Menschen, die große Internet-Infrastrukturen betreiben, machen ähnliche Erfahrungen.

    • Es gibt Berichte über den Missbrauch durch AI-Crawler sowie einen Beitrag, der diese Probleme an einem Ort sammelt und ordnet.
    • Einige Startups haben das Problem gelöst und die Kosten erstattet, aber Facebook antwortet nicht auf E-Mails.
  • Fastly bietet FOSS-Projekten kostenlose Sicherheitsdienste an.

    • In letzter Zeit nehmen die Anfragen im Zusammenhang mit AI-Scraping zu.
  • Es ist überraschend, das eigene Projekt im Vorschaubild zu sehen.

    • Das Projekt wird auf xeiaso.net bereitgestellt, um zu prüfen, wie es in einer realen Umgebung funktioniert.
  • Nicht nur FOSS-Infrastruktur, sondern auch anonymer Internetzugang selbst ist bedroht.

    • Neue Bots können CAPTCHAs lösen und sich wie echte Nutzer verhalten.
    • Es ist möglich, dass Websites eine Verifizierung per Kreditkarte oder über Dienste wie Worldcoin verlangen.
  • Kürzlich wurde eine Forgejo-Instanz angegriffen.

    • Die Festplatte lief mit erzeugten ZIP-Dateien voll, und nachdem die IP-Bereiche von Alibaba Cloud blockiert wurden, ging der Angriff zurück.
    • Es wird empfohlen, die Einstellung DISABLE_DOWNLOAD_SOURCE_ARCHIVES auf true zu setzen.
  • Früher wurde robots.txt geschaffen, um Probleme mit Suchmaschinen zu lösen, aber die neuen Indexer ignorieren sie inzwischen.

    • Es wird argumentiert, dass rechtliche Sanktionen nötig sind.
  • Die Dominanz von Google und Werbung über das Web wird schwächer werden.

    • Durch CAPTCHAs werden Suchmaschinen Websites nicht mehr indexieren können, was den Wert von Suchmaschinen senken wird.
  • Mit LLaMa werden widersprüchliche Beiträge erzeugt, um Informationsverwirrung zu stiften.

  • Auch VideoLAN wird durch Bots von AI-Unternehmen angegriffen; betroffen sind das Forum und GitLab.

    • Die meisten Bots ignorieren robots.txt.
  • Es könnte ein Web entstehen, das von Suchmaschinen nicht indexiert wird.

    • Als Lösung gegen LLM-Scraping wird vorgeschlagen, einen Proof of Work zu verlangen.