Warum sich gute Dienste wegen AI-Scrapern nicht aufrechterhalten lassen
(blog.metabrainz.org)- Durch die jüngste unerlaubte Datensammlung von AI-Unternehmen sind die Server von MetaBrainz überlastet
- Sie ignorieren die Regeln in
robots.txtund crawlen MusicBrainz-Daten Seite für Seite, was eine ineffiziente Methode ist, die Hunderte von Jahren dauern würde - Dasselbe Verhalten greift nun auch auf die ListenBrainz-API über, weshalb zum Schutz des Dienstes Authentifizierungs-Tokens verlangt und Teile der API abgeschaltet wurden
- LB Radio ist nur noch für eingeloggte Nutzer verfügbar, und auch bei API-Aufrufen ist ein
Authorization-Header erforderlich - Diese Maßnahmen werden als notwendige Reaktion erklärt, um den Zugang für reguläre Nutzer aufrechtzuerhalten
Serverüberlastung durch AI-Scraper
- Das MetaBrainz-Team reagiert seit einigen Monaten auf unerlaubtes Crawling zur Datensammlung für das Training von AI-Modellen
- Einige AI-Unternehmen ignorieren grundlegende Internet-Etikette wie
robots.txtund saugen Daten ab - Sie greifen auf MusicBrainz-Daten zu, indem sie jede einzelne Seite anfordern; das ist ineffizienter als ein Gesamtdownload und verursacht Serverlast
- Einige AI-Unternehmen ignorieren grundlegende Internet-Etikette wie
- Diese Vorgehensweise ist so ineffizient, dass sie Hunderte von Jahren dauern würde, und behindert am Ende den Zugang regulärer Nutzer
Schutzmaßnahmen für die ListenBrainz-API
- AI-Scraper versuchen, Daten über mehrere API-Endpunkte von ListenBrainz zu sammeln
- Daher wurden die folgenden Änderungen vorgenommen:
- Die API
/metadata/lookup(GET und POST) funktioniert nur noch mit einemAuthorization-Token - In der ListenBrainz Labs API wurden die Endpunkte
mbid-mapping,mbid-mapping-releaseundmbid-mapping-explainentfernt- Diese API war ursprünglich für Debugging-Zwecke gedacht und soll künftig durch einen Endpunkt für einen neuen Mapper ersetzt werden
- LB Radio ist nur noch für eingeloggte Nutzer verfügbar; bei API-Aufrufen ist ein
Authorization-Header erforderlich
- Die API
Dringende Reaktion zur Sicherung der Dienststabilität
- MetaBrainz erklärt, diese Maßnahmen seien eine unvermeidliche Entscheidung, um Überlastung zu verhindern und den regulären Betrieb aufrechtzuerhalten
- Das Team entschuldigt sich für die unangekündigten Änderungen und kündigt an, nach Abschluss der Jahresendprojekte die Fehlermeldungen zu verbessern
Reaktionen aus der Community
- In den Kommentaren wird über die ineffiziente Vorgehensweise von AI-Scrapern und die Struktur automatisierter Web-Spider diskutiert
- Einige Nutzer weisen auf die „Unfähigkeit der AI-Arbeiter“ hin
- Andere erklären, dass „automatisierte Crawler einfach Links folgen und auf diese Weise Daten einsammeln“
Gesamtbedeutung
- Die Maßnahmen von MetaBrainz zeigen beispielhaft, welchen Schaden die Datensammlung durch AI für Open-Data-Projekte anrichten kann
- Für die Nachhaltigkeit öffentlicher APIs werden stärkere Authentifizierung und Zugriffsbeschränkungen zunehmend unvermeidlich
1 Kommentare
Hacker-News-Kommentare
MetaBrainz ist wirklich eine großartige Datenbank im öffentlichen Interesse
Ich habe früher sogar einen EFF-Blogbeitrag zu diesem Thema geschrieben
Bei öffentlichen Daten wie denen von MetaBrainz ist es okay, wenn AI-Bots sie mitnehmen, aber das Problem ist, dass sie sie wie jetzt auf eine ineffiziente Weise abscrapen
Letztlich ist es ein Problem des Koordinationsversagens. MetaBrainz geht vom guten Willen der Bots aus, aber die Bots gehen davon aus, dass die Website die Daten versteckt
Selbst wenn man sagt: „Hört auf, auf die API einzuhämmern, und ladet stattdessen diese gzippte tar-Datei auf einmal herunter“, glauben sie es nicht
Vielleicht wäre es sogar besser, sie als Torrent-Datei bereitzustellen, damit Bots die Daten besser untereinander teilen
Sie war seit 2016 öffentlich, aber der Ressourcenverbrauch war inzwischen zu hoch, deshalb läuft sie jetzt nur noch für Unterstützer
Für ein Hobbyprojekt mit 60 Dollar im Monat ist der Betrieb kaum zu stemmen. Wenn es später mehr Unterstützung gibt, könnte ich wieder öffnen und eine Bot-Abwehrlösung davorschalten
Aber ich war überrascht zu sehen, dass nicht nur ich dieses Problem habe. Am Ende scheint sich das Internet immer mehr in Richtung Abschottung zu bewegen
robots.txtanzugeben: „Ladet die tar-Datei hier herunter“Ich weiß nicht, ob der Standard so etwas vorsieht
Früher habe ich selbst einmal meine Upload-Rate künstlich aufgebläht, um nicht von einem privaten Tracker verbannt zu werden
Den Willen von Website-Betreibern zu ignorieren, ist der falsche Ansatz
Es ist keine echte AI, die Seiten liest und Entscheidungen trifft, sondern bloß automatisierter Code, der Links folgt und Dokumente absaugt
AI zerstört das freie Web-Ökosystem
Mein Webhoster hat mein Konto wegen plötzlich explodierenden Bot-Traffics gesperrt
Am Ende bin ich zu einem neuen Hoster umgezogen, aber für Einzelbetreiber gibt es in so einer Lage keine Hoffnung
AI-Unternehmen verfügen über unbegrenzte Ressourcen und interessieren sich nicht für die verursachten Schäden
Zynisch betrachtet könnte das sogar eine absichtliche Strategie sein — kostenlose Websites zu verdrängen, damit Menschen Informationen am Ende nur noch über AI-Modelle beziehen
Die Wirtschaftlichkeit des Informationsaustauschs bricht zusammen
Am Ende monopolisieren wenige Unternehmen den Wert, und später beginnt dann die Enshittification
Ich betreue die PTA-Website der Schule meines Kindes, und ein OpenAI-Bot hat den Veranstaltungskalender wahllos abgescrapet
Es kamen Anfragen für Jahre von 1000 bis 3000
Erst etwa vier Stunden nachdem ich den User-Agent blockiert hatte, hörte es auf
Ich betreibe auf einem e2-micro-VPS von Google Cloud eine statische Website und eine cgit-Instanz
In 160 Tagen bekam ich mehr als 8,5 Millionen Anfragen von OpenAI und Claude
Deshalb habe ich in lighttpd eingestellt, dass bei einem User-Agent mit „claude|openai“ ein 403 zurückgegeben wird, und mit nftables eine Ratenbegrenzung eingerichtet
Das eigentliche Problem ist ein Botnetz mit Residential Proxies. Es tritt auf, als wäre es ein normaler Browser
Vielleicht blockiert Microsoft das, oder mein Blog ist schlicht auf einem Niveau, das Bots nicht interessiert
Cloudflare bietet inzwischen einen Erkennungsdienst für AI-Scraper an
Erkannte Bots werden auf AI-generierte Seiten in einer Endlosschleife umgeleitet
Letztlich entscheidet damit ein Dritter über den Zugang zu meinen Inhalten, und das fühlt sich unangenehm an
Ich war damit ebenfalls sehr unzufrieden und habe es am Ende entfernt
Auch das SQLite-Team hatte ein ähnliches Problem
Gründer Richard Hipp kritisierte dieses „egoistische Verhalten“ mit den Worten, man könne doch einfach das gesamte Repository spiegeln, statt anderen durch Scraping zu schaden
Siehe dazu den zugehörigen Forenbeitrag
Mit der Zeit denke ich immer mehr, dass man sämtliches Crawling in gemeinsame Kanäle wie Common Crawl bündeln sollte
So ließe sich die Serverlast senken und zugleich die Offenheit und Scraping-Fähigkeit des Webs erhalten
Man könnte das zum Beispiel standardisieren, indem man unter
/well-known/Links auf Daten-Dumps mit Zeitstempel bereitstelltIch habe sie selbst in etwa einer Stunde heruntergeladen und danach alles per lokaler Abfrage gelöst
Aber die meisten verwenden trotzdem keine Dumps, weil Scraping immer noch einfacher ist
Wenn Daten nach einer bestimmten Frist an ein „nationales Dataset“ gespendet würden, könnte man sie fürs AI-Training verwenden und die Erlöse an die Rechteinhaber verteilen
So könnten AI-Entwickler, Rechteinhaber und die Öffentlichkeit gleichermaßen profitieren
Mithilfe von AI lasse ich Code erzeugen und sammle automatisch Dinge wie VPS-Preislisten ein
Früher habe ich sogar alle Schlagzeilen von lowendtalk abgesaugt und zu einem Datensatz für LLM-Analysen gemacht
/llms.txteine Lösung, die nur die für LLMs nötigen reinen Textdaten bereitstelltURLs, Adressen, Telefonnummern und Ähnliches würden entfernt, während nur minimales Markup wie
<item>und<subitem>erhalten bliebeAllerdings würden viele Websites wahrscheinlich einfach leere Dateien ablegen, die nur formal dem Schema entsprechen
Großkapital zerstört das Web für kurzfristige Gewinne
Aber ich glaube trotzdem, dass sich am Ende Anpassung und Gleichgewicht herausbilden werden
Inzwischen sind es nicht nur AI-Scraper, sondern auch Nutzer selbst, die über Zusammenfassungsanfragen indirekt scrapen
Firefox bietet zum Beispiel Zusammenfassungs-Vorschauen an, ohne dass man auf einen Link klicken muss
Zugehöriges Bild
Letztlich lädt der Browser die Seite direkt und fasst sie zusammen, sodass es aus Sicht der Website wie dieselbe Anfrage aussieht
Siehe die offizielle Erklärung von Mozilla
Heutige Scraper nutzen Pools von Residential IPs, um der Erkennung zu entgehen
Ich weiß nicht, wie lange Gegenmaßnahmen unter solchen Bedingungen noch wirksam bleiben