Warum sich gute Dienste wegen AI-Scrapern nicht aufrechterhalten lassen

(blog.metabrainz.org)

1 Punkte von GN⁺ 2026-01-14 | 1 Kommentare | Auf WhatsApp teilen

Durch die jüngste unerlaubte Datensammlung von AI-Unternehmen sind die Server von MetaBrainz überlastet
Sie ignorieren die Regeln in robots.txt und crawlen MusicBrainz-Daten Seite für Seite, was eine ineffiziente Methode ist, die Hunderte von Jahren dauern würde
Dasselbe Verhalten greift nun auch auf die ListenBrainz-API über, weshalb zum Schutz des Dienstes Authentifizierungs-Tokens verlangt und Teile der API abgeschaltet wurden
LB Radio ist nur noch für eingeloggte Nutzer verfügbar, und auch bei API-Aufrufen ist ein Authorization-Header erforderlich
Diese Maßnahmen werden als notwendige Reaktion erklärt, um den Zugang für reguläre Nutzer aufrechtzuerhalten

Serverüberlastung durch AI-Scraper

Das MetaBrainz-Team reagiert seit einigen Monaten auf unerlaubtes Crawling zur Datensammlung für das Training von AI-Modellen
- Einige AI-Unternehmen ignorieren grundlegende Internet-Etikette wie robots.txt und saugen Daten ab
- Sie greifen auf MusicBrainz-Daten zu, indem sie jede einzelne Seite anfordern; das ist ineffizienter als ein Gesamtdownload und verursacht Serverlast
Diese Vorgehensweise ist so ineffizient, dass sie Hunderte von Jahren dauern würde, und behindert am Ende den Zugang regulärer Nutzer

Schutzmaßnahmen für die ListenBrainz-API

AI-Scraper versuchen, Daten über mehrere API-Endpunkte von ListenBrainz zu sammeln
Daher wurden die folgenden Änderungen vorgenommen:
- Die API /metadata/lookup (GET und POST) funktioniert nur noch mit einem Authorization-Token
- In der ListenBrainz Labs API wurden die Endpunkte mbid-mapping, mbid-mapping-release und mbid-mapping-explain entfernt
  - Diese API war ursprünglich für Debugging-Zwecke gedacht und soll künftig durch einen Endpunkt für einen neuen Mapper ersetzt werden
- LB Radio ist nur noch für eingeloggte Nutzer verfügbar; bei API-Aufrufen ist ein Authorization-Header erforderlich

Dringende Reaktion zur Sicherung der Dienststabilität

MetaBrainz erklärt, diese Maßnahmen seien eine unvermeidliche Entscheidung, um Überlastung zu verhindern und den regulären Betrieb aufrechtzuerhalten
Das Team entschuldigt sich für die unangekündigten Änderungen und kündigt an, nach Abschluss der Jahresendprojekte die Fehlermeldungen zu verbessern

Reaktionen aus der Community

In den Kommentaren wird über die ineffiziente Vorgehensweise von AI-Scrapern und die Struktur automatisierter Web-Spider diskutiert
- Einige Nutzer weisen auf die „Unfähigkeit der AI-Arbeiter“ hin
- Andere erklären, dass „automatisierte Crawler einfach Links folgen und auf diese Weise Daten einsammeln“

Gesamtbedeutung

Die Maßnahmen von MetaBrainz zeigen beispielhaft, welchen Schaden die Datensammlung durch AI für Open-Data-Projekte anrichten kann
Für die Nachhaltigkeit öffentlicher APIs werden stärkere Authentifizierung und Zugriffsbeschränkungen zunehmend unvermeidlich

1 Kommentare

GN⁺ 2026-01-14

Hacker-News-Kommentare

MetaBrainz ist wirklich eine großartige Datenbank im öffentlichen Interesse
Ich habe früher sogar einen EFF-Blogbeitrag zu diesem Thema geschrieben
Bei öffentlichen Daten wie denen von MetaBrainz ist es okay, wenn AI-Bots sie mitnehmen, aber das Problem ist, dass sie sie wie jetzt auf eine ineffiziente Weise abscrapen
Letztlich ist es ein Problem des Koordinationsversagens. MetaBrainz geht vom guten Willen der Bots aus, aber die Bots gehen davon aus, dass die Website die Daten versteckt
Selbst wenn man sagt: „Hört auf, auf die API einzuhämmern, und ladet stattdessen diese gzippte tar-Datei auf einmal herunter“, glauben sie es nicht
Vielleicht wäre es sogar besser, sie als Torrent-Datei bereitzustellen, damit Bots die Daten besser untereinander teilen
- Ich habe meine Website tvnfo.com wegen AI-Scrapern ebenfalls geschlossen
  Sie war seit 2016 öffentlich, aber der Ressourcenverbrauch war inzwischen zu hoch, deshalb läuft sie jetzt nur noch für Unterstützer
  Für ein Hobbyprojekt mit 60 Dollar im Monat ist der Betrieb kaum zu stemmen. Wenn es später mehr Unterstützung gibt, könnte ich wieder öffnen und eine Bot-Abwehrlösung davorschalten
  Aber ich war überrascht zu sehen, dass nicht nur ich dieses Problem habe. Am Ende scheint sich das Internet immer mehr in Richtung Abschottung zu bewegen
- Ich frage mich, ob es eine Möglichkeit gibt, in robots.txt anzugeben: „Ladet die tar-Datei hier herunter“
  Ich weiß nicht, ob der Standard so etwas vorsieht
- Wenn Bots Torrents verwenden, wäre auch eine Manipulation der Sharing-Statistiken möglich
  Früher habe ich selbst einmal meine Upload-Rate künstlich aufgebläht, um nicht von einem privaten Tracker verbannt zu werden
- Dass Bots Websites als feindliche Gegenüber betrachten, ist ein ernstes Problem
  Den Willen von Website-Betreibern zu ignorieren, ist der falsche Ansatz
- Tatsächlich sind die meisten „AI-Scraper“ einfach nur rekursive Crawler-Skripte
  Es ist keine echte AI, die Seiten liest und Entscheidungen trifft, sondern bloß automatisierter Code, der Links folgt und Dokumente absaugt
AI zerstört das freie Web-Ökosystem
Mein Webhoster hat mein Konto wegen plötzlich explodierenden Bot-Traffics gesperrt
Am Ende bin ich zu einem neuen Hoster umgezogen, aber für Einzelbetreiber gibt es in so einer Lage keine Hoffnung
AI-Unternehmen verfügen über unbegrenzte Ressourcen und interessieren sich nicht für die verursachten Schäden
Zynisch betrachtet könnte das sogar eine absichtliche Strategie sein — kostenlose Websites zu verdrängen, damit Menschen Informationen am Ende nur noch über AI-Modelle beziehen
- AI-Zusammenfassungsdienste nehmen dem unabhängigen Web mehr als die Hälfte seines Traffics weg
  Die Wirtschaftlichkeit des Informationsaustauschs bricht zusammen
  Am Ende monopolisieren wenige Unternehmen den Wert, und später beginnt dann die Enshittification
Ich betreue die PTA-Website der Schule meines Kindes, und ein OpenAI-Bot hat den Veranstaltungskalender wahllos abgescrapet
Es kamen Anfragen für Jahre von 1000 bis 3000
Erst etwa vier Stunden nachdem ich den User-Agent blockiert hatte, hörte es auf
Ich betreibe auf einem e2-micro-VPS von Google Cloud eine statische Website und eine cgit-Instanz
In 160 Tagen bekam ich mehr als 8,5 Millionen Anfragen von OpenAI und Claude
Deshalb habe ich in lighttpd eingestellt, dass bei einem User-Agent mit „claude|openai“ ein 403 zurückgegeben wird, und mit nftables eine Ratenbegrenzung eingerichtet
- Diese Bots gehören noch zu den „gewissenhafteren“
  Das eigentliche Problem ist ein Botnetz mit Residential Proxies. Es tritt auf, als wäre es ein normaler Browser
- OpenAI veröffentlicht eine offizielle Liste seiner Bot-IP-Adressen, Anthropic aber nicht
- Interessanterweise gibt es auf meinem GitHub-Blog überhaupt kein solches Scraping
  Vielleicht blockiert Microsoft das, oder mein Blog ist schlicht auf einem Niveau, das Bots nicht interessiert
Cloudflare bietet inzwischen einen Erkennungsdienst für AI-Scraper an
Erkannte Bots werden auf AI-generierte Seiten in einer Endlosschleife umgeleitet
- Dafür muss allerdings sämtlicher Traffic über Cloudflare laufen
  Letztlich entscheidet damit ein Dritter über den Zugang zu meinen Inhalten, und das fühlt sich unangenehm an
- Cloudflare verursacht bei VPNs und Nutzern seltener Browser oft Zugriffsprobleme
  Ich war damit ebenfalls sehr unzufrieden und habe es am Ende entfernt
- Als „TLS-Hinzufüge- und -Entfernungsdienst“ halte ich es nicht für geeignet
- Als verwandte Idee gibt es das Projekt Poison Fountain
- Wenn Cloudflare genug Websites unter sich vereint, könnte es AI-Unternehmen Gebühren für den Cache-Zugriff berechnen
Auch das SQLite-Team hatte ein ähnliches Problem
Gründer Richard Hipp kritisierte dieses „egoistische Verhalten“ mit den Worten, man könne doch einfach das gesamte Repository spiegeln, statt anderen durch Scraping zu schaden
Siehe dazu den zugehörigen Forenbeitrag
- Jemand hielt dagegen und meinte, „böswillig“ sei dafür eine viel zu überzogene Beschreibung
Mit der Zeit denke ich immer mehr, dass man sämtliches Crawling in gemeinsame Kanäle wie Common Crawl bündeln sollte
So ließe sich die Serverlast senken und zugleich die Offenheit und Scraping-Fähigkeit des Webs erhalten
Man könnte das zum Beispiel standardisieren, indem man unter /well-known/ Links auf Daten-Dumps mit Zeitstempel bereitstellt
- MetaBrainz nutzt so etwas bereits — die komplette DB wird als Tarball angeboten
  Ich habe sie selbst in etwa einer Stunde heruntergeladen und danach alles per lokaler Abfrage gelöst
  Aber die meisten verwenden trotzdem keine Dumps, weil Scraping immer noch einfacher ist
- Ich denke, wir brauchen eine Reform des Urheberrechtssystems
  Wenn Daten nach einer bestimmten Frist an ein „nationales Dataset“ gespendet würden, könnte man sie fürs AI-Training verwenden und die Erlöse an die Rechteinhaber verteilen
  So könnten AI-Entwickler, Rechteinhaber und die Öffentlichkeit gleichermaßen profitieren
- Ich selbst betreibe im Kleinen ebenfalls Scraping mit einem Tampermonkey-Skript
  Mithilfe von AI lasse ich Code erzeugen und sammle automatisch Dinge wie VPS-Preislisten ein
  Früher habe ich sogar alle Schlagzeilen von lowendtalk abgesaugt und zu einem Datensatz für LLM-Analysen gemacht
- Vielleicht wäre auch eine Standarddatei wie /llms.txt eine Lösung, die nur die für LLMs nötigen reinen Textdaten bereitstellt
  URLs, Adressen, Telefonnummern und Ähnliches würden entfernt, während nur minimales Markup wie <item> und <subitem> erhalten bliebe
  Allerdings würden viele Websites wahrscheinlich einfach leere Dateien ablegen, die nur formal dem Schema entsprechen
- Eigentlich ist das kein technisches Problem, sondern ein Problem der Wirtschaftsstruktur
  Großkapital zerstört das Web für kurzfristige Gewinne
  Aber ich glaube trotzdem, dass sich am Ende Anpassung und Gleichgewicht herausbilden werden
Inzwischen sind es nicht nur AI-Scraper, sondern auch Nutzer selbst, die über Zusammenfassungsanfragen indirekt scrapen
Firefox bietet zum Beispiel Zusammenfassungs-Vorschauen an, ohne dass man auf einen Link klicken muss
Zugehöriges Bild
- Diese Funktion erzeugt die Zusammenfassung mit dem Modell SmolLM2-360M, das lokal mit llama.cpp (wllama) läuft
  Letztlich lädt der Browser die Seite direkt und fasst sie zusammen, sodass es aus Sicht der Website wie dieselbe Anfrage aussieht
  Siehe die offizielle Erklärung von Mozilla
- Das Problem besteht aus drei Teilen
  1. unethisches Crawling durch AI-Unternehmen
  2. agentenbasierte Zusammenfassungsanfragen von Nutzern
  3. solche Agenten sind ineffizienter als Menschen und zugleich viel schneller
- Aber die Nutzer wurden nicht irgendwie „trainiert“, sondern verwenden das einfach, weil LLMs wirklich gut funktionieren
Heutige Scraper nutzen Pools von Residential IPs, um der Erkennung zu entgehen
- Ich frage mich, ob ISPs, die solche IP-Pools anbieten, damit nicht ein neues Geschäftsmodell geschaffen haben
- Außerdem gibt es inzwischen viele Bots, die echte Browser starten und deshalb sogar Cloudflare-CAPTCHAs bestehen
  Ich weiß nicht, wie lange Gegenmaßnahmen unter solchen Bedingungen noch wirksam bleiben

Warum sich gute Dienste wegen AI-Scrapern nicht aufrechterhalten lassen

Serverüberlastung durch AI-Scraper

Schutzmaßnahmen für die ListenBrainz-API

Dringende Reaktion zur Sicherung der Dienststabilität

Reaktionen aus der Community

Gesamtbedeutung

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare