1 Punkte von GN⁺ 2026-01-14 | 1 Kommentare | Auf WhatsApp teilen
  • Durch die jüngste unerlaubte Datensammlung von AI-Unternehmen sind die Server von MetaBrainz überlastet
  • Sie ignorieren die Regeln in robots.txt und crawlen MusicBrainz-Daten Seite für Seite, was eine ineffiziente Methode ist, die Hunderte von Jahren dauern würde
  • Dasselbe Verhalten greift nun auch auf die ListenBrainz-API über, weshalb zum Schutz des Dienstes Authentifizierungs-Tokens verlangt und Teile der API abgeschaltet wurden
  • LB Radio ist nur noch für eingeloggte Nutzer verfügbar, und auch bei API-Aufrufen ist ein Authorization-Header erforderlich
  • Diese Maßnahmen werden als notwendige Reaktion erklärt, um den Zugang für reguläre Nutzer aufrechtzuerhalten

Serverüberlastung durch AI-Scraper

  • Das MetaBrainz-Team reagiert seit einigen Monaten auf unerlaubtes Crawling zur Datensammlung für das Training von AI-Modellen
    • Einige AI-Unternehmen ignorieren grundlegende Internet-Etikette wie robots.txt und saugen Daten ab
    • Sie greifen auf MusicBrainz-Daten zu, indem sie jede einzelne Seite anfordern; das ist ineffizienter als ein Gesamtdownload und verursacht Serverlast
  • Diese Vorgehensweise ist so ineffizient, dass sie Hunderte von Jahren dauern würde, und behindert am Ende den Zugang regulärer Nutzer

Schutzmaßnahmen für die ListenBrainz-API

  • AI-Scraper versuchen, Daten über mehrere API-Endpunkte von ListenBrainz zu sammeln
  • Daher wurden die folgenden Änderungen vorgenommen:
    • Die API /metadata/lookup (GET und POST) funktioniert nur noch mit einem Authorization-Token
    • In der ListenBrainz Labs API wurden die Endpunkte mbid-mapping, mbid-mapping-release und mbid-mapping-explain entfernt
      • Diese API war ursprünglich für Debugging-Zwecke gedacht und soll künftig durch einen Endpunkt für einen neuen Mapper ersetzt werden
    • LB Radio ist nur noch für eingeloggte Nutzer verfügbar; bei API-Aufrufen ist ein Authorization-Header erforderlich

Dringende Reaktion zur Sicherung der Dienststabilität

  • MetaBrainz erklärt, diese Maßnahmen seien eine unvermeidliche Entscheidung, um Überlastung zu verhindern und den regulären Betrieb aufrechtzuerhalten
  • Das Team entschuldigt sich für die unangekündigten Änderungen und kündigt an, nach Abschluss der Jahresendprojekte die Fehlermeldungen zu verbessern

Reaktionen aus der Community

  • In den Kommentaren wird über die ineffiziente Vorgehensweise von AI-Scrapern und die Struktur automatisierter Web-Spider diskutiert
    • Einige Nutzer weisen auf die „Unfähigkeit der AI-Arbeiter“ hin
    • Andere erklären, dass „automatisierte Crawler einfach Links folgen und auf diese Weise Daten einsammeln“

Gesamtbedeutung

  • Die Maßnahmen von MetaBrainz zeigen beispielhaft, welchen Schaden die Datensammlung durch AI für Open-Data-Projekte anrichten kann
  • Für die Nachhaltigkeit öffentlicher APIs werden stärkere Authentifizierung und Zugriffsbeschränkungen zunehmend unvermeidlich

1 Kommentare

 
GN⁺ 2026-01-14
Hacker-News-Kommentare
  • MetaBrainz ist wirklich eine großartige Datenbank im öffentlichen Interesse
    Ich habe früher sogar einen EFF-Blogbeitrag zu diesem Thema geschrieben
    Bei öffentlichen Daten wie denen von MetaBrainz ist es okay, wenn AI-Bots sie mitnehmen, aber das Problem ist, dass sie sie wie jetzt auf eine ineffiziente Weise abscrapen
    Letztlich ist es ein Problem des Koordinationsversagens. MetaBrainz geht vom guten Willen der Bots aus, aber die Bots gehen davon aus, dass die Website die Daten versteckt
    Selbst wenn man sagt: „Hört auf, auf die API einzuhämmern, und ladet stattdessen diese gzippte tar-Datei auf einmal herunter“, glauben sie es nicht
    Vielleicht wäre es sogar besser, sie als Torrent-Datei bereitzustellen, damit Bots die Daten besser untereinander teilen

    • Ich habe meine Website tvnfo.com wegen AI-Scrapern ebenfalls geschlossen
      Sie war seit 2016 öffentlich, aber der Ressourcenverbrauch war inzwischen zu hoch, deshalb läuft sie jetzt nur noch für Unterstützer
      Für ein Hobbyprojekt mit 60 Dollar im Monat ist der Betrieb kaum zu stemmen. Wenn es später mehr Unterstützung gibt, könnte ich wieder öffnen und eine Bot-Abwehrlösung davorschalten
      Aber ich war überrascht zu sehen, dass nicht nur ich dieses Problem habe. Am Ende scheint sich das Internet immer mehr in Richtung Abschottung zu bewegen
    • Ich frage mich, ob es eine Möglichkeit gibt, in robots.txt anzugeben: „Ladet die tar-Datei hier herunter“
      Ich weiß nicht, ob der Standard so etwas vorsieht
    • Wenn Bots Torrents verwenden, wäre auch eine Manipulation der Sharing-Statistiken möglich
      Früher habe ich selbst einmal meine Upload-Rate künstlich aufgebläht, um nicht von einem privaten Tracker verbannt zu werden
    • Dass Bots Websites als feindliche Gegenüber betrachten, ist ein ernstes Problem
      Den Willen von Website-Betreibern zu ignorieren, ist der falsche Ansatz
    • Tatsächlich sind die meisten „AI-Scraper“ einfach nur rekursive Crawler-Skripte
      Es ist keine echte AI, die Seiten liest und Entscheidungen trifft, sondern bloß automatisierter Code, der Links folgt und Dokumente absaugt
  • AI zerstört das freie Web-Ökosystem
    Mein Webhoster hat mein Konto wegen plötzlich explodierenden Bot-Traffics gesperrt
    Am Ende bin ich zu einem neuen Hoster umgezogen, aber für Einzelbetreiber gibt es in so einer Lage keine Hoffnung
    AI-Unternehmen verfügen über unbegrenzte Ressourcen und interessieren sich nicht für die verursachten Schäden
    Zynisch betrachtet könnte das sogar eine absichtliche Strategie sein — kostenlose Websites zu verdrängen, damit Menschen Informationen am Ende nur noch über AI-Modelle beziehen

    • AI-Zusammenfassungsdienste nehmen dem unabhängigen Web mehr als die Hälfte seines Traffics weg
      Die Wirtschaftlichkeit des Informationsaustauschs bricht zusammen
      Am Ende monopolisieren wenige Unternehmen den Wert, und später beginnt dann die Enshittification
  • Ich betreue die PTA-Website der Schule meines Kindes, und ein OpenAI-Bot hat den Veranstaltungskalender wahllos abgescrapet
    Es kamen Anfragen für Jahre von 1000 bis 3000
    Erst etwa vier Stunden nachdem ich den User-Agent blockiert hatte, hörte es auf

  • Ich betreibe auf einem e2-micro-VPS von Google Cloud eine statische Website und eine cgit-Instanz
    In 160 Tagen bekam ich mehr als 8,5 Millionen Anfragen von OpenAI und Claude
    Deshalb habe ich in lighttpd eingestellt, dass bei einem User-Agent mit „claude|openai“ ein 403 zurückgegeben wird, und mit nftables eine Ratenbegrenzung eingerichtet

    • Diese Bots gehören noch zu den „gewissenhafteren“
      Das eigentliche Problem ist ein Botnetz mit Residential Proxies. Es tritt auf, als wäre es ein normaler Browser
    • OpenAI veröffentlicht eine offizielle Liste seiner Bot-IP-Adressen, Anthropic aber nicht
    • Interessanterweise gibt es auf meinem GitHub-Blog überhaupt kein solches Scraping
      Vielleicht blockiert Microsoft das, oder mein Blog ist schlicht auf einem Niveau, das Bots nicht interessiert
  • Cloudflare bietet inzwischen einen Erkennungsdienst für AI-Scraper an
    Erkannte Bots werden auf AI-generierte Seiten in einer Endlosschleife umgeleitet

    • Dafür muss allerdings sämtlicher Traffic über Cloudflare laufen
      Letztlich entscheidet damit ein Dritter über den Zugang zu meinen Inhalten, und das fühlt sich unangenehm an
    • Cloudflare verursacht bei VPNs und Nutzern seltener Browser oft Zugriffsprobleme
      Ich war damit ebenfalls sehr unzufrieden und habe es am Ende entfernt
    • Als „TLS-Hinzufüge- und -Entfernungsdienst“ halte ich es nicht für geeignet
    • Als verwandte Idee gibt es das Projekt Poison Fountain
    • Wenn Cloudflare genug Websites unter sich vereint, könnte es AI-Unternehmen Gebühren für den Cache-Zugriff berechnen
  • Auch das SQLite-Team hatte ein ähnliches Problem
    Gründer Richard Hipp kritisierte dieses „egoistische Verhalten“ mit den Worten, man könne doch einfach das gesamte Repository spiegeln, statt anderen durch Scraping zu schaden
    Siehe dazu den zugehörigen Forenbeitrag

    • Jemand hielt dagegen und meinte, „böswillig“ sei dafür eine viel zu überzogene Beschreibung
  • Mit der Zeit denke ich immer mehr, dass man sämtliches Crawling in gemeinsame Kanäle wie Common Crawl bündeln sollte
    So ließe sich die Serverlast senken und zugleich die Offenheit und Scraping-Fähigkeit des Webs erhalten
    Man könnte das zum Beispiel standardisieren, indem man unter /well-known/ Links auf Daten-Dumps mit Zeitstempel bereitstellt

    • MetaBrainz nutzt so etwas bereits — die komplette DB wird als Tarball angeboten
      Ich habe sie selbst in etwa einer Stunde heruntergeladen und danach alles per lokaler Abfrage gelöst
      Aber die meisten verwenden trotzdem keine Dumps, weil Scraping immer noch einfacher ist
    • Ich denke, wir brauchen eine Reform des Urheberrechtssystems
      Wenn Daten nach einer bestimmten Frist an ein „nationales Dataset“ gespendet würden, könnte man sie fürs AI-Training verwenden und die Erlöse an die Rechteinhaber verteilen
      So könnten AI-Entwickler, Rechteinhaber und die Öffentlichkeit gleichermaßen profitieren
    • Ich selbst betreibe im Kleinen ebenfalls Scraping mit einem Tampermonkey-Skript
      Mithilfe von AI lasse ich Code erzeugen und sammle automatisch Dinge wie VPS-Preislisten ein
      Früher habe ich sogar alle Schlagzeilen von lowendtalk abgesaugt und zu einem Datensatz für LLM-Analysen gemacht
    • Vielleicht wäre auch eine Standarddatei wie /llms.txt eine Lösung, die nur die für LLMs nötigen reinen Textdaten bereitstellt
      URLs, Adressen, Telefonnummern und Ähnliches würden entfernt, während nur minimales Markup wie <item> und <subitem> erhalten bliebe
      Allerdings würden viele Websites wahrscheinlich einfach leere Dateien ablegen, die nur formal dem Schema entsprechen
    • Eigentlich ist das kein technisches Problem, sondern ein Problem der Wirtschaftsstruktur
      Großkapital zerstört das Web für kurzfristige Gewinne
      Aber ich glaube trotzdem, dass sich am Ende Anpassung und Gleichgewicht herausbilden werden
  • Inzwischen sind es nicht nur AI-Scraper, sondern auch Nutzer selbst, die über Zusammenfassungsanfragen indirekt scrapen
    Firefox bietet zum Beispiel Zusammenfassungs-Vorschauen an, ohne dass man auf einen Link klicken muss
    Zugehöriges Bild

    • Diese Funktion erzeugt die Zusammenfassung mit dem Modell SmolLM2-360M, das lokal mit llama.cpp (wllama) läuft
      Letztlich lädt der Browser die Seite direkt und fasst sie zusammen, sodass es aus Sicht der Website wie dieselbe Anfrage aussieht
      Siehe die offizielle Erklärung von Mozilla
    • Das Problem besteht aus drei Teilen
      1. unethisches Crawling durch AI-Unternehmen
      2. agentenbasierte Zusammenfassungsanfragen von Nutzern
      3. solche Agenten sind ineffizienter als Menschen und zugleich viel schneller
    • Aber die Nutzer wurden nicht irgendwie „trainiert“, sondern verwenden das einfach, weil LLMs wirklich gut funktionieren
  • Heutige Scraper nutzen Pools von Residential IPs, um der Erkennung zu entgehen

    • Ich frage mich, ob ISPs, die solche IP-Pools anbieten, damit nicht ein neues Geschäftsmodell geschaffen haben
    • Außerdem gibt es inzwischen viele Bots, die echte Browser starten und deshalb sogar Cloudflare-CAPTCHAs bestehen
      Ich weiß nicht, wie lange Gegenmaßnahmen unter solchen Bedingungen noch wirksam bleiben