1 Punkte von GN⁺ 2026-01-14 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Durch die jüngste unerlaubte Datensammlung von AI-Unternehmen sind die Server von MetaBrainz überlastet
  • Sie ignorieren die Regeln in robots.txt und crawlen MusicBrainz-Daten Seite für Seite, was eine ineffiziente Methode ist, die Hunderte von Jahren dauern würde
  • Dasselbe Verhalten greift nun auch auf die ListenBrainz-API über, weshalb zum Schutz des Dienstes Authentifizierungs-Tokens verlangt und Teile der API abgeschaltet wurden
  • LB Radio ist nur noch für eingeloggte Nutzer verfügbar, und auch bei API-Aufrufen ist ein Authorization-Header erforderlich
  • Diese Maßnahmen werden als notwendige Reaktion erklärt, um den Zugang für reguläre Nutzer aufrechtzuerhalten

Serverüberlastung durch AI-Scraper

  • Das MetaBrainz-Team reagiert seit einigen Monaten auf unerlaubtes Crawling zur Datensammlung für das Training von AI-Modellen
    • Einige AI-Unternehmen ignorieren grundlegende Internet-Etikette wie robots.txt und saugen Daten ab
    • Sie greifen auf MusicBrainz-Daten zu, indem sie jede einzelne Seite anfordern; das ist ineffizienter als ein Gesamtdownload und verursacht Serverlast
  • Diese Vorgehensweise ist so ineffizient, dass sie Hunderte von Jahren dauern würde, und behindert am Ende den Zugang regulärer Nutzer

Schutzmaßnahmen für die ListenBrainz-API

  • AI-Scraper versuchen, Daten über mehrere API-Endpunkte von ListenBrainz zu sammeln
  • Daher wurden die folgenden Änderungen vorgenommen:
    • Die API /metadata/lookup (GET und POST) funktioniert nur noch mit einem Authorization-Token
    • In der ListenBrainz Labs API wurden die Endpunkte mbid-mapping, mbid-mapping-release und mbid-mapping-explain entfernt
      • Diese API war ursprünglich für Debugging-Zwecke gedacht und soll künftig durch einen Endpunkt für einen neuen Mapper ersetzt werden
    • LB Radio ist nur noch für eingeloggte Nutzer verfügbar; bei API-Aufrufen ist ein Authorization-Header erforderlich

Dringende Reaktion zur Sicherung der Dienststabilität

  • MetaBrainz erklärt, diese Maßnahmen seien eine unvermeidliche Entscheidung, um Überlastung zu verhindern und den regulären Betrieb aufrechtzuerhalten
  • Das Team entschuldigt sich für die unangekündigten Änderungen und kündigt an, nach Abschluss der Jahresendprojekte die Fehlermeldungen zu verbessern

Reaktionen aus der Community

  • In den Kommentaren wird über die ineffiziente Vorgehensweise von AI-Scrapern und die Struktur automatisierter Web-Spider diskutiert
    • Einige Nutzer weisen auf die „Unfähigkeit der AI-Arbeiter“ hin
    • Andere erklären, dass „automatisierte Crawler einfach Links folgen und auf diese Weise Daten einsammeln“

Gesamtbedeutung

  • Die Maßnahmen von MetaBrainz zeigen beispielhaft, welchen Schaden die Datensammlung durch AI für Open-Data-Projekte anrichten kann
  • Für die Nachhaltigkeit öffentlicher APIs werden stärkere Authentifizierung und Zugriffsbeschränkungen zunehmend unvermeidlich

Noch keine Kommentare.

Noch keine Kommentare.