- Durch die jüngste unerlaubte Datensammlung von AI-Unternehmen sind die Server von MetaBrainz überlastet
- Sie ignorieren die Regeln in
robots.txt und crawlen MusicBrainz-Daten Seite für Seite, was eine ineffiziente Methode ist, die Hunderte von Jahren dauern würde
- Dasselbe Verhalten greift nun auch auf die ListenBrainz-API über, weshalb zum Schutz des Dienstes Authentifizierungs-Tokens verlangt und Teile der API abgeschaltet wurden
- LB Radio ist nur noch für eingeloggte Nutzer verfügbar, und auch bei API-Aufrufen ist ein
Authorization-Header erforderlich
- Diese Maßnahmen werden als notwendige Reaktion erklärt, um den Zugang für reguläre Nutzer aufrechtzuerhalten
Serverüberlastung durch AI-Scraper
- Das MetaBrainz-Team reagiert seit einigen Monaten auf unerlaubtes Crawling zur Datensammlung für das Training von AI-Modellen
- Einige AI-Unternehmen ignorieren grundlegende Internet-Etikette wie
robots.txt und saugen Daten ab
- Sie greifen auf MusicBrainz-Daten zu, indem sie jede einzelne Seite anfordern; das ist ineffizienter als ein Gesamtdownload und verursacht Serverlast
- Diese Vorgehensweise ist so ineffizient, dass sie Hunderte von Jahren dauern würde, und behindert am Ende den Zugang regulärer Nutzer
Schutzmaßnahmen für die ListenBrainz-API
- AI-Scraper versuchen, Daten über mehrere API-Endpunkte von ListenBrainz zu sammeln
- Daher wurden die folgenden Änderungen vorgenommen:
- Die API
/metadata/lookup (GET und POST) funktioniert nur noch mit einem Authorization-Token
- In der ListenBrainz Labs API wurden die Endpunkte
mbid-mapping, mbid-mapping-release und mbid-mapping-explain entfernt
- Diese API war ursprünglich für Debugging-Zwecke gedacht und soll künftig durch einen Endpunkt für einen neuen Mapper ersetzt werden
- LB Radio ist nur noch für eingeloggte Nutzer verfügbar; bei API-Aufrufen ist ein
Authorization-Header erforderlich
Dringende Reaktion zur Sicherung der Dienststabilität
- MetaBrainz erklärt, diese Maßnahmen seien eine unvermeidliche Entscheidung, um Überlastung zu verhindern und den regulären Betrieb aufrechtzuerhalten
- Das Team entschuldigt sich für die unangekündigten Änderungen und kündigt an, nach Abschluss der Jahresendprojekte die Fehlermeldungen zu verbessern
Reaktionen aus der Community
- In den Kommentaren wird über die ineffiziente Vorgehensweise von AI-Scrapern und die Struktur automatisierter Web-Spider diskutiert
- Einige Nutzer weisen auf die „Unfähigkeit der AI-Arbeiter“ hin
- Andere erklären, dass „automatisierte Crawler einfach Links folgen und auf diese Weise Daten einsammeln“
Gesamtbedeutung
- Die Maßnahmen von MetaBrainz zeigen beispielhaft, welchen Schaden die Datensammlung durch AI für Open-Data-Projekte anrichten kann
- Für die Nachhaltigkeit öffentlicher APIs werden stärkere Authentifizierung und Zugriffsbeschränkungen zunehmend unvermeidlich
Noch keine Kommentare.