Vollständiges Backup von Spotify veröffentlicht
(annas-archive.li)- Anna’s Archive hat sämtliche Metadaten und Musikdateien von Spotify gesichert und als Torrent-Archiv im Umfang von rund 300 TB veröffentlicht
- Enthält die Metadaten von rund 256 Millionen Titeln und 86 Millionen Musikdateien und deckt damit 99,6 % des Hörvolumens ab
- Beliebte Titel werden in der Originalqualität OGG Vorbis 160kbit/s, weniger populäre Titel in OGG Opus 75kbit/s gespeichert, um eine effiziente Langzeitarchivierung zu erreichen
- Die Daten werden in Form von SQLite-Datenbanken bereitgestellt und enthalten auch detaillierte Strukturen wie Playlists, Audio-Features und Album-Artwork
- Das erste vollständig offene Musikarchiv der Welt zur dauerhaften Bewahrung des musikalischen Erbes der Menschheit vor Naturkatastrophen, Krieg, Budgetkürzungen und Ähnlichem
Projektüberblick
- Anna’s Archive hat die vollständigen Musik-Metadaten und Dateien von Spotify in großem Maßstab gescraped und gesichert
- Gesamtumfang rund 300 TB, verteilt als nach Popularität gruppierte Torrents
- Enthält 256 Millionen Tracks und 186 Millionen eindeutige ISRC-Codes
- Das Archiv ist ein vollständig offenes, von jedermann spiegelbares Musikarchiv und umfasst 86 Millionen Musikdateien
- Das entspricht rund 99,6 % aller Spotify-Hörvorgänge
- Anna’s Archive konzentrierte sich bisher auf die Bewahrung textbasierter Inhalte (Bücher, wissenschaftliche Arbeiten usw.), erweitert dies nun aber auf das nichttextuelle Medium Musik
- Nach der Entdeckung einer strukturierten Methode zum Scraping von Spotify wurde der Aufbau eines auf Musikbewahrung fokussierten Archivs vorangetrieben
Grenzen bisheriger Musikarchivierung
- Bisherige Versuche zur Musikarchivierung hatten drei zentrale Probleme
- Fokus auf populäre Künstler, wodurch Nischenmusik vernachlässigt wird
- Fixierung auf verlustfreie Audioqualität, was zu ineffizientem Speicherverbrauch führt
- Fehlende Torrent-Listen, die die Gesamtheit der Musik sinnvoll repräsentieren
- Dieses Spotify-Backup gleicht diese Schwächen aus und schafft ein auf Bewahrung ausgelegtes Musikarchiv
Datenaufbau und Statistiken
- Von den rund 256 Millionen Tracks auf Spotify wurden 99,9 % der Metadaten erfasst
- Priorisierung anhand des Popularitätswerts (
popularity)- Tracks mit
popularity>0werden in der Originalqualität OGG Vorbis 160kbit/s gespeichert - Tracks mit
popularity=0werden in OGG Opus 75kbit/s neu kodiert
- Tracks mit
- Enthält den Großteil der vor Juli 2025 veröffentlichten Titel
- Die gesamten Streaming-Zahlen der Top 3 Tracks (Lady Gaga, Billie Eilish, Bad Bunny) sind höher als die Summe der unteren 20 bis 100 Millionen Tracks
- Mehr als 70 % aller Titel sind wenig populär und wurden weniger als 1000 Mal gehört
Struktur der Torrent-Verteilung
- Die Daten bestehen aus zwei Teilen: Metadaten und Musikdateien
- Metadaten: als SQLite-DB, etwa 200 GB (komprimiert)
- Audio-Analysedaten: 4 TB (komprimiert)
- Die Musikdateien werden im Format Anna’s Archive Containers (AAC) verteilt
- Nach dem Entfernen fehlerhafter OGG-Pakete von Spotify wurden Metadaten wie Titel, ISRC, Album-Artwork und ReplayGain-Informationen eingebettet
- In einigen Dateien gibt es Fehler beim Tag
REPLAYGAIN_ALBUM_PEAK
Erkundung und Analyse der Daten
- Popularitätsverteilung: Der Großteil der Hörvorgänge entfällt auf Titel im Bereich
popularity 50~80 - Tracklänge: Spitzen bei 2-, 3- und 4-Minuten-Intervallen
- Enthält Statistiken zu Explicit-Inhalten und Tracks mit doppelten ISRCs
- Genreverteilung der Künstler: Visualisierungen nach Detailgenres und gruppierten Genres
- Analyse der Album-Veröffentlichungsjahre: starker jüngerer Anstieg automatisch erzeugter und KI-generierter Musik
- Analyse der Audio-Features: durchschnittliches BPM von etwa 120 sowie eine Korrelation zwischen loudness und energy
Detaillierte Metadatenstruktur
- Wichtige SQLite-Dateien
spotify_clean.sqlite3: nahezu vollständige API-Replik von Künstlern, Alben und Tracksspotify_clean_audio_features.sqlite3: speichert Audio-Features pro Track wie BPM, key, energy, valence usw.spotify_clean_playlists.sqlite3: enthält 6,6 Millionen Playlists und 1,7 Milliarden Track-Einträgespotify_clean_track_files.sqlite3: Zuordnung zwischen Tracks und realen Dateien, inklusive Dateistatus, SHA256-Hash und Lizenzgeberinformationen
- Zusätzliche JSONL-Dateien enthalten Daten zu Hörbüchern, Podcasts, Shows und Episoden
- In
spotify_2025_07_coverart.tar.torrentsind Album-Artwork-Bilddateien gespeichert
Mitmachen und Bitte um Erhalt
- Anna’s Archive bittet um Spenden und Beteiligung am Torrent-Seeding
- Schon kleines Seeding kann zur langfristigen Bewahrung beitragen
- Ziel ist die dauerhafte Bewahrung des musikalischen Erbes der Menschheit vor Naturkatastrophen, Krieg, Budgetkürzungen und Ähnlichem
Zusätzliche Funktionen und Experimente
- Eine „True Shuffle“-Funktion über alle Spotify-Tracks hinweg wäre umsetzbar
- Über SQLite-Abfragen ließen sich wirklich zufällige Wiedergabelisten erzeugen
- Bei ausreichend Interesse könnte künftig auch eine Funktion zum Download einzelner Dateien ergänzt werden
Zusammenfassung
- Anna’s Archive hat nahezu die gesamten Spotify-Daten gesichert und damit die größte offene Musik-Metadatenbank der Welt aufgebaut
- Als vollständig offenes Bewahrungsarchiv kann es von jedermann gespiegelt werden
- Das Projekt verbindet Transparenz der Datenstruktur, technische Präzision und langfristige Erhaltbarkeit
- Es schafft eine Grundlage für die dauerhafte Bewahrung kultureller Aufzeichnungen jenseits der Abhängigkeit von kommerziellen Plattformen der Musikindustrie
7 Kommentare
Ob Spotify wohl sauer wird?
https://de.news.hada.io/topic?id=26059
In den letzten Nachrichten hieß es, dass dagegen geklagt wurde.
Irgendwo zwischen Robin Hood und Gesetzlosigkeit ...
Das Urheberrecht ist ...
Jetzt können Musikgenerierungsmodelle, die bisher wie Suno nur im kommerziellen Bereich geblieben sind, wohl auch als Open-Weight- und Open-Source-Modelle trainiert werden.
Unglaublich. 😱😱😱😱
Hacker-News-Kommentare
Wirklich erstaunlich
Ich wusste nicht, dass Spotifys DRM geknackt wurde und Downloads in diesem Ausmaß dadurch möglich geworden sind
Für normale Nutzer scheint das nicht besonders nützlich zu sein, aber für Forschende in den Bereichen Musikklassifikation oder generative Musik könnte es eine enorme Chance sein
Allerdings dürfte es schwer sein offenzulegen, mit welchem Datensatz trainiert wurde
Ich frage mich, ob das auf Wunsch von AI-Forschenden geschehen ist oder einfach zu Archivierungszwecken
Geräte oder Apps, die automatisch illegale TV- und Film-Streams finden, sind bereits weit verbreitet
Technisch ist das völlig machbar, und sogar Nicht-Fachleute in meiner Familie nutzen so etwas
Das Team von Anna’s Archive ist allerdings eine Gruppe mit ideologischer Motivation, also nicht für AI-Unternehmen unterwegs
Wenn ich Musik brauchte, habe ich sie mit ytldp von YouTube geholt, aber inzwischen mache ich das fast gar nicht mehr
Ich nutze YouTube häufiger für Nachrichten oder als Hintergrundberieselung als für Musik
Es ist etwas traurig, dass Google das kontrolliert
Der richtige Weg wäre, Unternehmen wie Spotify zu regulieren und eine faire Vergütung für Musiker sicherzustellen
Solche Datenfreigaben fördern eher die Erzeugung von AI-Müll
Wenn man das Ausmaß bedenkt, ist es wirklich gigantisch
Das frühere What.CD wurde als „Bibliothek von Alexandria der Musikwelt“ bezeichnet, und selbst dort ging es nur um einige Millionen Torrents
Annas Spotify-Rip enthält dagegen 186 Millionen eindeutige Einträge
Sicherlich wird am Ende auch Bot-Musik und Ähnliches darunter sein, aber allein die Größenordnung ist überwältigend
Dort gab es alles von frühen EPs ländlicher Bands bis zu seltenen Veröffentlichungen, die wegen unklarer Rechte nicht ins Streaming kommen konnten
Die Freude am Entdecken, die durch Empfehlungen, Reviews und handgemachte Playlists der Community entstand, kann kein Algorithmus ersetzen
Dadurch habe ich viele Künstler entdeckt, die ich bis heute mag
Das war eine Community, die Musik wirklich liebte, und sogar Trent Reznor hat sie öffentlich gelobt
Schade, dass solche aufrichtigen Musik-Communities heute verschwunden sind
Spotify kann nur Stücke mit Streaming-Lizenz enthalten, und das setzt Grenzen
Bis zu einem vollständigen Musikarchiv ist es also noch ein weiter Weg
Ich finde, solche Projekte sind unbedingt nötig
Orte wie Anna’s Archive sind genauso wichtig wie das Internet Archive
Im Kern geht es um die Bewahrung des digitalen Erbes von Websites, Spielen, Büchern und mehr
Mit dem Generationswechsel gibt es viele Menschen, die die Kreativität des früheren Webs nie erlebt haben
Ich glaube, die heutige Generation ist diejenige, die die Chance zur Bewahrung all dessen hat
In einer Zeit, in der Musik und Filme nach und nach von Plattformen verschwinden, ist solche Archivierung wirklich wichtig
Ich habe selbst drei ausgegraute Playlists — sogar die Titel sind verschwunden, sodass ich nicht mehr weiß, was ich gehört habe
Deshalb kaufe ich Musik, die ich dauerhaft besitzen will, auf CD, und Dance-Musik lasse ich einfach vorbeiziehen
Solche Arbeit ist wirklich wichtig
Schon wenn man sich Artikel von vor 10 Jahren ansieht, führen die meisten externen Links nur noch zu 404-Seiten
Man kann natürlich fragen, ob alles bewahrt werden muss, aber wenn es möglich ist, sollte es bewahrt werden
Erstaunlich
Schon die Tatsache, dass Spotify im großen Stil gescrapet wurde, ist faszinierend
Die genaue Methode werden sie wohl nicht offenlegen, aber es wäre sicher interessant zu lesen
Man sollte es nur nicht missbrauchen und eher auf dem Niveau eines Hobbyprojekts damit spielen
Mein Musikserver spielt Spotify-Tracks auf diese Weise ebenfalls ab
Code-Link
Persönlich gefällt mir das nicht besonders
Es gibt bereits Quellen mit besserer Audioqualität, und solche massenhaften Rips erhöhen nur das rechtliche Risiko
Ich sorge mich besonders darum, ob dadurch sogar E-Book-Bibliotheken in Gefahr geraten
Selbst in der Mitteilung hieß es, „Musik ist bereits ausreichend archiviert“, daher hätte man das als separates Projekt abspalten sollen
Deutsche Internetanbieter (SIM.de/Drillisch) haben Anna’s Archive offenbar blockiert
Wenn ich das VPN ausschalte, komme ich nicht hinein, und erst mit Mullvad VPN lädt die Seite
Mir war nicht klar, dass es in Deutschland solche Zensur gibt
Wenn man nach
alextud popcorntimesucht, erscheint das Ergebnis zu PopcornTimeTV GitHub nichtBei Google, Kagi, DuckDuckGo und Bing ist es überall gleich
Forks tauchen auf, aber das Original nicht, daher vermute ich Suchfilterung
Früher gab es Musik, die auf mehreren Plattformen gleichzeitig gelöscht wurde
Ich frage mich, ob man sie in solchen Archiven wiederfinden kann
Heutzutage entsteht täglich eine moderne Form verlorener Medien
Manche Publisher versuchen absichtlich, jede Kopie verschwinden zu lassen, und ich halte das für geistig erschreckendes Verhalten
Die vollständige Zerstörung eines Werks kann aus keinem Grund gerechtfertigt sein
Wenn es nur noch auf einem Band in einem Stahltresor existiert, ist das praktisch dasselbe, als würde es nicht existieren
Technisch wäre es auch möglich, einen Streaming-Server mit Torrents als Backend zu bauen
Dabei würde bei jeder Anfrage nur der jeweils benötigte Teil heruntergeladen
Link zur zugehörigen Arbeit
Spotify ist noch günstig genug, dass ich mich nicht darum kümmere, aber das Problem der Künstlervergütung bleibt bestehen
Ich hoffe, dass sich irgendwann ein torrentbasierter selbstgehosteter Musikserver leicht aufsetzen lässt