- Anna’s Archive hat sämtliche Metadaten und Musikdateien von Spotify gesichert und als Torrent-Archiv im Umfang von rund 300 TB veröffentlicht
- Enthält die Metadaten von rund 256 Millionen Titeln und 86 Millionen Musikdateien und deckt damit 99,6 % des Hörvolumens ab
- Beliebte Titel werden in der Originalqualität OGG Vorbis 160kbit/s, weniger populäre Titel in OGG Opus 75kbit/s gespeichert, um eine effiziente Langzeitarchivierung zu erreichen
- Die Daten werden in Form von SQLite-Datenbanken bereitgestellt und enthalten auch detaillierte Strukturen wie Playlists, Audio-Features und Album-Artwork
- Das erste vollständig offene Musikarchiv der Welt zur dauerhaften Bewahrung des musikalischen Erbes der Menschheit vor Naturkatastrophen, Krieg, Budgetkürzungen und Ähnlichem
Projektüberblick
- Anna’s Archive hat die vollständigen Musik-Metadaten und Dateien von Spotify in großem Maßstab gescraped und gesichert
- Gesamtumfang rund 300 TB, verteilt als nach Popularität gruppierte Torrents
- Enthält 256 Millionen Tracks und 186 Millionen eindeutige ISRC-Codes
- Das Archiv ist ein vollständig offenes, von jedermann spiegelbares Musikarchiv und umfasst 86 Millionen Musikdateien
- Das entspricht rund 99,6 % aller Spotify-Hörvorgänge
- Anna’s Archive konzentrierte sich bisher auf die Bewahrung textbasierter Inhalte (Bücher, wissenschaftliche Arbeiten usw.), erweitert dies nun aber auf das nichttextuelle Medium Musik
- Nach der Entdeckung einer strukturierten Methode zum Scraping von Spotify wurde der Aufbau eines auf Musikbewahrung fokussierten Archivs vorangetrieben
Grenzen bisheriger Musikarchivierung
- Bisherige Versuche zur Musikarchivierung hatten drei zentrale Probleme
- Fokus auf populäre Künstler, wodurch Nischenmusik vernachlässigt wird
- Fixierung auf verlustfreie Audioqualität, was zu ineffizientem Speicherverbrauch führt
- Fehlende Torrent-Listen, die die Gesamtheit der Musik sinnvoll repräsentieren
- Dieses Spotify-Backup gleicht diese Schwächen aus und schafft ein auf Bewahrung ausgelegtes Musikarchiv
Datenaufbau und Statistiken
- Von den rund 256 Millionen Tracks auf Spotify wurden 99,9 % der Metadaten erfasst
- Priorisierung anhand des Popularitätswerts (
popularity)
- Tracks mit
popularity>0 werden in der Originalqualität OGG Vorbis 160kbit/s gespeichert
- Tracks mit
popularity=0 werden in OGG Opus 75kbit/s neu kodiert
- Enthält den Großteil der vor Juli 2025 veröffentlichten Titel
- Die gesamten Streaming-Zahlen der Top 3 Tracks (Lady Gaga, Billie Eilish, Bad Bunny) sind höher als die Summe der unteren 20 bis 100 Millionen Tracks
- Mehr als 70 % aller Titel sind wenig populär und wurden weniger als 1000 Mal gehört
Struktur der Torrent-Verteilung
- Die Daten bestehen aus zwei Teilen: Metadaten und Musikdateien
- Metadaten: als SQLite-DB, etwa 200 GB (komprimiert)
- Audio-Analysedaten: 4 TB (komprimiert)
- Die Musikdateien werden im Format Anna’s Archive Containers (AAC) verteilt
- Nach dem Entfernen fehlerhafter OGG-Pakete von Spotify wurden Metadaten wie Titel, ISRC, Album-Artwork und ReplayGain-Informationen eingebettet
- In einigen Dateien gibt es Fehler beim Tag
REPLAYGAIN_ALBUM_PEAK
Erkundung und Analyse der Daten
- Popularitätsverteilung: Der Großteil der Hörvorgänge entfällt auf Titel im Bereich
popularity 50~80
- Tracklänge: Spitzen bei 2-, 3- und 4-Minuten-Intervallen
- Enthält Statistiken zu Explicit-Inhalten und Tracks mit doppelten ISRCs
- Genreverteilung der Künstler: Visualisierungen nach Detailgenres und gruppierten Genres
- Analyse der Album-Veröffentlichungsjahre: starker jüngerer Anstieg automatisch erzeugter und KI-generierter Musik
- Analyse der Audio-Features: durchschnittliches BPM von etwa 120 sowie eine Korrelation zwischen loudness und energy
Detaillierte Metadatenstruktur
- Wichtige SQLite-Dateien
spotify_clean.sqlite3: nahezu vollständige API-Replik von Künstlern, Alben und Tracks
spotify_clean_audio_features.sqlite3: speichert Audio-Features pro Track wie BPM, key, energy, valence usw.
spotify_clean_playlists.sqlite3: enthält 6,6 Millionen Playlists und 1,7 Milliarden Track-Einträge
spotify_clean_track_files.sqlite3: Zuordnung zwischen Tracks und realen Dateien, inklusive Dateistatus, SHA256-Hash und Lizenzgeberinformationen
- Zusätzliche JSONL-Dateien enthalten Daten zu Hörbüchern, Podcasts, Shows und Episoden
- In
spotify_2025_07_coverart.tar.torrent sind Album-Artwork-Bilddateien gespeichert
Mitmachen und Bitte um Erhalt
- Anna’s Archive bittet um Spenden und Beteiligung am Torrent-Seeding
- Schon kleines Seeding kann zur langfristigen Bewahrung beitragen
- Ziel ist die dauerhafte Bewahrung des musikalischen Erbes der Menschheit vor Naturkatastrophen, Krieg, Budgetkürzungen und Ähnlichem
Zusätzliche Funktionen und Experimente
- Eine „True Shuffle“-Funktion über alle Spotify-Tracks hinweg wäre umsetzbar
- Über SQLite-Abfragen ließen sich wirklich zufällige Wiedergabelisten erzeugen
- Bei ausreichend Interesse könnte künftig auch eine Funktion zum Download einzelner Dateien ergänzt werden
Zusammenfassung
- Anna’s Archive hat nahezu die gesamten Spotify-Daten gesichert und damit die größte offene Musik-Metadatenbank der Welt aufgebaut
- Als vollständig offenes Bewahrungsarchiv kann es von jedermann gespiegelt werden
- Das Projekt verbindet Transparenz der Datenstruktur, technische Präzision und langfristige Erhaltbarkeit
- Es schafft eine Grundlage für die dauerhafte Bewahrung kultureller Aufzeichnungen jenseits der Abhängigkeit von kommerziellen Plattformen der Musikindustrie
Noch keine Kommentare.