29 Punkte von GN⁺ 2025-12-21 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Anna’s Archive hat sämtliche Metadaten und Musikdateien von Spotify gesichert und als Torrent-Archiv im Umfang von rund 300 TB veröffentlicht
  • Enthält die Metadaten von rund 256 Millionen Titeln und 86 Millionen Musikdateien und deckt damit 99,6 % des Hörvolumens ab
  • Beliebte Titel werden in der Originalqualität OGG Vorbis 160kbit/s, weniger populäre Titel in OGG Opus 75kbit/s gespeichert, um eine effiziente Langzeitarchivierung zu erreichen
  • Die Daten werden in Form von SQLite-Datenbanken bereitgestellt und enthalten auch detaillierte Strukturen wie Playlists, Audio-Features und Album-Artwork
  • Das erste vollständig offene Musikarchiv der Welt zur dauerhaften Bewahrung des musikalischen Erbes der Menschheit vor Naturkatastrophen, Krieg, Budgetkürzungen und Ähnlichem

Projektüberblick

  • Anna’s Archive hat die vollständigen Musik-Metadaten und Dateien von Spotify in großem Maßstab gescraped und gesichert
    • Gesamtumfang rund 300 TB, verteilt als nach Popularität gruppierte Torrents
    • Enthält 256 Millionen Tracks und 186 Millionen eindeutige ISRC-Codes
  • Das Archiv ist ein vollständig offenes, von jedermann spiegelbares Musikarchiv und umfasst 86 Millionen Musikdateien
    • Das entspricht rund 99,6 % aller Spotify-Hörvorgänge
  • Anna’s Archive konzentrierte sich bisher auf die Bewahrung textbasierter Inhalte (Bücher, wissenschaftliche Arbeiten usw.), erweitert dies nun aber auf das nichttextuelle Medium Musik
  • Nach der Entdeckung einer strukturierten Methode zum Scraping von Spotify wurde der Aufbau eines auf Musikbewahrung fokussierten Archivs vorangetrieben

Grenzen bisheriger Musikarchivierung

  • Bisherige Versuche zur Musikarchivierung hatten drei zentrale Probleme
    1. Fokus auf populäre Künstler, wodurch Nischenmusik vernachlässigt wird
    2. Fixierung auf verlustfreie Audioqualität, was zu ineffizientem Speicherverbrauch führt
    3. Fehlende Torrent-Listen, die die Gesamtheit der Musik sinnvoll repräsentieren
  • Dieses Spotify-Backup gleicht diese Schwächen aus und schafft ein auf Bewahrung ausgelegtes Musikarchiv

Datenaufbau und Statistiken

  • Von den rund 256 Millionen Tracks auf Spotify wurden 99,9 % der Metadaten erfasst
  • Priorisierung anhand des Popularitätswerts (popularity)
    • Tracks mit popularity>0 werden in der Originalqualität OGG Vorbis 160kbit/s gespeichert
    • Tracks mit popularity=0 werden in OGG Opus 75kbit/s neu kodiert
  • Enthält den Großteil der vor Juli 2025 veröffentlichten Titel
  • Die gesamten Streaming-Zahlen der Top 3 Tracks (Lady Gaga, Billie Eilish, Bad Bunny) sind höher als die Summe der unteren 20 bis 100 Millionen Tracks
  • Mehr als 70 % aller Titel sind wenig populär und wurden weniger als 1000 Mal gehört

Struktur der Torrent-Verteilung

  • Die Daten bestehen aus zwei Teilen: Metadaten und Musikdateien
    • Metadaten: als SQLite-DB, etwa 200 GB (komprimiert)
    • Audio-Analysedaten: 4 TB (komprimiert)
  • Die Musikdateien werden im Format Anna’s Archive Containers (AAC) verteilt
    • Nach dem Entfernen fehlerhafter OGG-Pakete von Spotify wurden Metadaten wie Titel, ISRC, Album-Artwork und ReplayGain-Informationen eingebettet
    • In einigen Dateien gibt es Fehler beim Tag REPLAYGAIN_ALBUM_PEAK

Erkundung und Analyse der Daten

  • Popularitätsverteilung: Der Großteil der Hörvorgänge entfällt auf Titel im Bereich popularity 50~80
  • Tracklänge: Spitzen bei 2-, 3- und 4-Minuten-Intervallen
  • Enthält Statistiken zu Explicit-Inhalten und Tracks mit doppelten ISRCs
  • Genreverteilung der Künstler: Visualisierungen nach Detailgenres und gruppierten Genres
  • Analyse der Album-Veröffentlichungsjahre: starker jüngerer Anstieg automatisch erzeugter und KI-generierter Musik
  • Analyse der Audio-Features: durchschnittliches BPM von etwa 120 sowie eine Korrelation zwischen loudness und energy

Detaillierte Metadatenstruktur

  • Wichtige SQLite-Dateien
    • spotify_clean.sqlite3: nahezu vollständige API-Replik von Künstlern, Alben und Tracks
    • spotify_clean_audio_features.sqlite3: speichert Audio-Features pro Track wie BPM, key, energy, valence usw.
    • spotify_clean_playlists.sqlite3: enthält 6,6 Millionen Playlists und 1,7 Milliarden Track-Einträge
    • spotify_clean_track_files.sqlite3: Zuordnung zwischen Tracks und realen Dateien, inklusive Dateistatus, SHA256-Hash und Lizenzgeberinformationen
  • Zusätzliche JSONL-Dateien enthalten Daten zu Hörbüchern, Podcasts, Shows und Episoden
  • In spotify_2025_07_coverart.tar.torrent sind Album-Artwork-Bilddateien gespeichert

Mitmachen und Bitte um Erhalt

  • Anna’s Archive bittet um Spenden und Beteiligung am Torrent-Seeding
    • Schon kleines Seeding kann zur langfristigen Bewahrung beitragen
  • Ziel ist die dauerhafte Bewahrung des musikalischen Erbes der Menschheit vor Naturkatastrophen, Krieg, Budgetkürzungen und Ähnlichem

Zusätzliche Funktionen und Experimente

  • Eine „True Shuffle“-Funktion über alle Spotify-Tracks hinweg wäre umsetzbar
    • Über SQLite-Abfragen ließen sich wirklich zufällige Wiedergabelisten erzeugen
  • Bei ausreichend Interesse könnte künftig auch eine Funktion zum Download einzelner Dateien ergänzt werden

Zusammenfassung

  • Anna’s Archive hat nahezu die gesamten Spotify-Daten gesichert und damit die größte offene Musik-Metadatenbank der Welt aufgebaut
  • Als vollständig offenes Bewahrungsarchiv kann es von jedermann gespiegelt werden
  • Das Projekt verbindet Transparenz der Datenstruktur, technische Präzision und langfristige Erhaltbarkeit
  • Es schafft eine Grundlage für die dauerhafte Bewahrung kultureller Aufzeichnungen jenseits der Abhängigkeit von kommerziellen Plattformen der Musikindustrie

Noch keine Kommentare.

Noch keine Kommentare.