Vollständiges Backup von Spotify veröffentlicht

(annas-archive.li)

29 Punkte von GN⁺ 2025-12-21 | 7 Kommentare | Auf WhatsApp teilen

Anna’s Archive hat sämtliche Metadaten und Musikdateien von Spotify gesichert und als Torrent-Archiv im Umfang von rund 300 TB veröffentlicht
Enthält die Metadaten von rund 256 Millionen Titeln und 86 Millionen Musikdateien und deckt damit 99,6 % des Hörvolumens ab
Beliebte Titel werden in der Originalqualität OGG Vorbis 160kbit/s, weniger populäre Titel in OGG Opus 75kbit/s gespeichert, um eine effiziente Langzeitarchivierung zu erreichen
Die Daten werden in Form von SQLite-Datenbanken bereitgestellt und enthalten auch detaillierte Strukturen wie Playlists, Audio-Features und Album-Artwork
Das erste vollständig offene Musikarchiv der Welt zur dauerhaften Bewahrung des musikalischen Erbes der Menschheit vor Naturkatastrophen, Krieg, Budgetkürzungen und Ähnlichem

Projektüberblick

Anna’s Archive hat die vollständigen Musik-Metadaten und Dateien von Spotify in großem Maßstab gescraped und gesichert
- Gesamtumfang rund 300 TB, verteilt als nach Popularität gruppierte Torrents
- Enthält 256 Millionen Tracks und 186 Millionen eindeutige ISRC-Codes
Das Archiv ist ein vollständig offenes, von jedermann spiegelbares Musikarchiv und umfasst 86 Millionen Musikdateien
- Das entspricht rund 99,6 % aller Spotify-Hörvorgänge
Anna’s Archive konzentrierte sich bisher auf die Bewahrung textbasierter Inhalte (Bücher, wissenschaftliche Arbeiten usw.), erweitert dies nun aber auf das nichttextuelle Medium Musik
Nach der Entdeckung einer strukturierten Methode zum Scraping von Spotify wurde der Aufbau eines auf Musikbewahrung fokussierten Archivs vorangetrieben

Grenzen bisheriger Musikarchivierung

Bisherige Versuche zur Musikarchivierung hatten drei zentrale Probleme
1. Fokus auf populäre Künstler, wodurch Nischenmusik vernachlässigt wird
2. Fixierung auf verlustfreie Audioqualität, was zu ineffizientem Speicherverbrauch führt
3. Fehlende Torrent-Listen, die die Gesamtheit der Musik sinnvoll repräsentieren
Dieses Spotify-Backup gleicht diese Schwächen aus und schafft ein auf Bewahrung ausgelegtes Musikarchiv

Datenaufbau und Statistiken

Von den rund 256 Millionen Tracks auf Spotify wurden 99,9 % der Metadaten erfasst
Priorisierung anhand des Popularitätswerts (popularity)
- Tracks mit popularity>0 werden in der Originalqualität OGG Vorbis 160kbit/s gespeichert
- Tracks mit popularity=0 werden in OGG Opus 75kbit/s neu kodiert
Enthält den Großteil der vor Juli 2025 veröffentlichten Titel
Die gesamten Streaming-Zahlen der Top 3 Tracks (Lady Gaga, Billie Eilish, Bad Bunny) sind höher als die Summe der unteren 20 bis 100 Millionen Tracks
Mehr als 70 % aller Titel sind wenig populär und wurden weniger als 1000 Mal gehört

Struktur der Torrent-Verteilung

Die Daten bestehen aus zwei Teilen: Metadaten und Musikdateien
- Metadaten: als SQLite-DB, etwa 200 GB (komprimiert)
- Audio-Analysedaten: 4 TB (komprimiert)
Die Musikdateien werden im Format Anna’s Archive Containers (AAC) verteilt
- Nach dem Entfernen fehlerhafter OGG-Pakete von Spotify wurden Metadaten wie Titel, ISRC, Album-Artwork und ReplayGain-Informationen eingebettet
- In einigen Dateien gibt es Fehler beim Tag REPLAYGAIN_ALBUM_PEAK

Erkundung und Analyse der Daten

Popularitätsverteilung: Der Großteil der Hörvorgänge entfällt auf Titel im Bereich popularity 50~80
Tracklänge: Spitzen bei 2-, 3- und 4-Minuten-Intervallen
Enthält Statistiken zu Explicit-Inhalten und Tracks mit doppelten ISRCs
Genreverteilung der Künstler: Visualisierungen nach Detailgenres und gruppierten Genres
Analyse der Album-Veröffentlichungsjahre: starker jüngerer Anstieg automatisch erzeugter und KI-generierter Musik
Analyse der Audio-Features: durchschnittliches BPM von etwa 120 sowie eine Korrelation zwischen loudness und energy

Detaillierte Metadatenstruktur

Wichtige SQLite-Dateien
- spotify_clean.sqlite3: nahezu vollständige API-Replik von Künstlern, Alben und Tracks
- spotify_clean_audio_features.sqlite3: speichert Audio-Features pro Track wie BPM, key, energy, valence usw.
- spotify_clean_playlists.sqlite3: enthält 6,6 Millionen Playlists und 1,7 Milliarden Track-Einträge
- spotify_clean_track_files.sqlite3: Zuordnung zwischen Tracks und realen Dateien, inklusive Dateistatus, SHA256-Hash und Lizenzgeberinformationen
Zusätzliche JSONL-Dateien enthalten Daten zu Hörbüchern, Podcasts, Shows und Episoden
In spotify_2025_07_coverart.tar.torrent sind Album-Artwork-Bilddateien gespeichert

Mitmachen und Bitte um Erhalt

Anna’s Archive bittet um Spenden und Beteiligung am Torrent-Seeding
- Schon kleines Seeding kann zur langfristigen Bewahrung beitragen
Ziel ist die dauerhafte Bewahrung des musikalischen Erbes der Menschheit vor Naturkatastrophen, Krieg, Budgetkürzungen und Ähnlichem

Zusätzliche Funktionen und Experimente

Eine „True Shuffle“-Funktion über alle Spotify-Tracks hinweg wäre umsetzbar
- Über SQLite-Abfragen ließen sich wirklich zufällige Wiedergabelisten erzeugen
Bei ausreichend Interesse könnte künftig auch eine Funktion zum Download einzelner Dateien ergänzt werden

Zusammenfassung

Anna’s Archive hat nahezu die gesamten Spotify-Daten gesichert und damit die größte offene Musik-Metadatenbank der Welt aufgebaut
Als vollständig offenes Bewahrungsarchiv kann es von jedermann gespiegelt werden
Das Projekt verbindet Transparenz der Datenstruktur, technische Präzision und langfristige Erhaltbarkeit
Es schafft eine Grundlage für die dauerhafte Bewahrung kultureller Aufzeichnungen jenseits der Abhängigkeit von kommerziellen Plattformen der Musikindustrie

7 Kommentare

tested 2025-12-24

Ob Spotify wohl sauer wird?

lsdcnu 2026-01-25

https://de.news.hada.io/topic?id=26059
In den letzten Nachrichten hieß es, dass dagegen geklagt wurde.

vndk2234 2025-12-23

Irgendwo zwischen Robin Hood und Gesetzlosigkeit ...

roxie 2025-12-21

Das Urheberrecht ist ...

devworld 2025-12-21

Jetzt können Musikgenerierungsmodelle, die bisher wie Suno nur im kommerziellen Bereich geblieben sind, wohl auch als Open-Weight- und Open-Source-Modelle trainiert werden.

daumkakao 2025-12-21

Unglaublich. 😱😱😱😱

GN⁺ 2025-12-21

Hacker-News-Kommentare

Wirklich erstaunlich
Ich wusste nicht, dass Spotifys DRM geknackt wurde und Downloads in diesem Ausmaß dadurch möglich geworden sind
Für normale Nutzer scheint das nicht besonders nützlich zu sein, aber für Forschende in den Bereichen Musikklassifikation oder generative Musik könnte es eine enorme Chance sein
Allerdings dürfte es schwer sein offenzulegen, mit welchem Datensatz trainiert wurde
Ich frage mich, ob das auf Wunsch von AI-Forschenden geschehen ist oder einfach zu Archivierungszwecken
- Dass das für normale Nutzer nutzlos sei, kann ich nicht unterschreiben
  Geräte oder Apps, die automatisch illegale TV- und Film-Streams finden, sind bereits weit verbreitet
  Technisch ist das völlig machbar, und sogar Nicht-Fachleute in meiner Familie nutzen so etwas
  Das Team von Anna’s Archive ist allerdings eine Gruppe mit ideologischer Motivation, also nicht für AI-Unternehmen unterwegs
- Ich nutze Spotify nicht
  Wenn ich Musik brauchte, habe ich sie mit ytldp von YouTube geholt, aber inzwischen mache ich das fast gar nicht mehr
  Ich nutze YouTube häufiger für Nachrichten oder als Hintergrundberieselung als für Musik
  Es ist etwas traurig, dass Google das kontrolliert
- Tatsächlich könnten die Metadaten wertvoller sein als die Musikdateien selbst
- „Eine Sache für Musikklassifikations-Forschende“ klingt für mich wie eine Selbstrechtfertigung dafür, Künstler nicht unterstützen zu müssen
  Der richtige Weg wäre, Unternehmen wie Spotify zu regulieren und eine faire Vergütung für Musiker sicherzustellen
  Solche Datenfreigaben fördern eher die Erzeugung von AI-Müll
- Mit solchem Material dürfte es leichter werden, Musik-Auto-Sammeltools wie Lidarr auf Track-Ebene umzusetzen
Wenn man das Ausmaß bedenkt, ist es wirklich gigantisch
Das frühere What.CD wurde als „Bibliothek von Alexandria der Musikwelt“ bezeichnet, und selbst dort ging es nur um einige Millionen Torrents
Annas Spotify-Rip enthält dagegen 186 Millionen eindeutige Einträge
Sicherlich wird am Ende auch Bot-Musik und Ähnliches darunter sein, aber allein die Größenordnung ist überwältigend
- What.CD war nicht nur wegen der Menge großartig, sondern wegen Seltenheit und Qualität
  Dort gab es alles von frühen EPs ländlicher Bands bis zu seltenen Veröffentlichungen, die wegen unklarer Rechte nicht ins Streaming kommen konnten
  Die Freude am Entdecken, die durch Empfehlungen, Reviews und handgemachte Playlists der Community entstand, kann kein Algorithmus ersetzen
  Dadurch habe ich viele Künstler entdeckt, die ich bis heute mag
- Vor What.CD gab es OiNK’s Pink Palace
  Das war eine Community, die Musik wirklich liebte, und sogar Trent Reznor hat sie öffentlich gelobt
  Schade, dass solche aufrichtigen Musik-Communities heute verschwunden sind
- Stimmt, bei What.CD gab es CDs, Bootlegs, Tapes und andere Musik, die nicht auf Spotify ist
  Spotify kann nur Stücke mit Streaming-Lizenz enthalten, und das setzt Grenzen
- Ich höre bei YouTube Music auch oft Nischentracks, und man sieht häufig Kommentare wie „schade, dass das nicht auf Spotify ist“
  Bis zu einem vollständigen Musikarchiv ist es also noch ein weiter Weg
- What.CD zählte Torrents auf Album-Ebene, Spotify enthält dagegen sogar Podcasts und AI-generierte Inhalte
Ich finde, solche Projekte sind unbedingt nötig
Orte wie Anna’s Archive sind genauso wichtig wie das Internet Archive
Im Kern geht es um die Bewahrung des digitalen Erbes von Websites, Spielen, Büchern und mehr
Mit dem Generationswechsel gibt es viele Menschen, die die Kreativität des früheren Webs nie erlebt haben
Ich glaube, die heutige Generation ist diejenige, die die Chance zur Bewahrung all dessen hat
In einer Zeit, in der Musik und Filme nach und nach von Plattformen verschwinden, ist solche Archivierung wirklich wichtig
Ich habe selbst drei ausgegraute Playlists — sogar die Titel sind verschwunden, sodass ich nicht mehr weiß, was ich gehört habe
Deshalb kaufe ich Musik, die ich dauerhaft besitzen will, auf CD, und Dance-Musik lasse ich einfach vorbeiziehen
Solche Arbeit ist wirklich wichtig
Schon wenn man sich Artikel von vor 10 Jahren ansieht, führen die meisten externen Links nur noch zu 404-Seiten
Man kann natürlich fragen, ob alles bewahrt werden muss, aber wenn es möglich ist, sollte es bewahrt werden
Erstaunlich
Schon die Tatsache, dass Spotify im großen Stil gescrapet wurde, ist faszinierend
Die genaue Methode werden sie wohl nicht offenlegen, aber es wäre sicher interessant zu lesen
- So schwer ist das eigentlich nicht
  Man sollte es nur nicht missbrauchen und eher auf dem Niveau eines Hobbyprojekts damit spielen
  Mein Musikserver spielt Spotify-Tracks auf diese Weise ebenfalls ab
  Code-Link
- Noch erstaunlicher ist, dass 300 TB an Daten anonym übertragen wurden
- Vermutlich wurde so ein Tool verwendet → spotizerr-spotify
Persönlich gefällt mir das nicht besonders
Es gibt bereits Quellen mit besserer Audioqualität, und solche massenhaften Rips erhöhen nur das rechtliche Risiko
Ich sorge mich besonders darum, ob dadurch sogar E-Book-Bibliotheken in Gefahr geraten
Selbst in der Mitteilung hieß es, „Musik ist bereits ausreichend archiviert“, daher hätte man das als separates Projekt abspalten sollen
Deutsche Internetanbieter (SIM.de/Drillisch) haben Anna’s Archive offenbar blockiert
Wenn ich das VPN ausschalte, komme ich nicht hinein, und erst mit Mullvad VPN lädt die Seite
Mir war nicht klar, dass es in Deutschland solche Zensur gibt
- Ich habe etwas Ähnliches erlebt
  Wenn man nach alextud popcorntime sucht, erscheint das Ergebnis zu PopcornTimeTV GitHub nicht
  Bei Google, Kagi, DuckDuckGo und Bing ist es überall gleich
  Forks tauchen auf, aber das Original nicht, daher vermute ich Suchfilterung
Früher gab es Musik, die auf mehreren Plattformen gleichzeitig gelöscht wurde
Ich frage mich, ob man sie in solchen Archiven wiederfinden kann
Heutzutage entsteht täglich eine moderne Form verlorener Medien
Manche Publisher versuchen absichtlich, jede Kopie verschwinden zu lassen, und ich halte das für geistig erschreckendes Verhalten
Die vollständige Zerstörung eines Werks kann aus keinem Grund gerechtfertigt sein
Wenn es nur noch auf einem Band in einem Stahltresor existiert, ist das praktisch dasselbe, als würde es nicht existieren
Technisch wäre es auch möglich, einen Streaming-Server mit Torrents als Backend zu bauen
Dabei würde bei jeder Anfrage nur der jeweils benötigte Teil heruntergeladen
- Spotify selbst nutzte bis 2014 P2P-Streaming
  Link zur zugehörigen Arbeit
- Ich habe mir kürzlich auch einen *homelab-arr-Stack aufgebaut, aber bei Musik sehe ich den Nutzen im Verhältnis zum Preis noch nicht so recht
  Spotify ist noch günstig genug, dass ich mich nicht darum kümmere, aber das Problem der Künstlervergütung bleibt bestehen
  Ich hoffe, dass sich irgendwann ein torrentbasierter selbstgehosteter Musikserver leicht aufsetzen lässt
- Technisch sollte man das nicht tun, aber möglich ist es
- Das ist im Grunde eine Art Popcorn-Time-Ansatz