29 Punkte von GN⁺ 2025-12-21 | 7 Kommentare | Auf WhatsApp teilen
  • Anna’s Archive hat sämtliche Metadaten und Musikdateien von Spotify gesichert und als Torrent-Archiv im Umfang von rund 300 TB veröffentlicht
  • Enthält die Metadaten von rund 256 Millionen Titeln und 86 Millionen Musikdateien und deckt damit 99,6 % des Hörvolumens ab
  • Beliebte Titel werden in der Originalqualität OGG Vorbis 160kbit/s, weniger populäre Titel in OGG Opus 75kbit/s gespeichert, um eine effiziente Langzeitarchivierung zu erreichen
  • Die Daten werden in Form von SQLite-Datenbanken bereitgestellt und enthalten auch detaillierte Strukturen wie Playlists, Audio-Features und Album-Artwork
  • Das erste vollständig offene Musikarchiv der Welt zur dauerhaften Bewahrung des musikalischen Erbes der Menschheit vor Naturkatastrophen, Krieg, Budgetkürzungen und Ähnlichem

Projektüberblick

  • Anna’s Archive hat die vollständigen Musik-Metadaten und Dateien von Spotify in großem Maßstab gescraped und gesichert
    • Gesamtumfang rund 300 TB, verteilt als nach Popularität gruppierte Torrents
    • Enthält 256 Millionen Tracks und 186 Millionen eindeutige ISRC-Codes
  • Das Archiv ist ein vollständig offenes, von jedermann spiegelbares Musikarchiv und umfasst 86 Millionen Musikdateien
    • Das entspricht rund 99,6 % aller Spotify-Hörvorgänge
  • Anna’s Archive konzentrierte sich bisher auf die Bewahrung textbasierter Inhalte (Bücher, wissenschaftliche Arbeiten usw.), erweitert dies nun aber auf das nichttextuelle Medium Musik
  • Nach der Entdeckung einer strukturierten Methode zum Scraping von Spotify wurde der Aufbau eines auf Musikbewahrung fokussierten Archivs vorangetrieben

Grenzen bisheriger Musikarchivierung

  • Bisherige Versuche zur Musikarchivierung hatten drei zentrale Probleme
    1. Fokus auf populäre Künstler, wodurch Nischenmusik vernachlässigt wird
    2. Fixierung auf verlustfreie Audioqualität, was zu ineffizientem Speicherverbrauch führt
    3. Fehlende Torrent-Listen, die die Gesamtheit der Musik sinnvoll repräsentieren
  • Dieses Spotify-Backup gleicht diese Schwächen aus und schafft ein auf Bewahrung ausgelegtes Musikarchiv

Datenaufbau und Statistiken

  • Von den rund 256 Millionen Tracks auf Spotify wurden 99,9 % der Metadaten erfasst
  • Priorisierung anhand des Popularitätswerts (popularity)
    • Tracks mit popularity>0 werden in der Originalqualität OGG Vorbis 160kbit/s gespeichert
    • Tracks mit popularity=0 werden in OGG Opus 75kbit/s neu kodiert
  • Enthält den Großteil der vor Juli 2025 veröffentlichten Titel
  • Die gesamten Streaming-Zahlen der Top 3 Tracks (Lady Gaga, Billie Eilish, Bad Bunny) sind höher als die Summe der unteren 20 bis 100 Millionen Tracks
  • Mehr als 70 % aller Titel sind wenig populär und wurden weniger als 1000 Mal gehört

Struktur der Torrent-Verteilung

  • Die Daten bestehen aus zwei Teilen: Metadaten und Musikdateien
    • Metadaten: als SQLite-DB, etwa 200 GB (komprimiert)
    • Audio-Analysedaten: 4 TB (komprimiert)
  • Die Musikdateien werden im Format Anna’s Archive Containers (AAC) verteilt
    • Nach dem Entfernen fehlerhafter OGG-Pakete von Spotify wurden Metadaten wie Titel, ISRC, Album-Artwork und ReplayGain-Informationen eingebettet
    • In einigen Dateien gibt es Fehler beim Tag REPLAYGAIN_ALBUM_PEAK

Erkundung und Analyse der Daten

  • Popularitätsverteilung: Der Großteil der Hörvorgänge entfällt auf Titel im Bereich popularity 50~80
  • Tracklänge: Spitzen bei 2-, 3- und 4-Minuten-Intervallen
  • Enthält Statistiken zu Explicit-Inhalten und Tracks mit doppelten ISRCs
  • Genreverteilung der Künstler: Visualisierungen nach Detailgenres und gruppierten Genres
  • Analyse der Album-Veröffentlichungsjahre: starker jüngerer Anstieg automatisch erzeugter und KI-generierter Musik
  • Analyse der Audio-Features: durchschnittliches BPM von etwa 120 sowie eine Korrelation zwischen loudness und energy

Detaillierte Metadatenstruktur

  • Wichtige SQLite-Dateien
    • spotify_clean.sqlite3: nahezu vollständige API-Replik von Künstlern, Alben und Tracks
    • spotify_clean_audio_features.sqlite3: speichert Audio-Features pro Track wie BPM, key, energy, valence usw.
    • spotify_clean_playlists.sqlite3: enthält 6,6 Millionen Playlists und 1,7 Milliarden Track-Einträge
    • spotify_clean_track_files.sqlite3: Zuordnung zwischen Tracks und realen Dateien, inklusive Dateistatus, SHA256-Hash und Lizenzgeberinformationen
  • Zusätzliche JSONL-Dateien enthalten Daten zu Hörbüchern, Podcasts, Shows und Episoden
  • In spotify_2025_07_coverart.tar.torrent sind Album-Artwork-Bilddateien gespeichert

Mitmachen und Bitte um Erhalt

  • Anna’s Archive bittet um Spenden und Beteiligung am Torrent-Seeding
    • Schon kleines Seeding kann zur langfristigen Bewahrung beitragen
  • Ziel ist die dauerhafte Bewahrung des musikalischen Erbes der Menschheit vor Naturkatastrophen, Krieg, Budgetkürzungen und Ähnlichem

Zusätzliche Funktionen und Experimente

  • Eine „True Shuffle“-Funktion über alle Spotify-Tracks hinweg wäre umsetzbar
    • Über SQLite-Abfragen ließen sich wirklich zufällige Wiedergabelisten erzeugen
  • Bei ausreichend Interesse könnte künftig auch eine Funktion zum Download einzelner Dateien ergänzt werden

Zusammenfassung

  • Anna’s Archive hat nahezu die gesamten Spotify-Daten gesichert und damit die größte offene Musik-Metadatenbank der Welt aufgebaut
  • Als vollständig offenes Bewahrungsarchiv kann es von jedermann gespiegelt werden
  • Das Projekt verbindet Transparenz der Datenstruktur, technische Präzision und langfristige Erhaltbarkeit
  • Es schafft eine Grundlage für die dauerhafte Bewahrung kultureller Aufzeichnungen jenseits der Abhängigkeit von kommerziellen Plattformen der Musikindustrie

7 Kommentare

 
tested 2025-12-24

Ob Spotify wohl sauer wird?

 
lsdcnu 2026-01-25

https://de.news.hada.io/topic?id=26059
In den letzten Nachrichten hieß es, dass dagegen geklagt wurde.

 
vndk2234 2025-12-23

Irgendwo zwischen Robin Hood und Gesetzlosigkeit ...

 
roxie 2025-12-21

Das Urheberrecht ist ...

 
devworld 2025-12-21

Jetzt können Musikgenerierungsmodelle, die bisher wie Suno nur im kommerziellen Bereich geblieben sind, wohl auch als Open-Weight- und Open-Source-Modelle trainiert werden.

 
daumkakao 2025-12-21

Unglaublich. 😱😱😱😱

 
GN⁺ 2025-12-21
Hacker-News-Kommentare
  • Wirklich erstaunlich
    Ich wusste nicht, dass Spotifys DRM geknackt wurde und Downloads in diesem Ausmaß dadurch möglich geworden sind
    Für normale Nutzer scheint das nicht besonders nützlich zu sein, aber für Forschende in den Bereichen Musikklassifikation oder generative Musik könnte es eine enorme Chance sein
    Allerdings dürfte es schwer sein offenzulegen, mit welchem Datensatz trainiert wurde
    Ich frage mich, ob das auf Wunsch von AI-Forschenden geschehen ist oder einfach zu Archivierungszwecken

    • Dass das für normale Nutzer nutzlos sei, kann ich nicht unterschreiben
      Geräte oder Apps, die automatisch illegale TV- und Film-Streams finden, sind bereits weit verbreitet
      Technisch ist das völlig machbar, und sogar Nicht-Fachleute in meiner Familie nutzen so etwas
      Das Team von Anna’s Archive ist allerdings eine Gruppe mit ideologischer Motivation, also nicht für AI-Unternehmen unterwegs
    • Ich nutze Spotify nicht
      Wenn ich Musik brauchte, habe ich sie mit ytldp von YouTube geholt, aber inzwischen mache ich das fast gar nicht mehr
      Ich nutze YouTube häufiger für Nachrichten oder als Hintergrundberieselung als für Musik
      Es ist etwas traurig, dass Google das kontrolliert
    • Tatsächlich könnten die Metadaten wertvoller sein als die Musikdateien selbst
    • „Eine Sache für Musikklassifikations-Forschende“ klingt für mich wie eine Selbstrechtfertigung dafür, Künstler nicht unterstützen zu müssen
      Der richtige Weg wäre, Unternehmen wie Spotify zu regulieren und eine faire Vergütung für Musiker sicherzustellen
      Solche Datenfreigaben fördern eher die Erzeugung von AI-Müll
    • Mit solchem Material dürfte es leichter werden, Musik-Auto-Sammeltools wie Lidarr auf Track-Ebene umzusetzen
  • Wenn man das Ausmaß bedenkt, ist es wirklich gigantisch
    Das frühere What.CD wurde als „Bibliothek von Alexandria der Musikwelt“ bezeichnet, und selbst dort ging es nur um einige Millionen Torrents
    Annas Spotify-Rip enthält dagegen 186 Millionen eindeutige Einträge
    Sicherlich wird am Ende auch Bot-Musik und Ähnliches darunter sein, aber allein die Größenordnung ist überwältigend

    • What.CD war nicht nur wegen der Menge großartig, sondern wegen Seltenheit und Qualität
      Dort gab es alles von frühen EPs ländlicher Bands bis zu seltenen Veröffentlichungen, die wegen unklarer Rechte nicht ins Streaming kommen konnten
      Die Freude am Entdecken, die durch Empfehlungen, Reviews und handgemachte Playlists der Community entstand, kann kein Algorithmus ersetzen
      Dadurch habe ich viele Künstler entdeckt, die ich bis heute mag
    • Vor What.CD gab es OiNK’s Pink Palace
      Das war eine Community, die Musik wirklich liebte, und sogar Trent Reznor hat sie öffentlich gelobt
      Schade, dass solche aufrichtigen Musik-Communities heute verschwunden sind
    • Stimmt, bei What.CD gab es CDs, Bootlegs, Tapes und andere Musik, die nicht auf Spotify ist
      Spotify kann nur Stücke mit Streaming-Lizenz enthalten, und das setzt Grenzen
    • Ich höre bei YouTube Music auch oft Nischentracks, und man sieht häufig Kommentare wie „schade, dass das nicht auf Spotify ist“
      Bis zu einem vollständigen Musikarchiv ist es also noch ein weiter Weg
    • What.CD zählte Torrents auf Album-Ebene, Spotify enthält dagegen sogar Podcasts und AI-generierte Inhalte
  • Ich finde, solche Projekte sind unbedingt nötig
    Orte wie Anna’s Archive sind genauso wichtig wie das Internet Archive
    Im Kern geht es um die Bewahrung des digitalen Erbes von Websites, Spielen, Büchern und mehr
    Mit dem Generationswechsel gibt es viele Menschen, die die Kreativität des früheren Webs nie erlebt haben
    Ich glaube, die heutige Generation ist diejenige, die die Chance zur Bewahrung all dessen hat

  • In einer Zeit, in der Musik und Filme nach und nach von Plattformen verschwinden, ist solche Archivierung wirklich wichtig
    Ich habe selbst drei ausgegraute Playlists — sogar die Titel sind verschwunden, sodass ich nicht mehr weiß, was ich gehört habe
    Deshalb kaufe ich Musik, die ich dauerhaft besitzen will, auf CD, und Dance-Musik lasse ich einfach vorbeiziehen

  • Solche Arbeit ist wirklich wichtig
    Schon wenn man sich Artikel von vor 10 Jahren ansieht, führen die meisten externen Links nur noch zu 404-Seiten
    Man kann natürlich fragen, ob alles bewahrt werden muss, aber wenn es möglich ist, sollte es bewahrt werden

  • Erstaunlich
    Schon die Tatsache, dass Spotify im großen Stil gescrapet wurde, ist faszinierend
    Die genaue Methode werden sie wohl nicht offenlegen, aber es wäre sicher interessant zu lesen

    • So schwer ist das eigentlich nicht
      Man sollte es nur nicht missbrauchen und eher auf dem Niveau eines Hobbyprojekts damit spielen
      Mein Musikserver spielt Spotify-Tracks auf diese Weise ebenfalls ab
      Code-Link
    • Noch erstaunlicher ist, dass 300 TB an Daten anonym übertragen wurden
    • Vermutlich wurde so ein Tool verwendet → spotizerr-spotify
  • Persönlich gefällt mir das nicht besonders
    Es gibt bereits Quellen mit besserer Audioqualität, und solche massenhaften Rips erhöhen nur das rechtliche Risiko
    Ich sorge mich besonders darum, ob dadurch sogar E-Book-Bibliotheken in Gefahr geraten
    Selbst in der Mitteilung hieß es, „Musik ist bereits ausreichend archiviert“, daher hätte man das als separates Projekt abspalten sollen

  • Deutsche Internetanbieter (SIM.de/Drillisch) haben Anna’s Archive offenbar blockiert
    Wenn ich das VPN ausschalte, komme ich nicht hinein, und erst mit Mullvad VPN lädt die Seite
    Mir war nicht klar, dass es in Deutschland solche Zensur gibt

    • Ich habe etwas Ähnliches erlebt
      Wenn man nach alextud popcorntime sucht, erscheint das Ergebnis zu PopcornTimeTV GitHub nicht
      Bei Google, Kagi, DuckDuckGo und Bing ist es überall gleich
      Forks tauchen auf, aber das Original nicht, daher vermute ich Suchfilterung
  • Früher gab es Musik, die auf mehreren Plattformen gleichzeitig gelöscht wurde
    Ich frage mich, ob man sie in solchen Archiven wiederfinden kann
    Heutzutage entsteht täglich eine moderne Form verlorener Medien
    Manche Publisher versuchen absichtlich, jede Kopie verschwinden zu lassen, und ich halte das für geistig erschreckendes Verhalten
    Die vollständige Zerstörung eines Werks kann aus keinem Grund gerechtfertigt sein
    Wenn es nur noch auf einem Band in einem Stahltresor existiert, ist das praktisch dasselbe, als würde es nicht existieren

  • Technisch wäre es auch möglich, einen Streaming-Server mit Torrents als Backend zu bauen
    Dabei würde bei jeder Anfrage nur der jeweils benötigte Teil heruntergeladen

    • Spotify selbst nutzte bis 2014 P2P-Streaming
      Link zur zugehörigen Arbeit
    • Ich habe mir kürzlich auch einen *homelab-arr-Stack aufgebaut, aber bei Musik sehe ich den Nutzen im Verhältnis zum Preis noch nicht so recht
      Spotify ist noch günstig genug, dass ich mich nicht darum kümmere, aber das Problem der Künstlervergütung bleibt bestehen
      Ich hoffe, dass sich irgendwann ein torrentbasierter selbstgehosteter Musikserver leicht aufsetzen lässt
    • Technisch sollte man das nicht tun, aber möglich ist es
    • Das ist im Grunde eine Art Popcorn-Time-Ansatz