Redd-Archiver – So besitzt man das komplette Reddit-Archiv lokal
(github.com/19-84)- Open-Source-Tool, das Daten von Plattformen wie Reddit, Voat und Ruqqus in ein PostgreSQL-basiertes HTML-Archiv umwandelt
- Verarbeitet lokal 2,38 Mrd. Reddit-Beiträge (einschließlich rund 40.000 Subreddits) und bietet ein mobilfreundliches Design sowie eine Oberfläche ohne JavaScript
- In einer Situation, in der der Zugang zur Reddit-API praktisch eingestellt ist und Drittanbieter-Apps sowie der Datenzugriff blockiert werden, ist dies ein Versuch, mithilfe des bestehenden Pushshift-Datensatzes ein vollständiges Reddit-Archiv in persönlichen Besitz zu überführen
- Läuft als statisches HTML ohne JavaScript, externe Requests oder Tracking und kann in vielen Formen betrieben werden, etwa offline, in Air-Gap-Umgebungen, auf USB, Raspberry Pi oder LAN-Servern
- Unterstützt groß angelegte Analysen und Abfragen durch PostgreSQL Full-Text Search (FTS), mehr als 30 REST-APIs und einen MCP-Server (29 Tools) zur Anbindung von AI-Tools
Veränderungen beim Zugang zu Reddit-Daten
- Die Reddit-API ist für Archivierungszwecke faktisch nicht mehr nutzbar
- Wiederholte Bedrohungen für den Zugang zum Pushshift-Datensatz sowie der Zusammenbruch des Ökosystems von Drittanbieter-Apps
- Der Pushshift-Datensatz ist ein groß angelegtes Archiv, das öffentliche Reddit-Posts und -Kommentare über lange Zeit gesammelt und gespeichert hat und Milliarden von Texteinträgen umfasst
- Es handelt sich um Snapshot-Daten aus früheren Zeitpunkten, die über die offizielle Reddit-API gesammelt wurden und auch ohne Zugriff auf aktuelle Reddit-Server oder die API genutzt werden können
- Nach Änderungen der API-Richtlinien und Einschränkungen beim Datenzugriff wird er als praktisch letzte öffentliche Datenressource für die Bewahrung der Reddit-Geschichte und groß angelegte Analysen genutzt
- Über Pushshift ist das gesamte historische Reddit-Archiv bereits in Form von Torrents öffentlich verfügbar
- Subreddit Comments/Submissions 2005-06 to 2024-12
- Eine Sammlung der 40.000 beliebtesten Subreddits in der Geschichte von Reddit als einzelne Dateien
- Mit einem Torrent-Client lassen sich nur die gewünschten Subreddits herunterladen
Überblick über das Redd-Archiver-Projekt
- Redd-Archiver v1.0 erzeugt durch die Umwandlung öffentlicher Daten-Dumps von Reddit, Voat und Ruqqus ein durchsuchbares HTML-Archiv
- Reddit: Pushshift-Format
.zst, 2,38 Mrd. Beiträge / 40.029 Subreddits / 3,28 TB / Academic-Torrents-Magnet - Voat: SQL-Dump, 3,81 Mio. Beiträge / 24,1 Mio. Kommentare / 15GB / Download bei Archive.org
- Ruqqus:
.7zJSON Lines, 500.000 Beiträge / 752MB / Download bei Archive.org
- Reddit: Pushshift-Format
- Verwendet ein PostgreSQL-Backend, um große Datensätze mit konstantem Speicherbedarf (4GB) zu verarbeiten, und bietet schnelle Suche per FTS auf Basis von GIN-Indizierung
- Die HTML-Ausgabe erlaubt auch offline Sortierung, Pagination und das Navigieren in Kommentarbäumen
Kernstruktur des Archivierungstools Redd-Archiver
- Nutzt Dumps von Reddit (
.zst), Voat (SQL) und Ruqqus (.7z) als Eingabe- Plattformübergreifende Integration: Kombiniert drei Plattformen zu einem einzigen Archiv. Unterstützt automatische Plattformerkennung und plattformübergreifende Suche
- Bietet per CLI-Flag und URL-Präfix das Pfadschema
/r/,/v/,/g/
- Erzeugt statische HTML-Dateien und eliminiert dadurch Server-Abhängigkeiten
- Durch einfaches Öffnen von
index.htmlnavigierbar, ohne externes Netzwerk- Mobile-First-Responsive-Layout und touchfreundliche Navigation
- Indizes mit Sortierung nach Score, Kommentaren und Datum sowie Pagination
- CSS-basierte Interaktion ohne JavaScript
- Unterstützt mit PostgreSQL-FTS plattformübergreifende Full-Text-Suche
- Filterung nach Keywords, Autor, Datum, Score usw.
- Bietet eine REST-API mit Abfragen für Beiträge, Kommentare, Nutzer, Subreddits und Aggregationen
- Enthält einen MCP-Server, mit dem AI-Tools das Archiv direkt abfragen können
- In Claude Desktop oder Claude Code sind Abfragen zu Beiträgen, Kommentaren, Nutzern und Suchanfragen möglich
- Pro Instanz können zig Millionen Beiträge verarbeitet werden
- Dank der PostgreSQL-Struktur bleibt der Speicherverbrauch unabhängig von der Datengröße konstant
- Für die gesamten 2,38 Mrd. Beiträge wird ein verteilter Betrieb über mehrere thematische Instanzen empfohlen
- Implementiert auf Basis von Python, PostgreSQL, Jinja2 und Docker (Claude Code wurde als allgemeine Entwicklungshilfe genutzt)
Deployment- und Betriebsszenarien
- Unterstützt Offline-Browsing auf USB-Laufwerken oder in lokalen Ordnern
- Lokal/Homelab: Start per einzelnem Befehl in HTTP- oder Tor-Umgebungen
- Produktions-HTTPS: Automatische Einrichtung von Let’s-Encrypt-Zertifikaten (ca. 5 Minuten)
- Tor Hidden Service: Zugriff über eine
.onion-Adresse ohne Port-Forwarding - Statisches Hosting: Upload zu GitHub Pages oder Codeberg Pages möglich (ohne Suchfunktion)
- Docker-basiertes Deployment: Vollständig automatisierte Konfiguration inklusive PostgreSQL
- Unterstützt Offline-Browsing, lokalen Suchserver und gleichzeitigen Tor-/HTTPS-Betrieb
Öffentliche Informationen
- Live-Demo: https://online-archives.github.io/redd-archiver-example/
- GitHub-Repository: https://github.com/19-84/redd-archiver
- Lizenz: - Veröffentlichung unter der Unlicense (Public Domain), wodurch kommerzielle und nichtkommerzielle Nutzung, Änderungen und Weiterverbreitung frei möglich sind
1 Kommentare
Hacker-News-Kommentare
Eine großartige Möglichkeit, ein Archiv selbst zu hosten.
Persönlich hätte ich gern ein Plugin, das gelöschte Kommentare oder von Bots überschriebene Kommentare automatisch auf die Originalfassung zurücksetzt.
Einer der Gründe, warum Reddit heute so schwer nutzbar ist: Die Hälfte der alten Links führt inzwischen zu nutzlosen Kommentaren, weil sie aus Protest überschrieben wurden.
Ironischerweise bleibt das Original in Archiven für das Training von KI erhalten, aber normale Nutzer können dadurch Dinge wie eine Lösung für ein Druckertreiber-Problem von vor zwei Jahren nicht mehr finden.
Dass die Seite dadurch weniger nützlich wird, war genau das Ziel, und Nutzer zum Weggehen zu bewegen war der Kern des Protests.
Ich würde nicht extra Archive durchsuchen, um diese Entscheidung auszuhebeln. Ich gehe einfach weiter.
Die Daten können per Torrent bezogen werden.
Link: redd-archiver-Repository
Das hilft bei der Entscheidung, welche Communitys vorrangig bewahrt werden sollen.
Wirklich ein großartiges Projekt.
Neben PushShift gibt es noch andere Archive — zum Beispiel Arctic Shift oder PullPush, die unterschiedliche Datensätze bereitstellen.
Je nach Umfang von Löschanfragen können unterschiedliche Posts oder Kommentare enthalten sein.
Ich frage mich, ob man auf Basis dieser Daten nicht neue dezentrale soziale Medien anstoßen könnte —
gewissermaßen so, wie man ein Projekt forkt.
Die API unterstützt das ebenfalls, sodass Archive dezentral gemeinsam gehostet werden können.
Ein wirklich interessantes Projekt.
Ich frage mich, ob der Pushshift-Datensatz regelmäßig aktualisiert wird oder nur ein Snapshot eines bestimmten Zeitpunkts ist.
Wenn man das selbst hostet, würde ich gern wissen, ob man neue Daten regelmäßig nachladen muss.
watchful1 teilt die Daten gerade auf und verarbeitet sie neu; künftig sollen Arctic-Shift-Dumps eingebunden werden, um monatliche Updates zu unterstützen.
Zugehörige Links:
Ich arbeite ebenfalls an einem ähnlichen Projekt und habe Pushshift-Reddit-Daten in Hugging Face Datasets hochgeladen.
Wenn die Torrent-Seeds schwach sind, kann man einzelne Dateien direkt über huggingface.co/datasets/nick007x/pushshift-reddit herunterladen.
Das ist nützlich für Leute, die Monatsdaten oder nur ein bestimmtes Subreddit testen wollen.
Ich habe versucht, die lokale Umgebung mit Docker Compose zu starten, bin aber gescheitert.
Es gibt keine
.env.example-Datei, und selbst bei manuell gesetzten Umgebungsvariablen gibt es Probleme mit den Volume-Pfaden.Das wirkt so, als müsste es noch etwas nachgebessert werden.
mkdir-Schritt aktualisiert.Zugehörige Commits: 0bb1039, c3754ea
Ich frage mich, ob man das mit der toten Apollo-App verbinden könnte, um einen früheren Stand von Reddit wiederherzustellen.
Ich möchte nicht ganz Reddit auf meinem Computer speichern.
Es wäre gut, wenn man nur bestimmte Subreddits auswählen könnte.
watchful1 hat die Daten nach Subreddits aufgeteilt, sodass man nur die gewünschten Teile herunterladen kann.
Ich frage mich, ob es eine Möglichkeit gibt zu prüfen, ob auf privat gesetzte Subreddits von vor 2–3 Jahren in den Daten-Dumps enthalten sind.
Im Statusfeld kann man sehen, ob ein Subreddit privat ist, und es gibt viele weitere Details.