Redd-Archiver – So besitzt man das komplette Reddit-Archiv lokal

(github.com/19-84)

3 Punkte von GN⁺ 2026-01-16 | Noch keine Kommentare. | Auf WhatsApp teilen

Open-Source-Tool, das Daten von Plattformen wie Reddit, Voat und Ruqqus in ein PostgreSQL-basiertes HTML-Archiv umwandelt
Verarbeitet lokal 2,38 Mrd. Reddit-Beiträge (einschließlich rund 40.000 Subreddits) und bietet ein mobilfreundliches Design sowie eine Oberfläche ohne JavaScript
In einer Situation, in der der Zugang zur Reddit-API praktisch eingestellt ist und Drittanbieter-Apps sowie der Datenzugriff blockiert werden, ist dies ein Versuch, mithilfe des bestehenden Pushshift-Datensatzes ein vollständiges Reddit-Archiv in persönlichen Besitz zu überführen
Läuft als statisches HTML ohne JavaScript, externe Requests oder Tracking und kann in vielen Formen betrieben werden, etwa offline, in Air-Gap-Umgebungen, auf USB, Raspberry Pi oder LAN-Servern
Unterstützt groß angelegte Analysen und Abfragen durch PostgreSQL Full-Text Search (FTS), mehr als 30 REST-APIs und einen MCP-Server (29 Tools) zur Anbindung von AI-Tools

Veränderungen beim Zugang zu Reddit-Daten

Die Reddit-API ist für Archivierungszwecke faktisch nicht mehr nutzbar
Wiederholte Bedrohungen für den Zugang zum Pushshift-Datensatz sowie der Zusammenbruch des Ökosystems von Drittanbieter-Apps
- Der Pushshift-Datensatz ist ein groß angelegtes Archiv, das öffentliche Reddit-Posts und -Kommentare über lange Zeit gesammelt und gespeichert hat und Milliarden von Texteinträgen umfasst
- Es handelt sich um Snapshot-Daten aus früheren Zeitpunkten, die über die offizielle Reddit-API gesammelt wurden und auch ohne Zugriff auf aktuelle Reddit-Server oder die API genutzt werden können
- Nach Änderungen der API-Richtlinien und Einschränkungen beim Datenzugriff wird er als praktisch letzte öffentliche Datenressource für die Bewahrung der Reddit-Geschichte und groß angelegte Analysen genutzt
Über Pushshift ist das gesamte historische Reddit-Archiv bereits in Form von Torrents öffentlich verfügbar
- Subreddit Comments/Submissions 2005-06 to 2024-12
- Eine Sammlung der 40.000 beliebtesten Subreddits in der Geschichte von Reddit als einzelne Dateien
- Mit einem Torrent-Client lassen sich nur die gewünschten Subreddits herunterladen

Redd-Archiver v1.0 erzeugt durch die Umwandlung öffentlicher Daten-Dumps von Reddit, Voat und Ruqqus ein durchsuchbares HTML-Archiv
- Reddit: Pushshift-Format .zst, 2,38 Mrd. Beiträge / 40.029 Subreddits / 3,28 TB / Academic-Torrents-Magnet
- Voat: SQL-Dump, 3,81 Mio. Beiträge / 24,1 Mio. Kommentare / 15GB / Download bei Archive.org
- Ruqqus: .7z JSON Lines, 500.000 Beiträge / 752MB / Download bei Archive.org
Verwendet ein PostgreSQL-Backend, um große Datensätze mit konstantem Speicherbedarf (4GB) zu verarbeiten, und bietet schnelle Suche per FTS auf Basis von GIN-Indizierung
Die HTML-Ausgabe erlaubt auch offline Sortierung, Pagination und das Navigieren in Kommentarbäumen

Nutzt Dumps von Reddit (.zst), Voat (SQL) und Ruqqus (.7z) als Eingabe
- Plattformübergreifende Integration: Kombiniert drei Plattformen zu einem einzigen Archiv. Unterstützt automatische Plattformerkennung und plattformübergreifende Suche
- Bietet per CLI-Flag und URL-Präfix das Pfadschema /r/, /v/, /g/
Erzeugt statische HTML-Dateien und eliminiert dadurch Server-Abhängigkeiten
Durch einfaches Öffnen von index.html navigierbar, ohne externes Netzwerk
- Mobile-First-Responsive-Layout und touchfreundliche Navigation
- Indizes mit Sortierung nach Score, Kommentaren und Datum sowie Pagination
- CSS-basierte Interaktion ohne JavaScript
Unterstützt mit PostgreSQL-FTS plattformübergreifende Full-Text-Suche
- Filterung nach Keywords, Autor, Datum, Score usw.
Bietet eine REST-API mit Abfragen für Beiträge, Kommentare, Nutzer, Subreddits und Aggregationen
Enthält einen MCP-Server, mit dem AI-Tools das Archiv direkt abfragen können
- In Claude Desktop oder Claude Code sind Abfragen zu Beiträgen, Kommentaren, Nutzern und Suchanfragen möglich
Pro Instanz können zig Millionen Beiträge verarbeitet werden
Dank der PostgreSQL-Struktur bleibt der Speicherverbrauch unabhängig von der Datengröße konstant
Für die gesamten 2,38 Mrd. Beiträge wird ein verteilter Betrieb über mehrere thematische Instanzen empfohlen
Implementiert auf Basis von Python, PostgreSQL, Jinja2 und Docker (Claude Code wurde als allgemeine Entwicklungshilfe genutzt)

Unterstützt Offline-Browsing auf USB-Laufwerken oder in lokalen Ordnern
Lokal/Homelab: Start per einzelnem Befehl in HTTP- oder Tor-Umgebungen
Produktions-HTTPS: Automatische Einrichtung von Let’s-Encrypt-Zertifikaten (ca. 5 Minuten)
Tor Hidden Service: Zugriff über eine .onion-Adresse ohne Port-Forwarding
Statisches Hosting: Upload zu GitHub Pages oder Codeberg Pages möglich (ohne Suchfunktion)
Docker-basiertes Deployment: Vollständig automatisierte Konfiguration inklusive PostgreSQL
- Unterstützt Offline-Browsing, lokalen Suchserver und gleichzeitigen Tor-/HTTPS-Betrieb

Live-Demo: https://online-archives.github.io/redd-archiver-example/
GitHub-Repository: https://github.com/19-84/redd-archiver
Lizenz: - Veröffentlichung unter der Unlicense (Public Domain), wodurch kommerzielle und nichtkommerzielle Nutzung, Änderungen und Weiterverbreitung frei möglich sind