- Open-Source-Tool, das Daten von Plattformen wie Reddit, Voat und Ruqqus in ein PostgreSQL-basiertes HTML-Archiv umwandelt
- Verarbeitet lokal 2,38 Mrd. Reddit-Beiträge (einschließlich rund 40.000 Subreddits) und bietet ein mobilfreundliches Design sowie eine Oberfläche ohne JavaScript
- In einer Situation, in der der Zugang zur Reddit-API praktisch eingestellt ist und Drittanbieter-Apps sowie der Datenzugriff blockiert werden, ist dies ein Versuch, mithilfe des bestehenden Pushshift-Datensatzes ein vollständiges Reddit-Archiv in persönlichen Besitz zu überführen
- Läuft als statisches HTML ohne JavaScript, externe Requests oder Tracking und kann in vielen Formen betrieben werden, etwa offline, in Air-Gap-Umgebungen, auf USB, Raspberry Pi oder LAN-Servern
- Unterstützt groß angelegte Analysen und Abfragen durch PostgreSQL Full-Text Search (FTS), mehr als 30 REST-APIs und einen MCP-Server (29 Tools) zur Anbindung von AI-Tools
Veränderungen beim Zugang zu Reddit-Daten
- Die Reddit-API ist für Archivierungszwecke faktisch nicht mehr nutzbar
- Wiederholte Bedrohungen für den Zugang zum Pushshift-Datensatz sowie der Zusammenbruch des Ökosystems von Drittanbieter-Apps
- Der Pushshift-Datensatz ist ein groß angelegtes Archiv, das öffentliche Reddit-Posts und -Kommentare über lange Zeit gesammelt und gespeichert hat und Milliarden von Texteinträgen umfasst
- Es handelt sich um Snapshot-Daten aus früheren Zeitpunkten, die über die offizielle Reddit-API gesammelt wurden und auch ohne Zugriff auf aktuelle Reddit-Server oder die API genutzt werden können
- Nach Änderungen der API-Richtlinien und Einschränkungen beim Datenzugriff wird er als praktisch letzte öffentliche Datenressource für die Bewahrung der Reddit-Geschichte und groß angelegte Analysen genutzt
- Über Pushshift ist das gesamte historische Reddit-Archiv bereits in Form von Torrents öffentlich verfügbar
Überblick über das Redd-Archiver-Projekt
- Redd-Archiver v1.0 erzeugt durch die Umwandlung öffentlicher Daten-Dumps von Reddit, Voat und Ruqqus ein durchsuchbares HTML-Archiv
- Verwendet ein PostgreSQL-Backend, um große Datensätze mit konstantem Speicherbedarf (4GB) zu verarbeiten, und bietet schnelle Suche per FTS auf Basis von GIN-Indizierung
- Die HTML-Ausgabe erlaubt auch offline Sortierung, Pagination und das Navigieren in Kommentarbäumen
Kernstruktur des Archivierungstools Redd-Archiver
- Nutzt Dumps von Reddit (
.zst), Voat (SQL) und Ruqqus (.7z) als Eingabe
- Plattformübergreifende Integration: Kombiniert drei Plattformen zu einem einzigen Archiv. Unterstützt automatische Plattformerkennung und plattformübergreifende Suche
- Bietet per CLI-Flag und URL-Präfix das Pfadschema
/r/, /v/, /g/
- Erzeugt statische HTML-Dateien und eliminiert dadurch Server-Abhängigkeiten
- Durch einfaches Öffnen von
index.html navigierbar, ohne externes Netzwerk
- Mobile-First-Responsive-Layout und touchfreundliche Navigation
- Indizes mit Sortierung nach Score, Kommentaren und Datum sowie Pagination
- CSS-basierte Interaktion ohne JavaScript
- Unterstützt mit PostgreSQL-FTS plattformübergreifende Full-Text-Suche
- Filterung nach Keywords, Autor, Datum, Score usw.
- Bietet eine REST-API mit Abfragen für Beiträge, Kommentare, Nutzer, Subreddits und Aggregationen
- Enthält einen MCP-Server, mit dem AI-Tools das Archiv direkt abfragen können
- In Claude Desktop oder Claude Code sind Abfragen zu Beiträgen, Kommentaren, Nutzern und Suchanfragen möglich
- Pro Instanz können zig Millionen Beiträge verarbeitet werden
- Dank der PostgreSQL-Struktur bleibt der Speicherverbrauch unabhängig von der Datengröße konstant
- Für die gesamten 2,38 Mrd. Beiträge wird ein verteilter Betrieb über mehrere thematische Instanzen empfohlen
- Implementiert auf Basis von Python, PostgreSQL, Jinja2 und Docker (Claude Code wurde als allgemeine Entwicklungshilfe genutzt)
Deployment- und Betriebsszenarien
- Unterstützt Offline-Browsing auf USB-Laufwerken oder in lokalen Ordnern
- Lokal/Homelab: Start per einzelnem Befehl in HTTP- oder Tor-Umgebungen
- Produktions-HTTPS: Automatische Einrichtung von Let’s-Encrypt-Zertifikaten (ca. 5 Minuten)
- Tor Hidden Service: Zugriff über eine
.onion-Adresse ohne Port-Forwarding
- Statisches Hosting: Upload zu GitHub Pages oder Codeberg Pages möglich (ohne Suchfunktion)
- Docker-basiertes Deployment: Vollständig automatisierte Konfiguration inklusive PostgreSQL
- Unterstützt Offline-Browsing, lokalen Suchserver und gleichzeitigen Tor-/HTTPS-Betrieb
Öffentliche Informationen
Noch keine Kommentare.