3 Punkte von GN⁺ 2026-01-16 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Open-Source-Tool, das Daten von Plattformen wie Reddit, Voat und Ruqqus in ein PostgreSQL-basiertes HTML-Archiv umwandelt
  • Verarbeitet lokal 2,38 Mrd. Reddit-Beiträge (einschließlich rund 40.000 Subreddits) und bietet ein mobilfreundliches Design sowie eine Oberfläche ohne JavaScript
  • In einer Situation, in der der Zugang zur Reddit-API praktisch eingestellt ist und Drittanbieter-Apps sowie der Datenzugriff blockiert werden, ist dies ein Versuch, mithilfe des bestehenden Pushshift-Datensatzes ein vollständiges Reddit-Archiv in persönlichen Besitz zu überführen
  • Läuft als statisches HTML ohne JavaScript, externe Requests oder Tracking und kann in vielen Formen betrieben werden, etwa offline, in Air-Gap-Umgebungen, auf USB, Raspberry Pi oder LAN-Servern
  • Unterstützt groß angelegte Analysen und Abfragen durch PostgreSQL Full-Text Search (FTS), mehr als 30 REST-APIs und einen MCP-Server (29 Tools) zur Anbindung von AI-Tools

Veränderungen beim Zugang zu Reddit-Daten

  • Die Reddit-API ist für Archivierungszwecke faktisch nicht mehr nutzbar
  • Wiederholte Bedrohungen für den Zugang zum Pushshift-Datensatz sowie der Zusammenbruch des Ökosystems von Drittanbieter-Apps
    • Der Pushshift-Datensatz ist ein groß angelegtes Archiv, das öffentliche Reddit-Posts und -Kommentare über lange Zeit gesammelt und gespeichert hat und Milliarden von Texteinträgen umfasst
    • Es handelt sich um Snapshot-Daten aus früheren Zeitpunkten, die über die offizielle Reddit-API gesammelt wurden und auch ohne Zugriff auf aktuelle Reddit-Server oder die API genutzt werden können
    • Nach Änderungen der API-Richtlinien und Einschränkungen beim Datenzugriff wird er als praktisch letzte öffentliche Datenressource für die Bewahrung der Reddit-Geschichte und groß angelegte Analysen genutzt
  • Über Pushshift ist das gesamte historische Reddit-Archiv bereits in Form von Torrents öffentlich verfügbar

Überblick über das Redd-Archiver-Projekt

  • Redd-Archiver v1.0 erzeugt durch die Umwandlung öffentlicher Daten-Dumps von Reddit, Voat und Ruqqus ein durchsuchbares HTML-Archiv
  • Verwendet ein PostgreSQL-Backend, um große Datensätze mit konstantem Speicherbedarf (4GB) zu verarbeiten, und bietet schnelle Suche per FTS auf Basis von GIN-Indizierung
  • Die HTML-Ausgabe erlaubt auch offline Sortierung, Pagination und das Navigieren in Kommentarbäumen

Kernstruktur des Archivierungstools Redd-Archiver

  • Nutzt Dumps von Reddit (.zst), Voat (SQL) und Ruqqus (.7z) als Eingabe
    • Plattformübergreifende Integration: Kombiniert drei Plattformen zu einem einzigen Archiv. Unterstützt automatische Plattformerkennung und plattformübergreifende Suche
    • Bietet per CLI-Flag und URL-Präfix das Pfadschema /r/, /v/, /g/
  • Erzeugt statische HTML-Dateien und eliminiert dadurch Server-Abhängigkeiten
  • Durch einfaches Öffnen von index.html navigierbar, ohne externes Netzwerk
    • Mobile-First-Responsive-Layout und touchfreundliche Navigation
    • Indizes mit Sortierung nach Score, Kommentaren und Datum sowie Pagination
    • CSS-basierte Interaktion ohne JavaScript
  • Unterstützt mit PostgreSQL-FTS plattformübergreifende Full-Text-Suche
    • Filterung nach Keywords, Autor, Datum, Score usw.
  • Bietet eine REST-API mit Abfragen für Beiträge, Kommentare, Nutzer, Subreddits und Aggregationen
  • Enthält einen MCP-Server, mit dem AI-Tools das Archiv direkt abfragen können
    • In Claude Desktop oder Claude Code sind Abfragen zu Beiträgen, Kommentaren, Nutzern und Suchanfragen möglich
  • Pro Instanz können zig Millionen Beiträge verarbeitet werden
  • Dank der PostgreSQL-Struktur bleibt der Speicherverbrauch unabhängig von der Datengröße konstant
  • Für die gesamten 2,38 Mrd. Beiträge wird ein verteilter Betrieb über mehrere thematische Instanzen empfohlen
  • Implementiert auf Basis von Python, PostgreSQL, Jinja2 und Docker (Claude Code wurde als allgemeine Entwicklungshilfe genutzt)

Deployment- und Betriebsszenarien

  • Unterstützt Offline-Browsing auf USB-Laufwerken oder in lokalen Ordnern
  • Lokal/Homelab: Start per einzelnem Befehl in HTTP- oder Tor-Umgebungen
  • Produktions-HTTPS: Automatische Einrichtung von Let’s-Encrypt-Zertifikaten (ca. 5 Minuten)
  • Tor Hidden Service: Zugriff über eine .onion-Adresse ohne Port-Forwarding
  • Statisches Hosting: Upload zu GitHub Pages oder Codeberg Pages möglich (ohne Suchfunktion)
  • Docker-basiertes Deployment: Vollständig automatisierte Konfiguration inklusive PostgreSQL
    • Unterstützt Offline-Browsing, lokalen Suchserver und gleichzeitigen Tor-/HTTPS-Betrieb

Öffentliche Informationen

Noch keine Kommentare.

Noch keine Kommentare.