3 Punkte von GN⁺ 2026-01-16 | 1 Kommentare | Auf WhatsApp teilen
  • Open-Source-Tool, das Daten von Plattformen wie Reddit, Voat und Ruqqus in ein PostgreSQL-basiertes HTML-Archiv umwandelt
  • Verarbeitet lokal 2,38 Mrd. Reddit-Beiträge (einschließlich rund 40.000 Subreddits) und bietet ein mobilfreundliches Design sowie eine Oberfläche ohne JavaScript
  • In einer Situation, in der der Zugang zur Reddit-API praktisch eingestellt ist und Drittanbieter-Apps sowie der Datenzugriff blockiert werden, ist dies ein Versuch, mithilfe des bestehenden Pushshift-Datensatzes ein vollständiges Reddit-Archiv in persönlichen Besitz zu überführen
  • Läuft als statisches HTML ohne JavaScript, externe Requests oder Tracking und kann in vielen Formen betrieben werden, etwa offline, in Air-Gap-Umgebungen, auf USB, Raspberry Pi oder LAN-Servern
  • Unterstützt groß angelegte Analysen und Abfragen durch PostgreSQL Full-Text Search (FTS), mehr als 30 REST-APIs und einen MCP-Server (29 Tools) zur Anbindung von AI-Tools

Veränderungen beim Zugang zu Reddit-Daten

  • Die Reddit-API ist für Archivierungszwecke faktisch nicht mehr nutzbar
  • Wiederholte Bedrohungen für den Zugang zum Pushshift-Datensatz sowie der Zusammenbruch des Ökosystems von Drittanbieter-Apps
    • Der Pushshift-Datensatz ist ein groß angelegtes Archiv, das öffentliche Reddit-Posts und -Kommentare über lange Zeit gesammelt und gespeichert hat und Milliarden von Texteinträgen umfasst
    • Es handelt sich um Snapshot-Daten aus früheren Zeitpunkten, die über die offizielle Reddit-API gesammelt wurden und auch ohne Zugriff auf aktuelle Reddit-Server oder die API genutzt werden können
    • Nach Änderungen der API-Richtlinien und Einschränkungen beim Datenzugriff wird er als praktisch letzte öffentliche Datenressource für die Bewahrung der Reddit-Geschichte und groß angelegte Analysen genutzt
  • Über Pushshift ist das gesamte historische Reddit-Archiv bereits in Form von Torrents öffentlich verfügbar

Überblick über das Redd-Archiver-Projekt

  • Redd-Archiver v1.0 erzeugt durch die Umwandlung öffentlicher Daten-Dumps von Reddit, Voat und Ruqqus ein durchsuchbares HTML-Archiv
  • Verwendet ein PostgreSQL-Backend, um große Datensätze mit konstantem Speicherbedarf (4GB) zu verarbeiten, und bietet schnelle Suche per FTS auf Basis von GIN-Indizierung
  • Die HTML-Ausgabe erlaubt auch offline Sortierung, Pagination und das Navigieren in Kommentarbäumen

Kernstruktur des Archivierungstools Redd-Archiver

  • Nutzt Dumps von Reddit (.zst), Voat (SQL) und Ruqqus (.7z) als Eingabe
    • Plattformübergreifende Integration: Kombiniert drei Plattformen zu einem einzigen Archiv. Unterstützt automatische Plattformerkennung und plattformübergreifende Suche
    • Bietet per CLI-Flag und URL-Präfix das Pfadschema /r/, /v/, /g/
  • Erzeugt statische HTML-Dateien und eliminiert dadurch Server-Abhängigkeiten
  • Durch einfaches Öffnen von index.html navigierbar, ohne externes Netzwerk
    • Mobile-First-Responsive-Layout und touchfreundliche Navigation
    • Indizes mit Sortierung nach Score, Kommentaren und Datum sowie Pagination
    • CSS-basierte Interaktion ohne JavaScript
  • Unterstützt mit PostgreSQL-FTS plattformübergreifende Full-Text-Suche
    • Filterung nach Keywords, Autor, Datum, Score usw.
  • Bietet eine REST-API mit Abfragen für Beiträge, Kommentare, Nutzer, Subreddits und Aggregationen
  • Enthält einen MCP-Server, mit dem AI-Tools das Archiv direkt abfragen können
    • In Claude Desktop oder Claude Code sind Abfragen zu Beiträgen, Kommentaren, Nutzern und Suchanfragen möglich
  • Pro Instanz können zig Millionen Beiträge verarbeitet werden
  • Dank der PostgreSQL-Struktur bleibt der Speicherverbrauch unabhängig von der Datengröße konstant
  • Für die gesamten 2,38 Mrd. Beiträge wird ein verteilter Betrieb über mehrere thematische Instanzen empfohlen
  • Implementiert auf Basis von Python, PostgreSQL, Jinja2 und Docker (Claude Code wurde als allgemeine Entwicklungshilfe genutzt)

Deployment- und Betriebsszenarien

  • Unterstützt Offline-Browsing auf USB-Laufwerken oder in lokalen Ordnern
  • Lokal/Homelab: Start per einzelnem Befehl in HTTP- oder Tor-Umgebungen
  • Produktions-HTTPS: Automatische Einrichtung von Let’s-Encrypt-Zertifikaten (ca. 5 Minuten)
  • Tor Hidden Service: Zugriff über eine .onion-Adresse ohne Port-Forwarding
  • Statisches Hosting: Upload zu GitHub Pages oder Codeberg Pages möglich (ohne Suchfunktion)
  • Docker-basiertes Deployment: Vollständig automatisierte Konfiguration inklusive PostgreSQL
    • Unterstützt Offline-Browsing, lokalen Suchserver und gleichzeitigen Tor-/HTTPS-Betrieb

Öffentliche Informationen

1 Kommentare

 
GN⁺ 2026-01-16
Hacker-News-Kommentare
  • Eine großartige Möglichkeit, ein Archiv selbst zu hosten.
    Persönlich hätte ich gern ein Plugin, das gelöschte Kommentare oder von Bots überschriebene Kommentare automatisch auf die Originalfassung zurücksetzt.
    Einer der Gründe, warum Reddit heute so schwer nutzbar ist: Die Hälfte der alten Links führt inzwischen zu nutzlosen Kommentaren, weil sie aus Protest überschrieben wurden.
    Ironischerweise bleibt das Original in Archiven für das Training von KI erhalten, aber normale Nutzer können dadurch Dinge wie eine Lösung für ein Druckertreiber-Problem von vor zwei Jahren nicht mehr finden.

    • Eigentlich ist das keine echte Ironie. Die meisten großen Kommentar-Löschaktionen geschahen nicht als Protest gegen LLM-Training, sondern als Boykott gegen Reddits API-Sperre.
      Dass die Seite dadurch weniger nützlich wird, war genau das Ziel, und Nutzer zum Weggehen zu bewegen war der Kern des Protests.
    • Als verwandtes Projekt wurde reddit-uncensored verlinkt.
    • Ich sehe auch oft verschwundene Kommentare, aber wenn der Autor nicht mehr an einer öffentlichen Diskussion teilnehmen will, respektiere ich diese Entscheidung.
      Ich würde nicht extra Archive durchsuchen, um diese Entscheidung auszuhebeln. Ich gehe einfach weiter.
  • Die Daten können per Torrent bezogen werden.
    Link: redd-archiver-Repository

  • Wirklich ein großartiges Projekt.
    Neben PushShift gibt es noch andere Archive — zum Beispiel Arctic Shift oder PullPush, die unterschiedliche Datensätze bereitstellen.
    Je nach Umfang von Löschanfragen können unterschiedliche Posts oder Kommentare enthalten sein.

  • Ich frage mich, ob man auf Basis dieser Daten nicht neue dezentrale soziale Medien anstoßen könnte —
    gewissermaßen so, wie man ein Projekt forkt.

    • Die Tooling für ein Instanz-Register und teambasierte Leaderboards wurde bereits gebaut.
      Die API unterstützt das ebenfalls, sodass Archive dezentral gemeinsam gehostet werden können.
  • Ein wirklich interessantes Projekt.
    Ich frage mich, ob der Pushshift-Datensatz regelmäßig aktualisiert wird oder nur ein Snapshot eines bestimmten Zeitpunkts ist.
    Wenn man das selbst hostet, würde ich gern wissen, ob man neue Daten regelmäßig nachladen muss.

    • Daten bis Dezember 2025 wurden bereits veröffentlicht, und normalerweise gibt es jeden Monat neue Releases.
      watchful1 teilt die Daten gerade auf und verarbeitet sie neu; künftig sollen Arctic-Shift-Dumps eingebunden werden, um monatliche Updates zu unterstützen.
      Zugehörige Links:
  • Ich arbeite ebenfalls an einem ähnlichen Projekt und habe Pushshift-Reddit-Daten in Hugging Face Datasets hochgeladen.
    Wenn die Torrent-Seeds schwach sind, kann man einzelne Dateien direkt über huggingface.co/datasets/nick007x/pushshift-reddit herunterladen.
    Das ist nützlich für Leute, die Monatsdaten oder nur ein bestimmtes Subreddit testen wollen.

  • Ich habe versucht, die lokale Umgebung mit Docker Compose zu starten, bin aber gescheitert.
    Es gibt keine .env.example-Datei, und selbst bei manuell gesetzten Umgebungsvariablen gibt es Probleme mit den Volume-Pfaden.
    Das wirkt so, als müsste es noch etwas nachgebessert werden.

    • Dank des Feedbacks wurden die fehlenden Beispieldateien ergänzt, und in der Dokumentation wurde auch der mkdir-Schritt aktualisiert.
      Zugehörige Commits: 0bb1039, c3754ea
  • Ich frage mich, ob man das mit der toten Apollo-App verbinden könnte, um einen früheren Stand von Reddit wiederherzustellen.

    • Die API unterstützt verschiedene Integrationen, daher scheint das möglich zu sein.
  • Ich möchte nicht ganz Reddit auf meinem Computer speichern.
    Es wäre gut, wenn man nur bestimmte Subreddits auswählen könnte.

    • Der Torrent enthält Daten der 40.000 größten Subreddits.
      watchful1 hat die Daten nach Subreddits aufgeteilt, sodass man nur die gewünschten Teile herunterladen kann.
  • Ich frage mich, ob es eine Möglichkeit gibt zu prüfen, ob auf privat gesetzte Subreddits von vor 2–3 Jahren in den Daten-Dumps enthalten sind.