18 Punkte von GN⁺ 2024-10-17 | 2 Kommentare | Auf WhatsApp teilen
  • ArchiveBox stellt neue Funktionen vor, mit denen sich Internet-Archive selbst hosten lassen
  • Nach den jüngsten Angriffen auf Archive.org ist das Interesse an ArchiveBox gestiegen
    • ArchiveBox betont, dass es die Mission von Archive.org unterstützt und dass deren Dienst einen wichtigen Wert für die Menschheit bietet

Grenzen öffentlicher Archive

  • Menschen zögern oft beim Archivieren, weil sie Angst vor einer dauerhaften Archivierung haben
  • Es braucht die Möglichkeit für Einzelpersonen, das zu archivieren, was sie selbst für wichtig halten
  • Es wird eine Lösung benötigt, um persönliche und halbprivate Inhalte passend zur modernen Web-Umgebung zu archivieren

Die Bedeutung der Archivierung

  • Familien, Privatpersonen und Unternehmen möchten Inhalte bewahren, die für sie wichtig sind
  • Die Archivierung persönlicher Inhalte bringt Sicherheitsherausforderungen mit sich und erfordert Vorsicht

Schädliche Inhalte

  • Öffentliche Archive können mitunter Probleme verursachen, indem sie Inhalte wie Rassismus, Gewalt und Hassrede bewahren
  • Es braucht eine sorgfältige Auseinandersetzung damit, wie solche Inhalte erhalten werden sollen

Vorstellung des neuen Plugin-Ökosystems von ArchiveBox

  • ArchiveBox v0.8 ist das größte Update in der Geschichte des Projekts und führt ein neues Plugin-Ökosystem ein
  • Enthalten sind Plugins mit verschiedenen Community-unterstützten Funktionen
    • yt-dlp lädt Videos, Audio und Untertitel von YouTube, Soundcloud, YouKu und anderen Diensten herunter
    • papers-dl lädt automatisch PDFs wissenschaftlicher Arbeiten herunter, wenn eine DOI-Nummer erkannt wird
    • gallery-dl lädt Fotogalerien von Flickr, Instagram und anderen Plattformen herunter
    • forum-dl lädt alte Foren und tief verschachtelte Kommentar-Threads herunter
    • readability extrahiert Artikeltexte als .txt, .md und .epub
    • ai sendet Seiten-Screenshots und Text zusammen mit benutzerdefinierten Prompts an ein LLM und speichert die Antworten
    • webhooks löst bei jedem Speichern bestimmter Ergebnisse externe APIs aus und sendet Pings an Slack, N8N und andere Dienste
    • Außerdem gibt es viele weitere Funktionen
  • Das Plugin-System basiert auf den Bibliotheken pluggy und pydantic

Weitere Entwicklungen

  • Eine neue REST API wurde mit django-ninja aufgebaut
  • Unterstützung für externen Storage wurde hinzugefügt
  • Die ersten Schritte zu einem inhaltsadressierbaren Storage-System wurden eingeführt
  • Ein System für Hintergrundjobs wurde ergänzt
  • Mit abx-dl ist ein neues Tool für einfache Anwendungsfälle geplant

"ArchiveBox wurde mit SQLite als Local-First-System entwickelt, und P2P ist immer optional"

Zusammenfassung von GN⁺

  • ArchiveBox ist ein Tool, das Privatpersonen und Unternehmen dabei hilft, ihr eigenes Internet-Archiv aufzubauen, und die jüngsten Änderungen stärken diese Rolle weiter
  • Es ergänzt die Grenzen öffentlicher Archive und bietet eine Möglichkeit, persönliche und sensible Inhalte sicher zu bewahren
  • Das Plugin-Ökosystem bietet vielfältige Funktionen und verbessert die User Experience

2 Kommentare

 
GN⁺ 2024-10-17
Hacker-News-Kommentare
  • Es gibt Meinungen zur Nachhaltigkeit von ArchiveBox und zur Notwendigkeit von Verbesserungen. Die Beteiligung der Community ist wichtig, und die Schwierigkeiten eines einzelnen Entwicklers werden nachvollzogen.

    • Damit ArchiveBox zu einem stabileren und verlässlicheren Projekt wird, braucht es Unterstützung aus der Community.
    • Archivierung ist nicht nur für die Vergangenheit, sondern auch für die Zukunft wichtig, und dafür könnte eine nachhaltige Entwicklungsorganisation nötig sein.
  • Es gibt Erwartungen an die neue API und Plugins von ArchiveBox. Es wird seit zwei Jahren zum Archivieren verwendet.

  • Werkzeuge wie grab-site könnten nützlich sein, um WARC-Archive zu erzeugen und zu speichern. Für verteilte Archive könnten ein CDX-Index und Unterstützung für kryptografische Signaturen nötig sein.

  • Es wird eine Erfahrung geteilt, bei der ArchiveBox genutzt wurde, um Informationen über alte Boote zu archivieren. Dabei wird Bedauern darüber ausgedrückt, dass frühere Webforen verschwunden sind.

  • Für die Archivierung persönlicher Webseiten wird Readeck.org verwendet, und es besteht Interesse an der Richtung von ArchiveBox hin zu verteilter Archivierung.

  • Es wird nach der Verfügbarkeit von abx-dl gefragt, und die Bereitschaft zur Unterstützung beim Packaging wird geäußert.

  • Es gibt Erwartungen an die REST API, zugleich wird das Fehlen einer Suchfunktion bedauert. Eine Abfragefunktion über einen FTS-Index wird benötigt.

  • Es wird das Bedürfnis geäußert, mit ArchiveBox die Archivierung von Websites auszuprobieren. Die Archiv-Exportfunktion des Pinboard-Abonnements funktioniert nicht.

  • Es wird vorgeschlagen, einen Merkle-Baum für die archivierten Daten zu erstellen. Als Methode zum Nachweis der Authentizität der Daten könnte eine Blockchain in Betracht gezogen werden.

  • Es wird um Empfehlungen für ein selbst gehostetes System zur Überwachung von Website-Änderungen gebeten. Huginn wird verwendet, hat aber Schwierigkeiten mit modernen JS-basierten Websites.