- ArchiveBox stellt neue Funktionen vor, mit denen sich Internet-Archive selbst hosten lassen
- Nach den jüngsten Angriffen auf Archive.org ist das Interesse an ArchiveBox gestiegen
- ArchiveBox betont, dass es die Mission von Archive.org unterstützt und dass deren Dienst einen wichtigen Wert für die Menschheit bietet
Grenzen öffentlicher Archive
- Menschen zögern oft beim Archivieren, weil sie Angst vor einer dauerhaften Archivierung haben
- Es braucht die Möglichkeit für Einzelpersonen, das zu archivieren, was sie selbst für wichtig halten
- Es wird eine Lösung benötigt, um persönliche und halbprivate Inhalte passend zur modernen Web-Umgebung zu archivieren
Die Bedeutung der Archivierung
- Familien, Privatpersonen und Unternehmen möchten Inhalte bewahren, die für sie wichtig sind
- Die Archivierung persönlicher Inhalte bringt Sicherheitsherausforderungen mit sich und erfordert Vorsicht
Schädliche Inhalte
- Öffentliche Archive können mitunter Probleme verursachen, indem sie Inhalte wie Rassismus, Gewalt und Hassrede bewahren
- Es braucht eine sorgfältige Auseinandersetzung damit, wie solche Inhalte erhalten werden sollen
Vorstellung des neuen Plugin-Ökosystems von ArchiveBox
- ArchiveBox v0.8 ist das größte Update in der Geschichte des Projekts und führt ein neues Plugin-Ökosystem ein
- Enthalten sind Plugins mit verschiedenen Community-unterstützten Funktionen
yt-dlplädt Videos, Audio und Untertitel von YouTube, Soundcloud, YouKu und anderen Diensten herunterpapers-dllädt automatisch PDFs wissenschaftlicher Arbeiten herunter, wenn eine DOI-Nummer erkannt wirdgallery-dllädt Fotogalerien von Flickr, Instagram und anderen Plattformen herunterforum-dllädt alte Foren und tief verschachtelte Kommentar-Threads herunterreadabilityextrahiert Artikeltexte als .txt, .md und .epubaisendet Seiten-Screenshots und Text zusammen mit benutzerdefinierten Prompts an ein LLM und speichert die Antwortenwebhookslöst bei jedem Speichern bestimmter Ergebnisse externe APIs aus und sendet Pings an Slack, N8N und andere Dienste- Außerdem gibt es viele weitere Funktionen
- Das Plugin-System basiert auf den Bibliotheken pluggy und pydantic
Weitere Entwicklungen
- Eine neue REST API wurde mit django-ninja aufgebaut
- Unterstützung für externen Storage wurde hinzugefügt
- Die ersten Schritte zu einem inhaltsadressierbaren Storage-System wurden eingeführt
- Ein System für Hintergrundjobs wurde ergänzt
- Mit
abx-dlist ein neues Tool für einfache Anwendungsfälle geplant
"ArchiveBox wurde mit SQLite als Local-First-System entwickelt, und P2P ist immer optional"
Zusammenfassung von GN⁺
- ArchiveBox ist ein Tool, das Privatpersonen und Unternehmen dabei hilft, ihr eigenes Internet-Archiv aufzubauen, und die jüngsten Änderungen stärken diese Rolle weiter
- Es ergänzt die Grenzen öffentlicher Archive und bietet eine Möglichkeit, persönliche und sensible Inhalte sicher zu bewahren
- Das Plugin-Ökosystem bietet vielfältige Funktionen und verbessert die User Experience
2 Kommentare
ArchiveBox – Self-Hosting-Web-Archivierungstool
Hacker-News-Kommentare
Es gibt Meinungen zur Nachhaltigkeit von ArchiveBox und zur Notwendigkeit von Verbesserungen. Die Beteiligung der Community ist wichtig, und die Schwierigkeiten eines einzelnen Entwicklers werden nachvollzogen.
Es gibt Erwartungen an die neue API und Plugins von ArchiveBox. Es wird seit zwei Jahren zum Archivieren verwendet.
Werkzeuge wie
grab-sitekönnten nützlich sein, um WARC-Archive zu erzeugen und zu speichern. Für verteilte Archive könnten ein CDX-Index und Unterstützung für kryptografische Signaturen nötig sein.Es wird eine Erfahrung geteilt, bei der ArchiveBox genutzt wurde, um Informationen über alte Boote zu archivieren. Dabei wird Bedauern darüber ausgedrückt, dass frühere Webforen verschwunden sind.
Für die Archivierung persönlicher Webseiten wird Readeck.org verwendet, und es besteht Interesse an der Richtung von ArchiveBox hin zu verteilter Archivierung.
Es wird nach der Verfügbarkeit von
abx-dlgefragt, und die Bereitschaft zur Unterstützung beim Packaging wird geäußert.Es gibt Erwartungen an die REST API, zugleich wird das Fehlen einer Suchfunktion bedauert. Eine Abfragefunktion über einen FTS-Index wird benötigt.
Es wird das Bedürfnis geäußert, mit ArchiveBox die Archivierung von Websites auszuprobieren. Die Archiv-Exportfunktion des Pinboard-Abonnements funktioniert nicht.
Es wird vorgeschlagen, einen Merkle-Baum für die archivierten Daten zu erstellen. Als Methode zum Nachweis der Authentizität der Daten könnte eine Blockchain in Betracht gezogen werden.
Es wird um Empfehlungen für ein selbst gehostetes System zur Überwachung von Website-Änderungen gebeten. Huginn wird verwendet, hat aber Schwierigkeiten mit modernen JS-basierten Websites.