ArchiveBox – Self-hosting-Tool zur Web-Archivierung
(archivebox.io)- Open Source, das alle Websites speichert, damit sie offline angesehen werden können
- Speichert HTML/JS/PDF/Medien usw. aus manuell hinzugefügten URLs, dem Browserverlauf (per Erweiterung), Lesezeichen, RSS, Pocket/Pinboard usw.
- Kann einzeln hinzugefügt oder so geplant werden, dass Inhalte regelmäßig importiert werden
- Installation unter Linux, macOS und Windows (WSL2) oder Ausführung per Docker; nutzbar als CLI-Tool, Web-App, Python-Bibliothek oder Einmalbefehl
- Speichert Snapshots von URLs in mehreren redundanten Formaten und erkennt alle in einer Seite enthaltenen Inhalte, um sie in Ordner zu extrahieren
- HTML/alle Websites: originales HTML+CSS+JS, Singlefile-HTML, Screenshot-PNG, PDF, WARC, Titel, Inhaltstext, Favicon, Header, …
- Soziale Medien/Nachrichten: Artikelinhalt als TXT, Kommentare, Titel, gespeicherte Inhalte, Bilder, …
- YouTube/SoundCloud/etc.: MP3/MP4s, Untertitel, Metadaten, Thumbnails, …
- Github/Gitlab/etc.-Links: GIT-Quellcode-Klon, README, Bilder, …
- Verwendet keine proprietären Formate, sondern Standard-Tools wie Chrome,
wget,yt-dlpusw. und speichert in normalen Dateien/Ordnern. Das heißt, alle Daten lassen sich auch ohne ArchiveBox lesen - Sendet zu speichernde URLs an archive.org, um dort eine separate Archivierungsanfrage auszulösen (redundante Sicherung, im Nur-lokal-Modus deaktivierbar)
3 Kommentare
Ich probiere in letzter Zeit Obsidian aus und speichere mit dem Instapaper -> Obsidian-Plugin Inhalte als Markdown, aber irgendwie wird das nicht besonders sauber übernommen.
Ich hatte schon vor, auf AWS Lambda ein Go-Readability laufen zu lassen, und dann aus Faulheit damit aufgehört, aber ich sollte wohl auch mal schauen, ob es etwas gibt, das sich gut mit solchen Tools integrieren lässt. Danke!
Wenn ich das Stichwort Archivierung sehe, schaue ich immer genauer hin. Hier sind einige frühere GeekNews-Artikel, die damit zu tun haben.
Ah, der GeekNews-Link von Shori ist https://de.news.hada.io/topic?id=577 .