ArchiveBox – Self-hosting-Tool zur Web-Archivierung

xguru · 2024-02-14T10:27:25+09:00

Open Source, das alle Websites speichert, damit sie offline angesehen werden können Speichert HTML/JS/PDF/Medien usw. aus manuell hinzugefügten URLs, dem Browserverlauf (per Erweiterung), Lesezeichen, RSS, Pocket/Pinboard usw. Kann einzeln hinzugefügt oder so geplant werden, dass Inhalte regelmäßig importiert werden Installation unter Linux, macOS und Windows (WSL2) oder Ausführung per Docker; nutzbar als CLI-Tool, Web-App, Python-Bibliothek oder Einmalbefehl Speichert Snapshots von URLs in mehreren redundanten Formaten und erkennt alle in einer Seite enthaltenen Inhalte, um sie in Ordner zu extrahieren HTML/alle Websites: originales HTML+CSS+JS, Singlefile-HTML, Screenshot-PNG, PDF, WARC, Titel, Inhaltstext, Favicon, Header, … Soziale Medien/Nachrichten: Artikelinhalt als TXT, Kommentare, Titel, gespeicherte Inhalte, Bilder, … YouTube/SoundCloud/etc.: MP3/MP4s, Untertitel, Metadaten, Thumbnails, … Github/Gitlab/etc.-Links: GIT-Quellcode-Klon, README, Bilder, … Verwendet keine proprietären Formate, sondern Standard-Tools wie Chrome, wget, yt-dlp usw. und speichert in normalen Dateien/Ordnern. Das heißt, alle Daten lassen sich auch ohne ArchiveBox lesen Sendet zu speichernde URLs an archive.org, um dort eine separate Archivierungsanfrage auszulösen (redundante Sicherung, im Nur-lokal-Modus deaktivierbar)

(archivebox.io)

32 Punkte von xguru 2024-02-14 | 3 Kommentare | Auf WhatsApp teilen

Open Source, das alle Websites speichert, damit sie offline angesehen werden können
Speichert HTML/JS/PDF/Medien usw. aus manuell hinzugefügten URLs, dem Browserverlauf (per Erweiterung), Lesezeichen, RSS, Pocket/Pinboard usw.
- Kann einzeln hinzugefügt oder so geplant werden, dass Inhalte regelmäßig importiert werden
Installation unter Linux, macOS und Windows (WSL2) oder Ausführung per Docker; nutzbar als CLI-Tool, Web-App, Python-Bibliothek oder Einmalbefehl
Speichert Snapshots von URLs in mehreren redundanten Formaten und erkennt alle in einer Seite enthaltenen Inhalte, um sie in Ordner zu extrahieren
- HTML/alle Websites: originales HTML+CSS+JS, Singlefile-HTML, Screenshot-PNG, PDF, WARC, Titel, Inhaltstext, Favicon, Header, …
- Soziale Medien/Nachrichten: Artikelinhalt als TXT, Kommentare, Titel, gespeicherte Inhalte, Bilder, …
- YouTube/SoundCloud/etc.: MP3/MP4s, Untertitel, Metadaten, Thumbnails, …
- Github/Gitlab/etc.-Links: GIT-Quellcode-Klon, README, Bilder, …
Verwendet keine proprietären Formate, sondern Standard-Tools wie Chrome, wget, yt-dlp usw. und speichert in normalen Dateien/Ordnern. Das heißt, alle Daten lassen sich auch ohne ArchiveBox lesen
Sendet zu speichernde URLs an archive.org, um dort eine separate Archivierungsanfrage auszulösen (redundante Sicherung, im Nur-lokal-Modus deaktivierbar)

3 Kommentare

ninebow 2024-02-21

Ich probiere in letzter Zeit Obsidian aus und speichere mit dem Instapaper -> Obsidian-Plugin Inhalte als Markdown, aber irgendwie wird das nicht besonders sauber übernommen.
Ich hatte schon vor, auf AWS Lambda ein Go-Readability laufen zu lassen, und dann aus Faulheit damit aufgehört, aber ich sollte wohl auch mal schauen, ob es etwas gibt, das sich gut mit solchen Tools integrieren lässt. Danke!

galadbran 2024-02-17

Wenn ich das Stichwort Archivierung sehe, schaue ich immer genauer hin. Hier sind einige frühere GeekNews-Artikel, die damit zu tun haben.

galadbran 2024-02-17

Ah, der GeekNews-Link von Shori ist https://de.news.hada.io/topic?id=577 .

ArchiveBox – Self-hosting-Tool zur Web-Archivierung

Verwandte Beiträge

3 Kommentare