32 Punkte von xguru 2024-02-14 | 3 Kommentare | Auf WhatsApp teilen
  • Open Source, das alle Websites speichert, damit sie offline angesehen werden können
  • Speichert HTML/JS/PDF/Medien usw. aus manuell hinzugefügten URLs, dem Browserverlauf (per Erweiterung), Lesezeichen, RSS, Pocket/Pinboard usw.
    • Kann einzeln hinzugefügt oder so geplant werden, dass Inhalte regelmäßig importiert werden
  • Installation unter Linux, macOS und Windows (WSL2) oder Ausführung per Docker; nutzbar als CLI-Tool, Web-App, Python-Bibliothek oder Einmalbefehl
  • Speichert Snapshots von URLs in mehreren redundanten Formaten und erkennt alle in einer Seite enthaltenen Inhalte, um sie in Ordner zu extrahieren
    • HTML/alle Websites: originales HTML+CSS+JS, Singlefile-HTML, Screenshot-PNG, PDF, WARC, Titel, Inhaltstext, Favicon, Header, …
    • Soziale Medien/Nachrichten: Artikelinhalt als TXT, Kommentare, Titel, gespeicherte Inhalte, Bilder, …
    • YouTube/SoundCloud/etc.: MP3/MP4s, Untertitel, Metadaten, Thumbnails, …
    • Github/Gitlab/etc.-Links: GIT-Quellcode-Klon, README, Bilder, …
  • Verwendet keine proprietären Formate, sondern Standard-Tools wie Chrome, wget, yt-dlp usw. und speichert in normalen Dateien/Ordnern. Das heißt, alle Daten lassen sich auch ohne ArchiveBox lesen
  • Sendet zu speichernde URLs an archive.org, um dort eine separate Archivierungsanfrage auszulösen (redundante Sicherung, im Nur-lokal-Modus deaktivierbar)

3 Kommentare

 
ninebow 2024-02-21

Ich probiere in letzter Zeit Obsidian aus und speichere mit dem Instapaper -> Obsidian-Plugin Inhalte als Markdown, aber irgendwie wird das nicht besonders sauber übernommen.
Ich hatte schon vor, auf AWS Lambda ein Go-Readability laufen zu lassen, und dann aus Faulheit damit aufgehört, aber ich sollte wohl auch mal schauen, ob es etwas gibt, das sich gut mit solchen Tools integrieren lässt. Danke!

 
galadbran 2024-02-17

Wenn ich das Stichwort Archivierung sehe, schaue ich immer genauer hin. Hier sind einige frühere GeekNews-Artikel, die damit zu tun haben.

 
galadbran 2024-02-17

Ah, der GeekNews-Link von Shori ist https://de.news.hada.io/topic?id=577 .