mpa-archive – Ein Tool, das Websites in ZIP-Dateien umwandelt und direkt aus ZIP-Dateien ausliefert

xguru · 2024-06-13T09:26:01+09:00

Ein Multi-Page-Application-(MPA)-Archiver, der mehrseitige Web-Apps in eine ZIP-Datei crawlt und direkt daraus ausliefern kann Mit mpa http://example.net wird mithilfe von headless Puppeteer rekursiv gecrawlt (verwendet Anzahl der CPUs / 2 Threads) Holt die Sitemap und verwendet sie als Seed-Punkte Crawlt nur Website-URLs, fetcht aber auch externe Ressourcen Speichert die Ressourcen der Website doppelt Erstellt mpa/sitemap.txt und mpa/sitemap.xml Kann nach einer Unterbrechung fortgesetzt werden. Speichert alle 250 URLs einen Checkpoint Bei SPAs kann mit der Option --spa das ursprüngliche HTML gespeichert werden

(github.com/potahtml)

17 Punkte von xguru 2024-06-13 | Noch keine Kommentare. | Auf WhatsApp teilen

Ein Multi-Page-Application-(MPA)-Archiver, der mehrseitige Web-Apps in eine ZIP-Datei crawlt und direkt daraus ausliefern kann
Mit mpa http://example.net wird mithilfe von headless Puppeteer rekursiv gecrawlt (verwendet Anzahl der CPUs / 2 Threads)
Holt die Sitemap und verwendet sie als Seed-Punkte
Crawlt nur Website-URLs, fetcht aber auch externe Ressourcen
Speichert die Ressourcen der Website doppelt
Erstellt mpa/sitemap.txt und mpa/sitemap.xml
Kann nach einer Unterbrechung fortgesetzt werden. Speichert alle 250 URLs einen Checkpoint
Bei SPAs kann mit der Option --spa das ursprüngliche HTML gespeichert werden

mpa-archive – Ein Tool, das Websites in ZIP-Dateien umwandelt und direkt aus ZIP-Dateien ausliefert

Verwandte Beiträge

Noch keine Kommentare.