- Ein dateibasiertes Format auf SQLite-DB-Basis, das gecrawlte Webdaten leicht per SQL abfragbar macht
- Standard-Web-ARChive-Dateien (
.warc), wie sie von wget und WebRecorder verwendet werden, können nach .warcdb importiert werden
- Der Befehl
sqlite-utils kann unverändert verwendet werden
wget --warc-file tselai "https://tselai.com"
warcdb import archive.warcdb tselai.warc.gz
// Alle Response-Header abrufen
sqlite3 archive.warcdb <<SQL
select json_extract(h.value, '$.header') as header,
json_extract(h.value, '$.value') as value
from response,
json_each(http_headers) h
SQL
Noch keine Kommentare.