8 Punkte von xguru 2022-06-30 | 1 Kommentare | Auf WhatsApp teilen
  • Konvertiert Web ARChive-Dateien (.warc) in das spaltenbasierte Apache-Parquet-Format
  • Parquet kann in DuckDB geladen und bequem abgefragt werden
  • Open Source in Rust

1 Kommentare

 
xguru 2022-06-30

DuckDB - Embedded OLAP DB Open Source

Das wirkt ähnlich wie WarcDB - Web crawl data as SQLite DB, das vor Kurzem gepostet wurde.
Allerdings dürfte es sich dort, wo bereits eine auf Parquet basierende Infrastruktur vorhanden ist, einfacher nutzen lassen.