warc-parquet - CLI zum Konvertieren von WARC in Parquet (github.com/maxcountryman) 8 Punkte von xguru 2022-06-30 | 1 Kommentare | Auf WhatsApp teilen Konvertiert Web ARChive-Dateien (.warc) in das spaltenbasierte Apache-Parquet-Format Parquet kann in DuckDB geladen und bequem abgefragt werden Open Source in Rust Verwandte Beiträge WarcDB - Web-Crawl-Daten als SQLite-DB 14 Punkte · 0 Kommentare · 2022-06-22 Carquet - Hochleistungsfähige Pure-C-Bibliothek zum Lesen und Schreiben von Parquet-Dateien 9 Punkte · 0 Kommentare · 2026-01-17 dir2md v1.0.4 — CLI zur Umwandlung von Open-Source-Codebasen in LLM-friendly Markdown, großes Update 8 Punkte · 0 Kommentare · 2025-10-10 Broot - ein neues CLI-Tool zum Navigieren in komplexen Verzeichnisbäumen 7 Punkte · 3 Kommentare · 2020-01-10 DuckLake – Integriertes Data-Lake- und Katalogformat 13 Punkte · 1 Kommentare · 2025-05-29 1 Kommentare xguru 2022-06-30 DuckDB - Embedded OLAP DB Open Source Das wirkt ähnlich wie WarcDB - Web crawl data as SQLite DB, das vor Kurzem gepostet wurde. Allerdings dürfte es sich dort, wo bereits eine auf Parquet basierende Infrastruktur vorhanden ist, einfacher nutzen lassen.
1 Kommentare
DuckDB - Embedded OLAP DB Open Source
Das wirkt ähnlich wie WarcDB - Web crawl data as SQLite DB, das vor Kurzem gepostet wurde.
Allerdings dürfte es sich dort, wo bereits eine auf Parquet basierende Infrastruktur vorhanden ist, einfacher nutzen lassen.