- Eine produktreife Pure-C-Implementierung, entwickelt, um das Apache-Parquet-Format direkt in C-Umgebungen zu unterstützen
- Geschrieben auf Basis des C11-Standards, läuft ohne C++-Runtime oder Exception-Handling und nutzt nur zstd und zlib als externe Abhängigkeiten
- Geeignet für Datenverarbeitung in eingeschränkten Umgebungen wie Embedded-Systemen, IoT, Mikrocontrollern und Legacy-Umgebungen
- Mit einer Binärgröße von rund 200 KB ist der Build im Vergleich zu Apache Arrow mehr als 50 MB kleiner und deutlich schlanker
- Unterstützung verschiedener Architekturen durch SIMD-Optimierungen (SSE4.2, AVX2, AVX-512, NEON, SVE) und automatische Laufzeiterkennung
- Unterstützung für alle physischen Typen (BOOLEAN, INT32, DOUBLE usw.) sowie verschiedene Encodings und Kompressions-Codecs (ZSTD, LZ4, SNAPPY, GZIP)
- Unterstützung korrekter Byte-Reihenfolge auch auf Big-Endian-Systemen (s390x, SPARC, PowerPC usw.)
- Enthält produktionsreife Funktionen wie nullable Spalten, grundlegende verschachtelte Schemata, CRC32-Seitenvalidierung, Spaltenstatistiken, Memory-Mapped-I/O und paralleles Lesen mit OpenMP
- Mit der Streaming-API lassen sich große Dateien verarbeiten, ohne sie vollständig in den Speicher zu laden
- Vollständig kompatibel mit PyArrow, unterstützt gegenseitiges Lesen und Schreiben mit Python-Umgebungen
- Im Vergleich zu Apache Arrow
- 1,5- bis 5-mal schnellere Schreibgeschwindigkeit auf ARM, Lesegeschwindigkeit ebenfalls bis zu 1,3-mal höher
- Auf x86 ist die Lesegeschwindigkeit etwas langsamer, dafür sind die Dateien etwa 1,4-mal kleiner
- Minimierte Abhängigkeiten, vereinfachte Builds und gute Integrierbarkeit in reine C-Umgebungen sind die wichtigsten Stärken
- Komplexe verschachtelte Typen, Verschlüsselung und multithreaded ZSTD-Dekompression werden nicht unterstützt
- Interoperabilitätstests mit PyArrow, DuckDB und fastparquet erfolgreich abgeschlossen
- Von Carquet erzeugte Dateien können auch in Spark und DuckDB direkt gelesen werden
- Unterstützung für Linux, macOS, Windows und POSIX-Systeme
- MIT-Lizenz
Noch keine Kommentare.