9 Punkte von xguru 2026-01-17 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Eine produktreife Pure-C-Implementierung, entwickelt, um das Apache-Parquet-Format direkt in C-Umgebungen zu unterstützen
  • Geschrieben auf Basis des C11-Standards, läuft ohne C++-Runtime oder Exception-Handling und nutzt nur zstd und zlib als externe Abhängigkeiten
  • Geeignet für Datenverarbeitung in eingeschränkten Umgebungen wie Embedded-Systemen, IoT, Mikrocontrollern und Legacy-Umgebungen
  • Mit einer Binärgröße von rund 200 KB ist der Build im Vergleich zu Apache Arrow mehr als 50 MB kleiner und deutlich schlanker
  • Unterstützung verschiedener Architekturen durch SIMD-Optimierungen (SSE4.2, AVX2, AVX-512, NEON, SVE) und automatische Laufzeiterkennung
  • Unterstützung für alle physischen Typen (BOOLEAN, INT32, DOUBLE usw.) sowie verschiedene Encodings und Kompressions-Codecs (ZSTD, LZ4, SNAPPY, GZIP)
  • Unterstützung korrekter Byte-Reihenfolge auch auf Big-Endian-Systemen (s390x, SPARC, PowerPC usw.)
  • Enthält produktionsreife Funktionen wie nullable Spalten, grundlegende verschachtelte Schemata, CRC32-Seitenvalidierung, Spaltenstatistiken, Memory-Mapped-I/O und paralleles Lesen mit OpenMP
  • Mit der Streaming-API lassen sich große Dateien verarbeiten, ohne sie vollständig in den Speicher zu laden
  • Vollständig kompatibel mit PyArrow, unterstützt gegenseitiges Lesen und Schreiben mit Python-Umgebungen
  • Im Vergleich zu Apache Arrow
    • 1,5- bis 5-mal schnellere Schreibgeschwindigkeit auf ARM, Lesegeschwindigkeit ebenfalls bis zu 1,3-mal höher
    • Auf x86 ist die Lesegeschwindigkeit etwas langsamer, dafür sind die Dateien etwa 1,4-mal kleiner
    • Minimierte Abhängigkeiten, vereinfachte Builds und gute Integrierbarkeit in reine C-Umgebungen sind die wichtigsten Stärken
    • Komplexe verschachtelte Typen, Verschlüsselung und multithreaded ZSTD-Dekompression werden nicht unterstützt
  • Interoperabilitätstests mit PyArrow, DuckDB und fastparquet erfolgreich abgeschlossen
  • Von Carquet erzeugte Dateien können auch in Spark und DuckDB direkt gelesen werden
  • Unterstützung für Linux, macOS, Windows und POSIX-Systeme
  • MIT-Lizenz

Noch keine Kommentare.

Noch keine Kommentare.