11 Punkte von xguru 2025-12-30 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Open-Source-spaltenorientiertes Dateiformat, entwickelt mit aktueller Hardware (SIMD·GPU) als Grundlage
  • Zielt auf Datenzugriff mit hohem Durchsatz und geringer Latenz für Analyse- und AI-Workloads
  • Erreicht rund 40 % höhere Kompressionsrate als Parquet und bis zu 40-fach schnellere Dekodierung
  • Führt ein Lane-basiertes Layout ein, das Datenabhängigkeiten minimiert und das unabhängige Dekodieren jeder Einheit ermöglicht
    • Sichert extreme Datenparallelität auf SIMD-, Multi-Core-CPU- und GPU-Systemen
  • So konzipiert, dass automatische Vektorisierung auch ohne expliziten SIMD-Code gut funktioniert
    • Verwendet einen Zugriffsansatz mit kleinen Batch-Einheiten, der die Cache-Eigenschaften von CPU und GPU berücksichtigt
  • Unterstützt partielle Dekompression (partial decompression), also Verarbeitung ohne vollständiges Entpacken, sodass Daten-Engines Abfragen direkt im komprimierten Zustand ausführen können
  • Nutzt Multi-Column Compression (MCC), um Korrelationen zwischen Spalten auszuschöpfen
    • Bietet einen ausdrucksbasierten Kodierungsmechanismus, der die Beschränkung klassischer Spaltenformate auf einzelne Spalten ausgleicht
  • Zero-dependency-Architektur ohne Abhängigkeit von externen Bibliotheken für einfachere Builds
    • Bietet Bindings für wichtige Sprachen wie C++, Python und Rust
  • Integrierte CSV ↔ FastLanes-Konvertierungs-API
    • Einfache Konvertierung mit read_csv() / to_fls()
    • Rückkonvertierung mit read_fls() / to_csv()
  • Entwicklung mit dem Ziel der Integration in Daten-Stacks der nächsten Generation wie GPU-Dekodierung sowie Anbindung an Apache Arrow und DuckDB

Noch keine Kommentare.

Noch keine Kommentare.