- Open-Source-spaltenorientiertes Dateiformat, entwickelt mit aktueller Hardware (SIMD·GPU) als Grundlage
- Zielt auf Datenzugriff mit hohem Durchsatz und geringer Latenz für Analyse- und AI-Workloads
- Erreicht rund 40 % höhere Kompressionsrate als Parquet und bis zu 40-fach schnellere Dekodierung
- Führt ein Lane-basiertes Layout ein, das Datenabhängigkeiten minimiert und das unabhängige Dekodieren jeder Einheit ermöglicht
- Sichert extreme Datenparallelität auf SIMD-, Multi-Core-CPU- und GPU-Systemen
- So konzipiert, dass automatische Vektorisierung auch ohne expliziten SIMD-Code gut funktioniert
- Verwendet einen Zugriffsansatz mit kleinen Batch-Einheiten, der die Cache-Eigenschaften von CPU und GPU berücksichtigt
- Unterstützt partielle Dekompression (partial decompression), also Verarbeitung ohne vollständiges Entpacken, sodass Daten-Engines Abfragen direkt im komprimierten Zustand ausführen können
- Nutzt Multi-Column Compression (MCC), um Korrelationen zwischen Spalten auszuschöpfen
- Bietet einen ausdrucksbasierten Kodierungsmechanismus, der die Beschränkung klassischer Spaltenformate auf einzelne Spalten ausgleicht
- Zero-dependency-Architektur ohne Abhängigkeit von externen Bibliotheken für einfachere Builds
- Bietet Bindings für wichtige Sprachen wie C++, Python und Rust
- Integrierte CSV ↔ FastLanes-Konvertierungs-API
- Einfache Konvertierung mit
read_csv() / to_fls()
- Rückkonvertierung mit
read_fls() / to_csv()
- Entwicklung mit dem Ziel der Integration in Daten-Stacks der nächsten Generation wie GPU-Dekodierung sowie Anbindung an Apache Arrow und DuckDB
Noch keine Kommentare.