FastLanes – Dateiformat der nächsten Generation für Big Data

xguru · 2025-12-30T09:31:01+09:00

Open-Source-spaltenorientiertes Dateiformat, entwickelt mit aktueller Hardware (SIMD·GPU) als Grundlage Zielt auf Datenzugriff mit hohem Durchsatz und geringer Latenz für Analyse- und AI-Workloads Erreicht rund 40 % höhere Kompressionsrate als Parquet und bis zu 40-fach schnellere Dekodierung Führt ein Lane-basiertes Layout ein, das Datenabhängigkeiten minimiert und das unabhängige Dekodieren jeder Einheit ermöglicht Sichert extreme Datenparallelität auf SIMD-, Multi-Core-CPU- und GPU-Systemen So konzipiert, dass automatische Vektorisierung auch ohne expliziten SIMD-Code gut funktioniert Verwendet einen Zugriffsansatz mit kleinen Batch-Einheiten, der die Cache-Eigenschaften von CPU und GPU berücksichtigt Unterstützt partielle Dekompression (partial decompression), also Verarbeitung ohne vollständiges Entpacken, sodass Daten-Engines Abfragen direkt im komprimierten Zustand ausführen können Nutzt Multi-Column Compression (MCC), um Korrelationen zwischen Spalten auszuschöpfen Bietet einen ausdrucksbasierten Kodierungsmechanismus, der die Beschränkung klassischer Spaltenformate auf einzelne Spalten ausgleicht Zero-dependency-Architektur ohne Abhängigkeit von externen Bibliotheken für einfachere Builds Bietet Bindings für wichtige Sprachen wie C++, Python und Rust Integrierte CSV ↔ FastLanes-Konvertierungs-API Einfache Konvertierung mit read_csv() / to_fls() Rückkonvertierung mit read_fls() / to_csv() Entwicklung mit dem Ziel der Integration in Daten-Stacks der nächsten Generation wie GPU-Dekodierung sowie Anbindung an Apache Arrow und DuckDB

Open-Source-spaltenorientiertes Dateiformat, entwickelt mit aktueller Hardware (SIMD·GPU) als Grundlage
Zielt auf Datenzugriff mit hohem Durchsatz und geringer Latenz für Analyse- und AI-Workloads
Erreicht rund 40 % höhere Kompressionsrate als Parquet und bis zu 40-fach schnellere Dekodierung
Führt ein Lane-basiertes Layout ein, das Datenabhängigkeiten minimiert und das unabhängige Dekodieren jeder Einheit ermöglicht
- Sichert extreme Datenparallelität auf SIMD-, Multi-Core-CPU- und GPU-Systemen
So konzipiert, dass automatische Vektorisierung auch ohne expliziten SIMD-Code gut funktioniert
- Verwendet einen Zugriffsansatz mit kleinen Batch-Einheiten, der die Cache-Eigenschaften von CPU und GPU berücksichtigt
Unterstützt partielle Dekompression (partial decompression), also Verarbeitung ohne vollständiges Entpacken, sodass Daten-Engines Abfragen direkt im komprimierten Zustand ausführen können
Nutzt Multi-Column Compression (MCC), um Korrelationen zwischen Spalten auszuschöpfen
- Bietet einen ausdrucksbasierten Kodierungsmechanismus, der die Beschränkung klassischer Spaltenformate auf einzelne Spalten ausgleicht
Zero-dependency-Architektur ohne Abhängigkeit von externen Bibliotheken für einfachere Builds
- Bietet Bindings für wichtige Sprachen wie C++, Python und Rust
Integrierte CSV ↔ FastLanes-Konvertierungs-API
- Einfache Konvertierung mit read_csv() / to_fls()
- Rückkonvertierung mit read_fls() / to_csv()
Entwicklung mit dem Ziel der Integration in Daten-Stacks der nächsten Generation wie GPU-Dekodierung sowie Anbindung an Apache Arrow und DuckDB

FastLanes – Dateiformat der nächsten Generation für Big Data

Verwandte Beiträge

Noch keine Kommentare.