Hyperspace – Open-Source-Indizierungs-Subsystem für Apache Spark von Microsoft
(microsoft.github.io)Ein Subsystem, das indexbasierte Abfragebeschleunigung für Apache Spark ermöglicht
→ Erstellt und verwaltet Indizes für CSV-, JSON- und Parquet-Daten
→ Nutzt diese Indizes automatisch, um Abfragen/Workloads ohne Codeänderungen zu beschleunigen
- Im TPC-Benchmark wurde die Geschwindigkeit einzelner Abfragen um bis zu das 11-Fache erhöht
→ Insgesamt etwa doppelte Abfrageleistung auf Standardhardware
-
Einfache APIs wie
create,refresh,delete,restore,vacuum,cancel -
Unterstützung für Scala, Python und .NET
Wird in Azure Synapse Analytics der Microsoft-Azure-Cloud eingesetzt
(ein unbeschränkter Analysedienst, der Enterprise Data Warehousing und Big-Data-Analyse kombiniert)
1 Kommentare
Einführung: Hyperspace, ein Indexierungs-Subsystem für Apache Spark™, ist jetzt Open Source
https://cloudblogs.microsoft.com/opensource/2020/…