Roadmap: Data 3.0 im Lakehouse-Zeitalter

(bvp.com)

8 Punkte von GN⁺ 2025-04-01 | 2 Kommentare | Auf WhatsApp teilen

Die Dateninfrastruktur von Unternehmen entwickelt sich mit dem technologischen Fortschritt weiter und ermöglicht neue Produkte und Services
Die Dateninfrastruktur hat sich von klassischen On-Premises-Data-Warehouses zu Cloud-basierten Data-Warehouses und Data Lakes weiterentwickelt
In jüngster Zeit entsteht mit dem rasanten Fortschritt der KI eine neue Architektur namens Data Lakehouse, die den Eintritt in das Zeitalter von Data 3.0 markiert
Das Lakehouse ist eine leistungsstarke, interoperable integrierte Plattform, die verschiedenste Anwendungsfälle wie Analytik- und KI-Workloads unterstützt und den Kern der Dateninfrastruktur von Unternehmen neu denkt
Dadurch steigt die Wahrscheinlichkeit, dass neue Dateninfrastruktur-Unternehmen im Wert von mehreren Milliarden Dollar entstehen

Hintergrund der Lakehouse-Innovation

Von 2019 bis 2024 haben sich die Investitionen von Unternehmen in Dateninfrastruktur von rund 180 Milliarden US-Dollar auf 350 Milliarden US-Dollar nahezu verdoppelt
Herkömmliche Data Warehouses und Data Lakes erfüllen die Anforderungen von KI nicht vollständig
KI-zentrierte Workloads haben folgende Anforderungen:
- Sie müssen strukturierte, semi-strukturierte und unstrukturierte Daten gleichermaßen verarbeiten können
- Echtzeit-, multimodale und kombinierbare Datenverarbeitung muss möglich sein
- Interoperabilität zwischen bestehenden Datenbanken und Vektordatenbanken ist erforderlich
Veränderte Nachfrage auf Kundenseite in Unternehmen:
- Bedarf an Deduplizierung von Daten
- Zunehmende Komplexität der Data Governance
- Wunsch nach Unabhängigkeit von einzelnen Anbietern und mehr Flexibilität
- Schwierigkeiten bei der Suche nach KI-geeigneten Lösungen

Open Table Formats (OTF) wie Delta Lake, Iceberg und Hudi bilden die Grundlage des Lakehouse
Zentrale Funktionen:
- Unterstützung von ACID-Transaktionen: Gewährleistung von Datenkonsistenz und Stabilität
- Unterstützung für Batch- und Streaming-Verarbeitung
- Flexibilität bei Schema und Partitionierung
- Time-Travel-Funktion, mit der sich frühere Zustände wiederherstellen lassen
- Skalierbares Metadatenmanagement

Das Data Lakehouse ist eine neue Architektur, die die Performance von Data Warehouses mit der Flexibilität von Data Lakes verbindet
Es etabliert sich als Infrastruktur der nächsten Generation für KI-basierte Anwendungen, Echtzeitanalysen und Business Intelligence
Große Unternehmen und Startups treiben die Umstellung auf Lakehouses mit Hochdruck voran, wodurch ein neuer Markt entsteht

Klassische ETL-Tools sind im KI-Maßstab ineffizient
Prefect, Windmill und dltHub unterstützen codebasierte Datenpipelines und Orchestrierung
Tools wie Tobiko bieten SQL-Automatisierung, Data Lineage, Abhängigkeitsverfolgung und mehr
Anthropic's Model Context Protocol (MCP) bietet eine standardisierte Schnittstelle zur Wahrung des Kontexts in KI-Workflows
Apache Kafka und Flink stellen Messaging- und Streaming-Verarbeitungsfunktionen bereit, die für Echtzeit-Modelltraining und Inferenz essenziell sind
Chalk AI bietet eine Echtzeit-Inferenzplattform und trägt so zu schnelleren Entscheidungen bei
Die Metadatenebene entwickelt sich im KI-Zeitalter zu einer wichtigen Source of Truth

Metadaten sind heute nicht mehr bloß Informationen, sondern eine zentrale Ebene, die Handlungen steuert
Open Table Formats wie Iceberg, Delta Lake und Hudi treiben Innovationen bei Metadaten voran
Lakehouse-native Kataloge wie Datastrato und Vakamo entstehen
DataHub von Acryl Data unterstützt Datenzugriff und Governance für Menschen und KI-Agenten
OpenHouse, Apache Amoro und Ryft bieten eine Control Plane rund um Metadaten
Flarion.io und Greybeam entwickeln Tools zur Performance-Optimierung in Schichten außerhalb des Storage

Mit der Verbreitung des Lakehouse findet ein Übergang von einer einzelnen plattformzentrierten Struktur zu einer modularen Architektur statt
Neben Snowflake und Databricks wachsen auch spezialisierte Lösungen wie DuckDB, ClickHouse und Druid
Daft, typedef, Mooncake und Bauplan entwickeln neue Computing-Frameworks für KI-zentrierte Optimierung
Das Aufkommen von für KI optimierten Query-Engines und föderierten Compute-Plattformen schafft neue Maßstäbe in der Datenverarbeitung

KI-zentrierte Anwendungen führen dazu, dass sich alle Entwickler stärker datenorientierte Fähigkeiten aneignen
dbt Labs bringt Software-Engineering-Praktiken wie Versionsverwaltung, Tests und CI/CD in die Datenentwicklung
Gable unterstützt den Aufbau von Datenpipelines mit einer benutzerfreundlichen Oberfläche
Temporal und Inngest sorgen für Zuverlässigkeit und Sichtbarkeit in komplexen verteilten Workflows
Die Beiträge zu Open Source nehmen stark zu, und die Wachstumsrate datenbezogener Projekte auf GitHub liegt über der von allgemeiner Software
Die Nutzung von Open Source steigt, um besser von der Unterstützung durch LLMs zu profitieren
Mit der Verschmelzung von KI- und datengetriebener Entwicklung verändern sich Teamstrukturen und Entwicklungsweisen grundlegend

halfenif 2025-04-01

Was kommt nach dem Lakehouse?

Vielleicht Dataland?

yangeok 2025-04-01

Ich hoffe, dass die Kosten so weit sinken, dass auch Startups das ausprobieren können, haha.