- Die Dateninfrastruktur von Unternehmen entwickelt sich mit dem technologischen Fortschritt weiter und ermöglicht neue Produkte und Services
- Die Dateninfrastruktur hat sich von klassischen On-Premises-Data-Warehouses zu Cloud-basierten Data-Warehouses und Data Lakes weiterentwickelt
- In jüngster Zeit entsteht mit dem rasanten Fortschritt der KI eine neue Architektur namens Data Lakehouse, die den Eintritt in das Zeitalter von Data 3.0 markiert
- Das Lakehouse ist eine leistungsstarke, interoperable integrierte Plattform, die verschiedenste Anwendungsfälle wie Analytik- und KI-Workloads unterstützt und den Kern der Dateninfrastruktur von Unternehmen neu denkt
- Dadurch steigt die Wahrscheinlichkeit, dass neue Dateninfrastruktur-Unternehmen im Wert von mehreren Milliarden Dollar entstehen
Hintergrund der Lakehouse-Innovation
- Von 2019 bis 2024 haben sich die Investitionen von Unternehmen in Dateninfrastruktur von rund 180 Milliarden US-Dollar auf 350 Milliarden US-Dollar nahezu verdoppelt
- Herkömmliche Data Warehouses und Data Lakes erfüllen die Anforderungen von KI nicht vollständig
- KI-zentrierte Workloads haben folgende Anforderungen:
- Sie müssen strukturierte, semi-strukturierte und unstrukturierte Daten gleichermaßen verarbeiten können
- Echtzeit-, multimodale und kombinierbare Datenverarbeitung muss möglich sein
- Interoperabilität zwischen bestehenden Datenbanken und Vektordatenbanken ist erforderlich
- Veränderte Nachfrage auf Kundenseite in Unternehmen:
- Bedarf an Deduplizierung von Daten
- Zunehmende Komplexität der Data Governance
- Wunsch nach Unabhängigkeit von einzelnen Anbietern und mehr Flexibilität
- Schwierigkeiten bei der Suche nach KI-geeigneten Lösungen
Open Table Formats machen das Lakehouse möglich
- Open Table Formats (OTF) wie Delta Lake, Iceberg und Hudi bilden die Grundlage des Lakehouse
- Zentrale Funktionen:
- Unterstützung von ACID-Transaktionen: Gewährleistung von Datenkonsistenz und Stabilität
- Unterstützung für Batch- und Streaming-Verarbeitung
- Flexibilität bei Schema und Partitionierung
- Time-Travel-Funktion, mit der sich frühere Zustände wiederherstellen lassen
- Skalierbares Metadatenmanagement
Das Aufkommen des Lakehouse-Paradigmas
- Das Data Lakehouse ist eine neue Architektur, die die Performance von Data Warehouses mit der Flexibilität von Data Lakes verbindet
- Es etabliert sich als Infrastruktur der nächsten Generation für KI-basierte Anwendungen, Echtzeitanalysen und Business Intelligence
- Große Unternehmen und Startups treiben die Umstellung auf Lakehouses mit Hochdruck voran, wodurch ein neuer Markt entsteht
These 1: Intelligente Echtzeit-Pipelines durch KI-zentrierte Erfassung und Transformation
- Klassische ETL-Tools sind im KI-Maßstab ineffizient
- Prefect, Windmill und dltHub unterstützen codebasierte Datenpipelines und Orchestrierung
- Tools wie Tobiko bieten SQL-Automatisierung, Data Lineage, Abhängigkeitsverfolgung und mehr
- Anthropic's Model Context Protocol (MCP) bietet eine standardisierte Schnittstelle zur Wahrung des Kontexts in KI-Workflows
- Apache Kafka und Flink stellen Messaging- und Streaming-Verarbeitungsfunktionen bereit, die für Echtzeit-Modelltraining und Inferenz essenziell sind
- Chalk AI bietet eine Echtzeit-Inferenzplattform und trägt so zu schnelleren Entscheidungen bei
- Die Metadatenebene entwickelt sich im KI-Zeitalter zu einer wichtigen Source of Truth
These 2: Die strategische Bedeutung der Metadatenebene nimmt zu
- Metadaten sind heute nicht mehr bloß Informationen, sondern eine zentrale Ebene, die Handlungen steuert
- Open Table Formats wie Iceberg, Delta Lake und Hudi treiben Innovationen bei Metadaten voran
- Lakehouse-native Kataloge wie Datastrato und Vakamo entstehen
- DataHub von Acryl Data unterstützt Datenzugriff und Governance für Menschen und KI-Agenten
- OpenHouse, Apache Amoro und Ryft bieten eine Control Plane rund um Metadaten
- Flarion.io und Greybeam entwickeln Tools zur Performance-Optimierung in Schichten außerhalb des Storage
These 3: Veränderungen bei Computing- und Query-Engines
- Mit der Verbreitung des Lakehouse findet ein Übergang von einer einzelnen plattformzentrierten Struktur zu einer modularen Architektur statt
- Neben Snowflake und Databricks wachsen auch spezialisierte Lösungen wie DuckDB, ClickHouse und Druid
- Daft, typedef, Mooncake und Bauplan entwickeln neue Computing-Frameworks für KI-zentrierte Optimierung
- Das Aufkommen von für KI optimierten Query-Engines und föderierten Compute-Plattformen schafft neue Maßstäbe in der Datenverarbeitung
These 4: Die Grenzen zwischen Data Engineering und Software Engineering verschwimmen
- KI-zentrierte Anwendungen führen dazu, dass sich alle Entwickler stärker datenorientierte Fähigkeiten aneignen
- dbt Labs bringt Software-Engineering-Praktiken wie Versionsverwaltung, Tests und CI/CD in die Datenentwicklung
- Gable unterstützt den Aufbau von Datenpipelines mit einer benutzerfreundlichen Oberfläche
- Temporal und Inngest sorgen für Zuverlässigkeit und Sichtbarkeit in komplexen verteilten Workflows
- Die Beiträge zu Open Source nehmen stark zu, und die Wachstumsrate datenbezogener Projekte auf GitHub liegt über der von allgemeiner Software
- Die Nutzung von Open Source steigt, um besser von der Unterstützung durch LLMs zu profitieren
- Mit der Verschmelzung von KI- und datengetriebener Entwicklung verändern sich Teamstrukturen und Entwicklungsweisen grundlegend
2 Kommentare
Was kommt nach dem Lakehouse?
Vielleicht Dataland?
Ich hoffe, dass die Kosten so weit sinken, dass auch Startups das ausprobieren können, haha.