8 Punkte von GN⁺ 2025-04-01 | 2 Kommentare | Auf WhatsApp teilen
  • Die Dateninfrastruktur von Unternehmen entwickelt sich mit dem technologischen Fortschritt weiter und ermöglicht neue Produkte und Services
  • Die Dateninfrastruktur hat sich von klassischen On-Premises-Data-Warehouses zu Cloud-basierten Data-Warehouses und Data Lakes weiterentwickelt
  • In jüngster Zeit entsteht mit dem rasanten Fortschritt der KI eine neue Architektur namens Data Lakehouse, die den Eintritt in das Zeitalter von Data 3.0 markiert
  • Das Lakehouse ist eine leistungsstarke, interoperable integrierte Plattform, die verschiedenste Anwendungsfälle wie Analytik- und KI-Workloads unterstützt und den Kern der Dateninfrastruktur von Unternehmen neu denkt
  • Dadurch steigt die Wahrscheinlichkeit, dass neue Dateninfrastruktur-Unternehmen im Wert von mehreren Milliarden Dollar entstehen

Hintergrund der Lakehouse-Innovation

  • Von 2019 bis 2024 haben sich die Investitionen von Unternehmen in Dateninfrastruktur von rund 180 Milliarden US-Dollar auf 350 Milliarden US-Dollar nahezu verdoppelt
  • Herkömmliche Data Warehouses und Data Lakes erfüllen die Anforderungen von KI nicht vollständig
  • KI-zentrierte Workloads haben folgende Anforderungen:
    • Sie müssen strukturierte, semi-strukturierte und unstrukturierte Daten gleichermaßen verarbeiten können
    • Echtzeit-, multimodale und kombinierbare Datenverarbeitung muss möglich sein
    • Interoperabilität zwischen bestehenden Datenbanken und Vektordatenbanken ist erforderlich
  • Veränderte Nachfrage auf Kundenseite in Unternehmen:
    • Bedarf an Deduplizierung von Daten
    • Zunehmende Komplexität der Data Governance
    • Wunsch nach Unabhängigkeit von einzelnen Anbietern und mehr Flexibilität
    • Schwierigkeiten bei der Suche nach KI-geeigneten Lösungen

Open Table Formats machen das Lakehouse möglich

  • Open Table Formats (OTF) wie Delta Lake, Iceberg und Hudi bilden die Grundlage des Lakehouse
  • Zentrale Funktionen:
    • Unterstützung von ACID-Transaktionen: Gewährleistung von Datenkonsistenz und Stabilität
    • Unterstützung für Batch- und Streaming-Verarbeitung
    • Flexibilität bei Schema und Partitionierung
    • Time-Travel-Funktion, mit der sich frühere Zustände wiederherstellen lassen
    • Skalierbares Metadatenmanagement

Das Aufkommen des Lakehouse-Paradigmas

  • Das Data Lakehouse ist eine neue Architektur, die die Performance von Data Warehouses mit der Flexibilität von Data Lakes verbindet
  • Es etabliert sich als Infrastruktur der nächsten Generation für KI-basierte Anwendungen, Echtzeitanalysen und Business Intelligence
  • Große Unternehmen und Startups treiben die Umstellung auf Lakehouses mit Hochdruck voran, wodurch ein neuer Markt entsteht

These 1: Intelligente Echtzeit-Pipelines durch KI-zentrierte Erfassung und Transformation

  • Klassische ETL-Tools sind im KI-Maßstab ineffizient
  • Prefect, Windmill und dltHub unterstützen codebasierte Datenpipelines und Orchestrierung
  • Tools wie Tobiko bieten SQL-Automatisierung, Data Lineage, Abhängigkeitsverfolgung und mehr
  • Anthropic's Model Context Protocol (MCP) bietet eine standardisierte Schnittstelle zur Wahrung des Kontexts in KI-Workflows
  • Apache Kafka und Flink stellen Messaging- und Streaming-Verarbeitungsfunktionen bereit, die für Echtzeit-Modelltraining und Inferenz essenziell sind
  • Chalk AI bietet eine Echtzeit-Inferenzplattform und trägt so zu schnelleren Entscheidungen bei
  • Die Metadatenebene entwickelt sich im KI-Zeitalter zu einer wichtigen Source of Truth

These 2: Die strategische Bedeutung der Metadatenebene nimmt zu

  • Metadaten sind heute nicht mehr bloß Informationen, sondern eine zentrale Ebene, die Handlungen steuert
  • Open Table Formats wie Iceberg, Delta Lake und Hudi treiben Innovationen bei Metadaten voran
  • Lakehouse-native Kataloge wie Datastrato und Vakamo entstehen
  • DataHub von Acryl Data unterstützt Datenzugriff und Governance für Menschen und KI-Agenten
  • OpenHouse, Apache Amoro und Ryft bieten eine Control Plane rund um Metadaten
  • Flarion.io und Greybeam entwickeln Tools zur Performance-Optimierung in Schichten außerhalb des Storage

These 3: Veränderungen bei Computing- und Query-Engines

  • Mit der Verbreitung des Lakehouse findet ein Übergang von einer einzelnen plattformzentrierten Struktur zu einer modularen Architektur statt
  • Neben Snowflake und Databricks wachsen auch spezialisierte Lösungen wie DuckDB, ClickHouse und Druid
  • Daft, typedef, Mooncake und Bauplan entwickeln neue Computing-Frameworks für KI-zentrierte Optimierung
  • Das Aufkommen von für KI optimierten Query-Engines und föderierten Compute-Plattformen schafft neue Maßstäbe in der Datenverarbeitung

These 4: Die Grenzen zwischen Data Engineering und Software Engineering verschwimmen

  • KI-zentrierte Anwendungen führen dazu, dass sich alle Entwickler stärker datenorientierte Fähigkeiten aneignen
  • dbt Labs bringt Software-Engineering-Praktiken wie Versionsverwaltung, Tests und CI/CD in die Datenentwicklung
  • Gable unterstützt den Aufbau von Datenpipelines mit einer benutzerfreundlichen Oberfläche
  • Temporal und Inngest sorgen für Zuverlässigkeit und Sichtbarkeit in komplexen verteilten Workflows
  • Die Beiträge zu Open Source nehmen stark zu, und die Wachstumsrate datenbezogener Projekte auf GitHub liegt über der von allgemeiner Software
  • Die Nutzung von Open Source steigt, um besser von der Unterstützung durch LLMs zu profitieren
  • Mit der Verschmelzung von KI- und datengetriebener Entwicklung verändern sich Teamstrukturen und Entwicklungsweisen grundlegend

2 Kommentare

 
halfenif 2025-04-01

Was kommt nach dem Lakehouse?

Vielleicht Dataland?

 
yangeok 2025-04-01

Ich hoffe, dass die Kosten so weit sinken, dass auch Startups das ausprobieren können, haha.