- Von 2021 bis Anfang 2023 war der Bereich der Datentechnologien, insbesondere der Modern Data Stack, einer der aktivsten und meistbeachteten Bereiche der Tech-Industrie
- Mit dem Aufkommen von ChatGPT Ende 2023 verlagerte sich die Aufmerksamkeit auf AI, und Diskussionen über Dateninfrastruktur gerieten etwas in den Hintergrund
- Doch als AI begann, in reale Arbeitsabläufe integriert zu werden, wurden zwei Dinge klar:
- Komplexe AI-Workflows müssen die Lehren aus dem Data Engineering aktiv nutzen
- Damit LLMs richtig funktionieren, müssen sie auf Daten zugreifen können, die in analytischen Workflows erzeugt wurden
Die reale Verbindung zwischen AI und Dateninfrastruktur
- Egal, wie intelligent ein LLM ist: Ohne Zugang zu präzisen Informationen kann es keine präzisen Antworten geben
- Wenn Informationen über Reddit-Posts, interne Dokumente, Data Warehouses usw. verstreut sind, kann ein LLM nicht darauf zugreifen
- Die gute Nachricht ist, dass inzwischen Protokolle und Standards entstehen, die LLMs den Zugriff auf verschiedene Informationsquellen ermöglichen
- Doch welche Informationen bereitgestellt werden sollen, ob diese korrekt sind und wie Zugriffsrechte gesetzt werden, sind weiterhin offene Aufgaben
Vorteile und Herausforderungen der LLM-Integration nach Informationsquelle
-
LLMs + Internetsuche
- Vorteile: Öffentliche Webdaten lassen sich integrieren, um aktuelle Informationen aus der realen Welt leicht zu nutzen (z. B. bei der Suche nach guten Restaurants)
- Probleme:
- SEO-optimierte Inhalte funktionieren auch in LLMs gut, wodurch weniger verlässliche Informationen weit oben erscheinen
- Beispiel: Wer nach „dem besten Kissen 2025“ sucht, findet nur schwer eine vertrauenswürdige Antwort → bei LLMs ist es ähnlich
-
LLMs + interne Dokumente (Notion, Slack usw.)
- Vorteile:
- In komplexen Organisationen lassen sich Informationen zu teamübergreifender Zusammenarbeit, Richtlinien und Plänen auf einen Blick erfassen
- Tools wie NotionAI zeigen das Potenzial von LLMs sehr gut
- Probleme:
- Es ist schwer zu erkennen, ob Dokumente aktuell sind
- Auf dieselbe Frage können widersprüchliche Ergebnisse erscheinen
- Daher wird nicht nur das Dokument selbst benötigt, sondern auch Metadaten zur Vertrauenswürdigkeit des Dokuments
-
LLMs + strukturierte Daten und Metriken
- Vorteile:
- Über eine dialogorientierte Oberfläche ist auch ohne SQL eine komplexe Datenanalyse möglich
- Bei vertrauten Daten fühlt es sich fast wie eine Superkraft an
- Probleme:
- Werden in der gesamten Organisation konsistente Definitionen verwendet?
- Kann das Management den Ergebnissen vertrauen und sie für tatsächliche Entscheidungen nutzen?
- Sind Zugriffskontrollen und Data Governance korrekt eingerichtet?
- Text-to-SQL macht Fortschritte, aber praktische Umsetzbarkeit und belastbare Verlässlichkeit bleiben Herausforderungen
Drei Beispiele für Datenintegration für LLMs
- Wenn etwa der CEO einer Restaurantkette eine Expansion in eine neue Region prüft, kann er alle folgenden Informationen nutzen:
- Interne Dokumente: Verständnis der Strategie und Planung des Unternehmens
- Strukturierte Daten: Analyse der Finanzlage und Kundendaten
- Internetsuche: Recherche zu Marktinformationen und Benchmarks in der betreffenden Region
- Theoretisch ist das ein sehr nützlicher Ansatz, in der Praxis müssen jedoch oft mehrere Systeme provisorisch verbunden werden, und schon ein kleiner Fehler kann die gesamte Beurteilung beeinflussen
Der wahre Wert des Modern Data Stack
- Dass der Modern Data Stack kurz vor dem Durchbruch von AI für Datenzentralisierung, Standardisierung und Governance populär wurde, war kein bloßer Zufall
- Diese Infrastruktur war genau das Fundament für das Zeitalter der LLMs
- Der Modern Data Stack ist mehr als nur eine Basis zum Bauen von Dashboards: Er ist eine Plattform für konsistente und verlässliche Daten-Workflows und Interfaces
- Jetzt, da AI beginnt, mit diesem Ökosystem zu interagieren, rückt die Bedeutung der Dateninfrastruktur wieder stärker in den Vordergrund
Die künftige Rolle von Datenpraktikern
- Für Datenpraktiker geht es nun über reine Datenanalyse hinaus:
- Aufbau einer vertrauenswürdigen Datenumgebung, die LLMs nutzen können
- Entwurf von Systemen mit Governance und Zugriffskontrolle
- Gewährleistung von Stabilität und Verlässlichkeit bei der Bereitstellung von AI-Systemen
- Dieses Feld bringt gewaltige Chancen und zugleich große Verantwortung mit sich
- Viele Organisationen setzen LLM-Systeme bereits in realen Arbeitsabläufen ein, und jetzt ist der Moment, in dem man echten Einfluss ausüben kann
Fazit
- Der Modern Data Stack bleibt auch im Zeitalter von AI eine relevante Infrastruktur und beginnt nun ernsthaft, mit AI-Systemen verbunden zu werden
- AI-Workflows, die strukturierte Daten, unstrukturierte Dokumente und Informationen aus der realen Welt integrieren, sind bereits umsetzbar und werden sich weiterentwickeln
- Diese Systeme richtig zu entwerfen und zu verbinden, ist der Auftrag der Daten-Community
Noch keine Kommentare.