- Dateninfrastruktur und AI-Infrastruktur konvergieren von einer getrennten Schichtenarchitektur zu einer gemeinsamen Betriebsebene – ein Wandel, der das Jahr 2026 prägen wird
- Statt Datenmenge treten Echtzeitfähigkeit und Aktualität als zentrale Begrenzungen der AI-Leistung in den Vordergrund
- Unstrukturierte und multimodale Daten, die 80 % der Unternehmensdaten ausmachen, werden zugleich zur größten Chance und zum größten Engpass für den AI-Einsatz
- Wir treten in eine Phase ein, in der nicht Prompt-Optimierung, sondern der für AI zugängliche Kontext und die Wissensstruktur über die Leistung entscheiden
- Infrastruktur, die auf menschliche Nutzer ausgelegt ist, stößt an ihre Grenzen; erforderlich ist ein Redesign mit Agenten-Geschwindigkeit und massiver Gleichzeitigkeit als Maßstab
Konvergenz von Dateninfrastruktur und AI-Infrastruktur
- Bisher wurden klassische Datenplattformen als Stack für Analysen und Reporting betrieben, AI-Plattformen dagegen als Stack für Training und Inferenz
- Diese Trennung führt zu Datenbewegung, redundanter Speicherung, Latenz und mehr Verantwortungsgrenzen – und erhöht so Kosten und Komplexität
- Nun werden Datenerfassung, ETL, Warehouse, BI, Governance ebenso wie Feature-Management, Modelltraining, Inferenz und Agentenausführung in einen einzigen Fluss integriert
- In einer integrierten Struktur sind Analyse und Inferenz nicht mehr getrennt, sondern arbeiten gleichzeitig auf derselben Datenebene
- Echtzeit-Feature-Bereitstellung, Vektorsuche, SQL-Analysen, AI-Inferenz sowie Lineage- und Richtlinienmanagement gehören dabei zum Grundfunktionsumfang
- Die Dateninfrastruktur selbst wird zur AI-Ausführungsumgebung, und die Rolle von Data Engineers erweitert sich von Pipeline-Management hin zum Entwurf intelligenter Plattformen
Von Datenmenge zu Aktualität
- Es ist ein Punkt erreicht, an dem sich die AI-Leistung nicht mehr allein durch Training auf großen statischen Datenmengen wesentlich steigern lässt
- Aktualität von Daten und die Geschwindigkeit, mit der sie den Kontext widerspiegeln, werden zu Bedingungen, die die Qualität von Entscheidungen bestimmen
- Veraltete Bestandsinformationen und verzögerte Daten zum Kundenverhalten verzerren AI-Urteile
- Weg von batch-orientierten Strukturen wird eine Streaming-first-Architektur zum Standard
- Erforderlich sind Architekturen, in denen Change Data Capture, Event Streams und Sensordaten sofort bei ihrer Entstehung verarbeitet werden
- Von Data Engineers werden Low-Latency-Verarbeitung, Zustandsmanagement und kontinuierliches Datenqualitätsmanagement als Kernkompetenzen verlangt
Unstrukturierte, multimodale Daten und Datenentropie
- Rund 80 % der Unternehmensdaten liegen in unstrukturierter Form vor, etwa als Dokumente, Bilder, Videos oder Logs
- Strukturierte Daten machen nur einen kleinen Teil aus, doch bisherige Daten-Stacks wurden vor allem dafür optimiert
- Unstrukturierte Daten haben eine hohe Informationsdichte, sind aber schwer zugänglich und nutzbar; ihr Wert bleibt dadurch oft gebunden
- Je weniger Daten strukturiert sind, desto stärker steigt die Datenentropie, was die AI-Nutzung einschränkt
- Entropie wirkt dabei als Faktor, der durch Datenalterung, Inkonsistenzen und Kontextverlust die AI-Leistung beeinträchtigt
- Multimodale AI kombiniert Bilder, Text und Metadaten und wandelt unstrukturierte Daten in analysierbare Assets um
- Nur Daten mit verringerter Entropie lassen sich in AI-Insights und realen geschäftlichen Mehrwert übersetzen
Von Prompts zu Kontext: Context Engineering
- Der Engpass bei der AI-Leistung verlagert sich von der Art der Fragestellung hin zu Umfang und Qualität des Kontexts, auf den AI zugreifen kann
- Wichtiger als einmalige Prompts werden Wissensstrukturen, die kontinuierlich aufgebaut und aktualisiert werden
- Datenkataloge und Metadaten wandeln sich von Dokumentation zu Systemen, die von AI direkt abgefragt werden
- Semantische Ebenen und eine gemeinsame Sprache dienen als Bezugsrahmen, den Menschen und AI gleichermaßen verstehen
- Data Lineage und Herkunftsnachverfolgung werden zur Grundlage vertrauenswürdiger AI-Entscheidungen
- Data Engineers entwickeln sich über die reine Datenbereitstellung hinaus zu Gestaltern des organisationalen Gedächtnisses und Kontexts
Der Übergang zu agentennativer Infrastruktur
- Bestehende Infrastruktur wurde unter der Annahme geringer Gleichzeitigkeit und vorhersehbarer Anfragemuster entworfen, ausgerichtet auf menschliche Nutzer
- AI-Agenten erzeugen aus einem Ziel heraus tausende Unteraufgaben und Abfragen im Millisekundentakt
- Rekursive Aufrufe, explosionsartiges Fan-out und massive Gleichzeitigkeit treten als Grundmuster auf
- Bestehende Infrastruktur stößt dadurch auf Engpässe, Latenzprobleme und Koordinationsfehler
- Der Engpass verlagert sich von Rechenleistung hin zu Koordination, Locks, Status und Richtlinienmanagement
- Agentennative Infrastruktur geht standardmäßig von massiver Parallelität, asynchroner Ausführung und rekursiven Workloads aus
- Der Maßstab für das Design von Dateninfrastruktur verschiebt sich von menschlicher Geschwindigkeit zu Agenten-Geschwindigkeit
Zusammenfassung
- Die Konvergenz von Dateninfrastruktur und AI-Infrastruktur treibt Echtzeit- und multimodale Anforderungen voran
- Die Verarbeitung unstrukturierter Daten bildet die Grundlage für Context Engineering
- Kontextzentrierte AI verbreitet agentische Workloads
- Dieser gesamte Wandel legt die strukturellen Grenzen bestehender menschenzentrierter Infrastruktur offen
- Die zentrale Aufgabe im Data Engineering 2026 verschiebt sich hin zum Infrastrukturdesign unter der Annahme, dass Agenten die primären Nutzer sind
Noch keine Kommentare.