Neue Architekturen 2.0 für moderne Dateninfrastruktur
(future.a16z.com)2.0-Update des Artikels aus dem Jahr 2020
Changelog
- Zwei neue, rasant wachsende Bereiche
- Tools zur Unterstützung zentraler Datenprozesse und Workflows wie Data Discovery, Observability und Auditierung von ML-Modellen
- Neue Anwendungen wie Data Workspaces, Reverse ETL und Frameworks für ML-Anwendungen, die Daten-Teams und Business-Anwendern helfen, aus Daten Wert zu schaffen
- Ergänzungen bei BI
- Metrics Layer: neue spezialisierte Tools wie Transfrom und Supergrain. Außerdem expandiert dbt in diesen Bereich
- Reverse ETL: Hightouch, Census
- Data Workspace: Hex, Mode, Deepnote
- Data Discovery & Observability: Monte Carlo und Big Eye haben große Finanzierungsrunden eingeworben. Außerdem gibt es viele Unternehmen in der Seed-Phase wie Select Star, Metaphor, Stemma, Secoda und Castor
- Ergänzungen bei Multimodal Data Processing
- Ein Ansatz rund um die Lakehouse-Architektur
- Die Storage Layer wurde aufgewertet: Delta/Iceberg/Hudi werden stärker eingeführt und kommerzialisiert.
- Stream Processing wird zunehmend eingeführt: Datenverarbeitung für Echtzeit-Analysen. Materialize/Upsolver
- Ergänzungen bei AI & ML
- Integration rund um einen datenorientierten Ansatz
- Data Labeling: Scale, Labelbox. Das Interesse an der Closed-loop Data Engine nimmt zu
- Stärkere Einführung von Feature Stores: Tecton, Feast, Databricks
- Low-Code-ML-Lösungen: Continual, MindsDB, DataRobot, AutoML, Roboflow, Akkio
- Die Nutzung vortrainierter Modelle wird zum Standard, besonders im NLP-Bereich. OpenAI & Hugging Face
- MLOps reift aus, und Anwendungsfälle sowie Budgets mit Schwerpunkt auf ML Monitoring nehmen zu
- Auch die Frage, wie ML-Modelle in Anwendungen eingebunden werden, rückt stark in den Fokus. Etwa vorgefertigte APIs (OpenAI), Vektordatenbanken (Pinecone) usw.
- Integration rund um einen datenorientierten Ansatz
Die Hypothese der Datenplattform
- Im vergangenen Jahr haben sich Kernsysteme und unterstützende Tools im Dateninfrastruktur-Stack schnell verbreitet. Zur Erklärung, warum das geschieht, wird die Idee einer "Datenplattform" eingeführt
- Was ist eine Plattform?
- Im Datenökosystem ist der Begriff "Plattform" überladen. Er wird von internen Teams verwendet, um den gesamten Tech-Stack zu bezeichnen, oder von Anbietern, die lose gekoppelte Produktsuiten verkaufen
- In der Software bezeichnet eine Plattform etwas, auf dem andere Entwickler etwas aufbauen können
- Das definierende Merkmal einer Plattform ist aus Industriesicht die "gegenseitige Abhängigkeit" zwischen einem einflussreichen Plattformanbieter und einem Pool von Drittentwicklern, sowohl technisch als auch wirtschaftlich
- Was ist eine Datenplattform?
- Historisch gesehen entsprach der Daten-Stack nicht dieser Plattform-Definition
- Zwischen ETL-, Data-Warehouse- und Reporting-Anbietern gab es zwar gegenseitige Abhängigkeiten, aber das Integrationsmodell war eher 1:1 als 1:viele. Das wurde meist durch Professional Services ergänzt
- Aus Gesprächen mit vielen Datenexperten ergibt sich, dass sich das ändern könnte
- Die Plattform-Hypothese besagt, dass sich das "Backend" des Daten-Stacks (von Data Ingestion über Storage und Processing bis hin zur Transformation) bei einigen Cloud-basierten Anbietern zu integrieren beginnt
- Dadurch werden Kundendatensätze in einem standardisierten Systemsatz gesammelt, und Anbieter sorgen dafür, dass diese Daten für andere Entwickler leicht zugänglich sind (etwa durch die grundlegenden Designprinzipien von Databricks, SQL-Standards und APIs wie Snowpark von Snowflake)
- So wie Frontend-Entwickler von Integrationen über einen Single Point profitierten, können sie nun auf integrierte Daten zugreifen, ohne sich um die darunterliegende Struktur kümmern zu müssen
- Auch traditionelle Enterprise-Systeme wie Finanz- oder Produktanalyse werden zunehmend in einer "Warehouse-native"-Architektur neu entwickelt
- Das bedeutet nicht, dass OLTP-Datenbanken oder andere wichtige Backend-Technologien bald verschwinden werden
- Aber die native Integration mit OLAP-Systemen kann zu einer zentralen Komponente der Anwendungsentwicklung werden
- Immer mehr Business-Logik und Anwendungsfunktionen könnten sich auf dieses Modell verlagern
- Das Aufkommen von Data Apps?
- Diese Hypothese der Datenplattform muss noch in vielen Punkten diskutiert werden
- Dennoch sehen wir, dass komplexe vertikale SaaS-Lösungen als horizontale Layer auf Datenplattformen zunehmen
- Unternehmen wie Snowflake und Databricks werden stabile Bausteine dieses Daten-Stacks sein
- wegen hervorragender Produkte, leistungsfähiger Vertriebsteams und eines weitgehend reibungslosen Bereitstellungsmodells
- weil es für Kunden nicht sinnvoll ist, zu etwas anderem zu wechseln, wenn sie auf diesen Systemen Datenanwendungen aufbauen oder integrieren
- Dass in den letzten Jahren Dateninfrastrukturprodukte gebaut wurden und weiterhin entstehen, dürfte mit Plattformen zusammenhängen
- Die Plattform-Hypothese hat die Kraft, Wettbewerbsdynamiken vorhersehbar zu machen
- Bei großer Reichweite sind Plattformen äußerst wertvoll
- Anbieter von Kerndatensystemen konkurrieren derzeit möglicherweise aggressiv nicht um aktuelle Budgets, sondern um langfristige Plattformpositionen
- Die hohen Bewertungen von Unternehmen aus den Bereichen Data Ingestion & Transformation sowie Metrics Layer oder Reverse ETL wirken plausibler, wenn man sie als Kernbestandteile neuer Datenplattformen betrachtet
- Blick nach vorn
- Wir befinden uns noch in einer frühen Phase der Definition analytischer und operativer Datenplattformen, und die Bausteine dieser Plattformen verändern sich weiter
- Daher ist diese Idee eher als Metapher denn als strenge Definition nützlich
- Dennoch ist diese Hypothese auch als Werkzeug nützlich, um Signal von Noise zu trennen und zu verstehen, warum sich der Markt so bewegt
- Daten-Teams verfügen heute über mehr Tools, Ressourcen und organisatorischen Schwung als jemals zuvor seit der Erfindung der Datenbank
- Es ist sehr spannend zu beobachten, ob sich auf dieser neuen Plattform eine App-Layer entwickeln wird
4 Kommentare
Werden auch die YouTube-Lehrvideos, die Sie zuvor hochgeladen haben, aktualisiert..? ^^;
https://youtube.com/watch/…
Vielen Dank wie immer~
Da ich auch mit der Videoproduktion beschäftigt war und dann damit aufgehört habe, schaffe ich es jetzt umso weniger, wieder damit anzufangen seufz
Wahrscheinlich wird ein Update in naher Zukunft schwierig.
Ah, ja. Schon das, was Sie zuvor gepostet haben, war mir eine große Hilfe.
Ich möchte die Gelegenheit nutzen, um mich zu bedanken.
Dies ist eine aktualisierte Version des Artikels Eine neue Architektur für moderne Dateninfrastruktur.
Eigentlich wollte ich ihn erst nach einer Überarbeitung hochladen, aber ich habe gesehen, dass Techit diese 2.0-Version ebenfalls vollständig übersetzt hat. Bitte ziehen Sie sie ebenfalls als Referenz heran.
Moderne Datenarchitektur und das Zeitalter der neuen Architektur