Die Data/ML/AI-Landkarte 2021 und die neuesten Trends
(mattturck.com)→ Ein einziges Repository, das alle Daten speichert. Es speichert sowohl strukturierte als auch unstrukturierte Daten und führt sämtliche Analysen aus – von historischen Auswertungen bis zu Zukunftsprognosen<br />
- Natürlich gibt es viele Wettbewerber (Cloud-Hyperscaler wie AWS und GCP)<br />
- Snowflake und Databricks sind gegenüber den Cloud-Anbietern zugleich Freund und Feind (Friend and Foe)<br /> → Snowflake, das auf Basis von AWS gewachsen ist, expandiert inzwischen auf andere Clouds <br /> → Databricks hat zwar eine starke Partnerschaft mit Microsoft, hilft aber mit Multi-Cloud-Funktionen dabei, Vendor Lock-in zu vermeiden <br /> → In den vergangenen Jahren haben Kritiker immer wieder bemängelt, dass die Geschäftsmodelle von Snowflake und Databricks margenseitig von der Preisgestaltung der Cloud-Anbieter abhängen <br />
- In den nächsten fünf Jahren wird es eine Schlüsselgeschichte sein, den Tanz zwischen Cloud-Anbietern und Daten-Behemoths zu beobachten <br /> <br />
"Bundling, Unbundling, Consolidation?"<br />
- Angesichts des Aufstiegs von Snowflake und Databricks: Ist das der Beginn der lange erwarteten Konsolidierungswelle in der Branche?<br />
- Im Bereich Daten/AI findet eine „funktionale Konsolidierung“ statt<br />
- Aber das gilt für alle: Niemand will ein Ein-Produkt-Unternehmen bleiben, sondern mehr bündeln und mehr Funktionen anbieten<br /> → Auch Confluent, das im Juni 2021 an die Börse ging, will über den Echtzeitdaten-Bereich hinausgehen und „die Verarbeitung bewegter und statischer Daten integrieren“ <br /> → Dataiku konzentriert sich darauf, Datenaufbereitung, DataOps, MLOps, Visualisierung und AI Explainability in einer einzigen Plattform zu bündeln <br />
- Das Aufkommen des Modern Data Stack ist ein weiteres Beispiel für funktionale Konsolidierung <br /> → Im Kern ist es eine faktische „Allianz“ von Unternehmen – meist Startups –, die von der Datenextraktion über das Data Warehouse bis hin zu BI alles miteinander verbinden <br />
- Für die Nutzer dieser Technologien werden Bundling und Konvergenz sehr willkommen sein<br /> → Mit zunehmender Reife muss sich die Datenindustrie über Technology Divides wie „Transaktionen vs. Analyse“, „Batch-Verarbeitung vs. Echtzeit“ und „BI vs AI“ hinaus weiterentwickeln <br />
- Unternehmen werden weiter mit verschiedenen Anbietern/Plattformen/Tools arbeiten, um die für ihre Anforderungen beste Kombination zusammenzustellen<br /> <br />
- Der Hauptgrund ist, dass „das Innovationstempo zu explosiv“ ist<br /> → Es entstehen ständig neue Startups, Big-Tech-Unternehmen entwickeln intern Daten-/AI-Tools und veröffentlichen sie als Open Source, und bei allen bestehenden Technologien/Produkten erscheint praktisch jede Woche etwas Neues <br /> <br />
- Anbieter von Big Data Warehouses und Data Lakes drängen darauf, alle Daten zu zentralisieren, während gleichzeitig neue Frameworks wie „Data Mesh“ entstehen <br /> → Ein verteilter Ansatz, bei dem verschiedene Teams jeweils ihre eigene Verantwortung tragen <br /> <br />
- Ob es neben funktionaler Konsolidierung auch zu M&A kommt, ist schwer zu sagen <br /> → Zu den beliebten Gerüchten gehört auch, dass „Microsoft Databricks übernehmen will“<br /> <br />
"Financings, IPOs, M&A: A Crazy Market"<br />
- Wer den Startup-Markt ein wenig verfolgt hat, weiß: Der Markt ist verrückt <br />
- Wie schon im vergangenen Jahr sind Daten und ML/AI auch dieses Jahr die heißesten Investment-Kategorien<br />
- Unternehmen vor dem Börsengang<br /> → UiPath : RPA- und AI-Automatisierungsunternehmen <br /> → Confluent : Kafka <br /> → C3.ai : AI-Plattform <br /> → Couchbase : NoSQL-DB <br /> → SentinelOne : automatisierte AI-Endpoint-Sicherheitsplattform <br /> → TuSimple : selbstfahrende Lkw <br /> → Zymergen : Biomanufacturing <br /> → Recursion : AI-getriebenes Unternehmen für Medikamentenentwicklung<br /> → Darktrace : AI-basierte Cybersicherheit<br />
- Durch den Anstieg von SPACs werden Technologieunternehmen an der Front des AI-Marktes profitieren (autonomes Fahren, Biotech usw.)<br /> <br />
"The 2021 MAD Landscape & What’s New this Year"<br />
- In der diesjährigen Karte wurde „Analytics and Machine Intelligence“ in „Analytics“ und „Machine Learning & Artificial Intelligence“ aufgeteilt <br />
- Neue Kategorien hinzugefügt <br /> → Infrastructure<br /> → ⇨ Reverse ETL : Produkte, die Daten aus dem Data Warehouse zurück in SaaS-Anwendungen übertragen <br /> → ⇨ Data Observability : ein Bestandteil von DataOps, der sich auf die Lösung von Datenqualitätsproblemen auf Basis von Data Lineage konzentriert <br /> → ⇨ Privacy & Security : Da Datenschutz immer wichtiger wird, sind viele Startups in dieser Kategorie entstanden <br /> → Analytics<br /> → ⇨ Data Catalogs & Discovery : die aktivste Kategorie der vergangenen 12 Monate. Sie hilft Nutzern, die gewünschten Datensätze zu finden und zu verwalten <br /> → ⇨ Augmented Analytics : BI-Tools nutzen Fortschritte bei NLG/NLP, um automatisch Insights zu generieren und Daten auch für nichttechnische Zielgruppen zugänglich zu machen <br /> → ⇨ Metrics Stores : ein zentrales Repository für wichtige Business-Metriken. Neu im Data Stack<br /> → ⇨ Query Engines <br /> → Machine Learning and AI <br /> → ⇨ Die MLOps-Kategorie wurde weiter unterteilt: Model Building, Feature Stores, Deployment and Production <br /> → Open Source <br /> → ⇨ Format, Orchestration, Data Quality & Observability wurden hinzugefügt <br />
- Früher gab es viele Startups ab Series C oder börsennotierte Unternehmen, dieses Jahr wurden aber viele Firmen in der Series-A- oder Seed-Phase ergänzt <br /> <br />
"Wichtige Trends in der Dateninfrastruktur"<br />
-
2020 <br /> → Modern Data Stack wird Mainstream <br /> → ETL vs ELT <br /> → Automatisierung des Data Engineering?<br /> → Der Aufstieg des Datenanalysten <br /> → Verschmelzen Data Lake und Data Warehouse?<br /> → Noch ungelöste Komplexität <br /> <br />
-
2021 <br /> → Data Mesh <br /> → Ein arbeitsreiches Jahr für DataOps <br /> → Jetzt ist Echtzeit angesagt<br /> → Metrics Stores <br /> → Reverse ETL <br /> → Data Sharing <br /> <br /> [Data Mesh]<br />
-
Geht auf „How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh“ zurück, das Zhamak Dehghani 2019 vorgeschlagen hat <br />
-
Hat zwischen 2020 und 2021 viel Momentum gewonnen<br />
-
Das Konzept des Data Mesh ist größtenteils eine organisatorische Idee<br />
-
Der Standardansatz zum Aufbau von Dateninfrastruktur und Teams war bisher Zentralisierung. Eine große Plattform, die von einem Datenteam verwaltet wird, erfüllt die Geschäftsanforderungen <br />
-
Das hat viele Vorteile, bringt aber auch Probleme wie Engpässe mit sich <br />
-
Durch Dezentralisierung entstehen unabhängige Datenteams, die jeweils für ihre Domäne zuständig sind und Daten anderen im Unternehmen „als Produkt“ bereitstellen <br /> → Ähnlich dem Microservices-Konzept aus dem Software Engineering <br />
-
Der Begriff hat verschiedene Bedeutungen, aber <br /> → Wenn sich das durchsetzt, ist das eine große Chance für Startups, die mission-kritische Tools für einen verteilten Data Stack bauen<br />
-
Starburst, eine SQL Query Engine für föderierte Abfragen und Analysen über mehrere Speicher hinweg, hat sich selbst als „Analytics Engine für Data Mesh“ neu positioniert <br />
-
Orchestration Engines zur Verwaltung komplexer Pipelines (wie Airflow, Prefect, Dagster) werden noch mission-kritischer werden <br />
-
Das Nachverfolgen von Daten in Speichern und Pipeline-Systemen wird unter Compliance- und Governance-Gesichtspunkten immer unverzichtbarer, wodurch die Notwendigkeit von Data Lineage weiter zunimmt (OpenLineage, DataKin)<br /> <br /> [Ein arbeitsreiches Jahr für DataOps]<br />
-
Das DataOps-Konzept geisterte mehrere Jahre herum und ist inzwischen tatsächlich in Schwung gekommen <br />
-
Es gibt mehrere Definitionen <br /> → DevOps der Datenwelt <br /> → Alles, was man braucht, um Datenpipelines aufzubauen und zu betreiben, über Datenkataloge die richtigen Datensätze zu finden und Datenproduzenten wie -konsumenten die für ihre Aufgaben nötigen Mittel bereitzustellen <br />
-
Wie auch immer: Genau wie DevOps ist es letztlich eine „Kombination aus Methodik, Prozessen, Menschen, Plattformen und Tools“<br />
-
Im weiteren Kontext bedeutet das, dass „Daten-Engineering-Tools und -Praktiken“ beim Automatisierungsgrad noch deutlich hinter dem Software Engineering zurückliegen<br />
-
Je wichtiger Daten/AI werden, desto mehr braucht es bessere Tools und Praktiken <br />
-
Alle wollen das „DataDog der Datenwelt“ werden (tatsächlich wird DataDog auch für DataOps eingesetzt, basiert aber grundsätzlich auf Software Engineering)<br />
-
Es gibt verschiedene Teilbereiche wie Data Observability, Data Lineage, Data Quality, Data Reliability Engineering sowie Data Access & Governance<br /> <br /> [Jetzt ist Echtzeit angesagt]<br />
-
„Echtzeit“- oder „Streaming“-Daten sind Daten, die unmittelbar nach ihrer Entstehung verarbeitet und genutzt werden <br />
-
Das ist das Gegenstück zum bisher dominierenden Paradigma der Dateninfrastruktur: „Batch“ <br />
-
Echtzeit-Datenverarbeitung war schon seit den frühen Big-Data-Tagen vor 10–15 Jahren ein heißes Thema<br /> → Insbesondere die Verarbeitungsgeschwindigkeit war ein Schlüsselfaktor, der den Erfolg von Spark gegenüber HadoopMR antrieb <br />
-
Über Jahre hinweg galt der Markt als „kurz vor der Explosion“, explodierte aber nicht <br />
-
Der große Erfolg des Confluent-IPO bewies, dass die Skeptiker falsch lagen <br />
-
Und über Confluent hinaus hat sich das gesamte Echtzeit-Daten-Ökosystem beschleunigt <br />
-
Vor allem „Realtime Analytics“ zeigt viel Dynamik <br /> → ClickHouse, entwickelt vom russischen Unternehmen Yandex, gründete in den USA ein Unternehmen und erhielt 50 Mio. US-Dollar Finanzierung <br /> → Imply, eine auf Druid Open Source basierende Realtime-Analytics-Plattform, erhielt 70 Mio. US-Dollar Finanzierung <br /> <br /> [Metrics Stores]<br />
-
In den vergangenen Jahren sind Datenmenge, Datennutzungshäufigkeit und Komplexität in Unternehmen gestiegen <br />
-
Mit der steigenden Komplexität haben auch Probleme durch Dateninkonsistenzen zugenommen <br />
-
Kennzahlen (Metrics) können schon durch kleine Änderungen bei Dimensionen/Definitionen oder andere Ursachen falsch ausgerichtet sein<br />
-
Daten sind nur dann nützlich, wenn sie für Teams korrekt und vertrauenswürdig sind <br />
-
Der Versuch, Kennzahlen zu zentralisieren, führte zur Entwicklung interner Lösungen wie Minerva von AirBnB: „Define Once, Use Anywhere“<br />
-
Dabei werden Definitionen für zentrale Business-Kennzahlen und alle Dimensionen standardisiert und Stakeholdern auf Basis dieser Definitionen korrekte, analysierbare Datensätze bereitgestellt <br />
-
Auf Basis zentralisierter Kennzahlendefinitionen wird Vertrauen in Daten aufgebaut und funktionsübergreifender Zugriff auf Kennzahlen für alle ermöglicht <br />
-
Ein Metrics Store <br /> → sitzt oberhalb des Data Warehouse und informiert alle Downstream-Anwendungen, darunter BI-Plattformen, Analytics- und Data-Science-Tools sowie operative Anwendungen, mit Daten <br /> → sorgt dafür, dass Daten konsistent bleiben, sodass Änderungen an der Business-Logik automatisch übernommen werden <br />
-
Es gibt Startups wie Transform, Trace und Supergrain <br /> <br /> [Reverse ETL]<br />
-
Reverse ETL ist im modernen Data Stack zu einer eigenen Kategorie geworden <br />
-
Dabei werden Daten aus dem Data Warehouse zurück in Business-Anwendungen wie CRM, Marketing-Automation-Systeme und Kundensupport-Plattformen bewegt <br />
-
Ziel ist, dass tatsächliche operative Tools aktuelle, angereicherte Daten aus anderen Business-Anwendungen nutzen können <br />
-
Viele Reverse-ETL-Tools haben Finanzierung erhalten: Census, Rudderstack, Grouparoo, Hightouch, Headsup, Polytomic <br /> <br /> [Data Sharing]<br />
-
Der Aufstieg von Datenteilung und Datenkollaboration nicht nur innerhalb von Unternehmen, sondern über ganze Organisationen hinweg <br />
-
Für Transparenz in Lieferketten, das Training von Machine-Learning-Modellen oder das Teilen von Go-to-Market-Plänen möchten Unternehmen Daten mit Ökosystemen aus Lieferanten, Partnern und Kunden teilen <br />
-
Organisationsübergreifende Datenteilung ist ein Kernthema der „Data Cloud“-Anbieter <br />
-
Im Mai 2021 startete Google Analytics Hub. Damit lassen sich Daten/Insights/Dashboards/Machine-Learning-Modelle innerhalb und außerhalb von Organisationen teilen. Außerdem wurde DataShare für Finanzdienstleistungen vorgestellt <br />
-
Am selben Tag wie Google stellte Databricks Delta Sharing vor, ein Open-Source-Protokoll für organisationsübergreifende Datenteilung <br />
-
Im Juni 2021 stellte Snowflake über seinen Data Marketplace die Funktion Secure Data Sharing vor <br />
-
Es gibt Startups wie Habr und Crossbeam </p><p>## „Wichtige Trends bei ML/AI“<br /> 2020<br />
-
Boom time for data science and machine learning platforms (DSML)<br />
-
ML getting deployed and embedded<br />
-
The Year of NLP<br /> <br /> 2021<br />
-
Feature Stores<br />
-
The rise of ModelOps<br />
-
AI content generation<br />
-
The continued emergence of a separate Chinese AI stack<br /> <br />
-
Die Forschung zu künstlicher Intelligenz entwickelt sich weiterhin mit hoher Geschwindigkeit<br /> → DeepMind Alphafold, OpenAI GTP-3/DALL-E/CLIP <br /> <br /> [Feature Stores]<br />
-
Seit Uber die Idee 2017 vorgestellt hat, werden sie im Machine-Learning-Stack immer verbreiteter <br /> → Unternehmen wie Tecton, Rasgo, Logical Clocks und Kaskada haben Finanzierungsrunden erhalten <br />
-
In Machine Learning sind Features (Variablen oder Attribute) individuell messbare Eigenschaften oder Merkmale, die in Datenschnipseln als Spalten dargestellt werden<br /> → Machine-Learning-Modelle können von einem einzelnen Feature bis zu Millionen Features nutzen <br />
-
Mit immer komplexeren Modellen und Pipelines wurde vieles zunehmend ad hoc umgesetzt <br />
-
Engineers und Data Scientists verbringen oft viel Zeit damit, Features erneut aus Rohdaten zu extrahieren <br />
-
Die Lücke zwischen Produktions- und Experimentierumgebung kann zu Inkonsistenzen bei Modellleistung oder -verhalten führen<br />
-
Organisationen interessieren sich zunehmend für Governance und Reproduzierbarkeit von Machine-Learning-Modellen, wodurch die Versiloung von Features die Sache in der Praxis noch schwieriger macht <br />
-
Feature Stores fördern die Zusammenarbeit und beseitigen diese Silos <br />
-
Sie reduzieren Komplexität und standardisieren sowie wiederverwenden Features, indem sie sowohl für Training als auch Produktion eine Single Source of Truth bereitstellen <br />
-
Sie speichern kuratierte Features innerhalb einer Organisation, führen Datenpipelines aus, die Rohdaten in Feature Values umwandeln, und bieten schnellen Zugriff über APIs <br /> <br /> [The Rise of ModelOps]<br />
-
Viele Unternehmen haben erkannt, dass es schwierig ist, Modelle aus der Experimentierphase in die Produktion zu bringen, und dass eingesetzte Modelle kontinuierlich überwacht und nachtrainiert werden müssen <br />
-
MLOps wendet Best Practices aus DevOps an und vereinfacht die schnelle, kontinuierliche Entwicklung und Bereitstellung von Modellen im großen Maßstab <br />
-
ModelOps ist eine Obermenge von MLOps. Es zielt auf einen schnelleren Betrieb sämtlicher AI-Modelle einschließlich ML über alle Phasen hinweg ab, vom Training bis zur Produktion <br />
-
ModelOps umfasst sowohl Tools als auch Prozesse, integriert Prozesse, standardisiert die Modellorchestrierung und stellt zusammen mit umfassenden Governance-Funktionen ein zentralisiertes Repository für alle Modelle bereit <br />
-
Gut implementiertes ModelOps bietet ein integriertes System für Deployment, Monitoring und Management aller Modelle, reduziert Risiken und erhöht die Compliance <br /> <br /> [AI Content Generation]<br />
-
KI ist in den vergangenen Jahren stark gereift und wird zur Erstellung von Inhalten über alle Arten von Medien hinweg eingesetzt, darunter Text, Bilder, Code und Video<br />
-
OpenAI veröffentlicht GPT-3. GitHub stellt GitHub Copilot vor, das OpenAI Codex nutzt <br />
-
OpenAI konzentriert sich auf englischzentrierte Modelle, aber viele andere Unternehmen arbeiten an anderen Sprachen <br /> → Deutschlands Aleph Alpha, AI21 Labs, Huaweis PanGu, Navers HyperCLOVA<br /> <br /> [Das fortgesetzte Entstehen eines eigenständigen chinesischen KI-Stacks]<br />
-
China entwickelt sich mit seinem eigenen Markt als weltweit größtem Datenproduzenten weiter zu einer globalen KI-Großmacht <br />
-
Mit dem Erfolg von TikTok, einem der besten Empfehlungsalgorithmen, im Westen verbreitete sich chinesische KI-Verbrauchertechnologie erstmals tatsächlich <br />
-
Da China bis 2030 die KI-Vorherrschaft ausgerufen hat und dafür finanziell unterstützt wird, beginnt in China, das bislang noch westliche Tools nutzte, ein eigener separater Stack zu entstehen </p>
3 Kommentare