AI-Landkarte 2021 und die neuesten Trends

(mattturck.com)

21 Punkte von xguru 2021-11-01 | 3 Kommentare | Auf WhatsApp teilen

Die 2021 Data & AI Landscape, zusammengefasst in einem Bild, mit ausführlicher Erklärung

Makroperspektive: Die Komplexität des Ökosystems verstehen
Finanzierung, IPOs und M&A
The 2021 Landscape
Wichtige Trends in der Dateninfrastruktur

→ Data Mesh

→ Ein arbeitsreiches Jahr für DataOps

→ Jetzt ist Echtzeit angesagt

→ Metrics Store

→ Reverse ETL

→ Data Sharing

Wichtige Trends bei Analytics & Enterprise AI

→ Feature Store

→ Der Aufstieg von ModelOps

→ KI-generierte Inhalte

→ Die Weiterentwicklung des chinesischen AI-Stacks

"Makroperspektive: Die Komplexität des Ökosystems verstehen"

Warum entstehen weiterhin Data-&-AI-Unternehmen, und wie lange wird das noch so weitergehen?
Der grundlegende Trend ist, dass „jedes Unternehmen nicht nur ein Softwareunternehmen, sondern ein Datenunternehmen wird“
In vielen Organisationen bedeuteten „Daten“ bislang Transaktionsdaten, die in einem RDBMS gespeichert sind, sowie einige Dashboards für Analysen darüber, was in den vergangenen Monaten passiert ist
Doch inzwischen bewegen sich Unternehmen auf eine Welt zu, in der „Daten und künstliche Intelligenz“ für „Analyse und Betrieb“ in „interne Prozesse und externe Anwendungen“ eingebettet werden
Diese grundlegende Entwicklung wird durch erstaunliche Fortschritte in den Basistechnologien ermöglicht – insbesondere durch die symbiotische Beziehung zwischen „Dateninfrastruktur und Machine Learning/AI“

→ Die beiden Bereiche arbeiten immer enger zusammen

→ Die erste Phase war das „Big-Data-Zeitalter“ der frühen 2010er Jahre

→ Als man erkannte, dass sich mit der Anwendung dieser Big Data auf mehr als zehn Jahre alte KI-Algorithmen (Deep Learning) erstaunliche Ergebnisse erzielen lassen, wurde die Begeisterung für AI ausgelöst

→ Infolgedessen wurde AI zu einem wichtigen Treiber für die Entwicklung der Dateninfrastruktur

→ Wenn alle Anwendungen auf AI-Basis aufgebaut werden, wird bessere Dateninfrastruktur nötig sein

Auf dem Weg bis 2021 haben die Begriffe Big Data und AI alle ihre Höhen und Tiefen erlebt, und heute hört man viel über „Automation“, aber im Kern ist das alles derselbe Megatrend
Die aktuelle Beschleunigung im Bereich Data/AI lässt sich auf das Wachstum der Cloud Data Warehouses in den vergangenen Jahren zurückführen
Das Data Warehouse löst die sehr grundlegende, aber essenzielle Frage der Dateninfrastruktur: „Wo soll gespeichert werden?“

→ Man könnte denken, dass dieses Problem mehr als 15 Jahre nach Beginn der Big-Data-Revolution gelöst sei, aber das ist nicht der Fall

→ Rückblickend war der frühe Erfolg von Hadoop in gewisser Weise nur scheinbar real, was den Speicheraspekt betrifft

→ Wichtig war Hadoop vor allem dafür, die Idee zu vermitteln, dass sich aus riesigen Datenmengen tatsächlich echter Wert ziehen lässt; wegen der technischen Komplexität blieb die Nutzung aber auf einige wenige Unternehmen beschränkt und konnte den Markt nicht durchdringen

Die heutigen Cloud Data Warehouses (Snowflake, Redshift, BigQuery) und Lakehouses (Databricks)

→ sind kostengünstiger

→ erfordern keine riesigen Mengen an technischem Personal

→ und bieten die Möglichkeit, enorme Datenmengen auf nützliche Weise zu speichern

Anders gesagt: Erst jetzt ist es wirklich möglich geworden, Big Data zu speichern und zu verarbeiten. Das ist äußerst wichtig und hat sich als Major Unlock für andere Data-/AI-Bereiche erwiesen

→ Erstens vergrößern Data Warehouses den Gesamtmarkt des Daten- und AI-Ökosystems. Durch ihre einfache Nutzung und nutzungsbasierte Preisgestaltung werden Data Warehouses zum Gateway dafür, dass jedes Unternehmen zu einem Datenunternehmen wird

→ Zweitens ermöglichen Data Warehouses die Nutzung des Ökosystems rund um sie herum, einschließlich der zugehörigen Tools.

⇨ ETL, ELT, Reverse ETL, warehouse-zentrierte Data-Quality-Tools, Metrics Stores, Augmented Analytics usw.

⇨ „Modern Data Stack“ ( https://de.news.hada.io/topic?id=3055 siehe )

⇨ Mit dem Aufkommen des Modern Data Stack sind viele Startups entstanden, und Investitionen haben sich darauf konzentriert (DBT, Fivetran..)

→ Drittens lösen Data Warehouses die grundlegendste Storage-Schicht, sodass Unternehmen sich auf Projekte mit höherem Wert in den oberen Ebenen der Datenanforderungen konzentrieren können

⇨ Da die Daten nun gespeichert sind, kann man sich leichter auf Dinge wie Echtzeitverarbeitung, Augmented Analytics und Machine Learning konzentrieren

⇨ Das erhöht wiederum die Marktnachfrage nach Data-/AI-Tools und -Plattformen aller Art

⇨ Mehr Anforderungen von mehr Kunden erzeugen ein Flywheel, das zu mehr Innovation bei Data-/ML-Unternehmen führt

"Das Data Warehouse ist ein wichtiges Signal für die gesamte Datenindustrie, und wenn DW wächst, wächst auch der Rest mit"

Die gute Nachricht für die Data-/AI-Industrie ist, dass Data Warehouses und Lakehouses extrem schnell und stark wachsen

→ Snowflake wuchs laut Q2-Zahlen im Jahresvergleich um 103 % und zeigte mit einer Net Revenue Retention von 169 % einen erstaunlichen Wert (das bedeutet, dass Bestandskunden immer mehr nutzen)

→ Für 2028 werden Umsätze von 12 Billionen Won ($10B) erwartet

Manche sagen sogar, dass künftig jedes Unternehmen mindestens ein Cloud Data Warehouse haben wird

"The Titanic Shock: Snowflake vs Databricks"

Snowflake ist in letzter Zeit der prominenteste Vertreter im Datenbereich. Der IPO im September 2020 war der größte Software-IPO der Geschichte. Zum Zeitpunkt des Schreibens ist das Unternehmen $95B wert
Als neuer Konkurrent innerhalb der Branche ist Databricks aufgetaucht. Am 31. August wurde eine Finanzierung über $1.6B bei einer Bewertung von $38B abgeschlossen
Bis vor Kurzem gehörten die beiden Unternehmen im Markt zu recht unterschiedlichen Segmenten (tatsächlich waren sie eine Zeit lang enge Partner)
Snowflake ist als Cloud Data Warehouse eine Datenbank zum Speichern und Verarbeiten großer Mengen strukturierter Daten (solcher, die sich gut in Zeilen und Spalten speichern lassen)

→ Unternehmen verbinden BI-Tools damit, um Fragen zur vergangenen und aktuellen Leistung zu beantworten („Welche Region ist im letzten Quartal am schnellsten gewachsen?“)

→ Wie andere Datenbanken auch nutzt es SQL und hat dadurch Hunderte Millionen potenzielle Nutzer

Databricks kam aus einer anderen Ecke der Datenwelt

→ Begann 2013 mit der Kommerzialisierung von Open Source Spark

→ Wurde im Allgemeinen für die Verarbeitung unstrukturierter Daten (Text, Audio, Video) entwickelt

→ Spark-Nutzer setzten es ein, um „Data Lakes“ aufzubauen, in die beliebige Daten aufgenommen werden konnten, ohne sich um Datenstruktur oder -organisation kümmern zu müssen

→ Der Hauptzweck von Data Lakes besteht darin, ML-/AI-Anwendungen zu trainieren, damit Unternehmen Fragen über die Zukunft beantworten können („Welcher Kunde wird im nächsten Quartal am wahrscheinlichsten kaufen?“), also Predictive Analytics

→ Databricks entwickelte Delta zur Unterstützung von Data Lakes und ML Flow zur Unterstützung von ML/AI

In letzter Zeit nähern sich die beiden Unternehmen jedoch einander an

→ Databricks hat DW-Funktionen in den Data Lake integriert, sodass Analysten Standard-SQL-Abfragen ausführen und Tools wie Tableau oder MS PowerBI anbinden können. So entstand das, was es „Lakehouse“ nennt

→ Databricks macht den Data Lake warehouse-ähnlicher, und Snowflake hat als Preview die Unterstützung für die Speicherung unstrukturierter Daten (Audio, Video, PDF, Bilder usw.) vorgestellt, damit das Data Warehouse mehr wie ein Data Lake wirkt

→ Databricks ergänzt AI-Funktionen um BI, während Snowflake seine BI-kompatiblen Funktionen um AI erweitert

Letztlich wollen sowohl Snowflake als auch Databricks zum „The center of all things data“ werden

→ Ein einziges Repository, das alle Daten speichert. Es speichert sowohl strukturierte als auch unstrukturierte Daten und führt sämtliche Analysen aus – von historischen Auswertungen bis zu Zukunftsprognosen

Natürlich gibt es viele Wettbewerber (Cloud-Hyperscaler wie AWS und GCP)
Snowflake und Databricks sind gegenüber den Cloud-Anbietern zugleich Freund und Feind (Friend and Foe)

→ Snowflake, das auf Basis von AWS gewachsen ist, expandiert inzwischen auf andere Clouds

→ Databricks hat zwar eine starke Partnerschaft mit Microsoft, hilft aber mit Multi-Cloud-Funktionen dabei, Vendor Lock-in zu vermeiden

→ In den vergangenen Jahren haben Kritiker immer wieder bemängelt, dass die Geschäftsmodelle von Snowflake und Databricks margenseitig von der Preisgestaltung der Cloud-Anbieter abhängen

In den nächsten fünf Jahren wird es eine Schlüsselgeschichte sein, den Tanz zwischen Cloud-Anbietern und Daten-Behemoths zu beobachten

"Bundling, Unbundling, Consolidation?"

Angesichts des Aufstiegs von Snowflake und Databricks: Ist das der Beginn der lange erwarteten Konsolidierungswelle in der Branche?
Im Bereich Daten/AI findet eine „funktionale Konsolidierung“ statt
Aber das gilt für alle: Niemand will ein Ein-Produkt-Unternehmen bleiben, sondern mehr bündeln und mehr Funktionen anbieten

→ Auch Confluent, das im Juni 2021 an die Börse ging, will über den Echtzeitdaten-Bereich hinausgehen und „die Verarbeitung bewegter und statischer Daten integrieren“

→ Dataiku konzentriert sich darauf, Datenaufbereitung, DataOps, MLOps, Visualisierung und AI Explainability in einer einzigen Plattform zu bündeln

Das Aufkommen des Modern Data Stack ist ein weiteres Beispiel für funktionale Konsolidierung

→ Im Kern ist es eine faktische „Allianz“ von Unternehmen – meist Startups –, die von der Datenextraktion über das Data Warehouse bis hin zu BI alles miteinander verbinden

Für die Nutzer dieser Technologien werden Bundling und Konvergenz sehr willkommen sein

→ Mit zunehmender Reife muss sich die Datenindustrie über Technology Divides wie „Transaktionen vs. Analyse“, „Batch-Verarbeitung vs. Echtzeit“ und „BI vs AI“ hinaus weiterentwickeln

Unternehmen werden weiter mit verschiedenen Anbietern/Plattformen/Tools arbeiten, um die für ihre Anforderungen beste Kombination zusammenzustellen
Der Hauptgrund ist, dass „das Innovationstempo zu explosiv“ ist

→ Es entstehen ständig neue Startups, Big-Tech-Unternehmen entwickeln intern Daten-/AI-Tools und veröffentlichen sie als Open Source, und bei allen bestehenden Technologien/Produkten erscheint praktisch jede Woche etwas Neues

Anbieter von Big Data Warehouses und Data Lakes drängen darauf, alle Daten zu zentralisieren, während gleichzeitig neue Frameworks wie „Data Mesh“ entstehen

→ Ein verteilter Ansatz, bei dem verschiedene Teams jeweils ihre eigene Verantwortung tragen

Ob es neben funktionaler Konsolidierung auch zu M&A kommt, ist schwer zu sagen

→ Zu den beliebten Gerüchten gehört auch, dass „Microsoft Databricks übernehmen will“

"Financings, IPOs, M&A: A Crazy Market"

Wer den Startup-Markt ein wenig verfolgt hat, weiß: Der Markt ist verrückt
Wie schon im vergangenen Jahr sind Daten und ML/AI auch dieses Jahr die heißesten Investment-Kategorien
Unternehmen vor dem Börsengang

→ UiPath : RPA- und AI-Automatisierungsunternehmen

→ Confluent : Kafka

→ C3.ai : AI-Plattform

→ Couchbase : NoSQL-DB

→ SentinelOne : automatisierte AI-Endpoint-Sicherheitsplattform

→ TuSimple : selbstfahrende Lkw

→ Zymergen : Biomanufacturing

→ Recursion : AI-getriebenes Unternehmen für Medikamentenentwicklung

→ Darktrace : AI-basierte Cybersicherheit

Durch den Anstieg von SPACs werden Technologieunternehmen an der Front des AI-Marktes profitieren (autonomes Fahren, Biotech usw.)

"The 2021 MAD Landscape & What’s New this Year"

In der diesjährigen Karte wurde „Analytics and Machine Intelligence“ in „Analytics“ und „Machine Learning & Artificial Intelligence“ aufgeteilt
Neue Kategorien hinzugefügt

→ Infrastructure

→ ⇨ Reverse ETL : Produkte, die Daten aus dem Data Warehouse zurück in SaaS-Anwendungen übertragen

→ ⇨ Data Observability : ein Bestandteil von DataOps, der sich auf die Lösung von Datenqualitätsproblemen auf Basis von Data Lineage konzentriert

→ ⇨ Privacy & Security : Da Datenschutz immer wichtiger wird, sind viele Startups in dieser Kategorie entstanden

→ Analytics

→ ⇨ Data Catalogs & Discovery : die aktivste Kategorie der vergangenen 12 Monate. Sie hilft Nutzern, die gewünschten Datensätze zu finden und zu verwalten

→ ⇨ Augmented Analytics : BI-Tools nutzen Fortschritte bei NLG/NLP, um automatisch Insights zu generieren und Daten auch für nichttechnische Zielgruppen zugänglich zu machen

→ ⇨ Metrics Stores : ein zentrales Repository für wichtige Business-Metriken. Neu im Data Stack

→ ⇨ Query Engines

→ Machine Learning and AI

→ ⇨ Die MLOps-Kategorie wurde weiter unterteilt: Model Building, Feature Stores, Deployment and Production

→ Open Source

→ ⇨ Format, Orchestration, Data Quality & Observability wurden hinzugefügt

Früher gab es viele Startups ab Series C oder börsennotierte Unternehmen, dieses Jahr wurden aber viele Firmen in der Series-A- oder Seed-Phase ergänzt

"Wichtige Trends in der Dateninfrastruktur"

2020

→ Modern Data Stack wird Mainstream

→ ETL vs ELT

→ Automatisierung des Data Engineering?

→ Der Aufstieg des Datenanalysten

→ Verschmelzen Data Lake und Data Warehouse?

→ Noch ungelöste Komplexität

2021

→ Data Mesh

→ Ein arbeitsreiches Jahr für DataOps

→ Jetzt ist Echtzeit angesagt

→ Metrics Stores

→ Reverse ETL

→ Data Sharing

[Data Mesh]

Geht auf „How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh“ zurück, das Zhamak Dehghani 2019 vorgeschlagen hat
Hat zwischen 2020 und 2021 viel Momentum gewonnen
Das Konzept des Data Mesh ist größtenteils eine organisatorische Idee
Der Standardansatz zum Aufbau von Dateninfrastruktur und Teams war bisher Zentralisierung. Eine große Plattform, die von einem Datenteam verwaltet wird, erfüllt die Geschäftsanforderungen
Das hat viele Vorteile, bringt aber auch Probleme wie Engpässe mit sich
Durch Dezentralisierung entstehen unabhängige Datenteams, die jeweils für ihre Domäne zuständig sind und Daten anderen im Unternehmen „als Produkt“ bereitstellen

→ Ähnlich dem Microservices-Konzept aus dem Software Engineering

Der Begriff hat verschiedene Bedeutungen, aber

→ Wenn sich das durchsetzt, ist das eine große Chance für Startups, die mission-kritische Tools für einen verteilten Data Stack bauen

Starburst, eine SQL Query Engine für föderierte Abfragen und Analysen über mehrere Speicher hinweg, hat sich selbst als „Analytics Engine für Data Mesh“ neu positioniert
Orchestration Engines zur Verwaltung komplexer Pipelines (wie Airflow, Prefect, Dagster) werden noch mission-kritischer werden
Das Nachverfolgen von Daten in Speichern und Pipeline-Systemen wird unter Compliance- und Governance-Gesichtspunkten immer unverzichtbarer, wodurch die Notwendigkeit von Data Lineage weiter zunimmt (OpenLineage, DataKin)

[Ein arbeitsreiches Jahr für DataOps]

Das DataOps-Konzept geisterte mehrere Jahre herum und ist inzwischen tatsächlich in Schwung gekommen
Es gibt mehrere Definitionen

→ DevOps der Datenwelt

→ Alles, was man braucht, um Datenpipelines aufzubauen und zu betreiben, über Datenkataloge die richtigen Datensätze zu finden und Datenproduzenten wie -konsumenten die für ihre Aufgaben nötigen Mittel bereitzustellen

Wie auch immer: Genau wie DevOps ist es letztlich eine „Kombination aus Methodik, Prozessen, Menschen, Plattformen und Tools“
Im weiteren Kontext bedeutet das, dass „Daten-Engineering-Tools und -Praktiken“ beim Automatisierungsgrad noch deutlich hinter dem Software Engineering zurückliegen
Je wichtiger Daten/AI werden, desto mehr braucht es bessere Tools und Praktiken
Alle wollen das „DataDog der Datenwelt“ werden (tatsächlich wird DataDog auch für DataOps eingesetzt, basiert aber grundsätzlich auf Software Engineering)
Es gibt verschiedene Teilbereiche wie Data Observability, Data Lineage, Data Quality, Data Reliability Engineering sowie Data Access & Governance

[Jetzt ist Echtzeit angesagt]

„Echtzeit“- oder „Streaming“-Daten sind Daten, die unmittelbar nach ihrer Entstehung verarbeitet und genutzt werden
Das ist das Gegenstück zum bisher dominierenden Paradigma der Dateninfrastruktur: „Batch“
Echtzeit-Datenverarbeitung war schon seit den frühen Big-Data-Tagen vor 10–15 Jahren ein heißes Thema

→ Insbesondere die Verarbeitungsgeschwindigkeit war ein Schlüsselfaktor, der den Erfolg von Spark gegenüber HadoopMR antrieb

Über Jahre hinweg galt der Markt als „kurz vor der Explosion“, explodierte aber nicht
Der große Erfolg des Confluent-IPO bewies, dass die Skeptiker falsch lagen
Und über Confluent hinaus hat sich das gesamte Echtzeit-Daten-Ökosystem beschleunigt
Vor allem „Realtime Analytics“ zeigt viel Dynamik

→ ClickHouse, entwickelt vom russischen Unternehmen Yandex, gründete in den USA ein Unternehmen und erhielt 50 Mio. US-Dollar Finanzierung

→ Imply, eine auf Druid Open Source basierende Realtime-Analytics-Plattform, erhielt 70 Mio. US-Dollar Finanzierung

[Metrics Stores]

In den vergangenen Jahren sind Datenmenge, Datennutzungshäufigkeit und Komplexität in Unternehmen gestiegen
Mit der steigenden Komplexität haben auch Probleme durch Dateninkonsistenzen zugenommen
Kennzahlen (Metrics) können schon durch kleine Änderungen bei Dimensionen/Definitionen oder andere Ursachen falsch ausgerichtet sein
Daten sind nur dann nützlich, wenn sie für Teams korrekt und vertrauenswürdig sind
Der Versuch, Kennzahlen zu zentralisieren, führte zur Entwicklung interner Lösungen wie Minerva von AirBnB: „Define Once, Use Anywhere“
Dabei werden Definitionen für zentrale Business-Kennzahlen und alle Dimensionen standardisiert und Stakeholdern auf Basis dieser Definitionen korrekte, analysierbare Datensätze bereitgestellt
Auf Basis zentralisierter Kennzahlendefinitionen wird Vertrauen in Daten aufgebaut und funktionsübergreifender Zugriff auf Kennzahlen für alle ermöglicht
Ein Metrics Store

→ sitzt oberhalb des Data Warehouse und informiert alle Downstream-Anwendungen, darunter BI-Plattformen, Analytics- und Data-Science-Tools sowie operative Anwendungen, mit Daten

→ sorgt dafür, dass Daten konsistent bleiben, sodass Änderungen an der Business-Logik automatisch übernommen werden

Es gibt Startups wie Transform, Trace und Supergrain

[Reverse ETL]

Reverse ETL ist im modernen Data Stack zu einer eigenen Kategorie geworden
Dabei werden Daten aus dem Data Warehouse zurück in Business-Anwendungen wie CRM, Marketing-Automation-Systeme und Kundensupport-Plattformen bewegt
Ziel ist, dass tatsächliche operative Tools aktuelle, angereicherte Daten aus anderen Business-Anwendungen nutzen können
Viele Reverse-ETL-Tools haben Finanzierung erhalten: Census, Rudderstack, Grouparoo, Hightouch, Headsup, Polytomic

[Data Sharing]

Der Aufstieg von Datenteilung und Datenkollaboration nicht nur innerhalb von Unternehmen, sondern über ganze Organisationen hinweg
Für Transparenz in Lieferketten, das Training von Machine-Learning-Modellen oder das Teilen von Go-to-Market-Plänen möchten Unternehmen Daten mit Ökosystemen aus Lieferanten, Partnern und Kunden teilen
Organisationsübergreifende Datenteilung ist ein Kernthema der „Data Cloud“-Anbieter
Im Mai 2021 startete Google Analytics Hub. Damit lassen sich Daten/Insights/Dashboards/Machine-Learning-Modelle innerhalb und außerhalb von Organisationen teilen. Außerdem wurde DataShare für Finanzdienstleistungen vorgestellt
Am selben Tag wie Google stellte Databricks Delta Sharing vor, ein Open-Source-Protokoll für organisationsübergreifende Datenteilung
Im Juni 2021 stellte Snowflake über seinen Data Marketplace die Funktion Secure Data Sharing vor
Es gibt Startups wie Habr und Crossbeam

„Wichtige Trends bei ML/AI“

2020

Boom time for data science and machine learning platforms (DSML)
ML getting deployed and embedded
The Year of NLP

2021

Feature Stores
The rise of ModelOps
AI content generation
The continued emergence of a separate Chinese AI stack
Die Forschung zu künstlicher Intelligenz entwickelt sich weiterhin mit hoher Geschwindigkeit

→ DeepMind Alphafold, OpenAI GTP-3/DALL-E/CLIP

[Feature Stores]

Seit Uber die Idee 2017 vorgestellt hat, werden sie im Machine-Learning-Stack immer verbreiteter

→ Unternehmen wie Tecton, Rasgo, Logical Clocks und Kaskada haben Finanzierungsrunden erhalten

In Machine Learning sind Features (Variablen oder Attribute) individuell messbare Eigenschaften oder Merkmale, die in Datenschnipseln als Spalten dargestellt werden

→ Machine-Learning-Modelle können von einem einzelnen Feature bis zu Millionen Features nutzen

Mit immer komplexeren Modellen und Pipelines wurde vieles zunehmend ad hoc umgesetzt
Engineers und Data Scientists verbringen oft viel Zeit damit, Features erneut aus Rohdaten zu extrahieren
Die Lücke zwischen Produktions- und Experimentierumgebung kann zu Inkonsistenzen bei Modellleistung oder -verhalten führen
Organisationen interessieren sich zunehmend für Governance und Reproduzierbarkeit von Machine-Learning-Modellen, wodurch die Versiloung von Features die Sache in der Praxis noch schwieriger macht
Feature Stores fördern die Zusammenarbeit und beseitigen diese Silos
Sie reduzieren Komplexität und standardisieren sowie wiederverwenden Features, indem sie sowohl für Training als auch Produktion eine Single Source of Truth bereitstellen
Sie speichern kuratierte Features innerhalb einer Organisation, führen Datenpipelines aus, die Rohdaten in Feature Values umwandeln, und bieten schnellen Zugriff über APIs

[The Rise of ModelOps]

Viele Unternehmen haben erkannt, dass es schwierig ist, Modelle aus der Experimentierphase in die Produktion zu bringen, und dass eingesetzte Modelle kontinuierlich überwacht und nachtrainiert werden müssen
MLOps wendet Best Practices aus DevOps an und vereinfacht die schnelle, kontinuierliche Entwicklung und Bereitstellung von Modellen im großen Maßstab
ModelOps ist eine Obermenge von MLOps. Es zielt auf einen schnelleren Betrieb sämtlicher AI-Modelle einschließlich ML über alle Phasen hinweg ab, vom Training bis zur Produktion
ModelOps umfasst sowohl Tools als auch Prozesse, integriert Prozesse, standardisiert die Modellorchestrierung und stellt zusammen mit umfassenden Governance-Funktionen ein zentralisiertes Repository für alle Modelle bereit
Gut implementiertes ModelOps bietet ein integriertes System für Deployment, Monitoring und Management aller Modelle, reduziert Risiken und erhöht die Compliance

[AI Content Generation]

KI ist in den vergangenen Jahren stark gereift und wird zur Erstellung von Inhalten über alle Arten von Medien hinweg eingesetzt, darunter Text, Bilder, Code und Video
OpenAI veröffentlicht GPT-3. GitHub stellt GitHub Copilot vor, das OpenAI Codex nutzt
OpenAI konzentriert sich auf englischzentrierte Modelle, aber viele andere Unternehmen arbeiten an anderen Sprachen

→ Deutschlands Aleph Alpha, AI21 Labs, Huaweis PanGu, Navers HyperCLOVA

[Das fortgesetzte Entstehen eines eigenständigen chinesischen KI-Stacks]

China entwickelt sich mit seinem eigenen Markt als weltweit größtem Datenproduzenten weiter zu einer globalen KI-Großmacht
Mit dem Erfolg von TikTok, einem der besten Empfehlungsalgorithmen, im Westen verbreitete sich chinesische KI-Verbrauchertechnologie erstmals tatsächlich
Da China bis 2030 die KI-Vorherrschaft ausgerufen hat und dafür finanziell unterstützt wird, beginnt in China, das bislang noch westliche Tools nutzte, ein eigener separater Stack zu entstehen

3 Kommentare

ehanmire 2021-11-11

Aus mehreren Sätzen habe ich gute Einsichten gewonnen und denke über vieles nach.

Vielen Dank~

Kurz kam mir der Gedanke, dass Prozesse und Daten wie Knochen und Blut sind,

und dass sich zwar irgendwo Blut sammelt, Blutgefäße entstehen und sich Gewebe bildet,

dass Unternehmen aber ihr Geld letztlich nicht durch Bewegung verdienen?

Dieser seltsame Vergleich kam mir plötzlich in den Sinn.

sungwoo 2021-11-08

Vielen Dank, dass Sie solche hochwertigen Informationen immer so übersichtlich aufbereiten.

xguru 2021-11-07

Die Data & AI Landscape 2020 https://de.news.hada.io/topic?id=2979