21 Punkte von xguru 2021-11-01 | 3 Kommentare | Auf WhatsApp teilen
<p>Die 2021 Data &amp; AI Landscape, zusammengefasst in einem Bild, mit ausführlicher Erklärung<br /> 1. Makroperspektive: Die Komplexität des Ökosystems verstehen <br /> 2. Finanzierung, IPOs und M&amp;A <br /> 3. The 2021 Landscape<br /> 4. Wichtige Trends in der Dateninfrastruktur <br /> → Data Mesh <br /> → Ein arbeitsreiches Jahr für DataOps <br /> → Jetzt ist Echtzeit angesagt<br /> → Metrics Store<br /> → Reverse ETL <br /> → Data Sharing <br /> 5. Wichtige Trends bei Analytics &amp; Enterprise AI <br /> → Feature Store<br /> → Der Aufstieg von ModelOps<br /> → KI-generierte Inhalte<br /> → Die Weiterentwicklung des chinesischen AI-Stacks<br /> <br /> ## &quot;Makroperspektive: Die Komplexität des Ökosystems verstehen&quot;<br /> - Warum entstehen weiterhin Data-&amp;-AI-Unternehmen, und wie lange wird das noch so weitergehen?<br /> - Der grundlegende Trend ist, dass „jedes Unternehmen nicht nur ein Softwareunternehmen, sondern ein Datenunternehmen wird“<br /> - In vielen Organisationen bedeuteten „Daten“ bislang Transaktionsdaten, die in einem RDBMS gespeichert sind, sowie einige Dashboards für Analysen darüber, was in den vergangenen Monaten passiert ist <br /> - Doch inzwischen bewegen sich Unternehmen auf eine Welt zu, in der „Daten und künstliche Intelligenz“ für „Analyse und Betrieb“ in „interne Prozesse und externe Anwendungen“ eingebettet werden <br /> - Diese grundlegende Entwicklung wird durch erstaunliche Fortschritte in den Basistechnologien ermöglicht – insbesondere durch die symbiotische Beziehung zwischen „Dateninfrastruktur und Machine Learning/AI“<br /> → Die beiden Bereiche arbeiten immer enger zusammen<br /> → Die erste Phase war das „Big-Data-Zeitalter“ der frühen 2010er Jahre<br /> → Als man erkannte, dass sich mit der Anwendung dieser Big Data auf mehr als zehn Jahre alte KI-Algorithmen (Deep Learning) erstaunliche Ergebnisse erzielen lassen, wurde die Begeisterung für AI ausgelöst<br /> → Infolgedessen wurde AI zu einem wichtigen Treiber für die Entwicklung der Dateninfrastruktur<br /> → Wenn alle Anwendungen auf AI-Basis aufgebaut werden, wird bessere Dateninfrastruktur nötig sein <br /> - Auf dem Weg bis 2021 haben die Begriffe Big Data und AI alle ihre Höhen und Tiefen erlebt, und heute hört man viel über „Automation“, aber im Kern ist das alles derselbe Megatrend <br /> <br /> - Die aktuelle Beschleunigung im Bereich Data/AI lässt sich auf das Wachstum der Cloud Data Warehouses in den vergangenen Jahren zurückführen<br /> - Das Data Warehouse löst die sehr grundlegende, aber essenzielle Frage der Dateninfrastruktur: „Wo soll gespeichert werden?“<br /> → Man könnte denken, dass dieses Problem mehr als 15 Jahre nach Beginn der Big-Data-Revolution gelöst sei, aber das ist nicht der Fall <br /> → Rückblickend war der frühe Erfolg von Hadoop in gewisser Weise nur scheinbar real, was den Speicheraspekt betrifft <br /> → Wichtig war Hadoop vor allem dafür, die Idee zu vermitteln, dass sich aus riesigen Datenmengen tatsächlich echter Wert ziehen lässt; wegen der technischen Komplexität blieb die Nutzung aber auf einige wenige Unternehmen beschränkt und konnte den Markt nicht durchdringen <br /> - Die heutigen Cloud Data Warehouses (Snowflake, Redshift, BigQuery) und Lakehouses (Databricks) <br /> → sind kostengünstiger<br /> → erfordern keine riesigen Mengen an technischem Personal <br /> → und bieten die Möglichkeit, enorme Datenmengen auf nützliche Weise zu speichern <br /> - Anders gesagt: Erst jetzt ist es wirklich möglich geworden, Big Data zu speichern und zu verarbeiten. Das ist äußerst wichtig und hat sich als Major Unlock für andere Data-/AI-Bereiche erwiesen<br /> → Erstens vergrößern Data Warehouses den Gesamtmarkt des Daten- und AI-Ökosystems. Durch ihre einfache Nutzung und nutzungsbasierte Preisgestaltung werden Data Warehouses zum Gateway dafür, dass jedes Unternehmen zu einem Datenunternehmen wird<br /> → Zweitens ermöglichen Data Warehouses die Nutzung des Ökosystems rund um sie herum, einschließlich der zugehörigen Tools. <br /> ⇨ ETL, ELT, Reverse ETL, warehouse-zentrierte Data-Quality-Tools, Metrics Stores, Augmented Analytics usw. <br /> ⇨ „Modern Data Stack“ ( https://de.news.hada.io/topic?id=3055 siehe )<br /> ⇨ Mit dem Aufkommen des Modern Data Stack sind viele Startups entstanden, und Investitionen haben sich darauf konzentriert (DBT, Fivetran..)<br /> → Drittens lösen Data Warehouses die grundlegendste Storage-Schicht, sodass Unternehmen sich auf Projekte mit höherem Wert in den oberen Ebenen der Datenanforderungen konzentrieren können<br /> ⇨ Da die Daten nun gespeichert sind, kann man sich leichter auf Dinge wie Echtzeitverarbeitung, Augmented Analytics und Machine Learning konzentrieren <br /> ⇨ Das erhöht wiederum die Marktnachfrage nach Data-/AI-Tools und -Plattformen aller Art <br /> ⇨ Mehr Anforderungen von mehr Kunden erzeugen ein Flywheel, das zu mehr Innovation bei Data-/ML-Unternehmen führt <br /> <br /> &quot;Das Data Warehouse ist ein wichtiges Signal für die gesamte Datenindustrie, und wenn DW wächst, wächst auch der Rest mit&quot;<br /> <br /> - Die gute Nachricht für die Data-/AI-Industrie ist, dass Data Warehouses und Lakehouses extrem schnell und stark wachsen <br /> → Snowflake wuchs laut Q2-Zahlen im Jahresvergleich um 103 % und zeigte mit einer Net Revenue Retention von 169 % einen erstaunlichen Wert (das bedeutet, dass Bestandskunden immer mehr nutzen)<br /> → Für 2028 werden Umsätze von 12 Billionen Won ($10B) erwartet <br /> - Manche sagen sogar, dass künftig jedes Unternehmen mindestens ein Cloud Data Warehouse haben wird <br /> <br /> ## &quot;The Titanic Shock: Snowflake vs Databricks&quot;<br /> - Snowflake ist in letzter Zeit der prominenteste Vertreter im Datenbereich. Der IPO im September 2020 war der größte Software-IPO der Geschichte. Zum Zeitpunkt des Schreibens ist das Unternehmen $95B wert<br /> - Als neuer Konkurrent innerhalb der Branche ist Databricks aufgetaucht. Am 31. August wurde eine Finanzierung über $1.6B bei einer Bewertung von $38B abgeschlossen <br /> - Bis vor Kurzem gehörten die beiden Unternehmen im Markt zu recht unterschiedlichen Segmenten (tatsächlich waren sie eine Zeit lang enge Partner)<br /> - Snowflake ist als Cloud Data Warehouse eine Datenbank zum Speichern und Verarbeiten großer Mengen strukturierter Daten (solcher, die sich gut in Zeilen und Spalten speichern lassen) <br /> → Unternehmen verbinden BI-Tools damit, um Fragen zur vergangenen und aktuellen Leistung zu beantworten („Welche Region ist im letzten Quartal am schnellsten gewachsen?“) <br /> → Wie andere Datenbanken auch nutzt es SQL und hat dadurch Hunderte Millionen potenzielle Nutzer <br /> - Databricks kam aus einer anderen Ecke der Datenwelt <br /> → Begann 2013 mit der Kommerzialisierung von Open Source Spark <br /> → Wurde im Allgemeinen für die Verarbeitung unstrukturierter Daten (Text, Audio, Video) entwickelt <br /> → Spark-Nutzer setzten es ein, um „Data Lakes“ aufzubauen, in die beliebige Daten aufgenommen werden konnten, ohne sich um Datenstruktur oder -organisation kümmern zu müssen <br /> → Der Hauptzweck von Data Lakes besteht darin, ML-/AI-Anwendungen zu trainieren, damit Unternehmen Fragen über die Zukunft beantworten können („Welcher Kunde wird im nächsten Quartal am wahrscheinlichsten kaufen?“), also Predictive Analytics<br /> → Databricks entwickelte Delta zur Unterstützung von Data Lakes und ML Flow zur Unterstützung von ML/AI <br /> - In letzter Zeit nähern sich die beiden Unternehmen jedoch einander an <br /> → Databricks hat DW-Funktionen in den Data Lake integriert, sodass Analysten Standard-SQL-Abfragen ausführen und Tools wie Tableau oder MS PowerBI anbinden können. So entstand das, was es „Lakehouse“ nennt <br /> → Databricks macht den Data Lake warehouse-ähnlicher, und Snowflake hat als Preview die Unterstützung für die Speicherung unstrukturierter Daten (Audio, Video, PDF, Bilder usw.) vorgestellt, damit das Data Warehouse mehr wie ein Data Lake wirkt <br /> → Databricks ergänzt AI-Funktionen um BI, während Snowflake seine BI-kompatiblen Funktionen um AI erweitert <br /> - Letztlich wollen sowohl Snowflake als auch Databricks zum „The center of all things data“ werden<br />

→ Ein einziges Repository, das alle Daten speichert. Es speichert sowohl strukturierte als auch unstrukturierte Daten und führt sämtliche Analysen aus – von historischen Auswertungen bis zu Zukunftsprognosen<br />

  • Natürlich gibt es viele Wettbewerber (Cloud-Hyperscaler wie AWS und GCP)<br />
  • Snowflake und Databricks sind gegenüber den Cloud-Anbietern zugleich Freund und Feind (Friend and Foe)<br /> → Snowflake, das auf Basis von AWS gewachsen ist, expandiert inzwischen auf andere Clouds <br /> → Databricks hat zwar eine starke Partnerschaft mit Microsoft, hilft aber mit Multi-Cloud-Funktionen dabei, Vendor Lock-in zu vermeiden <br /> → In den vergangenen Jahren haben Kritiker immer wieder bemängelt, dass die Geschäftsmodelle von Snowflake und Databricks margenseitig von der Preisgestaltung der Cloud-Anbieter abhängen <br />
  • In den nächsten fünf Jahren wird es eine Schlüsselgeschichte sein, den Tanz zwischen Cloud-Anbietern und Daten-Behemoths zu beobachten <br /> <br />

"Bundling, Unbundling, Consolidation?"<br />

  • Angesichts des Aufstiegs von Snowflake und Databricks: Ist das der Beginn der lange erwarteten Konsolidierungswelle in der Branche?<br />
  • Im Bereich Daten/AI findet eine „funktionale Konsolidierung“ statt<br />
  • Aber das gilt für alle: Niemand will ein Ein-Produkt-Unternehmen bleiben, sondern mehr bündeln und mehr Funktionen anbieten<br /> → Auch Confluent, das im Juni 2021 an die Börse ging, will über den Echtzeitdaten-Bereich hinausgehen und „die Verarbeitung bewegter und statischer Daten integrieren“ <br /> → Dataiku konzentriert sich darauf, Datenaufbereitung, DataOps, MLOps, Visualisierung und AI Explainability in einer einzigen Plattform zu bündeln <br />
  • Das Aufkommen des Modern Data Stack ist ein weiteres Beispiel für funktionale Konsolidierung <br /> → Im Kern ist es eine faktische „Allianz“ von Unternehmen – meist Startups –, die von der Datenextraktion über das Data Warehouse bis hin zu BI alles miteinander verbinden <br />
  • Für die Nutzer dieser Technologien werden Bundling und Konvergenz sehr willkommen sein<br /> → Mit zunehmender Reife muss sich die Datenindustrie über Technology Divides wie „Transaktionen vs. Analyse“, „Batch-Verarbeitung vs. Echtzeit“ und „BI vs AI“ hinaus weiterentwickeln <br />
  • Unternehmen werden weiter mit verschiedenen Anbietern/Plattformen/Tools arbeiten, um die für ihre Anforderungen beste Kombination zusammenzustellen<br /> <br />
  • Der Hauptgrund ist, dass „das Innovationstempo zu explosiv“ ist<br /> → Es entstehen ständig neue Startups, Big-Tech-Unternehmen entwickeln intern Daten-/AI-Tools und veröffentlichen sie als Open Source, und bei allen bestehenden Technologien/Produkten erscheint praktisch jede Woche etwas Neues <br /> <br />
  • Anbieter von Big Data Warehouses und Data Lakes drängen darauf, alle Daten zu zentralisieren, während gleichzeitig neue Frameworks wie „Data Mesh“ entstehen <br /> → Ein verteilter Ansatz, bei dem verschiedene Teams jeweils ihre eigene Verantwortung tragen <br /> <br />
  • Ob es neben funktionaler Konsolidierung auch zu M&A kommt, ist schwer zu sagen <br /> → Zu den beliebten Gerüchten gehört auch, dass „Microsoft Databricks übernehmen will“<br /> <br />

"Financings, IPOs, M&A: A Crazy Market"<br />

  • Wer den Startup-Markt ein wenig verfolgt hat, weiß: Der Markt ist verrückt <br />
  • Wie schon im vergangenen Jahr sind Daten und ML/AI auch dieses Jahr die heißesten Investment-Kategorien<br />
  • Unternehmen vor dem Börsengang<br /> → UiPath : RPA- und AI-Automatisierungsunternehmen <br /> → Confluent : Kafka <br /> → C3.ai : AI-Plattform <br /> → Couchbase : NoSQL-DB <br /> → SentinelOne : automatisierte AI-Endpoint-Sicherheitsplattform <br /> → TuSimple : selbstfahrende Lkw <br /> → Zymergen : Biomanufacturing <br /> → Recursion : AI-getriebenes Unternehmen für Medikamentenentwicklung<br /> → Darktrace : AI-basierte Cybersicherheit<br />
  • Durch den Anstieg von SPACs werden Technologieunternehmen an der Front des AI-Marktes profitieren (autonomes Fahren, Biotech usw.)<br /> <br />

"The 2021 MAD Landscape & What’s New this Year"<br />

  • In der diesjährigen Karte wurde „Analytics and Machine Intelligence“ in „Analytics“ und „Machine Learning & Artificial Intelligence“ aufgeteilt <br />
  • Neue Kategorien hinzugefügt <br /> → Infrastructure<br /> → ⇨ Reverse ETL : Produkte, die Daten aus dem Data Warehouse zurück in SaaS-Anwendungen übertragen <br /> → ⇨ Data Observability : ein Bestandteil von DataOps, der sich auf die Lösung von Datenqualitätsproblemen auf Basis von Data Lineage konzentriert <br /> → ⇨ Privacy & Security : Da Datenschutz immer wichtiger wird, sind viele Startups in dieser Kategorie entstanden <br /> → Analytics<br /> → ⇨ Data Catalogs & Discovery : die aktivste Kategorie der vergangenen 12 Monate. Sie hilft Nutzern, die gewünschten Datensätze zu finden und zu verwalten <br /> → ⇨ Augmented Analytics : BI-Tools nutzen Fortschritte bei NLG/NLP, um automatisch Insights zu generieren und Daten auch für nichttechnische Zielgruppen zugänglich zu machen <br /> → ⇨ Metrics Stores : ein zentrales Repository für wichtige Business-Metriken. Neu im Data Stack<br /> → ⇨ Query Engines <br /> → Machine Learning and AI <br /> → ⇨ Die MLOps-Kategorie wurde weiter unterteilt: Model Building, Feature Stores, Deployment and Production <br /> → Open Source <br /> → ⇨ Format, Orchestration, Data Quality & Observability wurden hinzugefügt <br />
  • Früher gab es viele Startups ab Series C oder börsennotierte Unternehmen, dieses Jahr wurden aber viele Firmen in der Series-A- oder Seed-Phase ergänzt <br /> <br />

"Wichtige Trends in der Dateninfrastruktur"<br />

  • 2020 <br /> → Modern Data Stack wird Mainstream <br /> → ETL vs ELT <br /> → Automatisierung des Data Engineering?<br /> → Der Aufstieg des Datenanalysten <br /> → Verschmelzen Data Lake und Data Warehouse?<br /> → Noch ungelöste Komplexität <br /> <br />

  • 2021 <br /> → Data Mesh <br /> → Ein arbeitsreiches Jahr für DataOps <br /> → Jetzt ist Echtzeit angesagt<br /> → Metrics Stores <br /> → Reverse ETL <br /> → Data Sharing <br /> <br /> [Data Mesh]<br />

  • Geht auf „How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh“ zurück, das Zhamak Dehghani 2019 vorgeschlagen hat <br />

  • Hat zwischen 2020 und 2021 viel Momentum gewonnen<br />

  • Das Konzept des Data Mesh ist größtenteils eine organisatorische Idee<br />

  • Der Standardansatz zum Aufbau von Dateninfrastruktur und Teams war bisher Zentralisierung. Eine große Plattform, die von einem Datenteam verwaltet wird, erfüllt die Geschäftsanforderungen <br />

  • Das hat viele Vorteile, bringt aber auch Probleme wie Engpässe mit sich <br />

  • Durch Dezentralisierung entstehen unabhängige Datenteams, die jeweils für ihre Domäne zuständig sind und Daten anderen im Unternehmen „als Produkt“ bereitstellen <br /> → Ähnlich dem Microservices-Konzept aus dem Software Engineering <br />

  • Der Begriff hat verschiedene Bedeutungen, aber <br /> → Wenn sich das durchsetzt, ist das eine große Chance für Startups, die mission-kritische Tools für einen verteilten Data Stack bauen<br />

  • Starburst, eine SQL Query Engine für föderierte Abfragen und Analysen über mehrere Speicher hinweg, hat sich selbst als „Analytics Engine für Data Mesh“ neu positioniert <br />

  • Orchestration Engines zur Verwaltung komplexer Pipelines (wie Airflow, Prefect, Dagster) werden noch mission-kritischer werden <br />

  • Das Nachverfolgen von Daten in Speichern und Pipeline-Systemen wird unter Compliance- und Governance-Gesichtspunkten immer unverzichtbarer, wodurch die Notwendigkeit von Data Lineage weiter zunimmt (OpenLineage, DataKin)<br /> <br /> [Ein arbeitsreiches Jahr für DataOps]<br />

  • Das DataOps-Konzept geisterte mehrere Jahre herum und ist inzwischen tatsächlich in Schwung gekommen <br />

  • Es gibt mehrere Definitionen <br /> → DevOps der Datenwelt <br /> → Alles, was man braucht, um Datenpipelines aufzubauen und zu betreiben, über Datenkataloge die richtigen Datensätze zu finden und Datenproduzenten wie -konsumenten die für ihre Aufgaben nötigen Mittel bereitzustellen <br />

  • Wie auch immer: Genau wie DevOps ist es letztlich eine „Kombination aus Methodik, Prozessen, Menschen, Plattformen und Tools“<br />

  • Im weiteren Kontext bedeutet das, dass „Daten-Engineering-Tools und -Praktiken“ beim Automatisierungsgrad noch deutlich hinter dem Software Engineering zurückliegen<br />

  • Je wichtiger Daten/AI werden, desto mehr braucht es bessere Tools und Praktiken <br />

  • Alle wollen das „DataDog der Datenwelt“ werden (tatsächlich wird DataDog auch für DataOps eingesetzt, basiert aber grundsätzlich auf Software Engineering)<br />

  • Es gibt verschiedene Teilbereiche wie Data Observability, Data Lineage, Data Quality, Data Reliability Engineering sowie Data Access & Governance<br /> <br /> [Jetzt ist Echtzeit angesagt]<br />

  • „Echtzeit“- oder „Streaming“-Daten sind Daten, die unmittelbar nach ihrer Entstehung verarbeitet und genutzt werden <br />

  • Das ist das Gegenstück zum bisher dominierenden Paradigma der Dateninfrastruktur: „Batch“ <br />

  • Echtzeit-Datenverarbeitung war schon seit den frühen Big-Data-Tagen vor 10–15 Jahren ein heißes Thema<br /> → Insbesondere die Verarbeitungsgeschwindigkeit war ein Schlüsselfaktor, der den Erfolg von Spark gegenüber HadoopMR antrieb <br />

  • Über Jahre hinweg galt der Markt als „kurz vor der Explosion“, explodierte aber nicht <br />

  • Der große Erfolg des Confluent-IPO bewies, dass die Skeptiker falsch lagen <br />

  • Und über Confluent hinaus hat sich das gesamte Echtzeit-Daten-Ökosystem beschleunigt <br />

  • Vor allem „Realtime Analytics“ zeigt viel Dynamik <br /> → ClickHouse, entwickelt vom russischen Unternehmen Yandex, gründete in den USA ein Unternehmen und erhielt 50 Mio. US-Dollar Finanzierung <br /> → Imply, eine auf Druid Open Source basierende Realtime-Analytics-Plattform, erhielt 70 Mio. US-Dollar Finanzierung <br /> <br /> [Metrics Stores]<br />

  • In den vergangenen Jahren sind Datenmenge, Datennutzungshäufigkeit und Komplexität in Unternehmen gestiegen <br />

  • Mit der steigenden Komplexität haben auch Probleme durch Dateninkonsistenzen zugenommen <br />

  • Kennzahlen (Metrics) können schon durch kleine Änderungen bei Dimensionen/Definitionen oder andere Ursachen falsch ausgerichtet sein<br />

  • Daten sind nur dann nützlich, wenn sie für Teams korrekt und vertrauenswürdig sind <br />

  • Der Versuch, Kennzahlen zu zentralisieren, führte zur Entwicklung interner Lösungen wie Minerva von AirBnB: „Define Once, Use Anywhere“<br />

  • Dabei werden Definitionen für zentrale Business-Kennzahlen und alle Dimensionen standardisiert und Stakeholdern auf Basis dieser Definitionen korrekte, analysierbare Datensätze bereitgestellt <br />

  • Auf Basis zentralisierter Kennzahlendefinitionen wird Vertrauen in Daten aufgebaut und funktionsübergreifender Zugriff auf Kennzahlen für alle ermöglicht <br />

  • Ein Metrics Store <br /> → sitzt oberhalb des Data Warehouse und informiert alle Downstream-Anwendungen, darunter BI-Plattformen, Analytics- und Data-Science-Tools sowie operative Anwendungen, mit Daten <br /> → sorgt dafür, dass Daten konsistent bleiben, sodass Änderungen an der Business-Logik automatisch übernommen werden <br />

  • Es gibt Startups wie Transform, Trace und Supergrain <br /> <br /> [Reverse ETL]<br />

  • Reverse ETL ist im modernen Data Stack zu einer eigenen Kategorie geworden <br />

  • Dabei werden Daten aus dem Data Warehouse zurück in Business-Anwendungen wie CRM, Marketing-Automation-Systeme und Kundensupport-Plattformen bewegt <br />

  • Ziel ist, dass tatsächliche operative Tools aktuelle, angereicherte Daten aus anderen Business-Anwendungen nutzen können <br />

  • Viele Reverse-ETL-Tools haben Finanzierung erhalten: Census, Rudderstack, Grouparoo, Hightouch, Headsup, Polytomic <br /> <br /> [Data Sharing]<br />

  • Der Aufstieg von Datenteilung und Datenkollaboration nicht nur innerhalb von Unternehmen, sondern über ganze Organisationen hinweg <br />

  • Für Transparenz in Lieferketten, das Training von Machine-Learning-Modellen oder das Teilen von Go-to-Market-Plänen möchten Unternehmen Daten mit Ökosystemen aus Lieferanten, Partnern und Kunden teilen <br />

  • Organisationsübergreifende Datenteilung ist ein Kernthema der „Data Cloud“-Anbieter <br />

  • Im Mai 2021 startete Google Analytics Hub. Damit lassen sich Daten/Insights/Dashboards/Machine-Learning-Modelle innerhalb und außerhalb von Organisationen teilen. Außerdem wurde DataShare für Finanzdienstleistungen vorgestellt <br />

  • Am selben Tag wie Google stellte Databricks Delta Sharing vor, ein Open-Source-Protokoll für organisationsübergreifende Datenteilung <br />

  • Im Juni 2021 stellte Snowflake über seinen Data Marketplace die Funktion Secure Data Sharing vor <br />

  • Es gibt Startups wie Habr und Crossbeam </p><p>## „Wichtige Trends bei ML/AI“<br /> 2020<br />

  • Boom time for data science and machine learning platforms (DSML)<br />

  • ML getting deployed and embedded<br />

  • The Year of NLP<br /> <br /> 2021<br />

  • Feature Stores<br />

  • The rise of ModelOps<br />

  • AI content generation<br />

  • The continued emergence of a separate Chinese AI stack<br /> <br />

  • Die Forschung zu künstlicher Intelligenz entwickelt sich weiterhin mit hoher Geschwindigkeit<br /> → DeepMind Alphafold, OpenAI GTP-3/DALL-E/CLIP <br /> <br /> [Feature Stores]<br />

  • Seit Uber die Idee 2017 vorgestellt hat, werden sie im Machine-Learning-Stack immer verbreiteter <br /> → Unternehmen wie Tecton, Rasgo, Logical Clocks und Kaskada haben Finanzierungsrunden erhalten <br />

  • In Machine Learning sind Features (Variablen oder Attribute) individuell messbare Eigenschaften oder Merkmale, die in Datenschnipseln als Spalten dargestellt werden<br /> → Machine-Learning-Modelle können von einem einzelnen Feature bis zu Millionen Features nutzen <br />

  • Mit immer komplexeren Modellen und Pipelines wurde vieles zunehmend ad hoc umgesetzt <br />

  • Engineers und Data Scientists verbringen oft viel Zeit damit, Features erneut aus Rohdaten zu extrahieren <br />

  • Die Lücke zwischen Produktions- und Experimentierumgebung kann zu Inkonsistenzen bei Modellleistung oder -verhalten führen<br />

  • Organisationen interessieren sich zunehmend für Governance und Reproduzierbarkeit von Machine-Learning-Modellen, wodurch die Versiloung von Features die Sache in der Praxis noch schwieriger macht <br />

  • Feature Stores fördern die Zusammenarbeit und beseitigen diese Silos <br />

  • Sie reduzieren Komplexität und standardisieren sowie wiederverwenden Features, indem sie sowohl für Training als auch Produktion eine Single Source of Truth bereitstellen <br />

  • Sie speichern kuratierte Features innerhalb einer Organisation, führen Datenpipelines aus, die Rohdaten in Feature Values umwandeln, und bieten schnellen Zugriff über APIs <br /> <br /> [The Rise of ModelOps]<br />

  • Viele Unternehmen haben erkannt, dass es schwierig ist, Modelle aus der Experimentierphase in die Produktion zu bringen, und dass eingesetzte Modelle kontinuierlich überwacht und nachtrainiert werden müssen <br />

  • MLOps wendet Best Practices aus DevOps an und vereinfacht die schnelle, kontinuierliche Entwicklung und Bereitstellung von Modellen im großen Maßstab <br />

  • ModelOps ist eine Obermenge von MLOps. Es zielt auf einen schnelleren Betrieb sämtlicher AI-Modelle einschließlich ML über alle Phasen hinweg ab, vom Training bis zur Produktion <br />

  • ModelOps umfasst sowohl Tools als auch Prozesse, integriert Prozesse, standardisiert die Modellorchestrierung und stellt zusammen mit umfassenden Governance-Funktionen ein zentralisiertes Repository für alle Modelle bereit <br />

  • Gut implementiertes ModelOps bietet ein integriertes System für Deployment, Monitoring und Management aller Modelle, reduziert Risiken und erhöht die Compliance <br /> <br /> [AI Content Generation]<br />

  • KI ist in den vergangenen Jahren stark gereift und wird zur Erstellung von Inhalten über alle Arten von Medien hinweg eingesetzt, darunter Text, Bilder, Code und Video<br />

  • OpenAI veröffentlicht GPT-3. GitHub stellt GitHub Copilot vor, das OpenAI Codex nutzt <br />

  • OpenAI konzentriert sich auf englischzentrierte Modelle, aber viele andere Unternehmen arbeiten an anderen Sprachen <br /> → Deutschlands Aleph Alpha, AI21 Labs, Huaweis PanGu, Navers HyperCLOVA<br /> <br /> [Das fortgesetzte Entstehen eines eigenständigen chinesischen KI-Stacks]<br />

  • China entwickelt sich mit seinem eigenen Markt als weltweit größtem Datenproduzenten weiter zu einer globalen KI-Großmacht <br />

  • Mit dem Erfolg von TikTok, einem der besten Empfehlungsalgorithmen, im Westen verbreitete sich chinesische KI-Verbrauchertechnologie erstmals tatsächlich <br />

  • Da China bis 2030 die KI-Vorherrschaft ausgerufen hat und dafür finanziell unterstützt wird, beginnt in China, das bislang noch westliche Tools nutzte, ein eigener separater Stack zu entstehen </p>

3 Kommentare

 
ehanmire 2021-11-11
<p>Aus mehreren Sätzen habe ich gute Einsichten gewonnen und denke über vieles nach.<br /> Vielen Dank~<br /> <br /> Kurz kam mir der Gedanke, dass Prozesse und Daten wie Knochen und Blut sind,<br /> und dass sich zwar irgendwo Blut sammelt, Blutgefäße entstehen und sich Gewebe bildet,<br /> dass Unternehmen aber ihr Geld letztlich nicht durch Bewegung verdienen?<br /> Dieser seltsame Vergleich kam mir plötzlich in den Sinn. </p>
 
sungwoo 2021-11-08
<p>Vielen Dank, dass Sie solche hochwertigen Informationen immer so übersichtlich aufbereiten.</p>
 
xguru 2021-11-07
<p>Die Data &amp; AI Landscape 2020 https://de.news.hada.io/topic?id=2979</p&gt;