5 Datentrends im Jahr 2021
(towardsdatascience.com)-
Integration von Data Lakes und Warehouses, Data Lakehouse
-
Der „moderne Data Stack“ wird Mainstream: Integration wichtiger Cloud-basierter Tools
→ Data Ingestion: Fivetran, Stitch, Hevodata
→ Data Warehouse: Snowflake, BigQuery
→ Data Lake: Amazon S3
→ Data Lake Processing: Presto, Dremio, Databricks, Starburst
→ Data Transformation: dbt, Matillion
→ Metadata Management: Atlan
→ BI-Tools: Looker
- Metadata 3.0: Die Wiedergeburt des Metadata Managements
→ Tools für Data Discovery, Data Catalog, Data Lineage, Observability usw. werden an Bedeutung gewinnen
- Der Aufstieg neuer Berufsbilder
→ Data Platform Leader: Führungskräfte, die dabei helfen, Datenplattformen innerhalb der Organisation in die Arbeit zu integrieren
→ Analytics Engineer: Durch das Aufkommen von Tools wie dbt werden Analyseingenieure möglich, die nicht nur analysieren, sondern auch den Data Stack bedienen
- Der Aufstieg von Frameworks für Datenqualität
→ Data Profiling: Daten prüfen, Qualität verifizieren und künftige Nutzungsmöglichkeiten identifizieren
→ Definition business-orientierter Regeln für Datenqualität
→ Einführung von Qualitätstests entlang der Datenpipeline: Amazon Deequ, Great Expectations
2 Kommentare
Für Punkt 2, den „modernen Daten-Stack“, siehe bitte die Reihe „Moderne Dateninfrastruktur verstehen“ auf dem GeekNews-YouTube-Kanal ;)
https://youtube.com/playlist/?list=PLL-_zEJctPoJ92HmbGxFv1Pv_ugsggGD2
Auch Punkt 3 und 5 werden wahrscheinlich im späteren Verlauf der Reihe behandelt.
Ich höre die Reihe „Die moderne Dateninfrastruktur verstehen“ jedes Mal sehr aufmerksam, wenn ein neuer Teil erscheint.
Da ich im Alltag meist nur mit dem arbeite, was ich ohnehin täglich nutze, ist es schwer, neue Entwicklungen mitzubekommen. Vielen Dank, dass Sie diese so verständlich erklären.