Zingg - skalierbares Open-Source-Fuzzy-Matching für die Datenintegration

Analyseingenieure können verschiedene Datensilos anbinden und eine integrierte Sicht erstellen

→ No-Code-ML-Tool für Data Unification

Warum wird es benötigt?

→ In realen Daten existieren pro Kunde mehrere Datensätze

→ Jeder Datensatz ist auf einzelne oder mehrere Systeme verteilt, sodass mit wachsendem Datenvolumen die Kundenanalyse schwierig wird

→ Im ELT erfordert das T viel Aufwand, und Tools wie dbt können so etwas zwar erfolgreich verarbeiten

→ Es braucht eine schnelle und skalierbare Methode, um für wichtige Geschäftsobjekte vor der Extraktion oder dem Laden eine "Single Source of Truth" zu schaffen

Nützliche Anwendungsfälle

→ Erstellung einer integrierten und vertrauenswürdigen Sicht auf Kunden in mehreren Systemen

→ Verifikation von Entitäten in großem Maßstab wie bei AML/KYC

→ Deduplizierung und Datenqualität

→ Zusammenführung von Datensilos

→ Enrichment von Daten aus externen Quellen

Unterstützte Quellen

→ Snowflake, Cassandra, S3, Azure, Elastic, wichtige RDMBS sowie von Spark unterstützte Datenquellen

→ Unterstützt auch Dateien wie Parquet, Avro, JSON, XLSX, CSV und TSV

Zingg - skalierbares Open-Source-Fuzzy-Matching für die Datenintegration

Verwandte Beiträge

Noch keine Kommentare.