Koheesio - Open-Source-Framework von Nike zum Aufbau von Datenpipelines

xguru · 2024-06-05T09:37:10+09:00

Ein Python-Framework zum Aufbau effizienter Datenpipelines Fördert Modularisierung und Zusammenarbeit, sodass sich komplexe Pipelines aus einfachen und wiederverwendbaren Komponenten erstellen lassen Entwickelt für die nahtlose Zusammenarbeit mit verschiedenen Bibliotheken und Frameworks zur Datenverarbeitung Nutzt Pydantic für starke Typprüfung, Datenvalidierung und Konfigurationsmanagement Gewährleistet durch gut getesteten Code und einen umfangreichen Funktionsumfang eine vorhersehbare Ausführung von Pipelines Was Koheesio von anderen Bibliotheken unterscheidet Speziell ausgelegt für Datenpipelines, PySpark-Integration, Datentransformation, ETL-Aufgaben, Datenvalidierung und Datenverarbeitung im großen Maßstab Bietet Reader-, Writer- und Transformation-Funktionen für alle Arten von Datenverarbeitungsaufgaben Fördert Zusammenarbeit und Innovation innerhalb der Data-Engineering-Community Zentrale Komponenten von Koheesio Step: Die grundlegende Arbeitseinheit von Koheesio, die eine einzelne Aufgabe in einer Datenpipeline darstellt. Nimmt Eingaben entgegen und erzeugt Ausgaben Context: Eine Konfigurationsklasse, die die Umgebung einer Aufgabe festlegt. Sie kann Variablen zwischen Aufgaben teilen und das Verhalten einer Aufgabe je nach Umgebung anpassen Logger: Eine Klasse zum Protokollieren von Meldungen auf verschiedenen Ebenen

(github.com/Nike-Inc)

9 Punkte von xguru 2024-06-05 | 1 Kommentare | Auf WhatsApp teilen

Ein Python-Framework zum Aufbau effizienter Datenpipelines
Fördert Modularisierung und Zusammenarbeit, sodass sich komplexe Pipelines aus einfachen und wiederverwendbaren Komponenten erstellen lassen
Entwickelt für die nahtlose Zusammenarbeit mit verschiedenen Bibliotheken und Frameworks zur Datenverarbeitung
Nutzt Pydantic für starke Typprüfung, Datenvalidierung und Konfigurationsmanagement
Gewährleistet durch gut getesteten Code und einen umfangreichen Funktionsumfang eine vorhersehbare Ausführung von Pipelines

Was Koheesio von anderen Bibliotheken unterscheidet

Speziell ausgelegt für Datenpipelines, PySpark-Integration, Datentransformation, ETL-Aufgaben, Datenvalidierung und Datenverarbeitung im großen Maßstab
Bietet Reader-, Writer- und Transformation-Funktionen für alle Arten von Datenverarbeitungsaufgaben
Fördert Zusammenarbeit und Innovation innerhalb der Data-Engineering-Community

Zentrale Komponenten von Koheesio

Step: Die grundlegende Arbeitseinheit von Koheesio, die eine einzelne Aufgabe in einer Datenpipeline darstellt. Nimmt Eingaben entgegen und erzeugt Ausgaben
Context: Eine Konfigurationsklasse, die die Umgebung einer Aufgabe festlegt. Sie kann Variablen zwischen Aufgaben teilen und das Verhalten einer Aufgabe je nach Umgebung anpassen
Logger: Eine Klasse zum Protokollieren von Meldungen auf verschiedenen Ebenen

1 Kommentare

xguru 2024-06-06

Hacker-News-Kommentare

Ich frage mich, wie Data Engineering bei Nike in der Praxis aussieht. Wegen meines LinkedIn-Profils bekomme ich oft Angebote für schlecht bezahlte Vertragsstellen. Diese Rollen richten sich an erfahrene Leute in den USA, werden aber niedrig vergütet. Es ist auch möglich, dass diese Rollen Betrug sind.
Dieses Tool könnte in Umgebungen nützlich sein, in denen es viele weniger erfahrene Entwickler gibt. 2–3 Entwickler bauen das Tool, und ein größeres Team erledigt einfache ETL-Aufgaben. Das Tool-Team trägt die Last, neue Anforderungen lösen zu müssen.
Strenge Typisierung steht Data-Engineering-Problemen im Weg. Dynamische Sprachen helfen, Codekomplexität und Wartungsaufwand zu verringern. Auf Type-Frameworks zu bestehen, basiert eher auf akademischer als auf industrieller Erfahrung.
Ich habe mit ETL, Spark, Storm usw. gearbeitet, verstehe aber das Wertversprechen dieser Bibliothek nicht. Ich bin kein Data-Engineering-Experte, hatte aber erwartet, den Nutzen dieses Tools zu erkennen.
Es braucht eine bessere Erklärung dazu, was dieses Tool ist und warum man es verwenden sollte. Siehe Link.
Vor ein paar Wochen habe ich Apache Beam verwendet, um eine Datenpipeline zu schreiben. Koheesio teilt einige Funktionen, aber Apache Beam ist überlegen.
Ähnlich wie Luigi. Gut!
Ich empfehle, sich CloudQuery anzusehen. Ein Arrow-basiertes ELT-Framework. (Ich bin der Autor.)
Koheesio sagt, es konkurriere nicht mit anderen Bibliotheken, aber in Wirklichkeit tut es das. Workflow-Orchestrierung ist eine ausgereifte Kategorie. Python zu verwenden ist kein großer Vorteil.
Ich frage mich, ob du dir die dlt-Bibliothek angesehen hast. Sie bietet in Python leicht nutzbares EL. Mich interessieren die Unterschiede zwischen Koheesio und dlt sowie, ob sie sich gegenseitig ergänzen können.