3 Punkte von xguru 2020-02-18 | 2 Kommentare | Auf WhatsApp teilen

Wie Here Mobility eine Database-CI/CD für Dateningenieure und Analysten aufgebaut hat.

  • Das Analyseteam übertrug bisher den S3-Data-Lake per PySpark-ETL nach RedShift. Auch die dafür nötigen SQL-Skripte lagen in der Verantwortung des Analyseteams.

  • Der PySpark-Code folgt der CI/CD der Anwendung und verursachte daher keine Probleme, aber der SQL-Code für RedShift ließ sich nur schwer testen, versionieren und nachverfolgen.

  • Deshalb wurde mit redCI ein dediziertes CI/CD-Tool für RedShift entwickelt, das Versionskontrolle und Code-Validierung unterstützt, in Jenkins-Pipelines integriert ist und automatisch nach RedShift deployt.

  • redCI kann sich per Python-Code mit Redshift und Postgres verbinden, PSQL-kompatible Skriptdateien einlesen und ausführen. Es wandelt Redshift-Syntax in PSQL um. Dadurch können Unit-Tests ausgeführt werden.

  • Probleme bei der tatsächlichen Umsetzung: RedShift basiert zwar auf Postgres 8, aber die unterstützten Funktionen unterscheiden sich, was zu Problemen führen kann. Gelöst wurde das, indem die Syntax konvertiert und anschließend auf einem per Docker gestarteten Postgres ausgeführt wurde.

2 Kommentare

 
xguru 2020-02-18

Here war früher Navteq, wurde dann von Nokia übernommen und gehört heute dem deutschen Konsortium aus Audi/BMW/Daimler AG, einem Unternehmen für Karten- und Standortinformationsdienste.

 
xguru 2020-02-18

Es wäre schön, wenn sie redCI selbst als Open Source freigeben würden, aber offenbar sind sie noch nicht so weit.