12 Punkte von xguru 2024-12-27 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Ein integriertes Framework zum Aufbau von End-to-End-Flows, das Datenerfassung aus verschiedenen Quellen, Datentransformation mit SQL und Python sowie Prüfungen der Datenqualität kombiniert
    • Ähnlich wie eine Zusammenführung von dbt + Airbyte + Great Expectations zu einem Ganzen
  • Besteht aus einer in Go geschriebenen CLI und einer angebundenen Erweiterung für VS Code. Pipelines können direkt in VS Code erstellt, verwaltet und bereitgestellt werden
  • Datenerfassung mit ingestr
    • ingestr ist eine separate Open-Source-CLI, geschrieben in Python, die einfache Kopiervorgänge zwischen Datenquellen ermöglicht
    • Unterstützt: AWS Athena, Databricks, DuckDB, Google BigQuery, Microsoft SQL Server, Postgres, Redshift, Snowflake, Synapse, Pager
  • Datentransformation mit SQL und Python (ähnlich wie dbt)
  • Verwaltung der Python-Umgebung mit uv. Ausgeführt in isolierter Umgebung
  • Integrierte Prüfungen der Datenqualität
  • Unterstützung für Jinja-Templates
  • Unterstützung für Dry-Run, sodass sich die Pipeline von Anfang bis Ende validieren lässt
  • Ausführbar auf lokalen Maschinen, EC2-Instanzen und in GitHub Actions
  • Secret-Injektion über Umgebungsvariablen
  • Unterstützung für verschiedene Materialization-Strategien für Tabellen/Views, einschließlich inkrementeller Tabellen

Noch keine Kommentare.

Noch keine Kommentare.