- Ein integriertes Framework zum Aufbau von End-to-End-Flows, das Datenerfassung aus verschiedenen Quellen, Datentransformation mit SQL und Python sowie Prüfungen der Datenqualität kombiniert
- Ähnlich wie eine Zusammenführung von dbt + Airbyte + Great Expectations zu einem Ganzen
- Besteht aus einer in Go geschriebenen CLI und einer angebundenen Erweiterung für VS Code. Pipelines können direkt in VS Code erstellt, verwaltet und bereitgestellt werden
- Datenerfassung mit ingestr
- ingestr ist eine separate Open-Source-CLI, geschrieben in Python, die einfache Kopiervorgänge zwischen Datenquellen ermöglicht
- Unterstützt: AWS Athena, Databricks, DuckDB, Google BigQuery, Microsoft SQL Server, Postgres, Redshift, Snowflake, Synapse, Pager
- Datentransformation mit SQL und Python (ähnlich wie dbt)
- Verwaltung der Python-Umgebung mit
uv. Ausgeführt in isolierter Umgebung
- Integrierte Prüfungen der Datenqualität
- Unterstützung für Jinja-Templates
- Unterstützung für Dry-Run, sodass sich die Pipeline von Anfang bis Ende validieren lässt
- Ausführbar auf lokalen Maschinen, EC2-Instanzen und in GitHub Actions
- Secret-Injektion über Umgebungsvariablen
- Unterstützung für verschiedene Materialization-Strategien für Tabellen/Views, einschließlich inkrementeller Tabellen
Noch keine Kommentare.