- Bietet die einfachste Möglichkeit, Daten zwischen PostgreSQL-Datenbanken zu verschieben und zu transformieren
- Echtzeit-Streaming: Nutzt die logische Replikation von PostgreSQL, um Datenänderungen nahezu in Echtzeit zu streamen
- Bulk Copy: Führt die anfängliche Datensynchronisierung schnell mit parallelisierbarer Massenkopie durch
- Leistungsstarke Transformationen: Wendet regexbasierte Transformationen an, maskiert sensible Daten und filtert anhand von Spaltenwerten
- Flexibles Routing: Routet Daten nahtlos zwischen Tabellen, auch zu Tabellen mit anderem Namen oder zur selben Tabelle mit benutzerdefiniertem Spalten-Mapping
- Beispiele für Transformationsregeln
- Maskierung von E-Mail-Adressen: Wandelt die E-Mail-Spalte in Maskierungszeichen um.
- Formatierung von Telefonnummern: Ändert das Telefonnummernformat mithilfe regulärer Ausdrücke.
- Tabellenrouting und Spalten-Mapping
- Flexibles Tabellenrouting: Routet die Benutzertabelle zur Kundentabelle und mappt ID und Benutzername auf Kunden-ID und Kundenname.
- Routing auf mehrere Tabellen: Routet die Bestelltabelle zur Transaktionstabelle und mappt ID und Gesamtbetrag auf Transaktions-ID und Betrag.
- Typische Anwendungsfälle
- Echtzeit-Datenreplikation zwischen PostgreSQL-Datenbanken
- Aufbau von ETL-Pipelines mit Datentransformation
- Daten-Neurouting, Maskierung und Filterung
- Durchführung von Datenbankmigrationen ohne Downtime
- Event-Streaming aus PostgreSQL
- Funktionsweise
- pg_flo nutzt das logische Replikationssystem von PostgreSQL, um Datenänderungen zu erfassen und zu streamen.
- Verwendet NATS als Message Broker, um das Lesen aus dem WAL von den Replikator- und Worker-Prozessen zu entkoppeln und so Flexibilität und Skalierbarkeit zu bieten.
- Transformationen und Filterung werden angewendet, bevor die Daten das Ziel erreichen.
1 Kommentare
Hacker-News-Kommentare
Das pg_flo-Projekt wirkt sehr interessant, insbesondere die Archivierung nach S3 und die günstigere Tool-Variante sind attraktiv
Ich arbeite an einem Projekt, das mithilfe der logischen Replikation von PostgreSQL Daten aus der Hauptdatenbank bereinigt und nach S3 archiviert
Ich untersuche Postgres-CDC-Lösungen und frage mich, ob pg_flo dabei helfen könnte
Hoffentlich kann es eine Alternative zu Debezium werden
pglogical kann innerhalb von Postgres laufen, aber pg_flo scheint ein externer Service statt einer Erweiterung zu sein
Ich freue mich sehr darauf, dieses Tool auszuprobieren
Mich würde interessieren, wie es sich im Vergleich zu Sequin unterscheidet
Ich habe nach einem ähnlichen Tool gesucht, perfektes Timing
Ich frage mich, ob Replikation besser ist als ein Backup nach S3
Ein sehr cooles Tool