16 Punkte von GN⁺ 2025-05-04 | 2 Kommentare | Auf WhatsApp teilen
  • Die Geospatial-Erweiterung von DuckDB hat mit einer einfachen SQL-basierten Schnittstelle die Zugangshürden zu Geospatial-Daten drastisch gesenkt
  • Dadurch können auch allgemeine Datenanalysten mit zwei Zeilen Code Geospatial-Analysen durchführen
  • Seit Ende 2023 ist das Suchinteresse an „geospatial“ stark gestiegen, was mit dem Zeitpunkt der Veröffentlichung der DuckDB-Erweiterung zusammenfällt
  • Die Verbreitung moderner Geospatial-Projekte wie Overture Maps wird ebenfalls als Ergebnis des Einflusses von DuckDB gedeutet
  • Das DuckDB-Team hat komplexe Abhängigkeiten und die Integration von GIS-Tools intern gelöst und so die User Experience vereinfacht

Wie DuckDB den Geospatial-Bereich verändert hat

  • Der Autor nahm kürzlich an der Cloud-Native Geospatial Conference 2025 teil und diskutierte dort über die Demokratisierung von Geospatial-Daten
  • Die zentrale Frage war, wie sich Geospatial-Daten in mehr Branchen verbreiten lassen, und im Mittelpunkt stand dabei DuckDB
  • Bis Ende 2023 stagnierte das Suchvolumen für das Keyword „geospatial“, stieg nach der Veröffentlichung der Geospatial-Erweiterung von DuckDB jedoch sprunghaft an
  • Auch in Google Trends zeigt sich der Einfluss von DuckDB daran, dass die Keywords DuckDB und geospatial gemeinsam einen Aufwärtstrend aufweisen
  • Zwar lässt sich Kausalität nicht eindeutig belegen, doch der Autor misst dieser Korrelation Bedeutung bei

Geospatial-Analyse mit nur zwei Zeilen

install spatial;   
load spatial;  
  • Früher mussten zahlreiche Pakete installiert oder kompiliert und zusätzlich noch eine Datenbank eingerichtet werden
  • DuckDB dagegen liefert mit einer einzigen SQL-Schnittstelle eine vollständige Umgebung für Geospatial-Analysen
  • Dadurch ist der Zugang für alle mit SQL-Kenntnissen einfach möglich, und zugleich sinkt der Aufwand für die IT-Infrastruktur

Auch Overture Maps dank DuckDB?

  • Der Autor fragt sich, ob die erfolgreiche Einführung der Overture Maps Foundation auch ohne DuckDB möglich gewesen wäre
  • Er vermutet, dass die Einstiegshürde für den Umgang mit Geospatial-Daten ohne DuckDB zu hoch gewesen wäre

Zusätzliche Diskussion auf Hacker News

  • DuckDB-Entwickler Max hob hervor, dass FOSS-GIS-Tools wie PROJ DB, GDAL und QGIS intern gebündelt wurden, um Abhängigkeiten zu eliminieren
  • Dadurch ist die Nutzung auf verschiedenen Plattformen wie WASM ohne komplexe Installationsprozesse möglich
  • Zudem sind leistungsstarke Funktionen wie vektorisierte Out-of-Core-Ausführung und spaltenweise komprimierte Speicherung integriert
  • Kürzlich wurden auch eine neue Geometrie-Engine und Optimierungen für Spatial Joins in den dev-Branch aufgenommen

Fazit

  • DuckDB beseitigt die Probleme bei Installation und Anbindung komplexer Geospatial-Tools und stellt alles zusammen mit SQL bereit
  • Damit gilt es als eine Software, die entscheidend zur Demokratisierung von Geospatial-Daten beigetragen hat

2 Kommentare

 
zihado 2025-05-05

DuckDB läuft wirklich gut.

 
GN⁺ 2025-05-04
Hacker-News-Kommentare
  • Ich mag DuckDB und führe hauptsächlich Geodatenanalysen durch. Meist teile ich geografische Bereiche mit den Uber-H3-Hexagonen auf, berechne Haversine-Distanzen, geometrische Flächen und bestimme, zu welcher Geometrie ein Punkt gehört. Diese Funktionen gab es bereits in geopandas oder postgis, und die Spatial-Erweiterung von DuckDB bietet nichts grundlegend Neues

    • Die DuckDB-Engine ermöglicht jedoch, auf einem lokalen Desktop direkt und in großem Maßstab mit parquet-/geoparquet-Dateien zu arbeiten. Darin ist sie geopandas überlegen. Das verbessert die Lebensqualität
    • DuckDB hat eine Erweiterungsarchitektur, die ungewöhnliche Geodatenfunktionen wie Hilbert-Kurven und Unterstützung für Uber H3 ermöglicht
  • Früher musste man mehrere Open-Source-Pakete installieren oder kompilieren, Pfade sorgfältig dokumentieren und eine spezialisierte Datenbank aufsetzen. Das war ein Arbeitsaufwand, den Generalisten im Datenbereich oft nicht auf sich nahmen oder den die IT-Abteilung möglicherweise nicht unterstützte

    • Ich nutze seit über 10 Jahren CREATE EXTENSION postgis;. Räumliche Erweiterungen gibt es in PG, MySQL, Oracle, MS SQL Server und SQLite schon lange. DuckDB macht beim Installationsaufwand keinen wirklichen Unterschied
  • import geopandas gibt es ebenfalls, und das schon seit geraumer Zeit. Den Spott beiseite: Ich frage mich, was an DuckDB eigentlich so besonders ist. Wenn der Autor echte Beispiele gezeigt hätte, hätte ich seine Behauptungen besser nachvollziehen können

  • Die Software, auf die ich mich bei der Arbeit an Geodaten-Apps am meisten freue, ist Felt. Ich hoffe, dass das Tool so erweitert wird, dass Entwickler Authentifizierung/Autorisierung für Karten und Datenquellen steuern können, um Tenant-Isolation und den Zugriff auf proprietäre Daten zu ermöglichen. Das könnte revolutionieren, wie Geodatentechnik in Consumer-Apps integriert wird

    • Der Artikel erkennt nicht an, wie nischig das alles ist. Es braucht viel Schulung zu Koordinatensystemen, Projektionen, Transformationen usw. Wenn möglich, würde ich viele Custom-Mapping-Tools gern durch Felt ersetzen. So könnte man sich auf die eigentlichen Geodatenprozesse konzentrieren, statt auf den Code für Anzeige und Interaktion im Browser. Vom zu wartenden LOC-Umfang her ist das fast genauso groß oder sogar größer
    • Wie in einem anderen Kommentar erwähnt, ist die beschriebene DuckDB-DX im Grunde dieselbe wie bei PostGIS
  • Ich halte eine „Geospatial-Installation“ im Vergleich zu pip install geopandas nicht für einen Gamechanger in Sachen Einfachheit

    • Beides ist eine Zeile
  • Ist es wirklich viel einfacher als load extension postgis? GEOS und GDAL waren immer etwas umständlich, aber ich habe das Gefühl, Docker abstrahiert das inzwischen vollständig. docker pull postgis ist ziemlich einfach. Mit den anderen Dingen, die DuckDB bietet, bin ich nicht vertraut

  • Ich hinterlasse einen Kommentar, um ein ähnliches Projekt bekannt zu machen. Ich arbeite an einer Geodaten-Erweiterung für Polars. Sie ist noch nicht stabil (aber ziemlich nah dran), dafür funktional bereits fast vollständig (gleichwertig zu GeoPandas mit GEOS und PROJ als Backend)

  • Wie groß ist der Datensatz? In meiner Firma wollen wir DuckDB für Finanztransaktionen und Reporting-Daten nutzen. Der Datensatz umfasst rund 500 GB CSV auf S3, und DuckDB kommt damit nicht zurecht

  • Ich habe Bedenken wegen der Lizenzen von DuckDB und GEOS. Ersteres steht unter der MIT-Lizenz, Letzteres unter LGPL 2.1

    • Das führt zu einer komplizierten Situation, in der einige Builds gegen LGPL 2.1 verstoßen. Zum Beispiel statisches Linking mit Closed-Source-Anwendungen
  • DuckDB ist großartig für Geodaten, aber das wichtigste der letzten 10 Jahre? Für mich nicht einmal unter den Spitzenreitern, weil es so viele Tools in unterschiedlichen Kategorien gibt. QGIS, postGIS (weiterhin der Standard), ArcGIS Online (weiterhin der Standard), JS-Mapping-Tools wie mapbox (ich bevorzuge deckgl), neue Datentypen wie COG, geopackage und geoparquet, Photogrammetrie-Tools, 3D-Tiles, gdal und pdal sowie Kernbibliotheken wie shapely