1 Punkte von GN⁺ 2025-09-23 | 1 Kommentare | Auf WhatsApp teilen
  • Durch das Infrastruktur-Upgrade des Download-Servers in diesem Monat wird ein schnelleres Download-Erlebnis ermöglicht
  • Die Anfragemethode für „…latest“-Dateien wurde auf HTTP-Weiterleitungen umgestellt
  • Es wird daran gearbeitet, dass alle Nutzer bequem auf die aktuellsten OSM-Daten zugreifen können
  • Ungewöhnliche Nutzungsmuster, bei denen große Dateien wiederholt und exzessiv heruntergeladen werden, führen zu einer Verschlechterung der Gesamtleistung des Dienstes
  • Es werden drei konkrete Empfehlungen für effiziente und verantwortungsvolle Downloads vorgestellt

Update des Download-Servers und Empfehlung zur verantwortungsvollen Nutzung

In diesem Monat wurden Arbeiten zur Stärkung der Infrastruktur des Download-Servers durchgeführt.
Dadurch konnte eine Umgebung geschaffen werden, in der Downloads schneller und früher bereitgestellt werden.
Als technische Änderung werden Anfragen nach „…latest“-Dateien nicht mehr direkt ausgeliefert, sondern per HTTP-Weiterleitung zur neuesten Dateiversion geführt

Warum verantwortungsvolle Downloads notwendig sind

Der Server wird betrieben, damit alle Nutzer bequem auf die aktuellsten OSM(OpenStreetMap)-Daten zugreifen können.
Allerdings kommt es vor, dass einige Nutzer dieselbe große Datei (z. B. 20 GB) täglich Hunderte oder Tausende Male erneut herunterladen

  • Ein Beispiel: Ein Nutzer hat innerhalb von 24 Stunden die Datei italy-latest.osm.pbf fast 10.000 Mal heruntergeladen
  • Andere wiederholen täglich das Herunterladen sämtlicher Dateien auf dem Server

Dieses Verhalten führt wegen der begrenzten Bandbreite des Servers dazu, dass der Dienst für alle Nutzer langsamer wird
Wenn das Sperren von IP-Bereichen unvermeidlich wird, können dadurch auch unbeteiligte Nutzer betroffen sein

Drei konkrete Empfehlungen an die Nutzer des Servers

  1. Wenn weltweit alle Daten benötigt werden, wird empfohlen, sie nicht stückweise vom Server zu laden, sondern die planet-Datei direkt von planet.openstreetmap.org in einem Schritt herunterzuladen
  2. Wer Daten für Kontinente oder große Regionen (z. B. Europe, North America) täglich aktualisieren möchte, sollte das Programm pyosmium-up-to-date verwenden, um nur die Änderungen herunterzuladen. Dadurch lassen sich 98 % des gesamten Datenverkehrs einsparen und die Geschwindigkeit steigt
  3. Beim Einsatz automatisierter Skripte sollte überwacht werden, was tatsächlich heruntergeladen wird, oder es sollten geeignete Fehlerbehandlungen eingebaut werden, um Fehler wie das endlose wiederholte Herunterladen derselben Datei zu vermeiden

Fazit

Es wird darum gebeten, durch verantwortungsvollere Download-Gewohnheiten dazu beizutragen, dass alle in einer angenehmen Umgebung auf die neuesten Daten zugreifen können

1 Kommentare

 
GN⁺ 2025-09-23
Hacker-News-Kommentare
  • Ich frage mich jedes Mal, wenn ich ein ähnliches Problem sehe, warum BitTorrent nicht häufiger verwendet wird. Ich fände es gut, wenn es an mehr Orten als Standardprotokoll eingesetzt würde, zum Beispiel bei Container-Registries oder Paket-Repositories.
    • BitTorrent hat in der Öffentlichkeit ein schlechtes Image, die meisten verbinden es einfach mit illegalen Downloads.<br>Die Firewall-Konfiguration ist komplizierter als bei HTTP, und wenn man Netzwerkadministratoren darum bittet, solche Einstellungen vorzunehmen, wird das oft seltsam aufgenommen, besonders wegen der Ablehnung gegenüber BitTorrent selbst.<br>BitTorrent-Clients sind viel komplexer als HTTP-Clients und auf Firmenrechnern oder in CI-Pipelines meist nicht installiert. Viele wollen einfach nur einmal curl ausführen und fertig sein.<br>Es gibt außerdem viele Missverständnisse darüber, dass man seeden müsse, und das schreckt ab.<br>Letztlich ist es schade, dass BitTorrent wegen seines Images und weil mit curl schon alles erledigt werden kann, unterschätzt wird.<br>Es gibt zwar Fälle, in denen Video-Game-Clients BT für Updates nutzen oder PeerTube webtorrent verwendet, aber es wird leider immer noch nicht sehr häufig eingesetzt.
    • Dutzende Unternehmen wie Amazon, Esri, Grab, Hyundai, Meta, Microsoft, Precisely, Tripadvisor und TomTom stellen OpenStreetMap-Daten im Parquet-Format kostenlos auf S3 bereit. Dadurch kann man bei Datensätzen von mehreren TB nur Bandbreite im MB-Bereich verbrauchen und genau die gewünschten Informationen abfragen und analysieren.<br>Weitere Details finden sich hier.<br>ArcGIS-Pro-Nutzer können auch dieses Plugin verwenden.
    • Ich erinnere mich, vor einigen Jahren das Konzept „Torrents mit dynamischen Inhalten“ gesehen zu haben, aber in der Praxis hat es sich wohl nicht durchgesetzt.<br>Ich hatte gehofft, dass das Realität wird, und frage mich, ob es schwerwiegende Probleme wie Sicherheitsfragen gab.<br>Referenzlink
    • Im Vergleich zu HTTP fehlte BitTorrent meiner Meinung nach ein echter „Universal-Client“, den man überall verwenden kann. Es ist nicht so vertraut wie SSH oder SCP, und schon Installation, Konfiguration und Tracker-Einrichtung machen viel Arbeit.<br>Im Allgemeinen ergibt so eine Struktur nur dann Sinn, wenn es einen häufigen Bedarf an Downloads großer Dateien gibt. Wenn man dann noch Zuverlässigkeit und Seeding-Volumen berücksichtigt, landet man am Ende bei der Frage, wie groß der Nutzen im Verhältnis zu Entwicklungs- und Wartungskosten der Werkzeuge wirklich ist.<br>Vielleicht könnte so etwas wie Git LFS helfen, aber weiter reicht mein Wissen dazu nicht.
    • In einer früheren Firma mussten wir jede Woche große Dateien an alle Entwickler verteilen. Anfangs haben wir sie gleichzeitig per rsync gezogen, aber nachdem wir auf BitTorrent umgestellt hatten, war die Geschwindigkeitssteigerung enorm.
  • Ich bin immer dankbar dafür, dass es Unternehmen wie Geofabrik gibt, durch die wir gelegentlich so gute Erfahrungen machen können.<br>Wenn man selbst direkt eine API betreibt, ist man oft wirklich überrascht von der Leichtfertigkeit oder Unwissenheit vieler Entwickler. So seltsame Anfragen kommen erstaunlich häufig vor.<br>Hätte mir das früher jemand erzählt, ohne dass ich es selbst erlebt hätte, hätte ich es für übertrieben gehalten.<br>Andererseits denken auch API-Entwickler oft nicht an mehrere Vorgänge gleichzeitig. Häufig unterstützen sie nur die Manipulation einzelner Entitäten, obwohl der reale Use Case Mehrfachoperationen verlangt und man deshalb gezwungen ist, 700 Requests abzusetzen.
    • Bei weniger erfahrenen Leuten kann es in jedem Beruf Verantwortungslosigkeit und Unwissen geben.<br>Ich bin sicher, dass nicht alle Entwickler wahllos auf APIs einschlagen.<br>Programmieren steht heute allen offen, und in letzter Zeit gibt es auch den Trend zum „vibe-coding“, daher wirkt das im großen Bild fast unvermeidlich.<br>Wenn man in der Antwort 429 (Too Many Requests) zurückgibt oder einen Leaky-Bucket-Algorithmus einsetzt, werden auch Junior- oder Einsteigerentwickler das Problem schnell selbst erkennen.
    • Ich finde es schwer zu verstehen, warum das S3-Feature „downloader pays“ nicht weiter verbreitet ist. Wenn es ein solches Modell auch außerhalb von AWS gäbe, könnten ineffiziente Nutzer wenigstens ihre eigenen Kosten tragen.<br>Der Nachteil wäre, dass Menschen ohne Zahlungssystem schwerer Zugang hätten, aber vielleicht könnte man zusätzlich eine kostenlose, dafür aber gedrosselte Option lassen.
    • Es heißt, es gebe Nutzer, die eine 20-GB-Datei tausende Male pro Tag herunterladen. Ich frage mich, warum man das nicht einfach per Rate Limit steuert.
    • Ich denke, beide Seiten brauchen mehr Empathie: Clients sollten die Infrastruktur respektieren, und API-Entwickler sollten aus Sicht der Nutzer breiter denken.
  • Der Fall „Ein Nutzer hat die Datei italy-latest.osm.pbf innerhalb von 24 Stunden fast zehntausendmal heruntergeladen“ deutet mit hoher Wahrscheinlichkeit auf ein Problem im Code hin. Eine Begrenzung pro IP sollte das lösen, auch bei VPN-Nutzern.
  • Vermutlich laden Leute Map-Datendateien in ihren CI-Pipelines herunter, oft unbeabsichtigt und ohne es selbst zu merken.<br>Deshalb verbieten viele Dienste automatisierte Downloads für nicht angemeldete Nutzer.<br>Wenn man Dateien per cURL herunterladen will, sollte man die Nutzer meiner Meinung nach zuerst zur Registrierung bewegen und diejenigen, die exzessiv herunterladen, blockieren oder zur Kasse bitten.
    • Ich halte CI für eine der schlimmsten Erfindungen überhaupt, wenn es um Verschwendung von Computing-Ressourcen geht. Allerdings ist mir nicht ganz klar, warum gerade bei Kartendaten massenhafte Downloads entstehen wie bei Code-Bibliotheken, die missbraucht werden.
    • Ich vermute, dass eine Web-App GPKG-Dateien auf eine Art „abfragt“. Im Parquet-Format kann man effizient nur die benötigten Teile abfragen, aber ich weiß nicht, ob das mit GPKG genauso möglich ist.
    • Ich frage mich, ob sich Anfragen von CI-Servern zuverlässig erkennen lassen.
    • Schon eine einfache Authentifizierung, etwa per API-Key oder E-Mail, wäre vermutlich ein guter Kompromiss.
  • Der Fall „Es gibt Nutzer, die über mehrere Tage hinweg dieselbe 20-GB-Datei hunderte Male pro Tag herunterladen (und sogar einen Nutzer mit zehntausend Downloads in 24 Stunden), außerdem Leute, die jeden Tag alle Dateien auf dem Server herunterladen“ müsste sich doch leicht mit Rate Limiting verhindern lassen.<br>Wenn man die Zahl der Datei-Downloads innerhalb von 24 Stunden bereits zählt, frage ich mich, warum man dann keine Grenze setzt.<br>Ich glaube nicht, dass diese Leute (a) den Warnbeitrag des Serverbetreibers lesen und (b) ihr Verhalten ändern werden.
  • Vor einigen Jahren dachte ich noch: „Wer würde denn in einem Build-Skript jedes Mal mehr als 100 MB herunterladen?“ Aber nachdem ich Docker erlebt habe, wurde mir klar, dass es solche Fälle sehr häufig gibt.
    • Ich sehe oft Fälle, in denen Leute glauben, innerhalb eines Containers sei plötzlich alles magisch kostenlos.
    • Docker unterstützt doch Layer-Caching, also muss man doch nicht jedes Mal alles komplett neu herunterladen, oder?
    • Deshalb erstelle ich für ein Projekt vorab ein eigenes Image in CI und verwende dann nur dieses in CI. Jedes Mal alles per apt-get einzurichten kostet einfach zu viel Zeit.
  • Ich frage mich, ob Nutzern mit exzessiven Downloads separat eine Mail geschickt wird. Als ich 2012 die kostenlose Nominatim-API genutzt habe, war eine E-Mail-Adresse Pflicht, und ich habe tatsächlich eine Nachricht mit dem Hinweis bekommen, das Anfragevolumen etwa durch Caching zu reduzieren.
    • Wenn es keinen Login gibt, bekommt man natürlich auch keine E-Mail-Adresse und kann daher keine Nachrichten schicken.
  • Ich bin zwar nicht der Nutzer, der die italy-latest-Datei alle 8 Sekunden herunterlädt, aber das italienische Startup, zu dem ich gehöre, nutzt GeoFabrik intensiv. Es könnte sein, dass jemand aus dem Team bei Container-Experimenten zu viel heruntergeladen hat.<br>Früher wurden wir einmal von geofabrik gesperrt, aber bis heute wissen wir nicht, warum, und ich hoffe, dass sich das künftig nicht wiederholt.<br>Wir haben versucht, die Kontaktadresse von geofabrik.de telefonisch und per E-Mail zu erreichen, aber keine Antwort bekommen. Falls jemand weiß, wie man dieses Problem lösen oder Kontakt aufnehmen kann, würde ich mich über Hinweise freuen.
  • Ich habe den Eindruck, dass Leute, die Dateien auf diese Weise exzessiv herunterladen, solche Blogbeiträge sowieso nicht lesen werden.
  • Das wirkt wie ein Use Case, bei dem bittorrent sinnvoll wäre.
    • Ich frage mich, wie ein Torrent-Client bei geänderten Daten automatisch nur die Änderungen nachladen könnte.