2 Punkte von GN⁺ 2024-07-31 | 1 Kommentare | Auf WhatsApp teilen

Vorstellung von en.osm.town

  • en.osm.town ist Teil eines dezentralen sozialen Netzwerks auf Basis von Mastodon
  • Eine unabhängige Community der OpenStreetMap-Community, finanziell unterstützt von der OpenStreetMap Foundation
  • Server-Statistik: 257 aktive Nutzer

Kernaussagen

  • Grant Slater schlägt AI-Unternehmen vor, OpenStreetMap-Daten nicht heimlich zu scrapen, sondern stattdessen 10.000 US-Dollar zu spenden
  • Bei einer Spende von 50.000 US-Dollar könnten auch Echtzeit-Streaming-Updates bereitgestellt werden
  • Bart Louwers erwähnt, dass OpenStreetMap-Scraping weit verbreitet sei
  • wikiyu argumentiert, dass die Nutzung von planet.osm-Daten effizienter sei
  • Josua kritisiert, dass AI auf ineffiziente Weise trainiert werde
  • Juan Luis erwähnt, dass es auch bei Read the Docs ähnliche Probleme mit dem Missbrauch durch AI-Crawler gebe
  • Simon Poole behauptet, dass ein vernünftiger Ansatz das Image von AI-Unternehmen beschädigen könnte
  • Michał bringt die Möglichkeit ins Spiel, dass Auftragnehmer in bestimmten Ländern den Auftrag erhalten haben könnten, OSM-Daten herunterzuladen
  • leadingzero kritisiert, dass die Lizenzanforderungen von OSM nicht ordnungsgemäß durchgesetzt würden
  • Grant Slater erwähnt, ein GitHub-Repository zur Nachverfolgung von Tile-Eigenschaften erstellt zu haben
  • Guillaume Rischard erwähnt, kürzlich rechtliche Probleme in Deutschland gelöst zu haben
  • Adderall girl grindset (Jes) schlägt vor, AI-Crawler zu blockieren

Zusammenfassung von GN⁺

  • Dieser Beitrag behandelt das Problem von AI-Unternehmen, die OpenStreetMap-Daten scrapen
  • Es werden effiziente Wege zur Nutzung von OpenStreetMap-Daten sowie ein spendenbasierter Ansatz für den Datenzugang vorgeschlagen
  • Diskutiert werden außerdem der Missbrauch durch AI-Crawler und mögliche Gegenmaßnahmen
  • Projekte mit ähnlichen Funktionen sind unter anderem Google Maps und Bing Maps

1 Kommentare

 
GN⁺ 2024-07-31
Hacker-News-Kommentare
  • AI-Crawler ignorieren robots.txt, verwenden keine öffentlichen APIs und halten Spitzenlasten nicht ein, wodurch die Infrastrukturkosten steigen
  • Der Vorsitzende der OpenStreetMap Foundation weist darauf hin, dass sich OpenStreetMap-Daten kostenlos in großem Umfang herunterladen lassen, und empfiehlt, diese statt Scraping zu verwenden
    • Scraping verursacht eine hohe Last auf gespendeten Ressourcen, und auch das Blockieren von Scraping-IPs kostet Zeit und Aufwand
    • Ressourcen und Zeit zu respektieren hilft dabei, den Dienst kostenlos zu halten
  • Eine OpenStreetMap-Instanz lässt sich in 10 Minuten einrichten, und das ist mit einem einfachen docker run-Befehl möglich
    • Die Indizierung braucht Zeit, dauert gemessen an den Ressourcen jedoch nicht lange
  • Man brauchte OSM-Daten, verstand aber nicht richtig, wie man an die Daten kommt
    • Es mussten große Dateien von 100 GB heruntergeladen und unklare Formate und Bibliotheken verwendet werden
    • Informationen sind verstreut, und die HTTP-API ist eingeschränkt oder hat Rate Limits
    • Am Ende wurde ein kostenloses Projekt genutzt, das vorab konvertierte OSM-Daten bereitstellt
  • Der OP reagierte sarkastisch, nachdem er Crawler eingeschränkt und blockiert hatte, die die Website und die Mapping-API aggressiv scrapten
    • OpenStreetMap-Daten können kostenlos heruntergeladen werden und werden über AWS S3 und Torrents bereitgestellt
    • Für den Einstieg ist es ratsam, kleinere regionale Extrakte zu verwenden
  • Wenn man planet.osm per Torrent verteilt und Scraping nur noch über Torrent erlaubt, könnte die Netzwerklast verteilt werden
  • Es ist ineffizient, wenn AI-Crawler über das Webinterface jede Revision jeder Datei anfordern
    • Das verschwendet Strom und Ressourcen
  • Es wird vorgeschlagen, einen Honeypot für AI-Unternehmen zu bauen, der in einer Endlosschleife sinnlose Inhalte erzeugt
  • Schade ist, dass Projekte wie CommonCrawl die Notwendigkeit für verschiedene Unternehmen nicht beseitigt haben, Server zu scrapen
    • Das liege daran, dass sie häufiger vorbeikommen wollen oder viel VC-Geld ausgeben, um Investoren zu beeindrucken
  • Es gibt die Frage, was AI-Unternehmen überhaupt von OSM scrapen