Git Scraping – Web-Änderungen in einem Git-Repo protokollieren
(simonwillison.net)-
Sich ständig ändernde Website-Daten mit GitHub Actions scrapen, erfassen und zusammen mit der Commit-Historie ansammeln
-
Ein Beispiel, bei dem aktuelle Waldbranddaten aus Kalifornien vom California Department of Forestry and Fire Protection gescrapt und aufgezeichnet werden
-
Eine einfache GitHub-Actions-Workflow-YML-Datei erstellen und ausführen, die XHR-JSON-Daten mit
curlabruft, mitjqaufteilt und anschließend speichert -
Nur dann committen, wenn sich Inhalte geändert haben, und dies per GitHub-Cron-Konfiguration etwa dreimal pro Stunde ausführen
-
Der Autor hat bereits früher Aufzeichnungen veröffentlicht, in denen dies auch auf Hurrikaninformationen und andere öffentliche Dienste angewendet wurde
1 Kommentare
Websites inländischer Regierungsbehörden bieten oft weder APIs noch aufbereitete Daten an.
So ein Ansatz könnte daher ebenfalls ein interessanter Versuch sein.