39 Punkte von xguru 2022-08-15 | 6 Kommentare | Auf WhatsApp teilen

Antworten auf die Frage auf HN

  • Playwright: Praktisch, weil immer mehr Webseiten JavaScript-Ausführung erfordern und Browser-Automatisierungstools dafür geeignet sind
  • Beautiful Soup: Ein Python-Paket, mit dem sich bequem verschiedenste Scraping-Apps bauen lassen
  • In der Shell: cURL + pup (Markup) / cskit (CSV) / jq (JSON) / psql (DB)
  • Browserflow: Ein webbasiertes Tool zur Aufgabenautomatisierung im Browser
  • curl-impersonate: Eine Fork-Version, die Webseiten wie ein Browser abruft
  • Helium: Ein benutzerfreundlicheres Selenium-Python
  • undetected_chromedriver: Ein angepasster Selenium-Chromedriver, der die Bot-Prüfung von CloudFlare umgeht
  • estela: Ein elastischer Web-Scraping-Cluster, der auf Kubernetes läuft

6 Kommentare

 
yangeok 2022-08-24

Soweit ich gehört habe, wurde das puppeteer-Team von Microsoft übernommen und daraus ist dann einfach playwright geworden.

 
youth 2022-08-15

Ich finde, Tools wie Playwright und Scrapy sind gut, weil sie von den jeweiligen Entwicklern gut gepflegt werden.
Persönlich nutze ich häufig das Plugin scrapy-playwright.

 
vwjdalsgkv 2022-08-15

Da Peppeteer nicht zu sehen ist, sind wohl viele zu Playwright gewechselt.

 
xguru 2022-08-16

Auch in den Kommentaren sagen die meisten, die es tatsächlich benutzt haben, dass Playwright gut ist.

 
jjpark78 2022-08-15

Meine Stimme geht an Playwright.

 
cometkim 2022-08-15

Ich nutze oft den HTMLRewriter von Cloudflare.