Was ist derzeit, im Jahr 2022, das beste Web-Scraping-Tool?
(news.ycombinator.com)Antworten auf die Frage auf HN
- Playwright: Praktisch, weil immer mehr Webseiten JavaScript-Ausführung erfordern und Browser-Automatisierungstools dafür geeignet sind
- Beautiful Soup: Ein Python-Paket, mit dem sich bequem verschiedenste Scraping-Apps bauen lassen
- In der Shell:
cURL+ pup (Markup) / cskit (CSV) / jq (JSON) / psql (DB) - Browserflow: Ein webbasiertes Tool zur Aufgabenautomatisierung im Browser
- curl-impersonate: Eine Fork-Version, die Webseiten wie ein Browser abruft
- Helium: Ein benutzerfreundlicheres Selenium-Python
- undetected_chromedriver: Ein angepasster Selenium-Chromedriver, der die Bot-Prüfung von CloudFlare umgeht
- estela: Ein elastischer Web-Scraping-Cluster, der auf Kubernetes läuft
6 Kommentare
Soweit ich gehört habe, wurde das
puppeteer-Team von Microsoft übernommen und daraus ist dann einfachplaywrightgeworden.Ich finde, Tools wie Playwright und Scrapy sind gut, weil sie von den jeweiligen Entwicklern gut gepflegt werden.
Persönlich nutze ich häufig das Plugin
scrapy-playwright.Da
Peppeteernicht zu sehen ist, sind wohl viele zu Playwright gewechselt.Auch in den Kommentaren sagen die meisten, die es tatsächlich benutzt haben, dass Playwright gut ist.
Meine Stimme geht an Playwright.
Ich nutze oft den HTMLRewriter von Cloudflare.