Der Stand des Web Scraping im Jahr 2021

(mihaisplace.blog)

26 Punkte von xguru 2021-10-05 | 1 Kommentare | Auf WhatsApp teilen

Was ist Web Scraping?
Was sind die wichtigsten Frameworks für Web Scraping?

→ Python: Scrapy, Beautiful Soup, MechanicalSoup

→ JS: Cheerio, Puppeteer, Apify SDK

→ Java: Jaunt, jsoup

→ Ruby: Kimurai

→ PHP: Goutte

Kostenpflichtige Web-Scraping-Frameworks auf Enterprise-Niveau

→ Scraper API: unterstützt Proxy-Rotation, CAPTCHA-Lösung und Anti-Bot-Prüfungen

→ Apify: bietet Tausende von von der Community entwickelten Plugins

→ Parsehub: No-Code-Tool mit Point-and-Click-Ansatz über eine Desktop-App

→ Diffbot: unterstützt die Datenextraktion mittels Big Data und Machine Learning aus im Web gesammelten Daten zu Unternehmen, Einzelhandel, Nachrichten, Foren und Events

→ Octoparse: wie Parsehub mit Point-and-Click-Ansatz. Unterstützt IP-Rotation, Datenbereinigung mit Regex-Tools und Scraping im großen Maßstab

→ ScrapingBee: No-Code-Tool mit komplexen Funktionen

Python-Web-Scraping-Beispiel: mit Beautiful Soup
JavaScript-(Node.js)-Beispiel: Google-Suche mit Puppeteer
Do's and Don'ts des Web Scraping

→ Nur eine einzige IP-Verbindung verwenden

→ Außerhalb der Stoßzeiten crawlen

→ Die ToS der Website einhalten

→ Die Regeln in robots.txt beachten

→ Wenn für eine andere Darstellung von Inhalten gecrawlt wird, sollte es eine einzigartige Lösung sein und keine bloße Kopie

→ Die Regeln von GDPR / CCPA einhalten

1 Kommentare

xguru 2021-10-05

Siehe dazu auch den Artikel „Web scraping is now legal“ am Ende des Beitrags.

Es geht um den Fall, in dem LinkedIn beantragte, der Analysefirma HiQ das Crawling zu untersagen, was von einem US-Gericht abgelehnt wurde.

https://medium.com/@tjwaterman99/…

Der Stand des Web Scraping im Jahr 2021

Verwandte Beiträge

1 Kommentare