Der Stand des Web Scraping im Jahr 2021
(mihaisplace.blog)-
Was ist Web Scraping?
-
Was sind die wichtigsten Frameworks für Web Scraping?
→ Python: Scrapy, Beautiful Soup, MechanicalSoup
→ JS: Cheerio, Puppeteer, Apify SDK
→ Java: Jaunt, jsoup
→ Ruby: Kimurai
→ PHP: Goutte
- Kostenpflichtige Web-Scraping-Frameworks auf Enterprise-Niveau
→ Scraper API: unterstützt Proxy-Rotation, CAPTCHA-Lösung und Anti-Bot-Prüfungen
→ Apify: bietet Tausende von von der Community entwickelten Plugins
→ Parsehub: No-Code-Tool mit Point-and-Click-Ansatz über eine Desktop-App
→ Diffbot: unterstützt die Datenextraktion mittels Big Data und Machine Learning aus im Web gesammelten Daten zu Unternehmen, Einzelhandel, Nachrichten, Foren und Events
→ Octoparse: wie Parsehub mit Point-and-Click-Ansatz. Unterstützt IP-Rotation, Datenbereinigung mit Regex-Tools und Scraping im großen Maßstab
→ ScrapingBee: No-Code-Tool mit komplexen Funktionen
-
Python-Web-Scraping-Beispiel: mit Beautiful Soup
-
JavaScript-(Node.js)-Beispiel: Google-Suche mit Puppeteer
-
Do's and Don'ts des Web Scraping
→ Nur eine einzige IP-Verbindung verwenden
→ Außerhalb der Stoßzeiten crawlen
→ Die ToS der Website einhalten
→ Die Regeln in robots.txt beachten
→ Wenn für eine andere Darstellung von Inhalten gecrawlt wird, sollte es eine einzigartige Lösung sein und keine bloße Kopie
→ Die Regeln von GDPR / CCPA einhalten
1 Kommentare
Siehe dazu auch den Artikel „Web scraping is now legal“ am Ende des Beitrags.
Es geht um den Fall, in dem LinkedIn beantragte, der Analysefirma HiQ das Crawling zu untersagen, was von einem US-Gericht abgelehnt wurde.
https://medium.com/@tjwaterman99/…