Wie man bei Web-Crawling Bot-Erkennung umgeht

(piprogramming.org)

15 Punkte von xguru 2020-09-11 | 2 Kommentare | Auf WhatsApp teilen

Gilt zwar für Selenium, lässt sich aber auch anderswo anwenden

Navigator.Webdriver-Flag entfernen
Bestimmte Zeichenfolgen in ChromeDriver / GeckoDriver entfernen
Auflösung, User-Agent usw. ändern
Den tatsächlichen URL-Fluss verwenden. Unsichtbare Links nicht besuchen
Die IP mit einem Proxy ändern
Zufällige Verzögerungswerte verwenden
Keinen Headless-Browser verwenden (Prüfung über die Notification-Berechtigung möglich)

2 Kommentare

xguru 2020-09-11

Im Fall 1 gibt es bei Puppeteer Seiten, die selbst dann noch als Bot erkannt werden, wenn man nur true/false setzt.

Daher ist es besser, die Eigenschaft wie unten komplett zu löschen.

const newProto = navigator.__proto__;

delete newProto.webdriver;

navigator.__proto__ = newProto;

louis 2020-09-12

Das ist ein guter Punkt :) Ich habe den Code ersetzt