Wie man bei Web-Crawling Bot-Erkennung umgeht
(piprogramming.org)Gilt zwar für Selenium, lässt sich aber auch anderswo anwenden
-
Navigator.Webdriver-Flag entfernen -
Bestimmte Zeichenfolgen in ChromeDriver / GeckoDriver entfernen
-
Auflösung, User-Agent usw. ändern
-
Den tatsächlichen URL-Fluss verwenden. Unsichtbare Links nicht besuchen
-
Die IP mit einem Proxy ändern
-
Zufällige Verzögerungswerte verwenden
-
Keinen Headless-Browser verwenden (Prüfung über die Notification-Berechtigung möglich)
2 Kommentare
Im Fall 1 gibt es bei Puppeteer Seiten, die selbst dann noch als Bot erkannt werden, wenn man nur
true/falsesetzt.Daher ist es besser, die Eigenschaft wie unten komplett zu löschen.
Das ist ein guter Punkt :) Ich habe den Code ersetzt