-
Mein Git-Server wird durch Amazons AI-Crawler instabil
-
Support-Blog: Wenn euch der Blog gefällt, könnt ihr Xe auf Patreon unterstützen
-
Patreon-Abo: EthicalAds-Werbung
-
Korrektur (2025-01-18 23:50 UTC): Ich habe einen Proxy geschrieben, der einen Proof-of-Work-Check durchführt, bevor Anfragen an den Gitea-Server zugelassen werden. Er heißt Anubis, und ich werde bald einen Blogbeitrag darüber schreiben. Derzeit ist er unter https://git.xeserv.us/ zu sehen. Er ist etwas roh, funktioniert aber gut genug
-
Korrektur (2025-01-18 19:00 UTC): Ich gebe auf. Ich habe den Gitea-Server hinter ein VPN verlegt. Ich arbeite an einem Proof-of-Work-Reverse-Proxy, um den Server vor Bots zu schützen. Ich werde ihn bald wieder hochfahren
-
Korrektur (2025-01-17 17:50 UTC): Ich habe das folgende Snippet zur Ingress-Konfiguration hinzugefügt:
nginx.ingress.kubernetes.io/configuration-snippet: | if ($http_user_agent ~* "(Amazon)" ){ return 418; }Der Bot greift weiterhin von anderen IPs aus an. Etwa 10 % der Anfragen haben keinen amazonbot-User-Agent. Ich weiß nicht, was ich als Nächstes tun soll. Ich hasse die Zukunft
-
Hilferuf: Ich bitte die Person, die AmazonBot betreibt,
git.xeserv.uszur Liste blockierter Domains hinzuzufügen. Wenn ihr jemanden bei Amazon kennt, leitet diese Nachricht bitte weiter. Wenn ihr meinen Git-Server crawlen wollt, kontaktiert mich bitte, damit ihr für die entsprechenden Kosten eines Hardware-Upgrades aufkommen könnt. Ich möchte den Gitea-Server nicht für die Öffentlichkeit schließen, aber wenn es sein muss, werde ich das tun. Es ist sinnlos, AI-Crawler-Bots zu blockieren. Sie lügen, ändern ihren User-Agent und verwenden Residential-IP-Adressen als Proxys. Ich möchte einfach, dass die Anfragen aufhören -
Ich habe die
robots.txt-Datei bereits so konfiguriert, dass alle Bots blockiert werden:User-agent: * Disallow: /Ich weiß nicht, was ich sonst noch tun soll
1 Kommentare
Hacker-News-Kommentare
Man könnte versuchen, das Problem zu lösen, indem man einen Anwalt bittet, ein „klares Unterlassungsschreiben“ zu verfassen und es an Amazon zu schicken.
Vorschlag, AI-Crawler zu blockieren, indem man Links hinzufügt, die kein Mensch besuchen würde, und diese in
robots.txtverbietet.AI- und SEO-Bots halten sich fast nie an
robots.txtund sind schwer zu blockieren.Es besteht die Möglichkeit, dass sich ein anderer Akteur als Amazon ausgibt, statt dass es wirklich Amazon ist.
Auf einem privaten Server trat das Problem auf, dass durch AI-Crawler die CPU-Auslastung stark anstieg.
robots.txtund einer auf User-Agents basierenden Blockliste ließ sich das Problem verringern, aber ob das dauerhaft hilft, ist unklar.Statt AI-Crawler zu blockieren, könnte man das Problem auch lösen, indem man ihnen schädliche Inhalte liefert.
Es wird die Möglichkeit eines als Amazon getarnten DDoS-Angriffs angesprochen.
Auch die Website Pinboard hatte wegen AI-Crawlern einen starken Traffic-Anstieg und fiel dadurch aus.
Es gibt die Meinung, Amazon sollte AWS-Credits bereitstellen, um die Kosten für überschrittenen Traffic zu kompensieren.
Bevor Nginx zum Blockieren konfiguriert wurde, machten Bytespider und Amazonbot 80 % des gesamten Traffics aus.