1 Punkte von GN⁺ 2025-01-19 | 1 Kommentare | Auf WhatsApp teilen
  • Mein Git-Server wird durch Amazons AI-Crawler instabil

  • Support-Blog: Wenn euch der Blog gefällt, könnt ihr Xe auf Patreon unterstützen

  • Patreon-Abo: EthicalAds-Werbung

  • Korrektur (2025-01-18 23:50 UTC): Ich habe einen Proxy geschrieben, der einen Proof-of-Work-Check durchführt, bevor Anfragen an den Gitea-Server zugelassen werden. Er heißt Anubis, und ich werde bald einen Blogbeitrag darüber schreiben. Derzeit ist er unter https://git.xeserv.us/ zu sehen. Er ist etwas roh, funktioniert aber gut genug

  • Korrektur (2025-01-18 19:00 UTC): Ich gebe auf. Ich habe den Gitea-Server hinter ein VPN verlegt. Ich arbeite an einem Proof-of-Work-Reverse-Proxy, um den Server vor Bots zu schützen. Ich werde ihn bald wieder hochfahren

  • Korrektur (2025-01-17 17:50 UTC): Ich habe das folgende Snippet zur Ingress-Konfiguration hinzugefügt:

    nginx.ingress.kubernetes.io/configuration-snippet: |
      if ($http_user_agent ~* "(Amazon)" ){
        return 418;
      }
    

    Der Bot greift weiterhin von anderen IPs aus an. Etwa 10 % der Anfragen haben keinen amazonbot-User-Agent. Ich weiß nicht, was ich als Nächstes tun soll. Ich hasse die Zukunft

  • Hilferuf: Ich bitte die Person, die AmazonBot betreibt, git.xeserv.us zur Liste blockierter Domains hinzuzufügen. Wenn ihr jemanden bei Amazon kennt, leitet diese Nachricht bitte weiter. Wenn ihr meinen Git-Server crawlen wollt, kontaktiert mich bitte, damit ihr für die entsprechenden Kosten eines Hardware-Upgrades aufkommen könnt. Ich möchte den Gitea-Server nicht für die Öffentlichkeit schließen, aber wenn es sein muss, werde ich das tun. Es ist sinnlos, AI-Crawler-Bots zu blockieren. Sie lügen, ändern ihren User-Agent und verwenden Residential-IP-Adressen als Proxys. Ich möchte einfach, dass die Anfragen aufhören

  • Ich habe die robots.txt-Datei bereits so konfiguriert, dass alle Bots blockiert werden:

    User-agent: *
    Disallow: /
    

    Ich weiß nicht, was ich sonst noch tun soll

1 Kommentare

 
GN⁺ 2025-01-19
Hacker-News-Kommentare
  • Man könnte versuchen, das Problem zu lösen, indem man einen Anwalt bittet, ein „klares Unterlassungsschreiben“ zu verfassen und es an Amazon zu schicken.

    • Falls Amazon nicht damit aufhört, könnte man durch eine Strafanzeige Aufmerksamkeit darauf lenken.
  • Vorschlag, AI-Crawler zu blockieren, indem man Links hinzufügt, die kein Mensch besuchen würde, und diese in robots.txt verbietet.

    • Wenn eine IP-Adresse diesen Link besucht, wird sie für 24 Stunden gesperrt.
  • AI- und SEO-Bots halten sich fast nie an robots.txt und sind schwer zu blockieren.

    • Wenn AI-Crawler Zugriff wollen, sollten sie sich an die Regeln halten oder dafür bezahlen.
  • Es besteht die Möglichkeit, dass sich ein anderer Akteur als Amazon ausgibt, statt dass es wirklich Amazon ist.

    • Rotierende Residential-IPs und wechselnde User-Agent-Strings wirken verdächtig.
  • Auf einem privaten Server trat das Problem auf, dass durch AI-Crawler die CPU-Auslastung stark anstieg.

    • Mit robots.txt und einer auf User-Agents basierenden Blockliste ließ sich das Problem verringern, aber ob das dauerhaft hilft, ist unklar.
  • Statt AI-Crawler zu blockieren, könnte man das Problem auch lösen, indem man ihnen schädliche Inhalte liefert.

    • Wenn Amazon das bemerkt, gibt das Unternehmen möglicherweise Geld aus, um das Problem zu beheben.
  • Es wird die Möglichkeit eines als Amazon getarnten DDoS-Angriffs angesprochen.

    • Verdächtig ist, dass die Anfragen von Residential-IPs kommen.
  • Auch die Website Pinboard hatte wegen AI-Crawlern einen starken Traffic-Anstieg und fiel dadurch aus.

    • Da eine Sperre per IP-Bereich nicht möglich war, musste CAPTCHA eingesetzt werden.
  • Es gibt die Meinung, Amazon sollte AWS-Credits bereitstellen, um die Kosten für überschrittenen Traffic zu kompensieren.

    • Die Hoffnung ist, dass sich das über Werbeeinnahmen ausgleichen ließe.
  • Bevor Nginx zum Blockieren konfiguriert wurde, machten Bytespider und Amazonbot 80 % des gesamten Traffics aus.

    • ClaudeBot überschritt bei Redmine in einem Monat das Traffic-Volumen von fünf Jahren.