Mein Git-Server wurde durch Amazons AI-Crawler instabil

(xeiaso.net)

1 Punkte von GN⁺ 2025-01-19 | 1 Kommentare | Auf WhatsApp teilen

Mein Git-Server wird durch Amazons AI-Crawler instabil
Support-Blog: Wenn euch der Blog gefällt, könnt ihr Xe auf Patreon unterstützen
Patreon-Abo: EthicalAds-Werbung
Korrektur (2025-01-18 23:50 UTC): Ich habe einen Proxy geschrieben, der einen Proof-of-Work-Check durchführt, bevor Anfragen an den Gitea-Server zugelassen werden. Er heißt Anubis, und ich werde bald einen Blogbeitrag darüber schreiben. Derzeit ist er unter https://git.xeserv.us/ zu sehen. Er ist etwas roh, funktioniert aber gut genug
Korrektur (2025-01-18 19:00 UTC): Ich gebe auf. Ich habe den Gitea-Server hinter ein VPN verlegt. Ich arbeite an einem Proof-of-Work-Reverse-Proxy, um den Server vor Bots zu schützen. Ich werde ihn bald wieder hochfahren
Korrektur (2025-01-17 17:50 UTC): Ich habe das folgende Snippet zur Ingress-Konfiguration hinzugefügt:
```
nginx.ingress.kubernetes.io/configuration-snippet: |
  if ($http_user_agent ~* "(Amazon)" ){
    return 418;
  }
```
Der Bot greift weiterhin von anderen IPs aus an. Etwa 10 % der Anfragen haben keinen amazonbot-User-Agent. Ich weiß nicht, was ich als Nächstes tun soll. Ich hasse die Zukunft
Hilferuf: Ich bitte die Person, die AmazonBot betreibt, git.xeserv.us zur Liste blockierter Domains hinzuzufügen. Wenn ihr jemanden bei Amazon kennt, leitet diese Nachricht bitte weiter. Wenn ihr meinen Git-Server crawlen wollt, kontaktiert mich bitte, damit ihr für die entsprechenden Kosten eines Hardware-Upgrades aufkommen könnt. Ich möchte den Gitea-Server nicht für die Öffentlichkeit schließen, aber wenn es sein muss, werde ich das tun. Es ist sinnlos, AI-Crawler-Bots zu blockieren. Sie lügen, ändern ihren User-Agent und verwenden Residential-IP-Adressen als Proxys. Ich möchte einfach, dass die Anfragen aufhören
Ich habe die robots.txt-Datei bereits so konfiguriert, dass alle Bots blockiert werden:
```
User-agent: *
Disallow: /
```
Ich weiß nicht, was ich sonst noch tun soll

1 Kommentare

GN⁺ 2025-01-19

Hacker-News-Kommentare

Man könnte versuchen, das Problem zu lösen, indem man einen Anwalt bittet, ein „klares Unterlassungsschreiben“ zu verfassen und es an Amazon zu schicken.
- Falls Amazon nicht damit aufhört, könnte man durch eine Strafanzeige Aufmerksamkeit darauf lenken.
Vorschlag, AI-Crawler zu blockieren, indem man Links hinzufügt, die kein Mensch besuchen würde, und diese in robots.txt verbietet.
- Wenn eine IP-Adresse diesen Link besucht, wird sie für 24 Stunden gesperrt.
AI- und SEO-Bots halten sich fast nie an robots.txt und sind schwer zu blockieren.
- Wenn AI-Crawler Zugriff wollen, sollten sie sich an die Regeln halten oder dafür bezahlen.
Es besteht die Möglichkeit, dass sich ein anderer Akteur als Amazon ausgibt, statt dass es wirklich Amazon ist.
- Rotierende Residential-IPs und wechselnde User-Agent-Strings wirken verdächtig.
Auf einem privaten Server trat das Problem auf, dass durch AI-Crawler die CPU-Auslastung stark anstieg.
- Mit robots.txt und einer auf User-Agents basierenden Blockliste ließ sich das Problem verringern, aber ob das dauerhaft hilft, ist unklar.
Statt AI-Crawler zu blockieren, könnte man das Problem auch lösen, indem man ihnen schädliche Inhalte liefert.
- Wenn Amazon das bemerkt, gibt das Unternehmen möglicherweise Geld aus, um das Problem zu beheben.
Es wird die Möglichkeit eines als Amazon getarnten DDoS-Angriffs angesprochen.
- Verdächtig ist, dass die Anfragen von Residential-IPs kommen.
Auch die Website Pinboard hatte wegen AI-Crawlern einen starken Traffic-Anstieg und fiel dadurch aus.
- Da eine Sperre per IP-Bereich nicht möglich war, musste CAPTCHA eingesetzt werden.
Es gibt die Meinung, Amazon sollte AWS-Credits bereitstellen, um die Kosten für überschrittenen Traffic zu kompensieren.
- Die Hoffnung ist, dass sich das über Werbeeinnahmen ausgleichen ließe.
Bevor Nginx zum Blockieren konfiguriert wurde, machten Bytespider und Amazonbot 80 % des gesamten Traffics aus.
- ClaudeBot überschritt bei Redmine in einem Monat das Traffic-Volumen von fünf Jahren.

Mein Git-Server wurde durch Amazons AI-Crawler instabil

Mein Git-Server wird durch Amazons AI-Crawler instabil

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare