Perplexity AI lügt über seinen User Agent
(rknight.me)- Der Autor schrieb gestern einen Beitrag darüber, AI-Bots auf seinem Server zu blockieren, und hat heute dasselbe für MacStories umgesetzt
- Nach Abschluss der Konfiguration konnte Federico auf einer Website namens Perplexity weiterhin einen bestimmten MacStories-Beitrag zitieren
- Der Autor nahm auf seiner eigenen Website die folgenden Änderungen vor:
- 30. März: Beginn der Blockierung von Bots wie
PerplexityBotin derrobots.txt - 14. Juni: Zusätzliche serverseitige Blockierung in nginx. Alle Treffer liefern eine
403 Forbidden-Antwort zurück
- 30. März: Beginn der Blockierung von Bots wie
- Der Autor geht davon aus, dass alle AI-Unternehmen die
robots.txtignorieren, und vermutet, dass die seit März erfolgten Anfragen daher wirkungslos gewesen wären - Da der Autor den Beitrag über das Blockieren von AI-Bots erst nach Aktivierung der Sperrmaßnahmen veröffentlicht hat, dürfte Perplexity auf die Website nicht zugreifen können, sofern ein User Agent mitgesendet wird
- Als er Perplexity jedoch nach diesem Beitrag fragte, erhielt er eine perfekte Zusammenfassung mit Details, die sich nicht durch bloßes Raten erschließen lassen
- Der Autor dachte zunächst, er könnte nur das User-Agent-Spoofing von Chrome getestet und dabei etwas falsch konfiguriert haben
- Als er den Code jedoch mit dem User Agent testete, den Perplexity laut eigener Aussage für Anfragen verwendet, nämlich
PerplexityBot, erhielt er erwartungsgemäß eine403-Antwort; mit der nginx-Konfiguration war also alles in Ordnung - Als der Autor Perplexity AI fragte, wie der Dienst trotz
robots.txtauf die Website zugreifen konnte, antwortete Perplexity AI, dass es keine Fähigkeit habe, durchrobots.txtblockierte Inhalte zu crawlen oder darauf zuzugreifen, und dass es unethisch sei, auf eingeschränkte Inhalte zuzugreifen oder sie zusammenzufassen - Lewis bestätigte jedoch, dass Perplexity den folgenden User-Agent-String verwendet, der
PerplexityBotnicht enthält:Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3 - Auch der Autor bestätigte nach Aktivierung der Zugriffslogs und einer Anfrage an Perplexity wie Lewis, dass der User Agent keinen benutzerdefinierten User Agent enthält
- Perplexity verwendet zum Scrapen der Inhalte einen Headless-Browser, ignoriert die
robots.txtund sendet auch keinen korrekten User-Agent-String - Da diese Headless-Browser offenbar nicht in den IP-Bereichen von Perplexity liegen, kann man auch die IP-Bereiche nicht einfach blockieren
- Der Autor möchte nicht, dass seine Beiträge kostenlos von AI-Unternehmen eingesammelt werden, sieht aber keine weiteren Maßnahmen mehr, die er ergreifen kann
- Der Autor trat dem Discord von Perplexity bei, stellte sich im Vorstellungs-Kanal vor und reichte im Bug-Kanal einen Bug ein
- Als nächsten Schritt zieht er eine GDPR-Anfrage in Betracht, ist sich aber noch unsicher.
Meinung von GN⁺
- Wichtigkeit des Blockierens von AI-Bots: Um zu verhindern, dass AI-Bots Inhalte einer Website unbefugt verwenden, sind geeignete Blockiermethoden notwendig.
- Prüfung des User Agents: Wenn AI-Bots keinen korrekten User Agent verwenden, ist es wichtig, dies zu erkennen und zu blockieren.
- Grenzen der
robots.txt-Datei: Viele AI-Bots können dierobots.txt-Datei ignorieren, daher sind zusätzliche serverseitige Sperrmethoden erforderlich. - Datenschutz: Es sollte geprüft werden, ob sich über Regelungen wie die GDPR unbefugte Zugriffe von AI-Bots verhindern lassen.
- Alternative Lösungen: Auch andere Lösungen zum Blockieren von AI-Bots oder Security-Tools können eine gute Möglichkeit sein, eine Website zu schützen.
1 Kommentare
Hacker-News-Kommentare
robots.txtrespektieren, aber ein User Agent ist kein Crawler und muss sich daher nicht daran halten.robots.txtnicht beachtet und ihren User Agent verschleiert haben.