1 Punkte von GN⁺ 2024-06-16 | 1 Kommentare | Auf WhatsApp teilen
  • Der Autor schrieb gestern einen Beitrag darüber, AI-Bots auf seinem Server zu blockieren, und hat heute dasselbe für MacStories umgesetzt
  • Nach Abschluss der Konfiguration konnte Federico auf einer Website namens Perplexity weiterhin einen bestimmten MacStories-Beitrag zitieren
  • Der Autor nahm auf seiner eigenen Website die folgenden Änderungen vor:
    • 30. März: Beginn der Blockierung von Bots wie PerplexityBot in der robots.txt
    • 14. Juni: Zusätzliche serverseitige Blockierung in nginx. Alle Treffer liefern eine 403 Forbidden-Antwort zurück
  • Der Autor geht davon aus, dass alle AI-Unternehmen die robots.txt ignorieren, und vermutet, dass die seit März erfolgten Anfragen daher wirkungslos gewesen wären
  • Da der Autor den Beitrag über das Blockieren von AI-Bots erst nach Aktivierung der Sperrmaßnahmen veröffentlicht hat, dürfte Perplexity auf die Website nicht zugreifen können, sofern ein User Agent mitgesendet wird
  • Als er Perplexity jedoch nach diesem Beitrag fragte, erhielt er eine perfekte Zusammenfassung mit Details, die sich nicht durch bloßes Raten erschließen lassen
  • Der Autor dachte zunächst, er könnte nur das User-Agent-Spoofing von Chrome getestet und dabei etwas falsch konfiguriert haben
  • Als er den Code jedoch mit dem User Agent testete, den Perplexity laut eigener Aussage für Anfragen verwendet, nämlich PerplexityBot, erhielt er erwartungsgemäß eine 403-Antwort; mit der nginx-Konfiguration war also alles in Ordnung
  • Als der Autor Perplexity AI fragte, wie der Dienst trotz robots.txt auf die Website zugreifen konnte, antwortete Perplexity AI, dass es keine Fähigkeit habe, durch robots.txt blockierte Inhalte zu crawlen oder darauf zuzugreifen, und dass es unethisch sei, auf eingeschränkte Inhalte zuzugreifen oder sie zusammenzufassen
  • Lewis bestätigte jedoch, dass Perplexity den folgenden User-Agent-String verwendet, der PerplexityBot nicht enthält:
    Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3  
    
  • Auch der Autor bestätigte nach Aktivierung der Zugriffslogs und einer Anfrage an Perplexity wie Lewis, dass der User Agent keinen benutzerdefinierten User Agent enthält
  • Perplexity verwendet zum Scrapen der Inhalte einen Headless-Browser, ignoriert die robots.txt und sendet auch keinen korrekten User-Agent-String
  • Da diese Headless-Browser offenbar nicht in den IP-Bereichen von Perplexity liegen, kann man auch die IP-Bereiche nicht einfach blockieren
  • Der Autor möchte nicht, dass seine Beiträge kostenlos von AI-Unternehmen eingesammelt werden, sieht aber keine weiteren Maßnahmen mehr, die er ergreifen kann
  • Der Autor trat dem Discord von Perplexity bei, stellte sich im Vorstellungs-Kanal vor und reichte im Bug-Kanal einen Bug ein
  • Als nächsten Schritt zieht er eine GDPR-Anfrage in Betracht, ist sich aber noch unsicher.

Meinung von GN⁺

  • Wichtigkeit des Blockierens von AI-Bots: Um zu verhindern, dass AI-Bots Inhalte einer Website unbefugt verwenden, sind geeignete Blockiermethoden notwendig.
  • Prüfung des User Agents: Wenn AI-Bots keinen korrekten User Agent verwenden, ist es wichtig, dies zu erkennen und zu blockieren.
  • Grenzen der robots.txt-Datei: Viele AI-Bots können die robots.txt-Datei ignorieren, daher sind zusätzliche serverseitige Sperrmethoden erforderlich.
  • Datenschutz: Es sollte geprüft werden, ob sich über Regelungen wie die GDPR unbefugte Zugriffe von AI-Bots verhindern lassen.
  • Alternative Lösungen: Auch andere Lösungen zum Blockieren von AI-Bots oder Security-Tools können eine gute Möglichkeit sein, eine Website zu schützen.

1 Kommentare

 
GN⁺ 2024-06-16
Hacker-News-Kommentare
  • Es sollte möglich sein, zu verhindern, dass LLMs meine Daten zum Training verwenden, und Perplexity sollte es einfach machen, dies zu blockieren.
  • Zu verbieten, dass Perplexity Daten meiner Website über Echtzeit-Webabfragen an Nutzer bereitstellt, begibt sich in einen gefährlichen Bereich.
  • Werbeblocker, Lesemodus und Screenreader funktionieren auf ähnliche Weise wie Perplexity, und ein Verbot davon könnte viele Tools betreffen.
  • Ich möchte nicht, dass Website-Besitzer per DRM erzwingen, dass Websites nur auf eine bestimmte Weise dargestellt werden.
  • Es scheint ein Missverständnis darüber zu geben, wann der User Agent von Perplexity zum Einsatz kommt.
  • Website-Besitzer können nicht bestimmen, welchen Browser Nutzer verwenden, und Perplexity ist dabei keine Ausnahme.
  • Dass Perplexity ohne User Agent in großem Umfang Daten sammelt, ist problematisch und sollte gestoppt werden.
  • Man sollte unterscheiden zwischen dem Scrapen von Websites durch AI-Unternehmen zum Trainieren von Modellen und dem Abrufen einer von Nutzern angeforderten Webseite.
  • Verweis auf einen Artikel, der das Problem behandelt, dass Perplexity die Inhalte anderer übernimmt und verwendet.
  • Der Crawler von Perplexity sollte robots.txt respektieren, aber ein User Agent ist kein Crawler und muss sich daher nicht daran halten.
  • Es ist mir egal, wenn AI-Unternehmen meine Website scrapen; ich lasse sie dann eben falsche Daten mitnehmen.
  • Wer schon einmal Web-Scraping betrieben hat, weiß, warum man beim User Agent lügt.
  • Der CEO von Perplexity kritisierte Google und OpenAI, doch dann kam heraus, dass auch sie robots.txt nicht beachtet und ihren User Agent verschleiert haben.
  • Um zu verhindern, dass AI-Unternehmen meine Inhalte kostenlos übernehmen, kann man unsichtbare Prompt-Injection einsetzen.
  • Dass Perplexity freiwillige Webstandards nicht einhält, muss man nicht unbedingt als Lüge bezeichnen.