4 Punkte von GN⁺ 2025-08-05 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Perplexity setzt einen identitätsverschleiernden Web-Crawler ein, um Crawling-Verbote zu umgehen
  • robots.txt wird ignoriert, und ein kontinuierlicher Wechsel von IP-Adressen und User Agent wurde festgestellt
  • In einem Neudomain-Test wurde bestätigt, dass Perplexity trotz Ausschlussregeln auf den Seiteninhalt zugreifen konnte
  • Cloudflare hat darauf reagiert, Perplexity aus der offiziellen Bot-Liste auszuschließen und Verwaltungsregeln zu ändern, um diese Aktivitäten zu unterbinden
  • Im Gegensatz zu gutwilligen Bot-Betreibern wie OpenAI wurde das verdeckte Verhalten von Perplexity als problematisch kritisiert

Überblick über Perplexitys Einsatz versteckter Crawler

  • Perplexity ist eine KI-basierte Antwortmaschine, die Websites zunächst mit einem offiziell gemeldeten User Agent crawlt
  • Bei Netzwerkblockaden wechselt Perplexity jedoch den User Agent, um die Identität zu verschleiern, und versucht den Zugriff über verschiedene ASN (Autonome Systemnummern) zu erzwingen
  • In diesem Prozess wurden zahlreiche Versuche beobachtet, bei denen robots.txt ignoriert oder ganz nicht angefordert wurde

Vertrauensprinzip zwischen Websites und Crawlern sowie problematisches Verhalten

  • Das Internet hat sich über Jahrzehnte auf Vertrauen entwickelt, und für Crawler gilt grundsätzlich, transparent zu handeln, einen klaren Zweck zu haben und verständliche Verhaltensregeln einzuhalten
  • Crawler sollten die Anweisungen und Prioritäten von Website-Betreibern respektieren. Das von Perplexity beobachtete Verhalten widerspricht diesen Grundsätzen
  • Daher hat Cloudflare Perplexity aus der Liste der offiziellen verifizierten Bots ausgeschlossen und zusätzliche Verwaltungsregeln zur Erkennung und Blockade von Stealth-Crawlern eingeführt

Erkennungs- und Testfälle

  • Cloudflare richtete eine Neudomain ein, um das Crawling-Verhalten von Perplexity zu testen
    • In robots.txt wurde jeglicher automatisierter Zugriff untersagt, und WAF-Regeln wurden ergänzt
    • Obwohl der offizielle User Agent und die IP-Adressen von Perplexity blockiert wurden, wurde dennoch der Site-Inhalt mit verschleierter Identität abgegriffen
  • Perplexity versucht den Zugriff auf Inhalte sowohl mit dem offiziellen als auch mit einem Stealth-User-Agent und gibt sich im letzteren Fall als echter Browser (Chrome) aus
Typ User-Agent-Beispiel Tägliches Anfragevolumen
Offiziell Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user) 20.000.000 bis 25.000.000
Stealth Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 3.000.000 bis 6.000.000
  • Zudem werden zahlreiche IPs und ASNs genutzt, die nicht zum offiziellen IP-Bereich gehören, und die IPs werden fortlaufend gewechselt, um Umgehungsregeln zu umgehen
  • Als Folge wurden diese Aktivitäten bei zehntausenden Domains und Millionen von Anfragen identifiziert; Cloudflare hat den Crawler mithilfe von Machine Learning und Netzwerk-Signalen klassifiziert

Stealth-Crawler-Umgehung und deren Grenzen

  • Wird ein Stealth-Crawler blockiert, versucht Perplexity, Antworten mithilfe externer Quellen wie anderer Websites bereitzustellen
  • In solchen Fällen wurde jedoch eine deutlich geringere inhaltliche Detailtiefe festgestellt

Maßstäbe für verantwortungsvolle Bot-Betreiber und OpenAIs Best Practices

  • Gut betreibene Bots sollten durch Transparenz, eindeutige Identifizierung, Offenlegung des Zwecks, getrennte Bots pro Aktivität und die Einhaltung der Webmaster-Richtlinien (z. B. robots.txt) gekennzeichnet sein
  • OpenAI gibt offizielle IPs und User Agents sowie den Zweck der Bot-Aktivitäten transparent an und hält robots.txt strikt ein
  • In realen Tests stoppt der ChatGPT-Crawler zusätzliche Crawling-Versuche, sobald disallow-Anweisungen oder Netzwerkblockaden erkannt werden
  • Standardisierte Methoden wie Web Bot Auth werden ebenfalls aktiv eingeführt

Schutzmaßnahmen und Reaktion

  • Alle Crawls aus nicht gemeldeten User Agents von Perplexity werden durch das Bot-Management von Cloudflare erkannt und blockiert
  • Bestehende Bot-Blockierungs- oder Challenge-Regeln schützende Kunden sind bereits abgesichert
  • Regeln zur Blockierung von Stealth-Crawlern stehen allen Kunden (einschließlich kostenloser Accounts) über ein Administrations-Policy-Set zur Verfügung
  • Nach der Veröffentlichung von Content Independence Day haben mehr als 2,500.000 Websites Richtlinien zur Sperrung von KI-Crawling angewendet
  • Cloudflare entwickelt seine Gegenmaßnahmen und Technologien kontinuierlich weiter, um mit den sich weiterentwickelnden Umgehungsversuchen von Bot-Betreibern Schritt zu halten

Politische Bemühungen und Ausblick

  • Cloudflare beteiligt sich aktiv an Diskussionen zur Standardisierung von robots.txt-Erweiterungen zusammen mit Technik- und Politikfachleuten weltweit sowie mit Organisationen wie der IETF
  • Ziel ist es, Regeln für vertrauenswürdige Crawler zu etablieren und in einem sich schnell verändernden AI- und Crawler-Umfeld auf Transparenz und Rechtstreue zu setzen

Noch keine Kommentare.

Noch keine Kommentare.