Perplexity setzt verschleierte, nicht gemeldete Crawler ein, um Crawling-Verbotanweisungen zu umgehen

(blog.cloudflare.com)

4 Punkte von GN⁺ 2025-08-05 | Noch keine Kommentare. | Auf WhatsApp teilen

Perplexity setzt einen identitätsverschleiernden Web-Crawler ein, um Crawling-Verbote zu umgehen
robots.txt wird ignoriert, und ein kontinuierlicher Wechsel von IP-Adressen und User Agent wurde festgestellt
In einem Neudomain-Test wurde bestätigt, dass Perplexity trotz Ausschlussregeln auf den Seiteninhalt zugreifen konnte
Cloudflare hat darauf reagiert, Perplexity aus der offiziellen Bot-Liste auszuschließen und Verwaltungsregeln zu ändern, um diese Aktivitäten zu unterbinden
Im Gegensatz zu gutwilligen Bot-Betreibern wie OpenAI wurde das verdeckte Verhalten von Perplexity als problematisch kritisiert

Überblick über Perplexitys Einsatz versteckter Crawler

Perplexity ist eine KI-basierte Antwortmaschine, die Websites zunächst mit einem offiziell gemeldeten User Agent crawlt
Bei Netzwerkblockaden wechselt Perplexity jedoch den User Agent, um die Identität zu verschleiern, und versucht den Zugriff über verschiedene ASN (Autonome Systemnummern) zu erzwingen
In diesem Prozess wurden zahlreiche Versuche beobachtet, bei denen robots.txt ignoriert oder ganz nicht angefordert wurde

Das Internet hat sich über Jahrzehnte auf Vertrauen entwickelt, und für Crawler gilt grundsätzlich, transparent zu handeln, einen klaren Zweck zu haben und verständliche Verhaltensregeln einzuhalten
Crawler sollten die Anweisungen und Prioritäten von Website-Betreibern respektieren. Das von Perplexity beobachtete Verhalten widerspricht diesen Grundsätzen
Daher hat Cloudflare Perplexity aus der Liste der offiziellen verifizierten Bots ausgeschlossen und zusätzliche Verwaltungsregeln zur Erkennung und Blockade von Stealth-Crawlern eingeführt

Cloudflare richtete eine Neudomain ein, um das Crawling-Verhalten von Perplexity zu testen
- In robots.txt wurde jeglicher automatisierter Zugriff untersagt, und WAF-Regeln wurden ergänzt
- Obwohl der offizielle User Agent und die IP-Adressen von Perplexity blockiert wurden, wurde dennoch der Site-Inhalt mit verschleierter Identität abgegriffen
Perplexity versucht den Zugriff auf Inhalte sowohl mit dem offiziellen als auch mit einem Stealth-User-Agent und gibt sich im letzteren Fall als echter Browser (Chrome) aus

Typ	User-Agent-Beispiel	Tägliches Anfragevolumen
Offiziell	Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user)	20.000.000 bis 25.000.000
Stealth	Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36	3.000.000 bis 6.000.000

Zudem werden zahlreiche IPs und ASNs genutzt, die nicht zum offiziellen IP-Bereich gehören, und die IPs werden fortlaufend gewechselt, um Umgehungsregeln zu umgehen
Als Folge wurden diese Aktivitäten bei zehntausenden Domains und Millionen von Anfragen identifiziert; Cloudflare hat den Crawler mithilfe von Machine Learning und Netzwerk-Signalen klassifiziert

Wird ein Stealth-Crawler blockiert, versucht Perplexity, Antworten mithilfe externer Quellen wie anderer Websites bereitzustellen
In solchen Fällen wurde jedoch eine deutlich geringere inhaltliche Detailtiefe festgestellt

Gut betreibene Bots sollten durch Transparenz, eindeutige Identifizierung, Offenlegung des Zwecks, getrennte Bots pro Aktivität und die Einhaltung der Webmaster-Richtlinien (z. B. robots.txt) gekennzeichnet sein
OpenAI gibt offizielle IPs und User Agents sowie den Zweck der Bot-Aktivitäten transparent an und hält robots.txt strikt ein
In realen Tests stoppt der ChatGPT-Crawler zusätzliche Crawling-Versuche, sobald disallow-Anweisungen oder Netzwerkblockaden erkannt werden
Standardisierte Methoden wie Web Bot Auth werden ebenfalls aktiv eingeführt

Alle Crawls aus nicht gemeldeten User Agents von Perplexity werden durch das Bot-Management von Cloudflare erkannt und blockiert
Bestehende Bot-Blockierungs- oder Challenge-Regeln schützende Kunden sind bereits abgesichert
Regeln zur Blockierung von Stealth-Crawlern stehen allen Kunden (einschließlich kostenloser Accounts) über ein Administrations-Policy-Set zur Verfügung
Nach der Veröffentlichung von Content Independence Day haben mehr als 2,500.000 Websites Richtlinien zur Sperrung von KI-Crawling angewendet
Cloudflare entwickelt seine Gegenmaßnahmen und Technologien kontinuierlich weiter, um mit den sich weiterentwickelnden Umgehungsversuchen von Bot-Betreibern Schritt zu halten

Cloudflare beteiligt sich aktiv an Diskussionen zur Standardisierung von robots.txt-Erweiterungen zusammen mit Technik- und Politikfachleuten weltweit sowie mit Organisationen wie der IETF
Ziel ist es, Regeln für vertrauenswürdige Crawler zu etablieren und in einem sich schnell verändernden AI- und Crawler-Umfeld auf Transparenz und Rechtstreue zu setzen