- Perplexity setzt einen identitätsverschleiernden Web-Crawler ein, um Crawling-Verbote zu umgehen
- robots.txt wird ignoriert, und ein kontinuierlicher Wechsel von IP-Adressen und User Agent wurde festgestellt
- In einem Neudomain-Test wurde bestätigt, dass Perplexity trotz Ausschlussregeln auf den Seiteninhalt zugreifen konnte
- Cloudflare hat darauf reagiert, Perplexity aus der offiziellen Bot-Liste auszuschließen und Verwaltungsregeln zu ändern, um diese Aktivitäten zu unterbinden
- Im Gegensatz zu gutwilligen Bot-Betreibern wie OpenAI wurde das verdeckte Verhalten von Perplexity als problematisch kritisiert
Überblick über Perplexitys Einsatz versteckter Crawler
- Perplexity ist eine KI-basierte Antwortmaschine, die Websites zunächst mit einem offiziell gemeldeten User Agent crawlt
- Bei Netzwerkblockaden wechselt Perplexity jedoch den User Agent, um die Identität zu verschleiern, und versucht den Zugriff über verschiedene ASN (Autonome Systemnummern) zu erzwingen
- In diesem Prozess wurden zahlreiche Versuche beobachtet, bei denen robots.txt ignoriert oder ganz nicht angefordert wurde
Vertrauensprinzip zwischen Websites und Crawlern sowie problematisches Verhalten
- Das Internet hat sich über Jahrzehnte auf Vertrauen entwickelt, und für Crawler gilt grundsätzlich, transparent zu handeln, einen klaren Zweck zu haben und verständliche Verhaltensregeln einzuhalten
- Crawler sollten die Anweisungen und Prioritäten von Website-Betreibern respektieren. Das von Perplexity beobachtete Verhalten widerspricht diesen Grundsätzen
- Daher hat Cloudflare Perplexity aus der Liste der offiziellen verifizierten Bots ausgeschlossen und zusätzliche Verwaltungsregeln zur Erkennung und Blockade von Stealth-Crawlern eingeführt
Erkennungs- und Testfälle
- Cloudflare richtete eine Neudomain ein, um das Crawling-Verhalten von Perplexity zu testen
- In
robots.txt wurde jeglicher automatisierter Zugriff untersagt, und WAF-Regeln wurden ergänzt
- Obwohl der offizielle User Agent und die IP-Adressen von Perplexity blockiert wurden, wurde dennoch der Site-Inhalt mit verschleierter Identität abgegriffen
- Perplexity versucht den Zugriff auf Inhalte sowohl mit dem offiziellen als auch mit einem Stealth-User-Agent und gibt sich im letzteren Fall als echter Browser (Chrome) aus
| Typ |
User-Agent-Beispiel |
Tägliches Anfragevolumen |
| Offiziell |
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user) |
20.000.000 bis 25.000.000 |
| Stealth |
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 |
3.000.000 bis 6.000.000 |
- Zudem werden zahlreiche IPs und ASNs genutzt, die nicht zum offiziellen IP-Bereich gehören, und die IPs werden fortlaufend gewechselt, um Umgehungsregeln zu umgehen
- Als Folge wurden diese Aktivitäten bei zehntausenden Domains und Millionen von Anfragen identifiziert; Cloudflare hat den Crawler mithilfe von Machine Learning und Netzwerk-Signalen klassifiziert
Stealth-Crawler-Umgehung und deren Grenzen
- Wird ein Stealth-Crawler blockiert, versucht Perplexity, Antworten mithilfe externer Quellen wie anderer Websites bereitzustellen
- In solchen Fällen wurde jedoch eine deutlich geringere inhaltliche Detailtiefe festgestellt
Maßstäbe für verantwortungsvolle Bot-Betreiber und OpenAIs Best Practices
- Gut betreibene Bots sollten durch Transparenz, eindeutige Identifizierung, Offenlegung des Zwecks, getrennte Bots pro Aktivität und die Einhaltung der Webmaster-Richtlinien (z. B. robots.txt) gekennzeichnet sein
- OpenAI gibt offizielle IPs und User Agents sowie den Zweck der Bot-Aktivitäten transparent an und hält robots.txt strikt ein
- In realen Tests stoppt der ChatGPT-Crawler zusätzliche Crawling-Versuche, sobald
disallow-Anweisungen oder Netzwerkblockaden erkannt werden
- Standardisierte Methoden wie Web Bot Auth werden ebenfalls aktiv eingeführt
Schutzmaßnahmen und Reaktion
- Alle Crawls aus nicht gemeldeten User Agents von Perplexity werden durch das Bot-Management von Cloudflare erkannt und blockiert
- Bestehende Bot-Blockierungs- oder Challenge-Regeln schützende Kunden sind bereits abgesichert
- Regeln zur Blockierung von Stealth-Crawlern stehen allen Kunden (einschließlich kostenloser Accounts) über ein Administrations-Policy-Set zur Verfügung
- Nach der Veröffentlichung von Content Independence Day haben mehr als 2,500.000 Websites Richtlinien zur Sperrung von KI-Crawling angewendet
- Cloudflare entwickelt seine Gegenmaßnahmen und Technologien kontinuierlich weiter, um mit den sich weiterentwickelnden Umgehungsversuchen von Bot-Betreibern Schritt zu halten
Politische Bemühungen und Ausblick
- Cloudflare beteiligt sich aktiv an Diskussionen zur Standardisierung von robots.txt-Erweiterungen zusammen mit Technik- und Politikfachleuten weltweit sowie mit Organisationen wie der IETF
- Ziel ist es, Regeln für vertrauenswürdige Crawler zu etablieren und in einem sich schnell verändernden AI- und Crawler-Umfeld auf Transparenz und Rechtstreue zu setzen
Noch keine Kommentare.