- Cloudflare stellt den neuen /crawl-Endpunkt von Browser Rendering als Open Beta bereit, mit dem sich eine gesamte Website mit nur einem API-Aufruf crawlen lässt
- Nach dem Übermitteln einer Start-URL werden Seiten automatisch entdeckt und in einem Headless-Browser gerendert; die Ergebnisse werden als HTML, Markdown oder JSON zurückgegeben
- Mit strukturierter JSON-Ausgabe auf Basis von Workers AI, Bereichssteuerung wie Crawl-Tiefe, Seitenlimits und Wildcard-Mustern sowie Funktionen wie inkrementellem Crawling und statischem Modus bietet der Dienst vielfältige Möglichkeiten
- robots.txt-Regeln werden eingehalten, außerdem wird crawl-delay unterstützt, um unnatürlichen Traffic zu vermeiden
- Einsetzbar für Modelltraining, den Aufbau von RAG-Pipelines sowie für standortweite Inhaltsrecherche und Monitoring
Überblick über den /crawl-Endpunkt
- Der neu zu Cloudflares Browser-Rendering-Dienst hinzugefügte /crawl-Endpunkt ermöglicht es, mit einem einzigen API-Aufruf eine komplette Website zu durchsuchen und Inhalte zu erfassen
- Nutzer übermitteln eine Start-URL, woraufhin das System automatisch Links verfolgt, Seiten rendert und die Ergebnisse zurückgibt
- Als Ausgabeformate stehen HTML, Markdown oder strukturiertes JSON zur Wahl
- Die Funktion wird derzeit als Open Beta angeboten und ist sowohl in den Workers Free- als auch Paid-Plänen verfügbar
- Crawl-Jobs werden asynchron ausgeführt
- Nach dem Einreichen einer URL erhält man eine Job-ID und kann die Ergebnisse nach Abschluss der Verarbeitung abrufen
- Die Seiten werden nacheinander verarbeitet, und abgeschlossene Ergebnisse lassen sich schrittweise einsehen
Wichtige Funktionen
- Unterstützung mehrerer Ausgabeformate
- Rückgabe der Ergebnisse in Formaten wie HTML, Markdown und JSON
- Das JSON-Format wird über Workers AI als strukturierte Daten bereitgestellt
- Bereichssteuerung für Crawls
- Crawl-Tiefe, Seitenlimit sowie Ein-/Ausschluss von URL-Mustern lassen sich festlegen
- Automatische Seitenerkennung
- Automatische URL-Erkennung auf Basis von Sitemaps, Seitenlinks oder beidem
- Inkrementelles Crawling
- Mit den Parametern
modifiedSince und maxAge lassen sich unveränderte Seiten überspringen, um Zeit und Kosten zu sparen
- Statischer Modus
- Bei
render: false wird kein Browser gestartet; stattdessen wird nur statisches HTML abgerufen, was schnelles Crawling statischer Websites ermöglicht
- Bots mit gutem Verhalten
- Die Vorgaben aus robots.txt werden eingehalten, und auch crawl-delay wird erkannt
Einsatzmöglichkeiten und Referenzdokumente
Verfügbare Pläne
- Verfügbar in den Workers Free- und Paid-Plänen
5 Kommentare
Ich habe es kurz ausprobiert, aber es scheint keine Bot-Sperren umgehen zu können. Vorerst werde ich wohl weiterhin eher
apifyoderzytenutzen .. hahaUmgeht das auch die Bot-Blockierfunktion von Cloudflare?
Verkaufen sie also sowohl Speere als auch Schilde??
Irgendwie wirkt das seltsam, haha
Das ist ja der Beginn von Moduui Mabeul, haha
Irgendeine Fähigkeit, die irgendeine Karte verteidigt, irgendeine Spezialfähigkeit außer Kraft setzt ...
Hahaha, irgendwie ist das schon lustig.
Hacker-News-Kommentare
Meiner Erfahrung nach funktioniert das nicht auf Seiten, die durch Cloudflare geschützt sind
Leider ist das so, als würde man das Problem selbst schaffen und dann die Lösung dafür wieder verkaufen
Es ist überraschend, dass Cloudflare keine vorab gescrapte Version von Websites hostet, die seinen Proxy verwenden
Zum Beispiel könnte man etwas wie https://www.example.com/cdn-cgi/cached-contents.json anbieten; da der Inhalt ohnehin schon im Cache liegt, bräuchte man meiner Meinung nach keinen separaten Scraping-Dienst oder eine API
Natürlich wird es Gründe geben, das nicht zu tun, aber es überrascht mich, dass es nicht als Standardoption angeboten wird
Man könnte Zugriffskontrollen einbauen, aber das wäre letztlich nur eine neue, unnötig komplexe CDN-API, die niemand wollte, und würde außerdem rechtliche Probleme schaffen
Von „bequemem JSON“ bis zu „die gesamte Website an einen AI-Scraper ausliefern“ ist es nur ein kleiner Schritt
Wenn man nur bei Bedarf umwandelt, kann man die Zahl der Ursprungsanfragen reduzieren und gleichzeitig die Cache-Effizienz erhalten
Als ich bei einem CDN gearbeitet habe, haben wir zur Verbesserung der Cache-Hit-Rate second hit caching verwendet — also das Speichern erst dann, wenn die zweite Anfrage eingeht
Wenn man Markdown for Agents aktiviert, wird HTML in Echtzeit in Markdown umgewandelt, wenn ein AI-System
text/markdownanfordertDass Cloudflare gleichzeitig Abwehr gegen Scraping und einen Scraping-Dienst verkauft, wirkt fast wie organisierte Kriminalität
Möglich ist das nur dank seines Einflusses auf das gesamte Internet
DNS dient der Datensammlung und dem „guten Image“
Publisher stehen hinter Cloudflare, und wenn AI-Unternehmen an die Daten wollen, sollen sie über Cloudflare gegen Bezahlung darauf zugreifen
Die Hauptkundschaft sind nicht normale Nutzer, sondern AI-Unternehmen
/crawlrespektiertrobots.txtDas heißt, für URLs, die nicht gecrawlt werden dürfen, steht in der Antwort
"status": "disallowed"Einen strukturierten crawl endpoint bereitzustellen, wirkt wie eine natürliche Weiterentwicklung von
robots.txtodersitemapWenn mehr Websites solche maschinell lesbaren Einstiegspunkte bereitstellen, würde das Indexieren viel effizienter werden
Im Moment verschwenden Crawler viel Aufwand damit, dieselben Strukturen immer wieder neu zu erkunden
Ich bevorzuge es, APIs menschenzentriert zu entwerfen und die Optimierung darauf den LLM-Anbietern zu überlassen
HTML und DOM sind ihrem Wesen nach Strukturen zum maschinellen Lesen
Man muss nichts Neues erfinden, sondern nur vorhandene Technik richtig nutzen
Sie könnten missbraucht werden, indem Menschen eine normale Seite sehen, Bots aber eine andere
Dafür wäre es für Web-Archivierung nützlich gewesen; schade, dass es keine Unterstützung für das WARC-Format gibt
Für Journalisten oder Forschende wäre das hilfreich gewesen
Der Ursprungsserver kann Browser-Rendering-Anfragen von Cloudflare weiterhin erkennen und blockieren
Man kann sie am
CF-Worker-Header unterscheiden und sie in WAF-Regeln oder Middleware filternDiese Anfragen kommen allerdings von Cloudflare ASN 13335 und haben einen niedrigen bot score, daher greifen einfache punktzahlbasierte Abwehrmechanismen nicht
Letztlich sind Rate-Limits auf Anwendungsebene und Verhaltensanalyse wirksamer
Dieser strukturelle Konflikt existiert zwar, ist aber vergleichbar mit Suchmaschinen, die Webmaster-Tools bereitstellen
robots.txt, also ist das der einfachste WegIch habe mich gefragt, ob dieser Crawler vor oder hinter der Bot-Blockierlogik arbeitet
Ich dachte, es wäre gut, wenn ich eine sauber gecrawlte Version meiner Website bereitstellen könnte
Wenn man Website-Betreibern so eine Funktion gäbe, könnten Crawler einfach gegen Zahlung der Transferkosten darauf zugreifen
Man könnte es vielleicht auch umsetzen, indem man einen Crawl-Job gegen die eigene Website laufen lässt und das Ergebnis unter einer
static.-Subdomain anbietetWenn die Seite statisch ist, kann man sie einfach als HTML rendern und hosten; wenn sie dynamisch ist, ist fraglich, welchen Sinn ein Snapshot überhaupt hätte
Vielleicht wäre es sinnvoller, einfach Caching hinzuzufügen
Es fühlt sich an, als würde Cloudflare derzeit alle coolen Features abräumen
Ich frage mich, was AWS eigentlich macht
Diese Funktion ist wirklich beeindruckend
Cloudflare bewegt sich dem zukünftigen Kurs voraus