Cloudflare führt /crawl ein und unterstützt das Crawlen ganzer Websites mit einem einzigen API-Aufruf

(developers.cloudflare.com)

11 Punkte von GN⁺ 2026-03-11 | 5 Kommentare | Auf WhatsApp teilen

Cloudflare stellt den neuen /crawl-Endpunkt von Browser Rendering als Open Beta bereit, mit dem sich eine gesamte Website mit nur einem API-Aufruf crawlen lässt
Nach dem Übermitteln einer Start-URL werden Seiten automatisch entdeckt und in einem Headless-Browser gerendert; die Ergebnisse werden als HTML, Markdown oder JSON zurückgegeben
Mit strukturierter JSON-Ausgabe auf Basis von Workers AI, Bereichssteuerung wie Crawl-Tiefe, Seitenlimits und Wildcard-Mustern sowie Funktionen wie inkrementellem Crawling und statischem Modus bietet der Dienst vielfältige Möglichkeiten
robots.txt-Regeln werden eingehalten, außerdem wird crawl-delay unterstützt, um unnatürlichen Traffic zu vermeiden
Einsetzbar für Modelltraining, den Aufbau von RAG-Pipelines sowie für standortweite Inhaltsrecherche und Monitoring

Überblick über den /crawl-Endpunkt

Der neu zu Cloudflares Browser-Rendering-Dienst hinzugefügte /crawl-Endpunkt ermöglicht es, mit einem einzigen API-Aufruf eine komplette Website zu durchsuchen und Inhalte zu erfassen
- Nutzer übermitteln eine Start-URL, woraufhin das System automatisch Links verfolgt, Seiten rendert und die Ergebnisse zurückgibt
- Als Ausgabeformate stehen HTML, Markdown oder strukturiertes JSON zur Wahl
Die Funktion wird derzeit als Open Beta angeboten und ist sowohl in den Workers Free- als auch Paid-Plänen verfügbar
Crawl-Jobs werden asynchron ausgeführt
- Nach dem Einreichen einer URL erhält man eine Job-ID und kann die Ergebnisse nach Abschluss der Verarbeitung abrufen
- Die Seiten werden nacheinander verarbeitet, und abgeschlossene Ergebnisse lassen sich schrittweise einsehen

Wichtige Funktionen

Unterstützung mehrerer Ausgabeformate
- Rückgabe der Ergebnisse in Formaten wie HTML, Markdown und JSON
- Das JSON-Format wird über Workers AI als strukturierte Daten bereitgestellt
Bereichssteuerung für Crawls
- Crawl-Tiefe, Seitenlimit sowie Ein-/Ausschluss von URL-Mustern lassen sich festlegen
Automatische Seitenerkennung
- Automatische URL-Erkennung auf Basis von Sitemaps, Seitenlinks oder beidem
Inkrementelles Crawling
- Mit den Parametern modifiedSince und maxAge lassen sich unveränderte Seiten überspringen, um Zeit und Kosten zu sparen
Statischer Modus
- Bei render: false wird kein Browser gestartet; stattdessen wird nur statisches HTML abgerufen, was schnelles Crawling statischer Websites ermöglicht
Bots mit gutem Verhalten
- Die Vorgaben aus robots.txt werden eingehalten, und auch crawl-delay wird erkannt

Einsatzmöglichkeiten und Referenzdokumente

Der Endpunkt ist nützlich für die Erfassung von Trainingsdaten für Modelle, den Aufbau von RAG-Pipelines sowie für Recherche und Monitoring von Website-Inhalten
Nutzer können die Einstellungen in der Dokumentation zum Crawl-Endpunkt nachschlagen
Wer die eigene Website als Crawl-Ziel einrichtet, sollte die Best Practices zu robots.txt und Sitemap prüfen

Verfügbare Pläne

Verfügbar in den Workers Free- und Paid-Plänen

5 Kommentare

hmmhmmhm 2026-03-11

Ich habe es kurz ausprobiert, aber es scheint keine Bot-Sperren umgehen zu können. Vorerst werde ich wohl weiterhin eher apify oder zyte nutzen .. haha

xguru 2026-03-11

Umgeht das auch die Bot-Blockierfunktion von Cloudflare?
Verkaufen sie also sowohl Speere als auch Schilde??
Irgendwie wirkt das seltsam, haha

eoeoe 2026-03-12

Das ist ja der Beginn von Moduui Mabeul, haha
Irgendeine Fähigkeit, die irgendeine Karte verteidigt, irgendeine Spezialfähigkeit außer Kraft setzt ...

cnaa97 2026-03-11

Hahaha, irgendwie ist das schon lustig.

GN⁺ 2026-03-11

Hacker-News-Kommentare

Meiner Erfahrung nach funktioniert das nicht auf Seiten, die durch Cloudflare geschützt sind
Leider ist das so, als würde man das Problem selbst schaffen und dann die Lösung dafür wieder verkaufen
- Vielleicht ist es in Ordnung, solange man nur Azures bot protection passieren muss
Es ist überraschend, dass Cloudflare keine vorab gescrapte Version von Websites hostet, die seinen Proxy verwenden
Zum Beispiel könnte man etwas wie https://www.example.com/cdn-cgi/cached-contents.json anbieten; da der Inhalt ohnehin schon im Cache liegt, bräuchte man meiner Meinung nach keinen separaten Scraping-Dienst oder eine API
Natürlich wird es Gründe geben, das nicht zu tun, aber es überrascht mich, dass es nicht als Standardoption angeboten wird
- Einen solchen Cache-Dump öffentlich zu machen, würde die Annahmen des Ursprungs über Privatsphäre und Urheberrecht vollständig aushebeln
  Man könnte Zugriffskontrollen einbauen, aber das wäre letztlich nur eine neue, unnötig komplexe CDN-API, die niemand wollte, und würde außerdem rechtliche Probleme schaffen
  Von „bequemem JSON“ bis zu „die gesamte Website an einen AI-Scraper ausliefern“ ist es nur ein kleiner Schritt
- Die Umwandlung in JSON kostet CPU, und wenn man das Ergebnis speichert, verdoppelt sich der Cache-Platzbedarf
  Wenn man nur bei Bedarf umwandelt, kann man die Zahl der Ursprungsanfragen reduzieren und gleichzeitig die Cache-Effizienz erhalten
  Als ich bei einem CDN gearbeitet habe, haben wir zur Verbesserung der Cache-Hit-Rate second hit caching verwendet — also das Speichern erst dann, wenn die zweite Anfrage eingeht
- Es ist nicht exakt dasselbe, aber Cloudflare bietet bereits etwas Ähnliches an
  Wenn man Markdown for Agents aktiviert, wird HTML in Echtzeit in Markdown umgewandelt, wenn ein AI-System text/markdown anfordert
- Tatsächlich ist es gut möglich, dass intern bereits auf diese Weise öffentliche Inhalte cachebasiert bereitgestellt werden
- Für einfache Websites würde so ein Ansatz funktionieren, aber für komplexe Seiten wie SPAs braucht man weiterhin einen Scraping-Dienst mit Browser-Rendering
Dass Cloudflare gleichzeitig Abwehr gegen Scraping und einen Scraping-Dienst verkauft, wirkt fast wie organisierte Kriminalität
Möglich ist das nur dank seines Einflusses auf das gesamte Internet
- Nein, ist es nicht. Das wird in der offiziellen Dokumentation erklärt
- Das kostenlose DNS ist nur ein Teil des Ganzen; die eigentliche Macht liegt in Caching-, Routing- und DDoS-Schutzdiensten
  DNS dient der Datensammlung und dem „guten Image“
- Sie haben nicht einfach nur Schutz vor Scraping verkauft, sondern webbasierte DDoS-Abwehr
- Cloudflare scheint die Rolle eines Vermittlers zwischen Publishern und AI-Unternehmen einnehmen zu wollen
  Publisher stehen hinter Cloudflare, und wenn AI-Unternehmen an die Daten wollen, sollen sie über Cloudflare gegen Bezahlung darauf zugreifen
  Die Hauptkundschaft sind nicht normale Nutzer, sondern AI-Unternehmen
- Der Endpunkt /crawl respektiert robots.txt
  Das heißt, für URLs, die nicht gecrawlt werden dürfen, steht in der Antwort "status": "disallowed"
Einen strukturierten crawl endpoint bereitzustellen, wirkt wie eine natürliche Weiterentwicklung von robots.txt oder sitemap
Wenn mehr Websites solche maschinell lesbaren Einstiegspunkte bereitstellen, würde das Indexieren viel effizienter werden
Im Moment verschwenden Crawler viel Aufwand damit, dieselben Strukturen immer wieder neu zu erkunden
- Wenn wir weiterhin REST verwendet hätten, wäre die Verschwendung beim Indexieren wahrscheinlich deutlich geringer
  Ich bevorzuge es, APIs menschenzentriert zu entwerfen und die Optimierung darauf den LLM-Anbietern zu überlassen
- Tatsächlich erfüllt semantisches HTML diese Rolle bereits
  HTML und DOM sind ihrem Wesen nach Strukturen zum maschinellen Lesen
  Man muss nichts Neues erfinden, sondern nur vorhandene Technik richtig nutzen
- Von ineffizientem Crawling profitieren letztlich nur Anbieter von Anti-Bot-Lösungen
- Solche Strukturen könnten allerdings Supply-Chain-Angriffe verschärfen
  Sie könnten missbraucht werden, indem Menschen eine normale Seite sehen, Bots aber eine andere
- Am Ende führt es grundsätzlich zu Problemen, Crawlern und Menschen unterschiedliche Inhalte zu zeigen
Dafür wäre es für Web-Archivierung nützlich gewesen; schade, dass es keine Unterstützung für das WARC-Format gibt
Für Journalisten oder Forschende wäre das hilfreich gewesen
Der Ursprungsserver kann Browser-Rendering-Anfragen von Cloudflare weiterhin erkennen und blockieren
Man kann sie am CF-Worker-Header unterscheiden und sie in WAF-Regeln oder Middleware filtern
Diese Anfragen kommen allerdings von Cloudflare ASN 13335 und haben einen niedrigen bot score, daher greifen einfache punktzahlbasierte Abwehrmechanismen nicht
Letztlich sind Rate-Limits auf Anwendungsebene und Verhaltensanalyse wirksamer
Dieser strukturelle Konflikt existiert zwar, ist aber vergleichbar mit Suchmaschinen, die Webmaster-Tools bereitstellen
- Sie halten sich an robots.txt, also ist das der einfachste Weg
Ich habe mich gefragt, ob dieser Crawler vor oder hinter der Bot-Blockierlogik arbeitet
- Davor — siehe offizielle Dokumentation
Ich dachte, es wäre gut, wenn ich eine sauber gecrawlte Version meiner Website bereitstellen könnte
Wenn man Website-Betreibern so eine Funktion gäbe, könnten Crawler einfach gegen Zahlung der Transferkosten darauf zugreifen
Man könnte es vielleicht auch umsetzen, indem man einen Crawl-Job gegen die eigene Website laufen lässt und das Ergebnis unter einer static.-Subdomain anbietet
- Ich bin mir aber nicht sicher, wofür das gut wäre
  Wenn die Seite statisch ist, kann man sie einfach als HTML rendern und hosten; wenn sie dynamisch ist, ist fraglich, welchen Sinn ein Snapshot überhaupt hätte
  Vielleicht wäre es sinnvoller, einfach Caching hinzuzufügen
Es fühlt sich an, als würde Cloudflare derzeit alle coolen Features abräumen
Ich frage mich, was AWS eigentlich macht
Diese Funktion ist wirklich beeindruckend
Cloudflare bewegt sich dem zukünftigen Kurs voraus