11 Punkte von GN⁺ 2026-03-11 | 5 Kommentare | Auf WhatsApp teilen
  • Cloudflare stellt den neuen /crawl-Endpunkt von Browser Rendering als Open Beta bereit, mit dem sich eine gesamte Website mit nur einem API-Aufruf crawlen lässt
  • Nach dem Übermitteln einer Start-URL werden Seiten automatisch entdeckt und in einem Headless-Browser gerendert; die Ergebnisse werden als HTML, Markdown oder JSON zurückgegeben
  • Mit strukturierter JSON-Ausgabe auf Basis von Workers AI, Bereichssteuerung wie Crawl-Tiefe, Seitenlimits und Wildcard-Mustern sowie Funktionen wie inkrementellem Crawling und statischem Modus bietet der Dienst vielfältige Möglichkeiten
  • robots.txt-Regeln werden eingehalten, außerdem wird crawl-delay unterstützt, um unnatürlichen Traffic zu vermeiden
  • Einsetzbar für Modelltraining, den Aufbau von RAG-Pipelines sowie für standortweite Inhaltsrecherche und Monitoring

Überblick über den /crawl-Endpunkt

  • Der neu zu Cloudflares Browser-Rendering-Dienst hinzugefügte /crawl-Endpunkt ermöglicht es, mit einem einzigen API-Aufruf eine komplette Website zu durchsuchen und Inhalte zu erfassen
    • Nutzer übermitteln eine Start-URL, woraufhin das System automatisch Links verfolgt, Seiten rendert und die Ergebnisse zurückgibt
    • Als Ausgabeformate stehen HTML, Markdown oder strukturiertes JSON zur Wahl
  • Die Funktion wird derzeit als Open Beta angeboten und ist sowohl in den Workers Free- als auch Paid-Plänen verfügbar
  • Crawl-Jobs werden asynchron ausgeführt
    • Nach dem Einreichen einer URL erhält man eine Job-ID und kann die Ergebnisse nach Abschluss der Verarbeitung abrufen
    • Die Seiten werden nacheinander verarbeitet, und abgeschlossene Ergebnisse lassen sich schrittweise einsehen

Wichtige Funktionen

  • Unterstützung mehrerer Ausgabeformate
    • Rückgabe der Ergebnisse in Formaten wie HTML, Markdown und JSON
    • Das JSON-Format wird über Workers AI als strukturierte Daten bereitgestellt
  • Bereichssteuerung für Crawls
    • Crawl-Tiefe, Seitenlimit sowie Ein-/Ausschluss von URL-Mustern lassen sich festlegen
  • Automatische Seitenerkennung
    • Automatische URL-Erkennung auf Basis von Sitemaps, Seitenlinks oder beidem
  • Inkrementelles Crawling
    • Mit den Parametern modifiedSince und maxAge lassen sich unveränderte Seiten überspringen, um Zeit und Kosten zu sparen
  • Statischer Modus
    • Bei render: false wird kein Browser gestartet; stattdessen wird nur statisches HTML abgerufen, was schnelles Crawling statischer Websites ermöglicht
  • Bots mit gutem Verhalten
    • Die Vorgaben aus robots.txt werden eingehalten, und auch crawl-delay wird erkannt

Einsatzmöglichkeiten und Referenzdokumente

  • Der Endpunkt ist nützlich für die Erfassung von Trainingsdaten für Modelle, den Aufbau von RAG-Pipelines sowie für Recherche und Monitoring von Website-Inhalten
  • Nutzer können die Einstellungen in der Dokumentation zum Crawl-Endpunkt nachschlagen
  • Wer die eigene Website als Crawl-Ziel einrichtet, sollte die Best Practices zu robots.txt und Sitemap prüfen

Verfügbare Pläne

  • Verfügbar in den Workers Free- und Paid-Plänen

5 Kommentare

 
hmmhmmhm 2026-03-11

Ich habe es kurz ausprobiert, aber es scheint keine Bot-Sperren umgehen zu können. Vorerst werde ich wohl weiterhin eher apify oder zyte nutzen .. haha

 
xguru 2026-03-11

Umgeht das auch die Bot-Blockierfunktion von Cloudflare?
Verkaufen sie also sowohl Speere als auch Schilde??
Irgendwie wirkt das seltsam, haha

 
eoeoe 2026-03-12

Das ist ja der Beginn von Moduui Mabeul, haha
Irgendeine Fähigkeit, die irgendeine Karte verteidigt, irgendeine Spezialfähigkeit außer Kraft setzt ...

 
cnaa97 2026-03-11

Hahaha, irgendwie ist das schon lustig.

 
GN⁺ 2026-03-11
Hacker-News-Kommentare
  • Meiner Erfahrung nach funktioniert das nicht auf Seiten, die durch Cloudflare geschützt sind
    Leider ist das so, als würde man das Problem selbst schaffen und dann die Lösung dafür wieder verkaufen

    • Vielleicht ist es in Ordnung, solange man nur Azures bot protection passieren muss
  • Es ist überraschend, dass Cloudflare keine vorab gescrapte Version von Websites hostet, die seinen Proxy verwenden
    Zum Beispiel könnte man etwas wie https://www.example.com/cdn-cgi/cached-contents.json anbieten; da der Inhalt ohnehin schon im Cache liegt, bräuchte man meiner Meinung nach keinen separaten Scraping-Dienst oder eine API
    Natürlich wird es Gründe geben, das nicht zu tun, aber es überrascht mich, dass es nicht als Standardoption angeboten wird

    • Einen solchen Cache-Dump öffentlich zu machen, würde die Annahmen des Ursprungs über Privatsphäre und Urheberrecht vollständig aushebeln
      Man könnte Zugriffskontrollen einbauen, aber das wäre letztlich nur eine neue, unnötig komplexe CDN-API, die niemand wollte, und würde außerdem rechtliche Probleme schaffen
      Von „bequemem JSON“ bis zu „die gesamte Website an einen AI-Scraper ausliefern“ ist es nur ein kleiner Schritt
    • Die Umwandlung in JSON kostet CPU, und wenn man das Ergebnis speichert, verdoppelt sich der Cache-Platzbedarf
      Wenn man nur bei Bedarf umwandelt, kann man die Zahl der Ursprungsanfragen reduzieren und gleichzeitig die Cache-Effizienz erhalten
      Als ich bei einem CDN gearbeitet habe, haben wir zur Verbesserung der Cache-Hit-Rate second hit caching verwendet — also das Speichern erst dann, wenn die zweite Anfrage eingeht
    • Es ist nicht exakt dasselbe, aber Cloudflare bietet bereits etwas Ähnliches an
      Wenn man Markdown for Agents aktiviert, wird HTML in Echtzeit in Markdown umgewandelt, wenn ein AI-System text/markdown anfordert
    • Tatsächlich ist es gut möglich, dass intern bereits auf diese Weise öffentliche Inhalte cachebasiert bereitgestellt werden
    • Für einfache Websites würde so ein Ansatz funktionieren, aber für komplexe Seiten wie SPAs braucht man weiterhin einen Scraping-Dienst mit Browser-Rendering
  • Dass Cloudflare gleichzeitig Abwehr gegen Scraping und einen Scraping-Dienst verkauft, wirkt fast wie organisierte Kriminalität
    Möglich ist das nur dank seines Einflusses auf das gesamte Internet

    • Nein, ist es nicht. Das wird in der offiziellen Dokumentation erklärt
    • Das kostenlose DNS ist nur ein Teil des Ganzen; die eigentliche Macht liegt in Caching-, Routing- und DDoS-Schutzdiensten
      DNS dient der Datensammlung und dem „guten Image“
    • Sie haben nicht einfach nur Schutz vor Scraping verkauft, sondern webbasierte DDoS-Abwehr
    • Cloudflare scheint die Rolle eines Vermittlers zwischen Publishern und AI-Unternehmen einnehmen zu wollen
      Publisher stehen hinter Cloudflare, und wenn AI-Unternehmen an die Daten wollen, sollen sie über Cloudflare gegen Bezahlung darauf zugreifen
      Die Hauptkundschaft sind nicht normale Nutzer, sondern AI-Unternehmen
    • Der Endpunkt /crawl respektiert robots.txt
      Das heißt, für URLs, die nicht gecrawlt werden dürfen, steht in der Antwort "status": "disallowed"
  • Einen strukturierten crawl endpoint bereitzustellen, wirkt wie eine natürliche Weiterentwicklung von robots.txt oder sitemap
    Wenn mehr Websites solche maschinell lesbaren Einstiegspunkte bereitstellen, würde das Indexieren viel effizienter werden
    Im Moment verschwenden Crawler viel Aufwand damit, dieselben Strukturen immer wieder neu zu erkunden

    • Wenn wir weiterhin REST verwendet hätten, wäre die Verschwendung beim Indexieren wahrscheinlich deutlich geringer
      Ich bevorzuge es, APIs menschenzentriert zu entwerfen und die Optimierung darauf den LLM-Anbietern zu überlassen
    • Tatsächlich erfüllt semantisches HTML diese Rolle bereits
      HTML und DOM sind ihrem Wesen nach Strukturen zum maschinellen Lesen
      Man muss nichts Neues erfinden, sondern nur vorhandene Technik richtig nutzen
    • Von ineffizientem Crawling profitieren letztlich nur Anbieter von Anti-Bot-Lösungen
    • Solche Strukturen könnten allerdings Supply-Chain-Angriffe verschärfen
      Sie könnten missbraucht werden, indem Menschen eine normale Seite sehen, Bots aber eine andere
    • Am Ende führt es grundsätzlich zu Problemen, Crawlern und Menschen unterschiedliche Inhalte zu zeigen
  • Dafür wäre es für Web-Archivierung nützlich gewesen; schade, dass es keine Unterstützung für das WARC-Format gibt
    Für Journalisten oder Forschende wäre das hilfreich gewesen

  • Der Ursprungsserver kann Browser-Rendering-Anfragen von Cloudflare weiterhin erkennen und blockieren
    Man kann sie am CF-Worker-Header unterscheiden und sie in WAF-Regeln oder Middleware filtern
    Diese Anfragen kommen allerdings von Cloudflare ASN 13335 und haben einen niedrigen bot score, daher greifen einfache punktzahlbasierte Abwehrmechanismen nicht
    Letztlich sind Rate-Limits auf Anwendungsebene und Verhaltensanalyse wirksamer
    Dieser strukturelle Konflikt existiert zwar, ist aber vergleichbar mit Suchmaschinen, die Webmaster-Tools bereitstellen

    • Sie halten sich an robots.txt, also ist das der einfachste Weg
  • Ich habe mich gefragt, ob dieser Crawler vor oder hinter der Bot-Blockierlogik arbeitet

  • Ich dachte, es wäre gut, wenn ich eine sauber gecrawlte Version meiner Website bereitstellen könnte
    Wenn man Website-Betreibern so eine Funktion gäbe, könnten Crawler einfach gegen Zahlung der Transferkosten darauf zugreifen
    Man könnte es vielleicht auch umsetzen, indem man einen Crawl-Job gegen die eigene Website laufen lässt und das Ergebnis unter einer static.-Subdomain anbietet

    • Ich bin mir aber nicht sicher, wofür das gut wäre
      Wenn die Seite statisch ist, kann man sie einfach als HTML rendern und hosten; wenn sie dynamisch ist, ist fraglich, welchen Sinn ein Snapshot überhaupt hätte
      Vielleicht wäre es sinnvoller, einfach Caching hinzuzufügen
  • Es fühlt sich an, als würde Cloudflare derzeit alle coolen Features abräumen
    Ich frage mich, was AWS eigentlich macht

  • Diese Funktion ist wirklich beeindruckend
    Cloudflare bewegt sich dem zukünftigen Kurs voraus