- Mit dem Anstieg von Traffic durch AI-Crawler und Agents wandelt sich die Struktur von Webinhalten dahin, dass sie nicht nur von Menschen, sondern auch direkt von Maschinen konsumiert werden
- Die Umwandlung von HTML in Markdown reduziert den Token-Verbrauch um etwa 80 %, was Kosten senkt und die Verarbeitung effizienter macht
- Unterstützt wird eine Echtzeit-Konvertierung von HTML zu Markdown auf Netzwerkebene auf Basis des Headers
Accept: text/markdown
- Über die Header
x-markdown-tokens und Content-Signal werden geschätzte Token-Anzahlen und Richtlinien zur AI-Nutzung gemeinsam bereitgestellt
- Die Art und Weise, wie AI-Bots Inhalte konsumieren, kann in Radar nachverfolgt werden; die Funktion ist kostenlos in der Beta für Pro-Pläne und höher verfügbar
Hintergrund: Web-Traffic verlagert sich zu AI-Agents
- Die Art, wie Online-Inhalte gefunden werden, verschiebt sich schnell von einer traditionellen, suchmaschinenzentrierten Struktur hin zu einer Struktur rund um AI-Crawler und Agents
- Früher bestimmte SEO den Traffic, heute treten AI-Systeme, die strukturierte Daten verlangen, als wichtigste Konsumenten auf
- Unternehmen müssen nicht mehr nur menschliche Besucher, sondern auch Agents als First-Class-Citizen berücksichtigen
- Das bisherige Web basiert auf HTML-Strukturen, die für Menschen entworfen wurden und für AI zu viele unnötige Elemente enthalten
Warum Markdown
- HTML ist durch
<div>, <script>, Navigationselemente und andere Bestandteile ohne semantische Relevanz eine tokenineffiziente Struktur
- Beispiel:
## About Us benötigt etwa 3 Token, dasselbe als HTML <h2 class="section-title"...> verbraucht 12 bis 15 Token
- Laut dem Blogbeitrag selbst sinkt der Umfang von 16.180 HTML-Token auf 3.150 Markdown-Token, also um rund 80 %
- Markdown bietet eine explizite Struktur und verbessert damit die Effizienz der AI-Verarbeitung und die Qualität der Ergebnisse
- Die meisten heutigen AI-Pipelines enthalten bereits einen Schritt zur Konvertierung von HTML in Markdown, was jedoch
- die Rechenkosten erhöht
- die Verarbeitung komplexer macht
- von der Intention der Autorinnen und Autoren abweichen kann
Markdown for Agents: automatische Konvertierung auf Netzwerkebene
- Im Cloudflare-Netzwerk wird eine Echtzeit-Konvertierung von HTML zu Markdown unterstützt
- In aktivierten Zonen funktioniert dies auf Basis von Content Negotiation
- Wenn der Client eine Anfrage mit dem Header
Accept: text/markdown sendet, dann
- wird das ursprüngliche HTML vom Origin abgerufen
- im Netzwerk in Markdown umgewandelt und zurückgegeben
- Beispiel für die Antwort
content-type: text/markdown
vary: accept
- inklusive Header
x-markdown-tokens: 725
x-markdown-tokens liefert eine geschätzte Token-Anzahl des Markdown-Dokuments
- nutzbar für die Berechnung von Context Windows
- und für die Entscheidung über Chunking-Strategien
Anbindung an die Content Signals Policy
- Integration mit dem Content Signals Framework
- Markdown-Antworten enthalten standardmäßig
- den Header
Content-Signal: ai-train=yes, search=yes, ai-input=yes
- Damit lässt sich festlegen, ob die Nutzung für AI-Training, Suche und Agent-Input erlaubt ist
- Benutzerdefinierte Richtlinienoptionen sind für die Zukunft geplant
Einsatzbeispiele: Cloudflare Blog und Developer Docs
- Die Funktion ist für die Developer Documentation und den Blog aktiviert
- Bei Anfragen mit
curl -H "Accept: text/markdown" wird Markdown zurückgegeben
- Am Anfang der Antwort ist YAML-Metadaten enthalten
- title
- description
- image sowie weitere strukturierte Informationen
Konvertierung externer Dokumente außerhalb von Cloudflare
- Workers AI
AI.toMarkdown()
- unterstützt die Konvertierung und Zusammenfassung verschiedener Dokumentformate einschließlich HTML
- Browser Rendering
/markdown REST API
- unterstützt die Umwandlung in Markdown nach echtem Browser-Rendering
- kann dynamische Seiten verarbeiten
Nachverfolgung der Markdown-Nutzung: Cloudflare Radar
- In Radar AI Insights wurde die Dimension
content_type ergänzt
- damit lässt sich die Verteilung der MIME-Typen der an AI-Bots und Crawler ausgelieferten Inhalte prüfen
- Markdown-Anfragen können nach bestimmten Agents gefiltert werden
- zum Beispiel OAI-Searchbot (GPTBot)
- Auf die Daten kann über die öffentliche API und den Data Explorer zugegriffen werden
Erste Schritte und Verfügbarkeit
- In der Cloudflare Dashboard: Zone auswählen → Funktion in Quick Actions aktivieren
- Verfügbar für Pro-, Business- und Enterprise-Pläne sowie für Kundinnen und Kunden von SSL for SaaS
- Derzeit in der Beta und kostenlos verfügbar
- Weitere Details finden sich in den Developer Docs
Noch keine Kommentare.