Im Zeitalter der AI-Crawler: Wie man mit Logfile-Analyse blinde Flecken der Suchsichtbarkeit erkennt
(searchengineland.com)Wir leben in einer Zeit, in der AI-Suchsysteme (ChatGPT, Claude, Perplexity usw.) das Web crawlen und Antworten generieren. Offizielle Tools, die wie die Google Search Console zeigen, wie AI-Plattformen meine Website erfassen, gibt es jedoch kaum. Dieser Artikel erklärt, dass Server-Logfiles praktisch das einzige Mittel sind, um diese Lücke zu schließen, und behandelt konkrete Methoden, um Verhaltensmuster von AI-Crawlern zu analysieren und darauf zu reagieren.
Die Sichtbarkeitslücke in der AI-Suche
- Unterschied zwischen klassischem SEO und AI-Suche: In der Google-Suche lassen sich Impressionen, Klicks, Indexierungsstatus und Crawling-Daten prüfen, in AI-Suchsystemen existiert eine solche Feedback-Schleife jedoch gar nicht.
- Die Rolle von Logfiles: Server-Logs erfassen jede Anfrage, jede URL und jeden Crawler ungefiltert und sind damit die roheste, aber auch verlässlichste Datenquelle, um zu verstehen, wie AI-Systeme tatsächlich auf meine Website zugreifen.
- Neue Tools entstehen: In den Bing Webmaster Tools werden inzwischen Copilot-bezogene Insights angeboten, und spezialisierte Plattformen für AI-Sichtbarkeit wie Scrunch oder Profound sind ebenfalls erschienen. Die meisten bieten jedoch nur begrenzte Zeitfenster, was die Analyse langfristiger Muster einschränkt.
Zwei Arten von AI-Crawlern
- Training-Crawler: Dazu gehören GPTBot, ClaudeBot, CCBot und Google-Extended. Sie sammeln Inhalte für den Aufbau großer Datensätze und das Modelltraining. Da sie unabhängig von Echtzeit-Anfragen nur sporadisch aktiv sind, lässt sich ihre Aktivität anhand kurzer Logzeiträume nur schwer beurteilen.
- Retrieval-/Antwort-Crawler: Dazu gehören ChatGPT-User und PerplexityBot. Sie greifen selektiv auf bestimmte URLs zu, um auf Echtzeitfragen von Nutzern zu reagieren. Ihr Aktivitätsvolumen ist gering und schwer vorherzusagen, aber wie weit sie in eine Website vordringen, ist ein wichtiger Hinweis darauf, ob meine Inhalte in AI-Antworten einfließen.
Wichtige Muster, die man in Logfiles prüfen sollte
- Zugriff überhaupt vorhanden (Discovery): Wenn AI-Crawler in den Logs gar nicht auftauchen, kann das auf eine Blockierung in
robots.txt, Rate Limits auf CDN-Ebene oder darauf hindeuten, dass die Website selbst nicht entdeckt wurde. - Crawl-Tiefe (Crawl Depth): AI-Crawler bleiben oft auf der Startseite oder in übergeordneten Navigationsseiten hängen. Erreichen sie keine tieferen Unterseiten, fällt es AI-Systemen schwer, den Gesamtkontext der Website zu erfassen.
- Crawl-Pfade (Crawl Paths): Bei JavaScript-basierter Navigation oder schwacher interner Verlinkung schrumpft der für AI-Crawler erreichbare Bereich deutlich. Ein erheblicher Teil der Website kann dadurch faktisch unsichtbar werden.
- Crawl-Reibung (Crawl Friction): Wenn AI-Crawler auf Antwortcodes wie 403 (gesperrt), 429 (Rate Limit) oder Redirect-Ketten stoßen, kann ihre ohnehin begrenzte Aktivität noch weiter eingeschränkt werden.
Praktische Analyse in der Arbeitspraxis
- Der Einstieg beginnt damit, die Access-Logs der Hosting-Umgebung zu exportieren. Mit Tools wie dem Screaming Frog Log File Analyzer lassen sich Daten nach User-Agent (Crawler-Erkennungsstring), URL und Antwortcode strukturiert auswerten.
- Entscheidend ist die Segmentierung nach Crawler-Typen. Vergleicht man das Verhalten von AI-Crawlern direkt mit dem von Googlebot, werden Bereiche sichtbar, die von Google gut gecrawlt werden, für AI-Systeme aber blinde Flecken bleiben.
- Der Abgleich zwischen crawlbaren Seiten und tatsächlich gecrawlten Seiten hilft dabei, Seiten zu identifizieren, die technisch erreichbar sind, in der Praxis aber nie besucht wurden.
Strategie zur Log-Aufbewahrung für Langzeitanalysen
- Grenzen der Hosting-Umgebung: Die meisten Hosting-Anbieter speichern Logs nur für einige Stunden bis wenige Tage, was langfristiges Tracking erschwert.
- Nutzung externer Speicher: Werden Logs fortlaufend in Cloud-Speichern wie Amazon S3 oder Cloudflare R2 abgelegt, lassen sich Veränderungen im Crawl-Verhalten über die Zeit verfolgen.
- Automatisierung: Richtet man geplante Jobs ein, die Logs regelmäßig per SFTP abrufen — etwa mit Workflow-Tools wie n8n oder per Skript —, kann man ohne manuelle Arbeit ein analysierbares Datenset aufbauen.
Worauf man achten sollte
- Wenn ein CDN oder eine Sicherheits-Schicht (z. B. Cloudflare) im Einsatz ist, können manche Crawler-Anfragen blockiert werden, bevor sie den Origin-Server erreichen, und erscheinen dann nicht im Log. Aus fehlenden Logeinträgen allein lässt sich daher nicht sicher schließen, dass es keinen Zugriffsversuch gab.
- Logging auf Edge-Ebene (also Log-Erfassung direkt auf CDN-Ebene) kann diese Lücke zu einem großen Teil schließen.
Das Ziel der Optimierung ist nicht mehr nur ein einziger Crawler
Da AI-Systeme immer stärker in die Entdeckung und Verbreitung von Inhalten eingreifen, ist Suchsichtbarkeit längst nicht mehr nur eine Frage von Googlebot allein. Logfile-Analyse ist keine spektakuläre Technik, aber ihr praktischer Wert ist hoch, weil sie fast das einzige Fenster darstellt, durch das sich das Verhalten von AI-Crawlern beobachten lässt. Der Abstand zwischen Teams, die jetzt mit dem Messen beginnen, und denen, die es nicht tun, könnte erst dann wirklich spürbar werden, wenn AI-Suche die Traffic-Ströme grundlegend zu verschieben beginnt.
Noch keine Kommentare.