29 Punkte von xguru 2024-05-29 | 3 Kommentare | Auf WhatsApp teilen
  • Vor Kurzem erhielt ich eine E-Mail von einer anonymen Quelle, dass eine große Menge von Googles Search-API-Dokumenten geleakt worden sei
  • Die Echtheit der Dokumente wurde von ehemaligen Google-Mitarbeitern bestätigt, und durch Gespräche mit einigen Ex-Google-Mitarbeitern kamen zusätzliche Informationen hinzu

Zentrale Behauptungen

  • Google hat wiederholt bestritten, klickbasierte Nutzersignale zu verwenden, doch die geleakten Dokumente widersprechen dem
  • Auch Googles Behauptungen, Subdomains nicht separat zu bewerten, keine Sandbox für neue Websites zu haben und das Domain-Alter nicht zu berücksichtigen, werden widerlegt
  • Das Google-Suchteam benötigte von Anfang an die Clickstream-Daten vieler Webnutzer (alle im Browser besuchten URLs), um die Qualität der Suchergebnisse zu verbessern
  • Das im DoJ zitierte NavBoost-System sammelte Daten aus dem Google-Toolbar-PageRank und war ein wesentlicher Beweggrund für die Entwicklung des Chrome-Browsers, um mehr Clickstream-Daten zu erhalten
  • NavBoost analysiert die Zahl der Suchanfragen zu bestimmten Keywords, Klicks auf Suchergebnisse sowie kurze und lange Klicks, um die Nutzerintention zu bewerten, und löst bei vielen Klicks auf Videos oder Bilder entsprechende Video- oder Bild-Features für NavBoost-bezogene Suchanfragen aus
  • Nutzung von Klickdaten: Google verwendet Cookie-Verläufe, Chrome-Daten eingeloggter Nutzer und Mustererkennung, um manuellen und automatisierten Klick-Spam zu verhindern, und analysiert Klicks und Engagement der Nutzer, um dies in die Suchergebnisse einfließen zu lassen
  • Bewertung der Website-Qualität: NavBoost-Daten werden verwendet, um die Gesamtqualität einer Website zu bewerten (genannt Panda); je nach Bewertung steigt oder fällt das Ranking
  • NavBoost bewertet Klickdaten unter Berücksichtigung geografischer Daten und differenziert dabei nach Ländern sowie Bundesstaaten/Provinzen
  • Auf Suchergebnisse zu COVID-19 und Wahlen werden Whitelists angewendet, um bestimmte Websites bevorzugt anzuzeigen

Überprüfung der Glaubwürdigkeit der Dokumente

  • Ein Teil davon überschneidet sich mit Informationen, die im Google/DoJ-Fall bekannt wurden, der Großteil ist jedoch neu
  • Die anonyme Quelle legte ihre Identität am 28.5. offen; es handelt sich um Erfan Azimi (SEO-Experte)
  • Bestätigung durch Ex-Google-Mitarbeiter: Zwei von drei ehemaligen Google-Mitarbeitern bestätigten die Glaubwürdigkeit der Dokumente
  • Technische Prüfung: Der technische SEO-Experte Mike King prüfte die Dokumente und bestätigte ihre Glaubwürdigkeit

Google API Contents Warehouse ?

  • Zweck dieser API-Dokumente: Sie sollen Google-Teammitgliedern helfen, die für Projekte verfügbaren Datenelemente zu verstehen
  • Leak-Pfad: Sie waren kurzzeitig öffentlich auf GitHub zugänglich, und in diesem Zeitraum wurden die Dokumente geleakt

Wichtige Erkenntnisse

#1: NavBoost und die Nutzung von Klickdaten

  • Filterung von Klickdaten: Google filtert Klickdaten, die im Ranking-System berücksichtigt werden, und misst Klickdauer und Impressionen.
  • Es gibt Methoden, Klicks herauszufiltern, die nicht in das Ranking-System einfließen sollen, und solche einzubeziehen, die berücksichtigt werden sollen
  • Offenbar werden Klickdauer (z. B. wenn ein Suchender auf ein Suchergebnis klickt, mit der gefundenen Antwort unzufrieden ist und schnell auf den Zurück-Button klickt) und Einblendungshäufigkeit gemessen

#2: Nutzung des Chrome-Browser-Clickstreams

  • Chrome-Clickstream-Daten: Google verwendet Klickdaten aus dem Chrome-Browser, um Sitelinks (beliebte URLs der jeweiligen Website) zu bestimmen

#3: Whitelists für Reisen, COVID und Politik

  • Vorhandensein von Whitelists: Bei Suchergebnissen zu Reisen, COVID und Wahlen werden bestimmte Domains bevorzugt angezeigt

#4: Nutzung von Feedback der Quality Rater

  • Quality-Rater-Daten: Es ist möglich, dass Bewertungen von Quality Ratern direkt im Suchsystem verwendet werden

#5: Nutzung von Klickdaten zur Bestimmung der Gewichtung im Link-Ranking

  • Klassifizierung des Link-Index: Mithilfe von Klickdaten wird der Link-Index in hohe, mittlere und niedrige Qualität eingeteilt

Wichtige Implikationen für Marketer

  • Bedeutung von Marken: Google berücksichtigt große Marken bevorzugt im Ranking
  • Geringere Bedeutung von E-E-A-T-Faktoren: Es ist möglich, dass die von einigen SEOs betonten Faktoren Erfahrung, Fachwissen, Autorität und Vertrauenswürdigkeit nicht direkt ins Ranking einfließen
    • Experience, Expertise, Authoritativeness, Trustworthiness
  • Nutzerintention und Klickmuster sind wichtigere Ranking-Faktoren als Inhalte und Links
  • Die Bedeutung traditioneller Ranking-Faktoren wie PageRank und Anchor-Text nimmt ab
  • Schwierigkeit von SEO: Für kleine und mittlere Unternehmen sowie neue Creator/Publisher wird es schwieriger, im SEO mit großen Marken zu konkurrieren

3 Kommentare

 
yangeok 2024-06-09

Wie wäre es dann damit, einfach zu verhindern, dass der Zurück-Button funktioniert? lol

 
wkang586 2024-06-03

Ich hatte es zwar vage vermutet, aber es so ausgebreitet vor sich zu sehen, ist echt ein mentaler Schock ...
Bis zu Navboost könnte ich es wohl noch nachvollziehen ...
Die Whitelist ist allerdings erschütternd. Whitelist klingt zwar nett, aber letztlich ist das eine unverhohlene Diskriminierungspolitik.

 
xguru 2024-05-29

Durchgesickerte Dokumentation der Google Content API Warehouse
https://hexdocs.pm/google_api_content_warehouse/0.4.0/…