Google scheint uns jetzt zu hassen

(twitter.com/pokemoncentral)

7 Punkte von GN⁺ 2026-05-21 | 4 Kommentare | Auf WhatsApp teilen

Pokémon Central Wiki war über 15 Jahre lang die wichtigste Quelle für Pokémon-Informationen auf Italienisch, ist aber inzwischen aus den Google-Suchergebnissen fast verschwunden
Obwohl wiki.pokemoncentral.it ein großes, auf MediaWiki basierendes Wiki ist, liefert eine site:-Suche buchstäblich nur noch 4 Ergebnisse
Der starke Rückgang der Indexierung begann ungefähr rund um das Core Update vom März 2026, und in der Search Console wird massenhaft "crawled - currently not indexed" angezeigt
Bing, DuckDuckGo und andere indexieren die Seite normal, daher scheint es sich um ein auf Google beschränktes Problem zu handeln; das Blockieren von Google-Extended sollte laut Dokumentation keinen Einfluss auf die Indexierung haben
Optimierungen an Server- und Cloudflare-Einstellungen, Open Graph- und schema.org-Tags sowie SWR wurden umgesetzt, hatten bisher aber keine Wirkung, und die Ursache ist unklar

Starker Rückgang der Google-Suchindexierung

Pokémon Central Wiki war über 15 Jahre lang die bekannteste Quelle für Pokémon-Informationen auf Italienisch, erscheint aber derzeit kaum noch in den Google-Suchergebnissen
wiki.pokemoncentral.it läuft mit der Open-Source-Software MediaWiki, die auch bei Wikipedia verwendet wird, und gehört laut Wikistats zu den 500 größten MediaWiki-Instanzen weltweit
PCW ist Teil des internationalen Wiki-Netzwerks Encyclopaediae Pokémonis, zu dem auch Bulbapedia gehört
Viele Inhalte wurden mit Genehmigung aus Bulbapedia übersetzt, und Tausende menschliche Freiwillige haben daran mitgearbeitet
Andere EP-Wikis werden nach Community-Prüfung und site:-Suche weiterhin normal indexiert
Eine Suche nach site:http://wiki.pokemoncentral.it liefert für PCW derzeit nur 4 Ergebnisse
Vor einigen Wochen, ungefähr rund um das Core Update vom März 2026, tauchten in der Google Search Console viele Seiten mit dem Status "crawled - currently not indexed" auf
Google zeigt lediglich an, dass diese Seiten künftig vielleicht indexiert werden oder auch nicht, nennt aber keinen konkreten Grund

Geprüfte Ursachen und Gegenmaßnahmen

Eine Verschlechterung der Inhaltsqualität oder betriebliche Probleme erscheinen unwahrscheinlich
- Es gab keine Änderungen an den Bearbeitungsrichtlinien, keinen Missbrauch und keinen Qualitätsverlust
- Wäre es ein rein technisches Problem wie 5xx-Fehler, würde dies in der Google Search Console vermutlich anders angezeigt
Es scheint sich um ein auf Google beschränktes Problem zu handeln
- Bing, DuckDuckGo und andere Suchmaschinen indexieren PCW normal
Über Cloudflare werden Scraper für KI-Training blockiert
- KI-Bots, die PCW als Quelle oder Referenz für Nutzeranfragen verwenden wollen, werden nicht blockiert
- In der robots.txt wird Google-Extended blockiert, was laut Googles Dokumentation die Suchindexierung nicht beeinflussen sollte
Die managed challenge von Cloudflare wird nur auf Abschnitte angewendet, die für die Indexierung nicht wichtig sind, etwa Seitenhistorien oder technische Seiten
- Diese Abschnitte sind in der robots.txt nicht ausdrücklich erlaubt
- Diese Seiten lassen sich schwer cachen und verbrauchen viele Serverressourcen
- Bots schicken Tausende Anfragen pro Minute und überlasten dadurch den Server
Server- und Cloudflare-Einstellungen wurden angepasst, um die Website zu beschleunigen
- In den letzten Wochen wurden ehrliche SEO- und Optimierungs-Best-Practices umgesetzt
- Mit Claude Code wurden Open Graph- und schema.org-Tags wiederholt verbessert
- Cloudflare-SWR wurde so eingerichtet, dass die meisten Anfragen ohne Serverkontakt in Millisekunden am Edge ausgeliefert und im Hintergrund revalidiert werden
Diese Änderungen zeigen bislang keine Wirkung
- Es kann Wochen dauern, bis Änderungen greifen, und Google ist so intransparent, dass sich ihre tatsächliche Wirkung kaum sofort überprüfen lässt
Eine mögliche Vermutung ist, dass Google nach einer Anpassung des Algorithmus im KI-Zeitalter die „Content-Qualität“ von PCW nicht mehr für ausreichend hält
- LLMs könnten schon vor der Sperrung mit Texten von PCW trainiert worden sein
- Andere Websites, die PCW-Inhalte weitgehend unverändert kopiert haben, erscheinen weiterhin in den Suchergebnissen
- PCW-Inhalte stehen unter der Lizenz CC BY-NC-SA, daher ist das bloße Kopieren an sich normalerweise kein Problem
Treue Besucher verstehen die Situation nicht und fragen nach; auch auf Reddit gibt es dazu einen Beitrag
Aktuell wird empfohlen, wiki.pokemoncentral.it direkt als Lesezeichen zu speichern
Man hofft, jemanden innerhalb von Google zu erreichen, der nachsehen kann, was passiert ist

4 Kommentare

ndrgrd 2026-05-21

Vor Jahren hatte ich auf meinem Tistory-Blog dies und das zusammengestellt; dort erscheint es immer noch gut in den Suchergebnissen und bekommt Aufrufe, aber meine persönliche Domain wird nur etwa zur Hälfte indexiert und rankt nicht besonders gut.

quilt8703 2026-05-21

Ich betreibe einen persönlichen Blog auf Ghost-Basis. Als sich etwa 100 Beiträge angesammelt hatten, fing ich an, in die Search Console zu schauen. Abgesehen von der Hauptseite blieben die Seiten im Status „crawled, not indexed“, also habe ich dies und das ausprobiert und schon halb aufgegeben. Als die Zahl der Beiträge dann auf etwa 500 gestiegen war, wurden sie plötzlich indexiert. Es gibt aber immer noch Beiträge, die nicht indexiert sind, und auch Seiten, die erst indexiert und dann wieder entfernt wurden. Deshalb ist mir nicht klar, nach welchen Kriterien das passiert, aber frustrierend ist es auf jeden Fall.

xguru 2026-05-21

Ich glaube, das ist tatsächlich ein Problem auf der Google-Seite. Bei mir passiert auf mehreren von mir betriebenen Websites genau dasselbe.
Google indexiert einfach ohne jeden ersichtlichen Grund nicht. Angeblich machen sie es vielleicht irgendwann, aber das wird wohl wirklich irgendwann sein.

GN⁺ 2026-05-21

Hacker-News-Kommentare

Es ist nicht so sehr, dass Google uns hasst, sondern eher, noch schlimmer, dass es gleichgültig ist
Um jemanden zu hassen, müsste man ihn wenigstens wahrnehmen. Dieser einzelne Vorfall bedeutet für sich genommen vielleicht nicht viel, aber insgesamt bewegt sich Google in eine seltsame Richtung. Früher war es einmal State of the Art, aber nach 20 Jahren scheint es nur noch ein weiterer Großkonzern zu sein, der Qualität dem Shareholder-Interesse opfert
Als Suchmaschine ist es nicht mehr brauchbar. Bevor ich überhaupt finde, was ich tatsächlich suche, stehen oben schon Promolinks. Seit ich zu Kagi gewechselt bin, habe ich nicht zurückgeblickt
Auch für AI passt es nicht gut. Es gibt willkürliche Nutzungslimits, die nach 5 Stunden zurückgesetzt werden, und ein wöchentliches Kontingent in Prozentanzeige — intransparent bis zum Äußersten. Bei Kagi sieht man in den Nutzungsdetails klar, wie viel noch übrig ist. Zur Klarstellung: Ich arbeite nicht bei Kagi, ich bin einfach nur ein zufriedener Kunde
Als Cloud-Speicher taugt es ebenfalls wenig. Irgendwo in einem gemeinsam genutzten Ordner, an dem ich mitarbeite, sitzt wohl ein Spammer oder ein kompromittiertes Konto, und ich bekomme regelmäßig Benachrichtigungen über Erwachsenenmaterial. Das passiert nicht nur mir(https://www.reddit.com/r/techsupport/comments/1azf25v/myster...). Ich bin zu Apple iCloud gewechselt und habe damit abgeschlossen
Mail ist okay. Ich nutze es seit 22 Jahren und habe es inzwischen an einen Punkt in meinem Leben verschoben, an dem es nicht mehr wichtig ist. Die wichtigen Dinge habe ich ohnehin zu europäischen Anbietern verlagert
- Es klingt vielleicht verrückt, aber ich nutze als letzte Option Yandex, und dort bekomme ich gute Ergebnisse für Material, das Google offenbar nicht mehr anzeigen will
  DDG habe ich auch ausprobiert, aber für meine Zwecke war es noch schlechter als Google
- Wenn man in Google Maps nach einem bestimmten Restaurant sucht, scheint Google einfach anzunehmen, dass man allgemein hungrig ist
  Ich habe eben nach A&W gesucht, und dazu wurden auch Tim Hortons, Popeyes und McDonald's angezeigt. Apple Maps macht so etwas nie. Trotzdem nutze ich meist Google, weil ich wissen will, ob ein Laden gerade geöffnet ist und ob die Öffnungszeiten korrekt sind
- Kagi ist hervorragend
  Trotzdem ist es immer noch beeindruckend, dass ein Riese wie Google kostenlose und zugleich exzellente Forschung wie AlphaFold oder, wenn auch in geringerem Maß, Gemma veröffentlicht. Es wirkt wie ein ATT PAC Bell oder IBM unserer Zeit
- Die Promolinks sind völlig außer Kontrolle, und oft wirken die obersten 5–6 Links wie Werbung
- Ich frage mich, wie man Kagi AI verwendet
  Den Suchdienst nutze ich seit einem Jahr kostenpflichtig, aber die angebotenen AI-Funktionen habe ich mir noch nicht angesehen
Es könnte einfach daran liegen, dass es ein Wiki ist. Wiki-Spammer sind heutzutage hartnäckig
Selbst ein kleines, wenig bekanntes Wiki für ein Spiel mit weniger als 10.000 Spielern, bei dessen Verwaltung ich helfe, musste vor Kurzem die Neuregistrierung sperren. Der Spam war zu heftig, und wir hingen auf einer alten MediaWiki-Version fest, die kein CAPTCHA unterstützt
Bei einem populären Wiki — und dieses hier scheint ziemlich populär gewesen zu sein — dürfte es schwer sein, Wiki-Spammer allein mit CAPTCHA aufzuhalten. Wenn die Spammer nicht nur simplen „Kauf Potenzmittel“-Müll gepostet, sondern auch Links zu Malware-Seiten eingestellt haben, könnte Google dieses Wiki mit gewisser Berechtigung als Quelle solcher Malware betrachtet haben
Die Lösung für den Autor des Originalposts wäre vermutlich, die schädlichen Inhalte des Wikis gründlich zu auditieren und zu bereinigen und dann bei Google Einspruch einzulegen. Natürlich ist es Google, also dauert eine Antwort selbst dann wahrscheinlich Monate
Am Ende sieht es ziemlich aussichtslos aus, sofern nicht im zuständigen Google-Team zufällig ein italienischer Pokémon-Fan sitzt
- Wir betreiben bereits ein Anti-Bot-System mit Einschränkungen für neue Konten, gut abgestimmten Cloudflare-Regeln und einem engagierten Freiwilligenteam, das die jüngsten Bearbeitungen ständig überwacht
  Ich kann nicht ausschließen, dass irgendwo unter mehr als 37.000 Seiten, die fast nie besucht wird, ein einzelner Spamlink steckt, aber als Grund für die Deindexierung erscheint mir das unwahrscheinlich. Wenn es so wäre, müsste es auch in der Google Search Console auftauchen
- Sobald ein Projekt bekannt genug ist, dass sich dafür maßgeschneiderte Automatisierung lohnt, gibt es praktisch keinen Weg mehr, Spam zu bekämpfen
  Wenn man klein genug ist, reicht meist schon ein einziger nicht standardisierter Schritt im Registrierungsprozess, um fast alle Spambots auszuhebeln. Zum Beispiel ein statisches Bild oder Audio, das nur die Zielgruppe kennt, und dann eine Auswahl im „Ich bin kein Bot“-Dropdown, oder eine zusätzliche E-Mail-Bestätigung für den ersten Beitrag/die erste Bearbeitung, oder die Abfrage einer Antwort, die an einem bestimmten Zeitpunkt in einem langen YouTube-Video vorkommt. Hauptsache nicht standardisiert
  Damit zerbrechen 99,9 % aller Automatisierungen, und Spammer, die Suchergebnisse manipulieren wollen, bauen keine individuelle Automatisierung nur für ein bestimmtes Wiki oder Forum
  Ist die Seite sehr bekannt, wird es natürlich ein endloses Wettrüsten. In diesem Fall könnte man so etwas wie Hashcash einsetzen, damit jedes Mal viel CPU/GPU/RAM verbrannt wird, sodass Spammer die Seite einfach auf eine Blacklist setzen
- Vor ein paar Tagen sagte hier jemand, dass er routinemäßig Captcha-AI-Bots einsetzt und dass ein einzelnes Lösen 0,003 Dollar kostet
  Selbst mit einer neueren Version mit CAPTCHA hätte das also vielleicht nicht geholfen
- CAPTCHA bringt gegen Spammer gar nichts
  Das Sperren bestimmter E-Mail-Domains bei der Registrierung hat bei mir ziemlich gut funktioniert. Meine Liste steht unter https://www.rejectionwiki.com/index.php?title=MediaWiki:Emai.... Das ist eine eingebaute Funktion von MediaWiki und sollte in den meisten Versionen ordentlich funktionieren
- Ich weiß nicht, ob es überhaupt eine Grundlage für die Behauptung gibt, dieses Wiki sei von Spam überzogen, oder ob das nur eine lose Vermutung ist
  Im Twitter-Thread haben sie klar gesagt, dass es nicht voller AI-Müllinhalte sei, und sie hätten auch die Liste der Seiten geprüft, die als „gecrawlt, aber nicht indexiert“ markiert sind, ohne Anzeichen von Missbrauch zu finden
  Ich verstehe, dass man erschrickt, wenn das eigene Wiki Ziel eines Spam-Angriffs wird, aber die eigenen Erfahrungen einfach auf diesen Fall zu übertragen, ist nicht vernünftig
Ehrlich gesagt ist es sehr wahrscheinlich einfach ein schlampiger Bug auf Googles Seite
Bei der Suche gibt es viel verzögerte Ursache und Wirkung, und es ist deutlich leichter, einen kleinen Fehler zu machen, durch den 0,1 % der Websites beim Crawling oder Indexieren herausfallen, als überhaupt zu bemerken, dass das passiert ist. Besonders, wenn die betroffene Seite es nicht meldet
Auch bei marginalia hatte ich schon Bugs. Eine Seite wurde nicht indexiert, wenn der Root-Pfad zwar HEAD nicht unterstützte, aber GET mit Range-Header schon und korrekt mit HTTP 206 antwortete. Der Grund war, dass der Code, der bei der initialen Erkundung Probleme mit dem Root-Dokument prüfte, dies als Fehlerzustand behandelte
Die meisten Websites, die Range-Requests unterstützen, unterstützen auch HEAD. Das bedeutet normalerweise, dass die Dokumente nicht dynamisch generiert werden. Ein paar Caddy-basierte Setups — etwa 0,3 % der Server — waren jedoch Ausnahmen
- Oder irgendeine AI hat es vielleicht als eine Art Inhalt markiert, den sie nicht zeigen will
  Eine solche Einordnung kann unmöglich perfekt sein
- Wenn die Zahl indexierter Seiten von 511.000 auf 11 gefallen ist, dann ist das eine ziemlich gravierende Schlamperei
Google hat die Daten doch längst abgeschöpft und das Modelltraining schon abgeschlossen — warum sollte es dann noch Traffic an die Website schicken
Content-Ersteller und legitime Websites wurden schlicht einmal benutzt und dann weggeworfen
- Google auf diese Weise zu vermenschlichen, ist nicht realistisch
  Allein das Search-Team von Google besteht aus Tausenden Menschen, die jeweils an unterschiedlichen Dingen arbeiten, aber unter der übergeordneten Mission, das Web zugänglicher statt unzugänglicher zu machen. Jede einzelne ihrer Auslieferungen könnte solche Nebenwirkungen erzeugen
  Es könnte zwar auch eine absichtliche Umsetzung einer Policy gewesen sein, aber das erscheint sehr unwahrscheinlich
- Das habe ich auch gedacht. Ein großer Teil dieser Daten ist doch stabil und statisch, oder nicht
  Wenn der Korpus funktional bereits vollständig ist, sehe ich nicht, warum man Dinge mit geringem Wert weiter und weiter neu crawlen und indexieren sollte
- Als ich diese Formulierung las, hörte ich gerade David Bowies Suffragette City
  Bowie war wohl einer derjenigen, die den Ausdruck „wham bam, thank you ma’am“ populär gemacht haben
- Ist das dann nicht im Grunde dasselbe, was Adblock-Nutzer seit 20 Jahren tun
  Mit Downvotes erklärt man den Unterschied nicht
  Wenn man sagte, Adblock-Nutzer nähmen Creatorn Einnahmen weg, kam oft als Antwort, dass das Internet 1996 auch okay gewesen sei, dass man keine Vergütung erwarten dürfe, nur weil man Inhalte online stellt, oder dass es der eigene Computer sei und man selbst entscheide, was geladen wird. Wo ist diese Logik geblieben
Vor ein paar Wochen ist meinem Blog dasselbe passiert
Es war ein Blog, auf das jahrelang gut verwiesen wurde, und plötzlich wurden fast alle Artikel nicht mehr indexiert. In der Search Console steht, die URL wurde gecrawlt, aber derzeit nicht indexiert, und anders als bei technischen Problemen gibt es nichts, was ich beheben könnte. Ich muss wohl akzeptieren, dass man die meisten meiner Texte bei Google nicht mehr finden kann
Ich glaube zwar nicht wirklich, dass es damit zusammenhängt, aber rückblickend passt der Zeitpunkt dazu, als ich begann, TDMRep so zu konfigurieren, dass meine Inhalte nicht für LLM-Training verwendet werden dürfen
- Bei mir genauso. Ich betreibe seit über 20 Jahren einen persönlichen Blog, und letztes Jahr konnte ich keinen einzigen Link zu meinem Blog mehr bei Google finden
  Als ich dann in die Google Search Console geschaut habe, standen alle Links auf „gecrawlt, aber nicht indexiert“, ohne irgendeine Begründung
- Wenn Google die Trainingsdaten einer Website bereits abgesaugt hat, könnte das Nicht-Indexieren eine Art Burggraben gegen Konkurrenten sein, die Google Search zur Seitenerkennung nutzen
Einen echten Community-Standort zu bauen, war der klassische SEO-Fehler
Ihr hättet einen Reddit-Thread, einen Coupon-Unterordner und AI-Zusammenfassungen bauen sollen. Spaß beiseite, ich hoffe, ihr erholt euch bald davon
Man könnte sagen, dass Google uns alle hasst
- Google hasst keinen von uns und liebt auch keinen von uns
  Worum es der Institution geht, ist nur, möglichst vielen Menschen möglichst viel Werbung unterzuschieben und daraus immer absurdere Geldberge zu machen
  Das soll keine Verteidigung von Google sein. Google ist, wie fast jeder Großkonzern, völlig soziopathisch
Zur Info: Google hasst auch OpenCV
Dinge, die früher leicht zu finden waren — etwa wenn man nach „opencv orb“ sucht — liefern inzwischen seitenweise Spam-Websites. Im Grunde Blogspam vom Typ „Lerne hier OpenCV!“
Das erste Ergebnis von „docs.opencv.org“ taucht buchstäblich erst auf Seite 4 auf und verweist dann auch noch auf die 9 Jahre alte Version 3.4
Die Seite, die ich eigentlich will, https://docs.opencv.org/4.13.0/dc/dc3/tutorial_py_matcher.ht..., ist nirgends zu finden
- Bei Produkten, die nicht über Abonnements finanziert werden, stand die Entwicklung wegen Enshittification schon seit Längerem an der Wand, finde ich
  Man sollte mit Geld abstimmen und zu besseren Produkten wechseln, die kundenorientiert statt werbekundenorientiert sind
  Ich erinnere mich gern daran, wie ich als Teenager und junger Erwachsener auf Newgrounds unterwegs war und den Leuten dankbar war, die die Serverkosten bezahlt haben. Ich nahm mir vor, es später selbst für die Nächsten zu tun, wenn ich etabliert bin und etwas Geld übrig habe, und auch wenn es länger gedauert hat als gedacht, mache ich das inzwischen seit fast 10 Jahren
  Deshalb würde ich gern dafür werben, diese Kultur zu normalisieren: dass es einen gewissen Anteil zahlender Kunden gibt, damit kostenlose Nutzung für Menschen, die nicht zahlen können, erhalten bleibt oder Wachstum finanziert werden kann. Auf großartigen Seiten wie Newgrounds haben vermutlich Zehntausende ihre Karriere in Programmierung oder Animation begonnen oder zumindest Inspiration gefunden, und gesellschaftlich war der Nettoeffekt meiner Ansicht nach enorm positiv
- Ich hatte bei OpenStack-Dokumentation in Google ein sehr ähnliches Problem
Nach der gestrigen Keynote und den Search-Änderungen ist ziemlich klar, dass Google in naher Zukunft keine Besucher mehr an Websites schicken wird
Suchergebnisse werden nur noch Fußnoten zu Gemini-Antworten sein
Wikis sind aus SEO-Sicht riskant
Es war schon extrem schwierig, mein persönliches Wiki indexiert zu bekommen, und ich hatte es fast aufgegeben, bis mir ein Freund, der sich damit besser auskennt, geholfen hat, alle nötigen Einstellungen richtig zu setzen
Wenn man nicht aufpasst, können Leute sehr leicht überall auf der Seite Spam unterbringen, und das ruiniert die Sichtbarkeit in Suchmaschinen wirklich
Google ist allerdings riesig. Wirklich, wirklich riesig. So groß, dass selbst Leute innerhalb von Google bei solchen Themen nicht automatisch für ganz Google sprechen
Das heißt aber nicht, dass Google Wikis generell hasst. Es bedeutet nur, dass man viel Arbeit hineinstecken muss: sicherstellen, dass das Wiki spamfrei ist, Meta-Tag-Informationen pflegen, eine sitemap.xml haben und so weiter. Ein Beispiel für mein Wiki gibt es hier: https://wiki.roshangeorge.dev/w/images/8/89/Screenshot_-_Goo...