Google scheint uns jetzt zu hassen
(twitter.com/pokemoncentral)- Pokémon Central Wiki war über 15 Jahre lang die wichtigste Quelle für Pokémon-Informationen auf Italienisch, ist aber inzwischen aus den Google-Suchergebnissen fast verschwunden
- Obwohl wiki.pokemoncentral.it ein großes, auf MediaWiki basierendes Wiki ist, liefert eine
site:-Suche buchstäblich nur noch 4 Ergebnisse - Der starke Rückgang der Indexierung begann ungefähr rund um das Core Update vom März 2026, und in der Search Console wird massenhaft
"crawled - currently not indexed"angezeigt - Bing, DuckDuckGo und andere indexieren die Seite normal, daher scheint es sich um ein auf Google beschränktes Problem zu handeln; das Blockieren von Google-Extended sollte laut Dokumentation keinen Einfluss auf die Indexierung haben
- Optimierungen an Server- und Cloudflare-Einstellungen, Open Graph- und schema.org-Tags sowie SWR wurden umgesetzt, hatten bisher aber keine Wirkung, und die Ursache ist unklar
Starker Rückgang der Google-Suchindexierung
- Pokémon Central Wiki war über 15 Jahre lang die bekannteste Quelle für Pokémon-Informationen auf Italienisch, erscheint aber derzeit kaum noch in den Google-Suchergebnissen
- wiki.pokemoncentral.it läuft mit der Open-Source-Software MediaWiki, die auch bei Wikipedia verwendet wird, und gehört laut Wikistats zu den 500 größten MediaWiki-Instanzen weltweit
- PCW ist Teil des internationalen Wiki-Netzwerks Encyclopaediae Pokémonis, zu dem auch Bulbapedia gehört
- Viele Inhalte wurden mit Genehmigung aus Bulbapedia übersetzt, und Tausende menschliche Freiwillige haben daran mitgearbeitet
- Andere EP-Wikis werden nach Community-Prüfung und
site:-Suche weiterhin normal indexiert - Eine Suche nach
site:http://wiki.pokemoncentral.itliefert für PCW derzeit nur 4 Ergebnisse - Vor einigen Wochen, ungefähr rund um das Core Update vom März 2026, tauchten in der Google Search Console viele Seiten mit dem Status
"crawled - currently not indexed"auf - Google zeigt lediglich an, dass diese Seiten künftig vielleicht indexiert werden oder auch nicht, nennt aber keinen konkreten Grund
Geprüfte Ursachen und Gegenmaßnahmen
- Eine Verschlechterung der Inhaltsqualität oder betriebliche Probleme erscheinen unwahrscheinlich
- Es gab keine Änderungen an den Bearbeitungsrichtlinien, keinen Missbrauch und keinen Qualitätsverlust
- Wäre es ein rein technisches Problem wie 5xx-Fehler, würde dies in der Google Search Console vermutlich anders angezeigt
- Es scheint sich um ein auf Google beschränktes Problem zu handeln
- Bing, DuckDuckGo und andere Suchmaschinen indexieren PCW normal
- Über Cloudflare werden Scraper für KI-Training blockiert
- KI-Bots, die PCW als Quelle oder Referenz für Nutzeranfragen verwenden wollen, werden nicht blockiert
- In der
robots.txtwird Google-Extended blockiert, was laut Googles Dokumentation die Suchindexierung nicht beeinflussen sollte
- Die managed challenge von Cloudflare wird nur auf Abschnitte angewendet, die für die Indexierung nicht wichtig sind, etwa Seitenhistorien oder technische Seiten
- Diese Abschnitte sind in der
robots.txtnicht ausdrücklich erlaubt - Diese Seiten lassen sich schwer cachen und verbrauchen viele Serverressourcen
- Bots schicken Tausende Anfragen pro Minute und überlasten dadurch den Server
- Diese Abschnitte sind in der
- Server- und Cloudflare-Einstellungen wurden angepasst, um die Website zu beschleunigen
- In den letzten Wochen wurden ehrliche SEO- und Optimierungs-Best-Practices umgesetzt
- Mit Claude Code wurden Open Graph- und schema.org-Tags wiederholt verbessert
- Cloudflare-SWR wurde so eingerichtet, dass die meisten Anfragen ohne Serverkontakt in Millisekunden am Edge ausgeliefert und im Hintergrund revalidiert werden
- Diese Änderungen zeigen bislang keine Wirkung
- Es kann Wochen dauern, bis Änderungen greifen, und Google ist so intransparent, dass sich ihre tatsächliche Wirkung kaum sofort überprüfen lässt
- Eine mögliche Vermutung ist, dass Google nach einer Anpassung des Algorithmus im KI-Zeitalter die „Content-Qualität“ von PCW nicht mehr für ausreichend hält
- LLMs könnten schon vor der Sperrung mit Texten von PCW trainiert worden sein
- Andere Websites, die PCW-Inhalte weitgehend unverändert kopiert haben, erscheinen weiterhin in den Suchergebnissen
- PCW-Inhalte stehen unter der Lizenz CC BY-NC-SA, daher ist das bloße Kopieren an sich normalerweise kein Problem
- Treue Besucher verstehen die Situation nicht und fragen nach; auch auf Reddit gibt es dazu einen Beitrag
- Aktuell wird empfohlen, wiki.pokemoncentral.it direkt als Lesezeichen zu speichern
- Man hofft, jemanden innerhalb von Google zu erreichen, der nachsehen kann, was passiert ist
2 Kommentare
Ich glaube, das ist tatsächlich ein Problem auf der Google-Seite. Bei mir passiert auf mehreren von mir betriebenen Websites genau dasselbe.
Google indexiert einfach ohne jeden ersichtlichen Grund nicht. Angeblich machen sie es vielleicht irgendwann, aber das wird wohl wirklich irgendwann sein.
Hacker-News-Kommentare
Es ist nicht so sehr, dass Google uns hasst, sondern eher, noch schlimmer, dass es gleichgültig ist
Um jemanden zu hassen, müsste man ihn wenigstens wahrnehmen. Dieser einzelne Vorfall bedeutet für sich genommen vielleicht nicht viel, aber insgesamt bewegt sich Google in eine seltsame Richtung. Früher war es einmal State of the Art, aber nach 20 Jahren scheint es nur noch ein weiterer Großkonzern zu sein, der Qualität dem Shareholder-Interesse opfert
Als Suchmaschine ist es nicht mehr brauchbar. Bevor ich überhaupt finde, was ich tatsächlich suche, stehen oben schon Promolinks. Seit ich zu Kagi gewechselt bin, habe ich nicht zurückgeblickt
Auch für AI passt es nicht gut. Es gibt willkürliche Nutzungslimits, die nach 5 Stunden zurückgesetzt werden, und ein wöchentliches Kontingent in Prozentanzeige — intransparent bis zum Äußersten. Bei Kagi sieht man in den Nutzungsdetails klar, wie viel noch übrig ist. Zur Klarstellung: Ich arbeite nicht bei Kagi, ich bin einfach nur ein zufriedener Kunde
Als Cloud-Speicher taugt es ebenfalls wenig. Irgendwo in einem gemeinsam genutzten Ordner, an dem ich mitarbeite, sitzt wohl ein Spammer oder ein kompromittiertes Konto, und ich bekomme regelmäßig Benachrichtigungen über Erwachsenenmaterial. Das passiert nicht nur mir(https://www.reddit.com/r/techsupport/comments/1azf25v/myster...). Ich bin zu Apple iCloud gewechselt und habe damit abgeschlossen
Mail ist okay. Ich nutze es seit 22 Jahren und habe es inzwischen an einen Punkt in meinem Leben verschoben, an dem es nicht mehr wichtig ist. Die wichtigen Dinge habe ich ohnehin zu europäischen Anbietern verlagert
DDG habe ich auch ausprobiert, aber für meine Zwecke war es noch schlechter als Google
Ich habe eben nach A&W gesucht, und dazu wurden auch Tim Hortons, Popeyes und McDonald's angezeigt. Apple Maps macht so etwas nie. Trotzdem nutze ich meist Google, weil ich wissen will, ob ein Laden gerade geöffnet ist und ob die Öffnungszeiten korrekt sind
Trotzdem ist es immer noch beeindruckend, dass ein Riese wie Google kostenlose und zugleich exzellente Forschung wie AlphaFold oder, wenn auch in geringerem Maß, Gemma veröffentlicht. Es wirkt wie ein ATT PAC Bell oder IBM unserer Zeit
Den Suchdienst nutze ich seit einem Jahr kostenpflichtig, aber die angebotenen AI-Funktionen habe ich mir noch nicht angesehen
Es könnte einfach daran liegen, dass es ein Wiki ist. Wiki-Spammer sind heutzutage hartnäckig
Selbst ein kleines, wenig bekanntes Wiki für ein Spiel mit weniger als 10.000 Spielern, bei dessen Verwaltung ich helfe, musste vor Kurzem die Neuregistrierung sperren. Der Spam war zu heftig, und wir hingen auf einer alten MediaWiki-Version fest, die kein CAPTCHA unterstützt
Bei einem populären Wiki — und dieses hier scheint ziemlich populär gewesen zu sein — dürfte es schwer sein, Wiki-Spammer allein mit CAPTCHA aufzuhalten. Wenn die Spammer nicht nur simplen „Kauf Potenzmittel“-Müll gepostet, sondern auch Links zu Malware-Seiten eingestellt haben, könnte Google dieses Wiki mit gewisser Berechtigung als Quelle solcher Malware betrachtet haben
Die Lösung für den Autor des Originalposts wäre vermutlich, die schädlichen Inhalte des Wikis gründlich zu auditieren und zu bereinigen und dann bei Google Einspruch einzulegen. Natürlich ist es Google, also dauert eine Antwort selbst dann wahrscheinlich Monate
Am Ende sieht es ziemlich aussichtslos aus, sofern nicht im zuständigen Google-Team zufällig ein italienischer Pokémon-Fan sitzt
Ich kann nicht ausschließen, dass irgendwo unter mehr als 37.000 Seiten, die fast nie besucht wird, ein einzelner Spamlink steckt, aber als Grund für die Deindexierung erscheint mir das unwahrscheinlich. Wenn es so wäre, müsste es auch in der Google Search Console auftauchen
Wenn man klein genug ist, reicht meist schon ein einziger nicht standardisierter Schritt im Registrierungsprozess, um fast alle Spambots auszuhebeln. Zum Beispiel ein statisches Bild oder Audio, das nur die Zielgruppe kennt, und dann eine Auswahl im „Ich bin kein Bot“-Dropdown, oder eine zusätzliche E-Mail-Bestätigung für den ersten Beitrag/die erste Bearbeitung, oder die Abfrage einer Antwort, die an einem bestimmten Zeitpunkt in einem langen YouTube-Video vorkommt. Hauptsache nicht standardisiert
Damit zerbrechen 99,9 % aller Automatisierungen, und Spammer, die Suchergebnisse manipulieren wollen, bauen keine individuelle Automatisierung nur für ein bestimmtes Wiki oder Forum
Ist die Seite sehr bekannt, wird es natürlich ein endloses Wettrüsten. In diesem Fall könnte man so etwas wie Hashcash einsetzen, damit jedes Mal viel CPU/GPU/RAM verbrannt wird, sodass Spammer die Seite einfach auf eine Blacklist setzen
Selbst mit einer neueren Version mit CAPTCHA hätte das also vielleicht nicht geholfen
Das Sperren bestimmter E-Mail-Domains bei der Registrierung hat bei mir ziemlich gut funktioniert. Meine Liste steht unter https://www.rejectionwiki.com/index.php?title=MediaWiki:Emai.... Das ist eine eingebaute Funktion von MediaWiki und sollte in den meisten Versionen ordentlich funktionieren
Im Twitter-Thread haben sie klar gesagt, dass es nicht voller AI-Müllinhalte sei, und sie hätten auch die Liste der Seiten geprüft, die als „gecrawlt, aber nicht indexiert“ markiert sind, ohne Anzeichen von Missbrauch zu finden
Ich verstehe, dass man erschrickt, wenn das eigene Wiki Ziel eines Spam-Angriffs wird, aber die eigenen Erfahrungen einfach auf diesen Fall zu übertragen, ist nicht vernünftig
Ehrlich gesagt ist es sehr wahrscheinlich einfach ein schlampiger Bug auf Googles Seite
Bei der Suche gibt es viel verzögerte Ursache und Wirkung, und es ist deutlich leichter, einen kleinen Fehler zu machen, durch den 0,1 % der Websites beim Crawling oder Indexieren herausfallen, als überhaupt zu bemerken, dass das passiert ist. Besonders, wenn die betroffene Seite es nicht meldet
Auch bei marginalia hatte ich schon Bugs. Eine Seite wurde nicht indexiert, wenn der Root-Pfad zwar HEAD nicht unterstützte, aber GET mit
Range-Header schon und korrekt mit HTTP 206 antwortete. Der Grund war, dass der Code, der bei der initialen Erkundung Probleme mit dem Root-Dokument prüfte, dies als Fehlerzustand behandelteDie meisten Websites, die Range-Requests unterstützen, unterstützen auch HEAD. Das bedeutet normalerweise, dass die Dokumente nicht dynamisch generiert werden. Ein paar Caddy-basierte Setups — etwa 0,3 % der Server — waren jedoch Ausnahmen
Eine solche Einordnung kann unmöglich perfekt sein
Google hat die Daten doch längst abgeschöpft und das Modelltraining schon abgeschlossen — warum sollte es dann noch Traffic an die Website schicken
Content-Ersteller und legitime Websites wurden schlicht einmal benutzt und dann weggeworfen
Allein das Search-Team von Google besteht aus Tausenden Menschen, die jeweils an unterschiedlichen Dingen arbeiten, aber unter der übergeordneten Mission, das Web zugänglicher statt unzugänglicher zu machen. Jede einzelne ihrer Auslieferungen könnte solche Nebenwirkungen erzeugen
Es könnte zwar auch eine absichtliche Umsetzung einer Policy gewesen sein, aber das erscheint sehr unwahrscheinlich
Wenn der Korpus funktional bereits vollständig ist, sehe ich nicht, warum man Dinge mit geringem Wert weiter und weiter neu crawlen und indexieren sollte
Bowie war wohl einer derjenigen, die den Ausdruck „wham bam, thank you ma’am“ populär gemacht haben
Mit Downvotes erklärt man den Unterschied nicht
Wenn man sagte, Adblock-Nutzer nähmen Creatorn Einnahmen weg, kam oft als Antwort, dass das Internet 1996 auch okay gewesen sei, dass man keine Vergütung erwarten dürfe, nur weil man Inhalte online stellt, oder dass es der eigene Computer sei und man selbst entscheide, was geladen wird. Wo ist diese Logik geblieben
Vor ein paar Wochen ist meinem Blog dasselbe passiert
Es war ein Blog, auf das jahrelang gut verwiesen wurde, und plötzlich wurden fast alle Artikel nicht mehr indexiert. In der Search Console steht, die URL wurde gecrawlt, aber derzeit nicht indexiert, und anders als bei technischen Problemen gibt es nichts, was ich beheben könnte. Ich muss wohl akzeptieren, dass man die meisten meiner Texte bei Google nicht mehr finden kann
Ich glaube zwar nicht wirklich, dass es damit zusammenhängt, aber rückblickend passt der Zeitpunkt dazu, als ich begann, TDMRep so zu konfigurieren, dass meine Inhalte nicht für LLM-Training verwendet werden dürfen
Als ich dann in die Google Search Console geschaut habe, standen alle Links auf „gecrawlt, aber nicht indexiert“, ohne irgendeine Begründung
Einen echten Community-Standort zu bauen, war der klassische SEO-Fehler
Ihr hättet einen Reddit-Thread, einen Coupon-Unterordner und AI-Zusammenfassungen bauen sollen. Spaß beiseite, ich hoffe, ihr erholt euch bald davon
Man könnte sagen, dass Google uns alle hasst
Worum es der Institution geht, ist nur, möglichst vielen Menschen möglichst viel Werbung unterzuschieben und daraus immer absurdere Geldberge zu machen
Das soll keine Verteidigung von Google sein. Google ist, wie fast jeder Großkonzern, völlig soziopathisch
Zur Info: Google hasst auch OpenCV
Dinge, die früher leicht zu finden waren — etwa wenn man nach „opencv orb“ sucht — liefern inzwischen seitenweise Spam-Websites. Im Grunde Blogspam vom Typ „Lerne hier OpenCV!“
Das erste Ergebnis von „docs.opencv.org“ taucht buchstäblich erst auf Seite 4 auf und verweist dann auch noch auf die 9 Jahre alte Version 3.4
Die Seite, die ich eigentlich will, https://docs.opencv.org/4.13.0/dc/dc3/tutorial_py_matcher.ht..., ist nirgends zu finden
Man sollte mit Geld abstimmen und zu besseren Produkten wechseln, die kundenorientiert statt werbekundenorientiert sind
Ich erinnere mich gern daran, wie ich als Teenager und junger Erwachsener auf Newgrounds unterwegs war und den Leuten dankbar war, die die Serverkosten bezahlt haben. Ich nahm mir vor, es später selbst für die Nächsten zu tun, wenn ich etabliert bin und etwas Geld übrig habe, und auch wenn es länger gedauert hat als gedacht, mache ich das inzwischen seit fast 10 Jahren
Deshalb würde ich gern dafür werben, diese Kultur zu normalisieren: dass es einen gewissen Anteil zahlender Kunden gibt, damit kostenlose Nutzung für Menschen, die nicht zahlen können, erhalten bleibt oder Wachstum finanziert werden kann. Auf großartigen Seiten wie Newgrounds haben vermutlich Zehntausende ihre Karriere in Programmierung oder Animation begonnen oder zumindest Inspiration gefunden, und gesellschaftlich war der Nettoeffekt meiner Ansicht nach enorm positiv
Nach der gestrigen Keynote und den Search-Änderungen ist ziemlich klar, dass Google in naher Zukunft keine Besucher mehr an Websites schicken wird
Suchergebnisse werden nur noch Fußnoten zu Gemini-Antworten sein
Wikis sind aus SEO-Sicht riskant
Es war schon extrem schwierig, mein persönliches Wiki indexiert zu bekommen, und ich hatte es fast aufgegeben, bis mir ein Freund, der sich damit besser auskennt, geholfen hat, alle nötigen Einstellungen richtig zu setzen
Wenn man nicht aufpasst, können Leute sehr leicht überall auf der Seite Spam unterbringen, und das ruiniert die Sichtbarkeit in Suchmaschinen wirklich
Google ist allerdings riesig. Wirklich, wirklich riesig. So groß, dass selbst Leute innerhalb von Google bei solchen Themen nicht automatisch für ganz Google sprechen
Das heißt aber nicht, dass Google Wikis generell hasst. Es bedeutet nur, dass man viel Arbeit hineinstecken muss: sicherstellen, dass das Wiki spamfrei ist, Meta-Tag-Informationen pflegen, eine sitemap.xml haben und so weiter. Ein Beispiel für mein Wiki gibt es hier: https://wiki.roshangeorge.dev/w/images/8/89/Screenshot_-_Goo...