1 Punkte von GN⁺ 1 시간 전 | 2 Kommentare | Auf WhatsApp teilen
  • Pokémon Central Wiki war über 15 Jahre lang die wichtigste Quelle für Pokémon-Informationen auf Italienisch, ist aber inzwischen aus den Google-Suchergebnissen fast verschwunden
  • Obwohl wiki.pokemoncentral.it ein großes, auf MediaWiki basierendes Wiki ist, liefert eine site:-Suche buchstäblich nur noch 4 Ergebnisse
  • Der starke Rückgang der Indexierung begann ungefähr rund um das Core Update vom März 2026, und in der Search Console wird massenhaft "crawled - currently not indexed" angezeigt
  • Bing, DuckDuckGo und andere indexieren die Seite normal, daher scheint es sich um ein auf Google beschränktes Problem zu handeln; das Blockieren von Google-Extended sollte laut Dokumentation keinen Einfluss auf die Indexierung haben
  • Optimierungen an Server- und Cloudflare-Einstellungen, Open Graph- und schema.org-Tags sowie SWR wurden umgesetzt, hatten bisher aber keine Wirkung, und die Ursache ist unklar

Starker Rückgang der Google-Suchindexierung

  • Pokémon Central Wiki war über 15 Jahre lang die bekannteste Quelle für Pokémon-Informationen auf Italienisch, erscheint aber derzeit kaum noch in den Google-Suchergebnissen
  • wiki.pokemoncentral.it läuft mit der Open-Source-Software MediaWiki, die auch bei Wikipedia verwendet wird, und gehört laut Wikistats zu den 500 größten MediaWiki-Instanzen weltweit
  • PCW ist Teil des internationalen Wiki-Netzwerks Encyclopaediae Pokémonis, zu dem auch Bulbapedia gehört
  • Viele Inhalte wurden mit Genehmigung aus Bulbapedia übersetzt, und Tausende menschliche Freiwillige haben daran mitgearbeitet
  • Andere EP-Wikis werden nach Community-Prüfung und site:-Suche weiterhin normal indexiert
  • Eine Suche nach site:http://wiki.pokemoncentral.it liefert für PCW derzeit nur 4 Ergebnisse
  • Vor einigen Wochen, ungefähr rund um das Core Update vom März 2026, tauchten in der Google Search Console viele Seiten mit dem Status "crawled - currently not indexed" auf
  • Google zeigt lediglich an, dass diese Seiten künftig vielleicht indexiert werden oder auch nicht, nennt aber keinen konkreten Grund

Geprüfte Ursachen und Gegenmaßnahmen

  • Eine Verschlechterung der Inhaltsqualität oder betriebliche Probleme erscheinen unwahrscheinlich
    • Es gab keine Änderungen an den Bearbeitungsrichtlinien, keinen Missbrauch und keinen Qualitätsverlust
    • Wäre es ein rein technisches Problem wie 5xx-Fehler, würde dies in der Google Search Console vermutlich anders angezeigt
  • Es scheint sich um ein auf Google beschränktes Problem zu handeln
    • Bing, DuckDuckGo und andere Suchmaschinen indexieren PCW normal
  • Über Cloudflare werden Scraper für KI-Training blockiert
    • KI-Bots, die PCW als Quelle oder Referenz für Nutzeranfragen verwenden wollen, werden nicht blockiert
    • In der robots.txt wird Google-Extended blockiert, was laut Googles Dokumentation die Suchindexierung nicht beeinflussen sollte
  • Die managed challenge von Cloudflare wird nur auf Abschnitte angewendet, die für die Indexierung nicht wichtig sind, etwa Seitenhistorien oder technische Seiten
    • Diese Abschnitte sind in der robots.txt nicht ausdrücklich erlaubt
    • Diese Seiten lassen sich schwer cachen und verbrauchen viele Serverressourcen
    • Bots schicken Tausende Anfragen pro Minute und überlasten dadurch den Server
  • Server- und Cloudflare-Einstellungen wurden angepasst, um die Website zu beschleunigen
    • In den letzten Wochen wurden ehrliche SEO- und Optimierungs-Best-Practices umgesetzt
    • Mit Claude Code wurden Open Graph- und schema.org-Tags wiederholt verbessert
    • Cloudflare-SWR wurde so eingerichtet, dass die meisten Anfragen ohne Serverkontakt in Millisekunden am Edge ausgeliefert und im Hintergrund revalidiert werden
  • Diese Änderungen zeigen bislang keine Wirkung
    • Es kann Wochen dauern, bis Änderungen greifen, und Google ist so intransparent, dass sich ihre tatsächliche Wirkung kaum sofort überprüfen lässt
  • Eine mögliche Vermutung ist, dass Google nach einer Anpassung des Algorithmus im KI-Zeitalter die „Content-Qualität“ von PCW nicht mehr für ausreichend hält
    • LLMs könnten schon vor der Sperrung mit Texten von PCW trainiert worden sein
    • Andere Websites, die PCW-Inhalte weitgehend unverändert kopiert haben, erscheinen weiterhin in den Suchergebnissen
    • PCW-Inhalte stehen unter der Lizenz CC BY-NC-SA, daher ist das bloße Kopieren an sich normalerweise kein Problem
  • Treue Besucher verstehen die Situation nicht und fragen nach; auch auf Reddit gibt es dazu einen Beitrag
  • Aktuell wird empfohlen, wiki.pokemoncentral.it direkt als Lesezeichen zu speichern
  • Man hofft, jemanden innerhalb von Google zu erreichen, der nachsehen kann, was passiert ist

2 Kommentare

 
xguru 1 시간 전

Ich glaube, das ist tatsächlich ein Problem auf der Google-Seite. Bei mir passiert auf mehreren von mir betriebenen Websites genau dasselbe.
Google indexiert einfach ohne jeden ersichtlichen Grund nicht. Angeblich machen sie es vielleicht irgendwann, aber das wird wohl wirklich irgendwann sein.

 
GN⁺ 1 시간 전
Hacker-News-Kommentare
  • Es ist nicht so sehr, dass Google uns hasst, sondern eher, noch schlimmer, dass es gleichgültig ist
    Um jemanden zu hassen, müsste man ihn wenigstens wahrnehmen. Dieser einzelne Vorfall bedeutet für sich genommen vielleicht nicht viel, aber insgesamt bewegt sich Google in eine seltsame Richtung. Früher war es einmal State of the Art, aber nach 20 Jahren scheint es nur noch ein weiterer Großkonzern zu sein, der Qualität dem Shareholder-Interesse opfert
    Als Suchmaschine ist es nicht mehr brauchbar. Bevor ich überhaupt finde, was ich tatsächlich suche, stehen oben schon Promolinks. Seit ich zu Kagi gewechselt bin, habe ich nicht zurückgeblickt
    Auch für AI passt es nicht gut. Es gibt willkürliche Nutzungslimits, die nach 5 Stunden zurückgesetzt werden, und ein wöchentliches Kontingent in Prozentanzeige — intransparent bis zum Äußersten. Bei Kagi sieht man in den Nutzungsdetails klar, wie viel noch übrig ist. Zur Klarstellung: Ich arbeite nicht bei Kagi, ich bin einfach nur ein zufriedener Kunde
    Als Cloud-Speicher taugt es ebenfalls wenig. Irgendwo in einem gemeinsam genutzten Ordner, an dem ich mitarbeite, sitzt wohl ein Spammer oder ein kompromittiertes Konto, und ich bekomme regelmäßig Benachrichtigungen über Erwachsenenmaterial. Das passiert nicht nur mir(https://www.reddit.com/r/techsupport/comments/1azf25v/myster...). Ich bin zu Apple iCloud gewechselt und habe damit abgeschlossen
    Mail ist okay. Ich nutze es seit 22 Jahren und habe es inzwischen an einen Punkt in meinem Leben verschoben, an dem es nicht mehr wichtig ist. Die wichtigen Dinge habe ich ohnehin zu europäischen Anbietern verlagert

    • Es klingt vielleicht verrückt, aber ich nutze als letzte Option Yandex, und dort bekomme ich gute Ergebnisse für Material, das Google offenbar nicht mehr anzeigen will
      DDG habe ich auch ausprobiert, aber für meine Zwecke war es noch schlechter als Google
    • Wenn man in Google Maps nach einem bestimmten Restaurant sucht, scheint Google einfach anzunehmen, dass man allgemein hungrig ist
      Ich habe eben nach A&W gesucht, und dazu wurden auch Tim Hortons, Popeyes und McDonald's angezeigt. Apple Maps macht so etwas nie. Trotzdem nutze ich meist Google, weil ich wissen will, ob ein Laden gerade geöffnet ist und ob die Öffnungszeiten korrekt sind
    • Kagi ist hervorragend
      Trotzdem ist es immer noch beeindruckend, dass ein Riese wie Google kostenlose und zugleich exzellente Forschung wie AlphaFold oder, wenn auch in geringerem Maß, Gemma veröffentlicht. Es wirkt wie ein ATT PAC Bell oder IBM unserer Zeit
    • Die Promolinks sind völlig außer Kontrolle, und oft wirken die obersten 5–6 Links wie Werbung
    • Ich frage mich, wie man Kagi AI verwendet
      Den Suchdienst nutze ich seit einem Jahr kostenpflichtig, aber die angebotenen AI-Funktionen habe ich mir noch nicht angesehen
  • Es könnte einfach daran liegen, dass es ein Wiki ist. Wiki-Spammer sind heutzutage hartnäckig
    Selbst ein kleines, wenig bekanntes Wiki für ein Spiel mit weniger als 10.000 Spielern, bei dessen Verwaltung ich helfe, musste vor Kurzem die Neuregistrierung sperren. Der Spam war zu heftig, und wir hingen auf einer alten MediaWiki-Version fest, die kein CAPTCHA unterstützt
    Bei einem populären Wiki — und dieses hier scheint ziemlich populär gewesen zu sein — dürfte es schwer sein, Wiki-Spammer allein mit CAPTCHA aufzuhalten. Wenn die Spammer nicht nur simplen „Kauf Potenzmittel“-Müll gepostet, sondern auch Links zu Malware-Seiten eingestellt haben, könnte Google dieses Wiki mit gewisser Berechtigung als Quelle solcher Malware betrachtet haben
    Die Lösung für den Autor des Originalposts wäre vermutlich, die schädlichen Inhalte des Wikis gründlich zu auditieren und zu bereinigen und dann bei Google Einspruch einzulegen. Natürlich ist es Google, also dauert eine Antwort selbst dann wahrscheinlich Monate
    Am Ende sieht es ziemlich aussichtslos aus, sofern nicht im zuständigen Google-Team zufällig ein italienischer Pokémon-Fan sitzt

    • Wir betreiben bereits ein Anti-Bot-System mit Einschränkungen für neue Konten, gut abgestimmten Cloudflare-Regeln und einem engagierten Freiwilligenteam, das die jüngsten Bearbeitungen ständig überwacht
      Ich kann nicht ausschließen, dass irgendwo unter mehr als 37.000 Seiten, die fast nie besucht wird, ein einzelner Spamlink steckt, aber als Grund für die Deindexierung erscheint mir das unwahrscheinlich. Wenn es so wäre, müsste es auch in der Google Search Console auftauchen
    • Sobald ein Projekt bekannt genug ist, dass sich dafür maßgeschneiderte Automatisierung lohnt, gibt es praktisch keinen Weg mehr, Spam zu bekämpfen
      Wenn man klein genug ist, reicht meist schon ein einziger nicht standardisierter Schritt im Registrierungsprozess, um fast alle Spambots auszuhebeln. Zum Beispiel ein statisches Bild oder Audio, das nur die Zielgruppe kennt, und dann eine Auswahl im „Ich bin kein Bot“-Dropdown, oder eine zusätzliche E-Mail-Bestätigung für den ersten Beitrag/die erste Bearbeitung, oder die Abfrage einer Antwort, die an einem bestimmten Zeitpunkt in einem langen YouTube-Video vorkommt. Hauptsache nicht standardisiert
      Damit zerbrechen 99,9 % aller Automatisierungen, und Spammer, die Suchergebnisse manipulieren wollen, bauen keine individuelle Automatisierung nur für ein bestimmtes Wiki oder Forum
      Ist die Seite sehr bekannt, wird es natürlich ein endloses Wettrüsten. In diesem Fall könnte man so etwas wie Hashcash einsetzen, damit jedes Mal viel CPU/GPU/RAM verbrannt wird, sodass Spammer die Seite einfach auf eine Blacklist setzen
    • Vor ein paar Tagen sagte hier jemand, dass er routinemäßig Captcha-AI-Bots einsetzt und dass ein einzelnes Lösen 0,003 Dollar kostet
      Selbst mit einer neueren Version mit CAPTCHA hätte das also vielleicht nicht geholfen
    • CAPTCHA bringt gegen Spammer gar nichts
      Das Sperren bestimmter E-Mail-Domains bei der Registrierung hat bei mir ziemlich gut funktioniert. Meine Liste steht unter https://www.rejectionwiki.com/index.php?title=MediaWiki:Emai.... Das ist eine eingebaute Funktion von MediaWiki und sollte in den meisten Versionen ordentlich funktionieren
    • Ich weiß nicht, ob es überhaupt eine Grundlage für die Behauptung gibt, dieses Wiki sei von Spam überzogen, oder ob das nur eine lose Vermutung ist
      Im Twitter-Thread haben sie klar gesagt, dass es nicht voller AI-Müllinhalte sei, und sie hätten auch die Liste der Seiten geprüft, die als „gecrawlt, aber nicht indexiert“ markiert sind, ohne Anzeichen von Missbrauch zu finden
      Ich verstehe, dass man erschrickt, wenn das eigene Wiki Ziel eines Spam-Angriffs wird, aber die eigenen Erfahrungen einfach auf diesen Fall zu übertragen, ist nicht vernünftig
  • Ehrlich gesagt ist es sehr wahrscheinlich einfach ein schlampiger Bug auf Googles Seite
    Bei der Suche gibt es viel verzögerte Ursache und Wirkung, und es ist deutlich leichter, einen kleinen Fehler zu machen, durch den 0,1 % der Websites beim Crawling oder Indexieren herausfallen, als überhaupt zu bemerken, dass das passiert ist. Besonders, wenn die betroffene Seite es nicht meldet
    Auch bei marginalia hatte ich schon Bugs. Eine Seite wurde nicht indexiert, wenn der Root-Pfad zwar HEAD nicht unterstützte, aber GET mit Range-Header schon und korrekt mit HTTP 206 antwortete. Der Grund war, dass der Code, der bei der initialen Erkundung Probleme mit dem Root-Dokument prüfte, dies als Fehlerzustand behandelte
    Die meisten Websites, die Range-Requests unterstützen, unterstützen auch HEAD. Das bedeutet normalerweise, dass die Dokumente nicht dynamisch generiert werden. Ein paar Caddy-basierte Setups — etwa 0,3 % der Server — waren jedoch Ausnahmen

    • Oder irgendeine AI hat es vielleicht als eine Art Inhalt markiert, den sie nicht zeigen will
      Eine solche Einordnung kann unmöglich perfekt sein
    • Wenn die Zahl indexierter Seiten von 511.000 auf 11 gefallen ist, dann ist das eine ziemlich gravierende Schlamperei
  • Google hat die Daten doch längst abgeschöpft und das Modelltraining schon abgeschlossen — warum sollte es dann noch Traffic an die Website schicken
    Content-Ersteller und legitime Websites wurden schlicht einmal benutzt und dann weggeworfen

    • Google auf diese Weise zu vermenschlichen, ist nicht realistisch
      Allein das Search-Team von Google besteht aus Tausenden Menschen, die jeweils an unterschiedlichen Dingen arbeiten, aber unter der übergeordneten Mission, das Web zugänglicher statt unzugänglicher zu machen. Jede einzelne ihrer Auslieferungen könnte solche Nebenwirkungen erzeugen
      Es könnte zwar auch eine absichtliche Umsetzung einer Policy gewesen sein, aber das erscheint sehr unwahrscheinlich
    • Das habe ich auch gedacht. Ein großer Teil dieser Daten ist doch stabil und statisch, oder nicht
      Wenn der Korpus funktional bereits vollständig ist, sehe ich nicht, warum man Dinge mit geringem Wert weiter und weiter neu crawlen und indexieren sollte
    • Als ich diese Formulierung las, hörte ich gerade David Bowies Suffragette City
      Bowie war wohl einer derjenigen, die den Ausdruck „wham bam, thank you ma’am“ populär gemacht haben
    • Ist das dann nicht im Grunde dasselbe, was Adblock-Nutzer seit 20 Jahren tun
      Mit Downvotes erklärt man den Unterschied nicht
      Wenn man sagte, Adblock-Nutzer nähmen Creatorn Einnahmen weg, kam oft als Antwort, dass das Internet 1996 auch okay gewesen sei, dass man keine Vergütung erwarten dürfe, nur weil man Inhalte online stellt, oder dass es der eigene Computer sei und man selbst entscheide, was geladen wird. Wo ist diese Logik geblieben
  • Vor ein paar Wochen ist meinem Blog dasselbe passiert
    Es war ein Blog, auf das jahrelang gut verwiesen wurde, und plötzlich wurden fast alle Artikel nicht mehr indexiert. In der Search Console steht, die URL wurde gecrawlt, aber derzeit nicht indexiert, und anders als bei technischen Problemen gibt es nichts, was ich beheben könnte. Ich muss wohl akzeptieren, dass man die meisten meiner Texte bei Google nicht mehr finden kann
    Ich glaube zwar nicht wirklich, dass es damit zusammenhängt, aber rückblickend passt der Zeitpunkt dazu, als ich begann, TDMRep so zu konfigurieren, dass meine Inhalte nicht für LLM-Training verwendet werden dürfen

    • Bei mir genauso. Ich betreibe seit über 20 Jahren einen persönlichen Blog, und letztes Jahr konnte ich keinen einzigen Link zu meinem Blog mehr bei Google finden
      Als ich dann in die Google Search Console geschaut habe, standen alle Links auf „gecrawlt, aber nicht indexiert“, ohne irgendeine Begründung
    • Wenn Google die Trainingsdaten einer Website bereits abgesaugt hat, könnte das Nicht-Indexieren eine Art Burggraben gegen Konkurrenten sein, die Google Search zur Seitenerkennung nutzen
  • Einen echten Community-Standort zu bauen, war der klassische SEO-Fehler
    Ihr hättet einen Reddit-Thread, einen Coupon-Unterordner und AI-Zusammenfassungen bauen sollen. Spaß beiseite, ich hoffe, ihr erholt euch bald davon

  • Man könnte sagen, dass Google uns alle hasst

    • Google hasst keinen von uns und liebt auch keinen von uns
      Worum es der Institution geht, ist nur, möglichst vielen Menschen möglichst viel Werbung unterzuschieben und daraus immer absurdere Geldberge zu machen
      Das soll keine Verteidigung von Google sein. Google ist, wie fast jeder Großkonzern, völlig soziopathisch
  • Zur Info: Google hasst auch OpenCV
    Dinge, die früher leicht zu finden waren — etwa wenn man nach „opencv orb“ sucht — liefern inzwischen seitenweise Spam-Websites. Im Grunde Blogspam vom Typ „Lerne hier OpenCV!“
    Das erste Ergebnis von „docs.opencv.org“ taucht buchstäblich erst auf Seite 4 auf und verweist dann auch noch auf die 9 Jahre alte Version 3.4
    Die Seite, die ich eigentlich will, https://docs.opencv.org/4.13.0/dc/dc3/tutorial_py_matcher.ht..., ist nirgends zu finden

    • Bei Produkten, die nicht über Abonnements finanziert werden, stand die Entwicklung wegen Enshittification schon seit Längerem an der Wand, finde ich
      Man sollte mit Geld abstimmen und zu besseren Produkten wechseln, die kundenorientiert statt werbekundenorientiert sind
      Ich erinnere mich gern daran, wie ich als Teenager und junger Erwachsener auf Newgrounds unterwegs war und den Leuten dankbar war, die die Serverkosten bezahlt haben. Ich nahm mir vor, es später selbst für die Nächsten zu tun, wenn ich etabliert bin und etwas Geld übrig habe, und auch wenn es länger gedauert hat als gedacht, mache ich das inzwischen seit fast 10 Jahren
      Deshalb würde ich gern dafür werben, diese Kultur zu normalisieren: dass es einen gewissen Anteil zahlender Kunden gibt, damit kostenlose Nutzung für Menschen, die nicht zahlen können, erhalten bleibt oder Wachstum finanziert werden kann. Auf großartigen Seiten wie Newgrounds haben vermutlich Zehntausende ihre Karriere in Programmierung oder Animation begonnen oder zumindest Inspiration gefunden, und gesellschaftlich war der Nettoeffekt meiner Ansicht nach enorm positiv
    • Ich hatte bei OpenStack-Dokumentation in Google ein sehr ähnliches Problem
  • Nach der gestrigen Keynote und den Search-Änderungen ist ziemlich klar, dass Google in naher Zukunft keine Besucher mehr an Websites schicken wird
    Suchergebnisse werden nur noch Fußnoten zu Gemini-Antworten sein

  • Wikis sind aus SEO-Sicht riskant
    Es war schon extrem schwierig, mein persönliches Wiki indexiert zu bekommen, und ich hatte es fast aufgegeben, bis mir ein Freund, der sich damit besser auskennt, geholfen hat, alle nötigen Einstellungen richtig zu setzen
    Wenn man nicht aufpasst, können Leute sehr leicht überall auf der Seite Spam unterbringen, und das ruiniert die Sichtbarkeit in Suchmaschinen wirklich
    Google ist allerdings riesig. Wirklich, wirklich riesig. So groß, dass selbst Leute innerhalb von Google bei solchen Themen nicht automatisch für ganz Google sprechen
    Das heißt aber nicht, dass Google Wikis generell hasst. Es bedeutet nur, dass man viel Arbeit hineinstecken muss: sicherstellen, dass das Wiki spamfrei ist, Meta-Tag-Informationen pflegen, eine sitemap.xml haben und so weiter. Ein Beispiel für mein Wiki gibt es hier: https://wiki.roshangeorge.dev/w/images/8/89/Screenshot_-_Goo...