- Öffentliches Blacklist-Projekt für uBlock Origin, um von KI erzeugte Content-Farm-Websites zu blockieren
- Von generativer KI geschriebene Websites sind oft mit Werbung und Empfehlungslinks gefüllt und enthalten unzuverlässige Informationen
- Nutzer können die Sperrliste anwenden, indem sie die Datei
list.txt abonnieren oder die URL direkt hinzufügen
- Die Merkmale und Identifikationskriterien von KI-generierten Websites werden konkret beschrieben, und die Liste kann durch Pull Requests von Mitwirkenden erweitert werden
- Kann als praktisches Werkzeug zur Verringerung der Verschmutzung der Suchergebnisse durch KI-Inhalte genutzt werden
Projektüberblick
- AI uBlock Blacklist bietet eine Sperrliste für KI-generierte Inhalte, die in der Erweiterung uBlock Origin verwendet werden kann
- Jedes Mal, wenn beim Surfen eine von generativer KI geschriebene Website entdeckt wird, wird sie manuell zur Liste hinzugefügt
- Es werden keine Automatisierungstools verwendet; als Grund wird angegeben, dass es schwierig ist, algorithmisch festzustellen, ob Inhalte von KI erzeugt wurden
Ziel des Projekts
- Von generativer KI geschriebene Websites bieten wenig nützliche Informationen und sind darauf ausgelegt, mit Werbung und Empfehlungslinks Einnahmen zu erzielen
- Von KI geschriebene Inhalte können in großer Menge ohne Prüfung veröffentlicht werden und gefährliche Informationen enthalten
- Als Beispiele werden gefährliche Ratschläge genannt, etwa das Kurzschließen von Schaltkreisen, das Ausführen des Befehls
rm -rf / oder das Mischen von Bleichmittel und Ammoniak
- Aus diesen Gründen gelten KI-generierte Inhalte als nicht vertrauenswürdig und blockierungsbedürftig
- Der Verfasser ist Italiener, daher sind viele italienischsprachige Websites enthalten, und Beiträge zum Hinzufügen von Websites in anderen Sprachen sind willkommen
So fügt man Websites hinzu
- Nutzer ohne technisches Wissen können verdächtige Websites über ein GitHub Issue melden
- Bei direktem Hinzufügen per Pull Request kann auf Domain-Ebene oder auf Ebene eines bestimmten Blog-Pfads blockiert werden
- Beispiel:
||example.com/@slopUser^$doc oder ||example.com^$doc
- Wenn Organisationen, die SEO- und digitales Marketing als Service verkaufen, mehrere Content-Farmen betreiben, wird empfohlen, die zugehörigen Websites gemeinsam hinzuzufügen
Kriterien zur Erkennung von KI-Content-Farmen
- Unnötige Einleitungen und Schlussfolgerungen, übertriebene Titel wie „Comprehensive Guide“, fehlende externe Links und Quellen sowie zahlreiche Empfehlungslinks
- Tausende Beiträge in kurzer Zeit, Fehlinformationen (Halluzinationen), Beiträge nach November 2022 sowie KI-generierte Bilder und Logos
- Schlampig formatierter Text, nicht gerenderte Markdown-Syntax, lange, themenfremde Passagen und wiederholte Top-Platzierungen in Suchergebnissen
- Fehlende Kontaktinformationen, vage Über-uns-Seiten und KI-verherrlichende Inhalte werden ebenfalls als wichtige Merkmale genannt
Einsatz von Google Dorks
- Wenn von KI erzeugte Sätze unverändert kopiert und veröffentlicht werden, lassen sich KI-Seiten durch die Suche nach bestimmten Formulierungen finden
- Beispiel:
"Sure! Here's an article about" (Englisch), "Certo! Ecco un articolo" (Italienisch)
- Seiten mit solchen Formulierungen werden mit der gesamten Domain auf die Blacklist gesetzt
Ähnliche Projekte
1 Kommentare
Meinungen auf Hacker News
Die Idee fand ich interessant und ich wollte auch zur Liste beitragen, habe aber beim FAQ mit der Formulierung „Cry about it“ aufgehört
Ich finde, so eine Haltung ist ungeeignet für den Betrieb einer öffentlichen Blacklist. Es wirkt, als halte sich der Maintainer für unfehlbar
Ich habe um Freigabe gebeten, aber nie eine Antwort erhalten, und sie ist immer noch blockiert
Als realistischeren Ansatz gibt es inzwischen eine neue Liste, die nur Content-Farms oder minderwertige Websites blockiert
Das scheint eine bessere Alternative zu den bisherigen breit angelegten AI-Blocklisten zu sein
Siehe uBlockOrigin-HUGE-AI-Blocklist
Auf Reddit gibt es ebenfalls eine aktive Diskussion dazu
In meinem gist habe ich den Suchprozess und die Liste geteilt
Mit der Zeit wird das Problem der False Positives immer gravierender. Domains werden verkauft, Websites ändern ihre Ausrichtung oder Inhalte werden gelöscht
Mit einer Haltung wie „Cry about it“ wird das nur zu einem Verleumdungs-Schwarzen-Loch. Es braucht zumindest einen Ablauf- oder Überprüfungsmechanismus
In uBlock Origin gibt es bereits eine Blockliste für „AI widget“. Wegen solcher Funktionen nutze ich noch immer Firefox. Unter Chromium ist das nutzlos
Dem Grundsatz stimme ich zu, aber eine Haltung nach dem Muster „Wer mit AI schreibt, hat ein Skill-Problem“ ist Grammarly-Nutzern oder Nicht-Muttersprachlern gegenüber unfair
Außerdem richtet sich dieses Projekt nicht gegen einzelne Autoren, sondern gegen Content-Farms, also ist das ein anderer Punkt
Der Autor scheint eher auf AI-Bot-Farms zu zielen
Immerhin ist im Internet noch keine Whitelist entstanden
Ich nutze ein Tool, das anhand von Tropes erkennt, ob ein Text von AI geschrieben wurde, und den ursprünglichen Prompt rekonstruiert
tropes.fyi/aidr
Diese Richtung gefällt mir. Ich wünschte, es gäbe mehr Blockierungen nach Website-Kategorien
In Unternehmensumgebungen werden Websites über URL-Reputationsdienste kategorisiert und der Zugriff entsprechend gesteuert
Ich denke, auch Privatnutzer brauchen eine solche crowdfinanzierte Infrastruktur
Zum Beispiel wäre ein gemeinnütziger Fonds im Umfang von 1 Milliarde Dollar pro Jahr für ein vertrauenswürdiges Ökosystem aus Browsern, VPN, DNS, E-Mail und Zertifizierungsstellen wünschenswert
Es gibt auch Erweiterungen wie botblock.ai, die auf Twitter AI-Antworten erkennen
Belegbild
Wenn eine Seite zu viele Anzeigen hat, schließe ich sie einfach. Wenn die Werbung halbwegs vernünftig eingebunden ist, nutze ich die Seite weiter
Ich bin müde vom Adblock-Krieg. Ständig tauchen neue Pluginnamen auf, und es wirkt wie ein endloses Wettrüsten