2 Punkte von GN⁺ 2024-04-12 | 1 Kommentare | Auf WhatsApp teilen

Crawling-Probleme von OpenAIs GPTBot auf Websites

  • Der Autor hat auf seiner Website web.sp.am ein Problem damit, dass OpenAIs GPTBot vorbeikommt und übermäßig viele Seiten crawlt

    • Pro Tag wurden etwa 3 Millionen Seiten angefragt, davon 1,8 Millionen robots.txt-Anfragen
    • Die Website des Autors ist wie eine Content Farm aufgebaut: 6,859 Milliarden Websites, von denen jede genau eine Seite besitzt
    • Alle Seiten sehen fast identisch aus und verwenden dieselbe IP sowie dasselbe Wildcard-SSL-Zertifikat, sodass es für einen Crawler nicht schwer sein dürfte, die Situation zu erkennen
  • Vor 1–2 Monaten verursachte auch Amazons Crawler ein ähnliches Problem, und durch Kontaktaufnahme konnte das Crawling gestoppt werden

  • Der Autor fragt, ob es jemanden gibt, über den man OpenAI erreichen kann

  • Der Autor scherzt, dass die Daten seiner Website offenbar für das Training von GPT-5 verwendet werden

Meinung von GN⁺

  • Wenn ein Crawler robots.txt nicht korrekt interpretiert und übermäßige Anfragen sendet, ist das selbst ohne böse Absicht ein ernstes Problem, das der Gegenseite Schaden zufügen kann. OpenAI sollte seine Crawler-Logik daher möglichst bald nachbessern
  • Gerade bei Betreibern vieler Domains wie bei einer Content Farm sollte über Maßnahmen wie IP-basierte Filterung nachgedacht werden, damit nicht jede einzelne Website separat gecrawlt wird
  • Es scheint Prozesse und Systeme zu brauchen, mit denen sich das Verhalten von Crawling-Bots überwachen, Auffälligkeiten erkennen und schnell darauf reagieren lässt
  • Außerdem sollte man eng mit den Administratoren der gecrawlten Websites kommunizieren, um Schäden zu minimieren. Es sollte nicht nur um Datensammlung um jeden Preis gehen, sondern auch um ein für beide Seiten tragfähiges Vorgehen

1 Kommentare

 
GN⁺ 2024-04-12
Hacker-News-Kommentare
  • GPT-2/3/J sahen im Subreddit r/counting, wie Nutzer hochzählende Zahlen bis ins Unendliche posteten, und behandelten dadurch Benutzernamen wie SolidGoldMagikarp bei der Tokenisierung als Top-Level-Token, als wären sie im Internet häufige Zeichenfolgen.

  • Der Wortschatz von GPT-3 war auf 50.257 eindeutige Token begrenzt. Es wird vermutet, dass es zwar keinen linearen Zusammenhang, aber dennoch einen messbaren Effekt zwischen den durch das Nischenhobby dieser Subreddit-Nutzer verursachten zusätzlichen Stromkosten und der Verringerung der durchschnittlichen Anzahl von Eingabe-Token durch die Zuweisung von Slots an in realen Texten häufige Teilzeichenfolgen gab.

  • Es wäre lustig, wenn der Website-Untertitel "IECC ChurnWare 0.3" zu einem Token in GPT-5 würde.

  • Der Eigentümer der Website hat die robots.txt nicht korrekt geschrieben und dadurch die Teile auskommentiert, die Crawling tatsächlich erlauben.

  • Es wird die Frage nach dem Zweck von Content-Farmen aufgeworfen. Sie wirken sinnlos, aber es wird vermutet, dass es bizarre wirtschaftliche Anreize gibt. Es gibt Affiliate-Links, aber wie viel Einnahmen sie bringen können, ist fraglich.

  • Manche hofften, dass es in OpenAIs Serverfarmen echte Spinnen gäbe und diese in andere Racks weiterziehen würden.

  • In der Netzwerksicherheit nennt man so etwas ein Tarpit. Damit lassen sich Angriffe, Scans und Automatisierung verlangsamen, sodass Zeit und Energie des Angreifers verschwendet werden und die Verteidigung Zeit gewinnt.

  • Wenn OpenAI ebenfalls robots.txt befolgt, gibt es Probleme mit Bot-Blockierung und Datensammlung. Unter den 100.000 größten Websites blockieren bereits 11 % Crawler, mehr als bei den Wettbewerbern.

  • Dem Betreiber der Website scheinen Suchanfragen über Millionen von Seiten nicht besonders wichtig zu sein, daher wäre es wohl am besten, OpenAI einfach machen zu lassen, was es will.

  • Letztlich werden OpenAI und andere ihre Modelle überwiegend mit von KI erzeugten, oft leicht ungenauen Inhalten trainieren, was zu einer Verschlechterung der Qualität von KI-Antworten führen könnte. Im Moment sind die meisten Inhalte noch von Menschen geschrieben, aber in fünf Jahren wird das vermutlich nicht mehr so sein. Das ist eines der Probleme, die die KI-Branche schnell lösen muss.

  • Der eigentliche Zweck solcher Websites besteht doch darin, Zeit und Ressourcen von Spidern zu verschwenden — warum sollte man das ausgerechnet bei OpenAI nicht wollen?

  • Solche Honeypots wirken wie eine interessante Methode, das Training von LLMs zu kontaminieren.