Wer auch immer interne OpenAI-Kontakte hat: Bitte bei der Lösung des Spider-Problems helfen

(mailman.nanog.org)

2 Punkte von GN⁺ 2024-04-12 | 1 Kommentare | Auf WhatsApp teilen

Crawling-Probleme von OpenAIs GPTBot auf Websites

Der Autor hat auf seiner Website web.sp.am ein Problem damit, dass OpenAIs GPTBot vorbeikommt und übermäßig viele Seiten crawlt
- Pro Tag wurden etwa 3 Millionen Seiten angefragt, davon 1,8 Millionen robots.txt-Anfragen
- Die Website des Autors ist wie eine Content Farm aufgebaut: 6,859 Milliarden Websites, von denen jede genau eine Seite besitzt
- Alle Seiten sehen fast identisch aus und verwenden dieselbe IP sowie dasselbe Wildcard-SSL-Zertifikat, sodass es für einen Crawler nicht schwer sein dürfte, die Situation zu erkennen
Vor 1–2 Monaten verursachte auch Amazons Crawler ein ähnliches Problem, und durch Kontaktaufnahme konnte das Crawling gestoppt werden
Der Autor fragt, ob es jemanden gibt, über den man OpenAI erreichen kann
Der Autor scherzt, dass die Daten seiner Website offenbar für das Training von GPT-5 verwendet werden

Meinung von GN⁺

Wenn ein Crawler robots.txt nicht korrekt interpretiert und übermäßige Anfragen sendet, ist das selbst ohne böse Absicht ein ernstes Problem, das der Gegenseite Schaden zufügen kann. OpenAI sollte seine Crawler-Logik daher möglichst bald nachbessern
Gerade bei Betreibern vieler Domains wie bei einer Content Farm sollte über Maßnahmen wie IP-basierte Filterung nachgedacht werden, damit nicht jede einzelne Website separat gecrawlt wird
Es scheint Prozesse und Systeme zu brauchen, mit denen sich das Verhalten von Crawling-Bots überwachen, Auffälligkeiten erkennen und schnell darauf reagieren lässt
Außerdem sollte man eng mit den Administratoren der gecrawlten Websites kommunizieren, um Schäden zu minimieren. Es sollte nicht nur um Datensammlung um jeden Preis gehen, sondern auch um ein für beide Seiten tragfähiges Vorgehen

1 Kommentare

GN⁺ 2024-04-12

Hacker-News-Kommentare

Erinnert mich daran, wie GPT-2/3/J mit https://reddit.com/r/counting in Berührung kam. Das ist ein Ort, an dem Reddit-Nutzer endlos zählen, indem sie die Zahlen jeweils um eins erhöhen. Nutzernamen wie SolidGoldMagikarp wirkten offenbar wie so häufige Zeichenfolgen im Internet, dass sie bei der Tokenisierung wie eigenständige Tokens behandelt wurden.
https://www.alignmentforum.org/posts/8viQEp8KBg2QSW4Yc/solid...
https://www.lesswrong.com/posts/LAxAmooK4uDfWmbep/anomalous-...
Das Vokabular ist nicht unendlich, und soweit bekannt hatte auch das Vokabular von GPT-3 nur 50.257 Tokens. Ich frage mich, ob der Unterschied messbar gewesen wäre zwischen den zusätzlichen Stromkosten, die durch dieses Reddit-Nischenhobby entstanden sind, und dem Fall, dass man diese Plätze häufigeren Teilstrings in echtem Text zugewiesen hätte, um die durchschnittliche Zahl der Eingabe-Tokens zu senken.
Witzig wäre, wenn der Untertitel der OP-Seite, IECC ChurnWare 0.3, zu einem GPT-5-Token würde.
- Ich frage mich, wie stark die Ursache von Halluzinationen nicht in der Natur großer Sprachmodelle selbst liegt, sondern im Originalinhalt. Wenn in einem Internetforum eine Frage gestellt wird, deren Antwort ich nicht kenne, schreibe ich ja auch nicht extra „Ich weiß es nicht“.
  Tatsächlich ist eine Antwort wie „Ich weiß es nicht“ in Kontexten, die kein Eins-zu-eins-Gespräch sind, meist nicht hilfreich. Wenn man in einer Gruppe etwas nicht weiß, zeigt Schweigen das bereits an.
- Bei der Tokenisierung wurden die Nutzernamen zu Tokens, aber vor dem eigentlichen Training des Modells wurden solche Texte aus den Trainingsdaten entfernt. Das Modell wurde also nicht mit Texten trainiert, die diese Tokens enthielten. So entstanden Glitch-Tokens, die mit keiner Bedeutung verknüpft waren.
- Auch bei Computerphile gibt es eine Diskussion zu Glitch-Tokens.
  https://www.youtube.com/watch?v=WO2X3oZEJOA
- Die heute gängigste Vokabulargröße ist 32k.
Mich interessiert eher, wozu diese Content-Farm dient. Sie wirkt sinnlos, aber ich vermute irgendeinen seltsamen ökonomischen Anreiz. Affiliate-Links gibt es zwar, aber wie viel kann man damit schon verdienen?
- Das ist ein Honeypot. Der Autor, https://en.wikipedia.org/wiki/John_R._Levine, betreibt diese kleine Farm, damit neue Scraping-Aktivitäten in größerem Umfang unweigerlich darauf stoßen und in den Logs auftauchen.
  Er ist seit Jahrzehnten eine bekannte Anti-Spam-Figur mit diversen Aktivitäten. Auch das beiläufige Einstreuen eines Links zur Landingpage in einer NANOG-Nachricht ist eine Methode, damit Bots den Köder schlucken.
- Den Namen John Levine von iecc.com kenne ich aus Web-1.0-Zeiten als Invincible Electric Calculator Company. Er war Betreiber der Usenet-Newsgroup comp.compilers und schrieb den ersten C-Compiler für den IBM PC RT.
  https://compilers.iecc.com/
- Es sieht eher nach einem Honeypot für Bots aus. Der Zweck ist ziemlich ähnlich.
- Linkers & Loaders ist tatsächlich ein Buch von ihm. Die anderen Bücher habe ich nicht überprüft.
  Auf der Seite https://www.iecc.com/linker/ waren früher Entwürfe des Buchs in mehreren Formaten verfügbar. Als es unter https://news.ycombinator.com/item?id=18424233 auftauchte, habe ich die Dateien zum Offline-Lesen gebündelt; danach wurde der Hinweis in „wegen chronischer Urheberrechtsverletzungen nicht mehr verfügbar“ geändert.
  Ich fragte per E-Mail, ob das in Ordnung sei, bekam aber eine unfreundliche Antwort, ich hätte die Dateien illegal kopiert, nahm den Link herunter, und sie änderten die Formulierung. Ich bin nicht der Buchautor, sie sind es, also können sie das natürlich tun. Ich hatte nur vorgeschlagen, auf die Seite zu schreiben, was man nicht tun solle; sie wählten stattdessen den radikaleren Weg.
- Es wurde einfach zum Spaß gemacht und erfüllt jetzt seine Aufgabe sehr gut. Nicht alles braucht einen wirtschaftlichen Zweck, 100 Tracker, Werbung oder Unternehmenssponsoring.
War ich der Einzige, der gehofft hatte, es gehe darum, dass in einer OpenAI-Serverfarm echte Spinnen wimmeln und in die Racks anderer Leute krabbeln? Ich wusste zwar, dass das nicht sein kann, aber gehofft habe ich es trotzdem.
- Ich hatte gehofft, es ginge darum, dass ein großes Keyword-Bündel Spinnenbilder erzeugt hat.
Die robots.txt war nicht richtig eingerichtet. Der tatsächlich blockierende Teil war auskommentiert.
Sowohl Disallow: / für Amazonbot als auch für GPTBot sind auskommentiert; derzeit wirksam ist nur die Sperre von /archive für User-agent: *.
- Zwischen damals und heute hat sich der Inhalt geändert.
Wenn OpenAI robots.txt beachtet, hat das Unternehmen zugleich ein Problem mit Bot-Blockaden und Datensammlung: https://x.com/AznWeng/status/1777688628308681000
Von den Top-100.000-Websites blockieren bereits 11 % den OpenAI-Crawler; das sind mehr als bei den Konkurrenten Google, FB, Anthropic und Perplexity zusammen.
- Das ist nicht nur fürs Training ein Problem, sondern auch für Endnutzer. Mir ist es oft passiert, dass ich Fragen zu einem langen Artikel stellen oder eine Zusammenfassung haben wollte, das System ihn aber nicht selbst lesen konnte, sodass ich den Text am Ende in den Chat kopieren und einfügen musste.
  Wenn man bedenkt, dass robots.txt nicht verbindlich ist und OpenAI in anderen Kontexten ziemlich wenig Skrupel zu haben scheint, öffentliche Daten abzusaugen, ist es überraschend, dass sie so etwas zu einem Hindernis für die User Experience werden lassen.
Ich denke, man sollte ihn einfach machen lassen. Wenn man das Internet will, dann ist das hier das echte Internet. Da es ihn offenbar nicht groß kümmert, dass er Millionen Seiten abgreift, sollte man ihn einfach machen lassen.
- Das hat Performance-Auswirkungen auf andere legitime Nutzer dieser Web-Farm.
- Manche Scraper respektieren robots.txt. OpenAI tut das nicht. SP macht diese Tatsache nur der Welt bekannt.
- Selbst der CTO sagt, er wisse nicht, woher die Daten kommen.
- Genau das ist der Punkt. Er beschwert sich darüber, dass OpenAI robots.txt nicht respektiert.
In der Welt der Netzwerksicherheit nennt man so etwas einen Tarpit. Indem man Daten sehr langsam sendet oder unendliche Rekursion auslöst, kann man Angriffe, Scans und andere Automatisierung ausbremsen.
Dadurch verschwendet man letztlich Zeit und Energie des Angreifers und gewinnt möglicherweise Zeit, um die eigene Verteidigung zu verstärken.
- Dem Inhalt der E-Mail nach wirkt es eher einfach wie ein Honeypot. Es ist auch keine Verzögerung zu erkennen, wenn Inhalte zurückgegeben werden.
  Ein Tarpit ist anders: Er ist darauf ausgelegt, Scans oder Scraping zu verlangsamen und die Ressourcen der Gegenseite absichtlich zu verschwenden. Es gibt verschiedene Techniken, aber die meisten begrenzen Antworten oder die Antwortgeschwindigkeit exponentiell.
Schon 2011 gab es etwas Ähnliches, als das picolisp-Projekt einen Markov-Ketten-artigen „ticker“ veröffentlichte, der Seiten spontan erzeugte.
https://picolisp.com/wiki/?ticker
Eine ziemlich gute Form eines Honeypots.
Am Ende werden OpenAI und ähnliche Unternehmen ihre Modelle fast vollständig mit KI-generierten Inhalten trainieren, und aus Q&A-Sicht sind solche Inhalte ziemlich oft ein wenig falsch, sodass die Qualität der darauf trainierten KI-Antworten schnell schlechter werden dürfte.
Derzeit wird der Großteil der Internetinhalte von Menschen geschrieben, aber in fünf Jahren könnte das anders sein. Ich halte das für eines der großen Probleme, die der KI-Bereich schnell lösen muss. Wie das alte Sprichwort sagt: Garbage in, garbage out.
- Der Endpunkt des Trainings auf Webtext war immer der Ouroboros. Denn die Anreize der Werbetechnik führen dazu, massenhaft minderwertige Inhalte zu produzieren, um winzige Einnahmen zu erzielen.
  Die Ironie dieser ganzen Situation ist bitter.
- Es wird keine Inhalte mehr geben, die man wie einen Urwald abgrasen kann, aber Inhalte, die Menschen wollen, werden weiterhin die beliebtesten sein, beworben, kuratiert und redigiert werden. Selbst wenn Training auf organischen Inhalten unmöglich wird, bleibt es möglich, gute Inhalte zu bekommen.
- Das Problem ist bereits gelöst. Man muss sich nur ansehen, wie Microsoft Phi trainiert hat. Sie haben mit bestehenden Modellen lehrbuchbasierte synthetische Daten erzeugt und konnten so einen neuen, auf „Fakten“ basierenden Datensatz erstellen, der deutlich hochwertiger war als etwa Common Crawl.
  Für mich sieht das eher nach einem Bootstrapping-Problem aus als nach einem Ouroboros.
- Künftig wird es multimodal sein und aus Feeds verteilter Sensornetze lernen und schließen. Dazu gehören Funk, Optik, Akustik, Beschleunigungssensoren, Vibration, Sensoren im Smartphone und viele andere.
  Ich denke, die Ära reiner Text-Transformer ist bereits vorbei.
- Ich weiß nicht, warum man glaubt, dass OpenAI und Konsorten am Ende fast vollständig mit KI-generierten Inhalten trainieren werden. Es ist gut möglich, dass es im Internet mehr KI-generierte Inhalte als echte Inhalte geben wird, und vielleicht ist das bereits der Fall. Aber es gibt keinen Grund anzunehmen, dass KI-Unternehmen das nicht bemerken und ihre Trainingsmethoden nicht anpassen werden.
Ich denke, OpenAI liest robots.txt, indexiert aber trotzdem. Vermutlich hinterlassen sie nur eine Markierung, dass es Inhalte waren, die nicht indexiert werden sollten.
- Und solchen Inhalten geben sie beim Training dann wohl doppeltes Gewicht.

Wer auch immer interne OpenAI-Kontakte hat: Bitte bei der Lösung des Spider-Problems helfen

Crawling-Probleme von OpenAIs GPTBot auf Websites

Meinung von GN⁺

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare