GPTBot – OpenAIs Web-Crawler

(platform.openai.com)

12 Punkte von GN⁺ 2023-08-08 | 3 Kommentare | Auf WhatsApp teilen

Vorstellung von GPTBot, einem von OpenAI entwickelten Web-Crawler
Identifizierbar über das User-Agent-Token „GPTBot“ sowie den vollständigen User-Agent-String
Von GPTBot gecrawlte Webseiten können zur Verbesserung künftiger KI-Modelle verwendet werden
Der Crawler filtert Quellen heraus, die Paywall-Zugriff erfordern, dafür bekannt sind, personenbezogene Daten (PII) zu sammeln, oder Texte enthalten, die gegen die Richtlinien von OpenAI verstoßen
Wenn eine Website GPTBot den Zugriff erlaubt, kann das zur Verbesserung der Genauigkeit, allgemeiner Fähigkeiten und Sicherheit von KI-Modellen beitragen
Durch das Hinzufügen von GPTBot zur robots.txt einer Website kann der Zugriff auf die Website verhindert werden; außerdem kann der Zugriff von GPTBot auf bestimmte Verzeichnisse der Website erlaubt werden
Der vom Crawler verwendete IP-Egress-Bereich ist separat auf der OpenAI-Website angegeben

3 Kommentare

ragingwind 2023-08-08

Da werden wohl wirklich viele Experimente stattfinden.

xguru 2023-08-08

Werden Administratoren von Websites mit Paywall-Zugang den Bot-Zugriff freigeben, damit ihre Inhalte in ChatGPT-Modelle aufgenommen werden?
Derzeit öffnen selbst Websites mit kostenpflichtigem Zugang gelegentlich für den Google-Bot, damit diese gecacht werden können.
Natürlich gibt es auch Bots, die das umgekehrt zum Crawlen ausnutzen, haha

GN⁺ 2023-08-08

Hacker-News-Kommentare

Diskussion über die potenziellen Auswirkungen des OpenAI-Webcrawlers GPTBot auf Websites
Einige Nutzer schlagen Experimente vor, bei denen GPTBot andere Inhalte zurückgegeben werden, um zu sehen, wie sich das auf das Training von KI-Modellen auswirkt
Sorge über GPTBot, das den Response-Header „429 Too Many Requests“ ignoriert, was bei kleinen Projekten mit APIs und Request-Limits Probleme verursachen könnte
Nutzer stellen den Nutzen infrage, GPTBot den Zugriff auf ihre Websites zu erlauben, da ihre Inhalte zur Verbesserung von KI-Modellen verwendet werden könnten, ohne den ursprünglichen Erstellern direkten Nutzen oder Anerkennung zu bringen
Sorge über mögliche Plagiate, da GPTBot Inhalte umformulieren und Quellen nicht nennen könnte, wodurch sich der ursprüngliche Ursprung des Materials nur schwer nachweisen ließe
Einige Nutzer ziehen wegen dieser Bedenken in Erwägung, GPTBot zu blockieren, fragen sich jedoch, ob das Bots, die solche Einschränkungen nicht respektieren, einen Wettbewerbsvorteil verschaffen könnte
Die Diskussion berührt auch das breitere Thema von Urheberrechtsverletzungen durch Web-Crawling; einige Nutzer argumentieren, dass Machine-Learning-Modelle, die keine Quellen angeben, als feindselig und potenziell urheberrechtsverletzend betrachtet werden sollten

GPTBot – OpenAIs Web-Crawler

Verwandte Beiträge

3 Kommentare

Hacker-News-Kommentare