- Vorstellung von GPTBot, einem von OpenAI entwickelten Web-Crawler
- Identifizierbar über das User-Agent-Token „GPTBot“ sowie den vollständigen User-Agent-String
- Von GPTBot gecrawlte Webseiten können zur Verbesserung künftiger KI-Modelle verwendet werden
- Der Crawler filtert Quellen heraus, die Paywall-Zugriff erfordern, dafür bekannt sind, personenbezogene Daten (PII) zu sammeln, oder Texte enthalten, die gegen die Richtlinien von OpenAI verstoßen
- Wenn eine Website GPTBot den Zugriff erlaubt, kann das zur Verbesserung der Genauigkeit, allgemeiner Fähigkeiten und Sicherheit von KI-Modellen beitragen
- Durch das Hinzufügen von GPTBot zur
robots.txt einer Website kann der Zugriff auf die Website verhindert werden; außerdem kann der Zugriff von GPTBot auf bestimmte Verzeichnisse der Website erlaubt werden
- Der vom Crawler verwendete IP-Egress-Bereich ist separat auf der OpenAI-Website angegeben
3 Kommentare
Da werden wohl wirklich viele Experimente stattfinden.
Werden Administratoren von Websites mit Paywall-Zugang den Bot-Zugriff freigeben, damit ihre Inhalte in ChatGPT-Modelle aufgenommen werden?
Derzeit öffnen selbst Websites mit kostenpflichtigem Zugang gelegentlich für den Google-Bot, damit diese gecacht werden können.
Natürlich gibt es auch Bots, die das umgekehrt zum Crawlen ausnutzen, haha
Hacker-News-Kommentare