12 Punkte von GN⁺ 2023-08-08 | 3 Kommentare | Auf WhatsApp teilen
  • Vorstellung von GPTBot, einem von OpenAI entwickelten Web-Crawler
  • Identifizierbar über das User-Agent-Token „GPTBot“ sowie den vollständigen User-Agent-String
  • Von GPTBot gecrawlte Webseiten können zur Verbesserung künftiger KI-Modelle verwendet werden
  • Der Crawler filtert Quellen heraus, die Paywall-Zugriff erfordern, dafür bekannt sind, personenbezogene Daten (PII) zu sammeln, oder Texte enthalten, die gegen die Richtlinien von OpenAI verstoßen
  • Wenn eine Website GPTBot den Zugriff erlaubt, kann das zur Verbesserung der Genauigkeit, allgemeiner Fähigkeiten und Sicherheit von KI-Modellen beitragen
  • Durch das Hinzufügen von GPTBot zur robots.txt einer Website kann der Zugriff auf die Website verhindert werden; außerdem kann der Zugriff von GPTBot auf bestimmte Verzeichnisse der Website erlaubt werden
  • Der vom Crawler verwendete IP-Egress-Bereich ist separat auf der OpenAI-Website angegeben

3 Kommentare

 
ragingwind 2023-08-08

Da werden wohl wirklich viele Experimente stattfinden.

 
xguru 2023-08-08

Werden Administratoren von Websites mit Paywall-Zugang den Bot-Zugriff freigeben, damit ihre Inhalte in ChatGPT-Modelle aufgenommen werden?
Derzeit öffnen selbst Websites mit kostenpflichtigem Zugang gelegentlich für den Google-Bot, damit diese gecacht werden können.
Natürlich gibt es auch Bots, die das umgekehrt zum Crawlen ausnutzen, haha

 
GN⁺ 2023-08-08
Hacker-News-Kommentare
  • Diskussion über die potenziellen Auswirkungen des OpenAI-Webcrawlers GPTBot auf Websites
  • Einige Nutzer schlagen Experimente vor, bei denen GPTBot andere Inhalte zurückgegeben werden, um zu sehen, wie sich das auf das Training von KI-Modellen auswirkt
  • Sorge über GPTBot, das den Response-Header „429 Too Many Requests“ ignoriert, was bei kleinen Projekten mit APIs und Request-Limits Probleme verursachen könnte
  • Nutzer stellen den Nutzen infrage, GPTBot den Zugriff auf ihre Websites zu erlauben, da ihre Inhalte zur Verbesserung von KI-Modellen verwendet werden könnten, ohne den ursprünglichen Erstellern direkten Nutzen oder Anerkennung zu bringen
  • Sorge über mögliche Plagiate, da GPTBot Inhalte umformulieren und Quellen nicht nennen könnte, wodurch sich der ursprüngliche Ursprung des Materials nur schwer nachweisen ließe
  • Einige Nutzer ziehen wegen dieser Bedenken in Erwägung, GPTBot zu blockieren, fragen sich jedoch, ob das Bots, die solche Einschränkungen nicht respektieren, einen Wettbewerbsvorteil verschaffen könnte
  • Die Diskussion berührt auch das breitere Thema von Urheberrechtsverletzungen durch Web-Crawling; einige Nutzer argumentieren, dass Machine-Learning-Modelle, die keine Quellen angeben, als feindselig und potenziell urheberrechtsverletzend betrachtet werden sollten