- Entwicklung eines Crawling-Bots, der mit ChatGPT Produktinformationen von Coupang sammelt
- Zu erfassende Spalten sind Produktname, Listenpreis, Verkaufspreis, Sternebewertung, Anzahl der Reviews, Kartenrabattinformationen, Guthaben-/Punkteinformationen und Versandinformationen
- Methoden zur Reduzierung der HTML-Größe, um Token-Limits zu vermeiden, sowie Punkte, die beim Schreiben von Prompts zu beachten sind
- Überspringen von Werbeprodukten
- Ausnahmebehandlung für Fälle mit unterschiedlicher DOM-Struktur
- Prüfung der Pflichtspalten (Produktname, Preis)
- ChatGPT ist ein äußerst nützliches Tool, erfordert aber etwas Debugging und Anpassung (am Ende profitieren Experten noch stärker davon)
- Um große Datenmengen zu sammeln, muss die Umgehung von Sperren berücksichtigt werden
5 Kommentare
Es wirkt, als wäre der gesamte Beitrag selbst von GPT geschrieben worden.
So lässt es sich wohl zusammenfassen..
Ich erstelle mit ChatGPT einen Crawler und bekomme viel Hilfe beim Parsing und beim Extrahieren von XPath.
Es ist zwar ein Artikel darüber, wie man mit GPT Crawling erstellt, aber letztlich ist es nur Werbung für HashScrapper.
Sind Tech-Blogs nicht alle so ... hehe