20 Punkte von xguru 2024-05-10 | 1 Kommentare | Auf WhatsApp teilen
  • KI-basierte Open-Source-Python-Bibliothek für Web-Scraping
    • Erstellt mit LLMs und direkter Graph-Logik Scraping-Pipelines für Websites, Dokumente und XML-Dateien
  • Man gibt an, welche Informationen extrahiert werden sollen, und die Bibliothek arbeitet selbstständig
  • Unterstützt verschiedene Modelle wie Ollama, OpenAI, Groq, Azure und Gemini
  • Verfügbare Nodes
    • Base Node, HTML-Fetch-Node, Image_to_text-Node, Text-To-Speech-Node, Internet-Suche-Node
    • Conditional Node: bestimmt den nächsten Node im Graphen
    • Antwortgenerierungs-Node: erstellt mit einem LLM Antworten auf Fragen
    • generate_scraper-Node: extrahiert je nach Benutzereingabe die gewünschten Informationen aus Inhalten
    • Get_probable_tags-Node: findet HTML-Tags mit den gewünschten Informationen im Inhalt
    • Parse-Node: extrahiert Informationen aus HTML-Dokumenten
    • Rag-Node: extrahiert relevante Informationen aus großen Dokumenten
    • Robots-Node: prüft, ob ein Zugriff für Robots erlaubt ist

1 Kommentare

 
ng0301 2024-05-13

Bei CSR-Web-Apps hatte ich das Gefühl, dass es nicht besonders gut scrape’t, was ich schade fand.
Dafür war ich mit SSR sehr zufrieden.