- KI-basierte Open-Source-Python-Bibliothek für Web-Scraping
- Erstellt mit LLMs und direkter Graph-Logik Scraping-Pipelines für Websites, Dokumente und XML-Dateien
- Man gibt an, welche Informationen extrahiert werden sollen, und die Bibliothek arbeitet selbstständig
- Unterstützt verschiedene Modelle wie Ollama, OpenAI, Groq, Azure und Gemini
- Verfügbare Nodes
- Base Node, HTML-Fetch-Node, Image_to_text-Node, Text-To-Speech-Node, Internet-Suche-Node
- Conditional Node: bestimmt den nächsten Node im Graphen
- Antwortgenerierungs-Node: erstellt mit einem LLM Antworten auf Fragen
- generate_scraper-Node: extrahiert je nach Benutzereingabe die gewünschten Informationen aus Inhalten
- Get_probable_tags-Node: findet HTML-Tags mit den gewünschten Informationen im Inhalt
- Parse-Node: extrahiert Informationen aus HTML-Dokumenten
- Rag-Node: extrahiert relevante Informationen aus großen Dokumenten
- Robots-Node: prüft, ob ein Zugriff für Robots erlaubt ist
1 Kommentare
Bei CSR-Web-Apps hatte ich das Gefühl, dass es nicht besonders gut scrape’t, was ich schade fand.
Dafür war ich mit SSR sehr zufrieden.