Scrapling - Adaptives Web-Scraping-Framework

(github.com/D4Vinci)

52 Punkte von xguru 2026-03-10 | 3 Kommentare | Auf WhatsApp teilen

Umgeht die komplexe Struktur moderner Websites und Anti-Bot-Systeme und verarbeitet alles von einzelnen Anfragen bis hin zu Crawling im großen Maßstab
Integrierter intelligenter Parser, der Elemente bei Änderungen der Website-Struktur automatisch erneut auffindet
Integriertes Fetcher-Modul, das wichtige Sicherheitssysteme wie Cloudflare Turnstile standardmäßig umgeht
Unterstützt über das Spider-Framework Funktionen für groß angelegtes Crawling wie Nebenläufigkeit, Session-Management, Pause/Fortsetzen und Proxy-Rotation
- Scrapy-ähnliche API: Nutzung von start_urls, asynchronen parse-Callbacks und Request-/Response-Objekten
- Paralleles Crawling und getrennte Sessions: Mehrere Browser-Sessions können parallel ausgeführt werden
- Checkpoint-basierte Pause- und Fortsetzungsfunktion: Auch bei lang laufendem Crawling stabil
- Echtzeit-Streaming-Modus: Gesammelte Daten können sofort verarbeitet oder in eine UI übernommen werden
- Erkennt blockierte Anfragen automatisch und ermöglicht Wiederholungen mit benutzerdefinierter Logik
- Ergebnisse lassen sich per Hook in die eigene Pipeline exportieren (JSON/JSONL)
Erweitertes Website-Fetching mit Session-Unterstützung
- Die Klasse Fetcher unterstützt fortgeschrittene Anfragefunktionen wie HTTP/3, TLS-Fingerprint-Spoofing und Header-Verschleierung
- Über DynamicFetcher wird browserbasierte Automatisierung mit Playwright/Chrome ausgeführt
- StealthyFetcher umgeht Anti-Bot-Abwehr wie Cloudflare Turnstile automatisch
- Mit ProxyRotator sind Proxy-Wechsel pro Anfrage und Kontrolle über Domain-Sperren möglich
- Alle Fetcher arbeiten asynchron (async) und stellen Session-Klassen wie FetcherSession und DynamicSession bereit
Durch adaptives Scraping (Adaptive Scraping) werden Elemente auch nach Änderungen an Websites automatisch erneut gefunden
- Ähnlichkeitsbasierter Algorithmus zur Elementverfolgung: Ermöglicht robuste Datenerfassung trotz Strukturänderungen
- Unterstützt Selektoren auf Basis von CSS/XPath/Text/Regex
- Integrierter MCP-Server für AI-Integration: Führt in Verbindung mit Claude, Cursor usw. AI-gestützte Datenextraktion aus
  - Vor dem AI-Aufruf filtert Scrapling die Zielinhalte vor, um Token-Verbrauch zu senken und die Geschwindigkeit zu erhöhen
Hochleistungsarchitektur
- Bietet höhere Verarbeitungsgeschwindigkeit als die meisten Python-Scraping-Bibliotheken
- Speichereffiziente Struktur und Lazy Loading für eine schlanke Ausführung
- 10-fach schnellere JSON-Serialisierung, 92 % Testabdeckung und vollständige statische Typhinweise
- In vielen Web-Scraper-Communities praxisbewährt (battle-tested)
Bietet eine entwickler- und Web-Scraper-freundliche Erfahrung
- Integrierte interaktive Web-Scraping-Shell: Unterstützt IPython-basierte Echtzeit-Erkundung und Anfragekonvertierung
- Über CLI-Befehle lassen sich URLs scrapen und Dateien extrahieren, ohne Code zu schreiben
- Die DOM-Navigations-API ermöglicht die Navigation zwischen Eltern-, Geschwister- und Kind-Elementen sowie die Suche nach ähnlichen Elementen
- Automatischer Selektor-Generator zur Erzeugung stabiler CSS-/XPath-Selektoren
- Scrapy-/BeautifulSoup-ähnliche API: Vertraute Entwicklererfahrung für bestehende Nutzer
- Statische Analyse auf Basis von PyRight/MyPy und automatische Docker-Image-Builds verbessern zusätzlich die Deployment-Freundlichkeit
Leistungs-Benchmarks
- Der Scrapling-Parser ist etwas schneller als Parsel/Scrapy und erreicht gegenüber BeautifulSoup4 (bs4) eine bis zu über 700-fach höhere Verarbeitungsgeschwindigkeit
- Auch bei der Leistung der Ähnlichkeitssuche von Elementen wurden gegenüber AutoScraper mehr als 5-fach schnellere Ergebnisse erzielt
Installation mit pip install scrapling oder Aufbau einer vollständigen Laufzeitumgebung inklusive Browser über das bereitgestellte Docker-Image: docker pull pyd4vinci/scrapling
BSD-3-Clause-Lizenz

3 Kommentare

eyelove 2026-03-11

Gibt es dabei rechtlich kein Problem??? Ich meine, ich hätte gesehen, dass das Abrufen von Online-Informationen an sich kein Problem sei.. Mich würde interessieren, ob es unbedenklich ist, Inhalte zu lesen, indem man Sperren der Website gegen Crawling umgeht.

Ist nur das riskant, was man erst nach dem Login einsehen kann?

crawler 2026-03-10

> with FetcherSession(impersonate='chrome') as session: # Use latest version of Chrome's TLS fingerprint

Interessant. Bisher habe ich so etwas immer gesucht und manuell eingefügt, aber so eine Bibliothek sehe ich zum ersten Mal. Scheint praktisch zu sein.

crawler 2026-03-10

Mich würde allerdings interessieren, wie genau Cloudflare umgangen werden soll. Wahrscheinlich müsste ich mir dafür erst einmal den Code ansehen.

Scrapling - Adaptives Web-Scraping-Framework

Verwandte Beiträge

3 Kommentare