Obscura - Open-Source-Headless-Browser
(github.com/h4ckf0r0day)- Eine auf Web-Scraping und die Automatisierung von AI-Agenten spezialisierte Headless-Browser-Engine
- Mit integrierter V8-Engine führt sie echtes JavaScript aus und erlaubt dank Implementierung des Chrome DevTools Protocol (CDP) die direkte Wiederverwendung von Puppeteer- und Playwright-Code
- Im Vergleich zu Headless Chrome deutlich leichtergewichtig: Speicher 30 MB (vs. 200 MB+), Binärdatei 70 MB (vs. 300 MB+), Seitenladen 85 ms (vs. ~500 ms)
- Mit einer Seitenladezeit von 85 ms verkürzt sich bei groß angelegtem Crawling die Wartezeit gegenüber Chrome um das 5- bis 10-Fache
- Verteilung als einzelne Binärdatei, dadurch null externe Abhängigkeiten wie Chrome oder Node.js
- Integrierter
--stealth-Stealth-Modus:- Anti-Bot-Umgehungseinstellungen werden automatisch angewendet, etwa das Verbergen von
navigator.webdriveroder das Tarnen nativer Funktionen - Zufällige Fingerprints pro Sitzung (GPU, Canvas, Audio usw.)
- Anti-Bot-Umgehungseinstellungen werden automatisch angewendet, etwa das Verbergen von
- Automatische Blockierung von Werbe-, Analytics- und Telemetrie-Trackern auf 3.520 Domains, was auch die Rendering-Geschwindigkeit von Seiten verbessert
- In der CLI rendert
obscura fetcheine einzelne Seite,obscura servestartet einen CDP-WebSocket-Server - Mit
obscura scrape url1 url2 ... --concurrency 25ist einfaches paralleles Scraping möglich - Mit
--eval "document.title"lassen sich JS-Ausdrücke direkt in der CLI ausführen und nur das Ergebnis ausgeben, was für einfache Datenextraktion nützlich ist - Über die CDP-API werden wichtige Domains wie Target, Page, Runtime, DOM, Network, Fetch und Input unterstützt; enthalten ist auch die DOM→Markdown-Konvertierung (
LP.getMarkdown) - Bei Formularübermittlung und Login werden POST-Verarbeitung, 302-Weiterleitungen und das Beibehalten von Cookies automatisch verarbeitet, sodass Authentifizierungsabläufe nicht selbst implementiert werden müssen
- Apache-2.0-Lizenz
5 Kommentare
Das ist ein Headless-Browser, der derzeit stark an Popularität gewinnt.
Die schlanke Bauweise ist gut, aber beliebt ist er vor allem, weil der Stealth-Modus zuverlässig funktioniert.
GitHub-Konto wurde erst vor einem Monat erstellt
Wenn ich erst einmal einfach nur danach google, gibt es weder Reaktionen noch Erfahrungsberichte.
Auch auf Hacker News, Reddit usw. ist kaum etwas dazu zu finden ..
Vielleicht finde ich es einfach nicht ..
Trotzdem hat es mehr als 6.000 Stars
Wo kann man sehen, was gerade richtig angesagt ist?
Es wirkt wie eine ziemlich riskante Software ..
Ich habe es vor allem oft auf Twitter gesehen. Man sagt, es sei praktisch für die Automatisierung.
Tatsächlich konnte ich den Stealth-Modus selbst noch nicht testen, daher fällt mir eine Bewertung schwer.
Das scheint nicht besonders üblich zu sein. (Wobei es heutzutage so viele Projekte dieser Art gibt, dass man es vielleicht doch als üblich ansehen muss..)
Es ist aber ein Programm, bei dem die Wahrscheinlichkeit hoch ist, dass man sensible Informationen eingibt und verwendet,
also sollte man es wohl erst nach etwas Zeit einsetzen.
Scheint ein Tool zu sein, das von u/Total_Nectarine_3623 erstellt wurde.
https://www.reddit.com/r/ClaudeAI/s/9VO1vzO2zp
Wenn man sich andere Beiträge ansieht, scheint die Person an ONIST oder CTF interessiert zu sein, also offenbar auch an Informationssicherheit. Die erste Veröffentlichung erfolgte mit einem einzigen riesigen Commit. Das wirkt so, als wäre im ursprünglichen Repository sehr viel Vibe-Coding betrieben und anschließend alles in zahlreiche Commits aufgeteilt worden, sodass man es nicht einfach so veröffentlichen wollte und deshalb zu einem einzigen Commit zusammengefasst hat. Auch der GitHub-Handle h4ckfOr0day deutet darauf hin; bei ONIST oder Tools, die nicht unbedingt über ganz reguläre Wege zugänglich sind, gibt es so etwas wie die Tradition, sie über Wegwerf-Accounts hochzuladen.
Vertrauen in Open Source muss natürlich erst aufgebaut werden, aber es scheint keine besondere Absicht dahinterzustecken.