- Ein Tool, das Browser-basierte Workflows mithilfe von LLMs und Computer Vision automatisiert
- Bestehende Automatisierungslösungen waren auf DOM-Parsing und XPath-basierte Interaktionen angewiesen, die bei Änderungen des Website-Layouts leicht kaputtgehen können. Skyvern analysiert dagegen in Echtzeit die Elemente im Viewport, erstellt einen Interaktionsplan und führt ihn aus.
- Vorteile:
- Funktioniert auch auf neuen Websites und kann visuelle Elemente ohne maßgeschneiderten Code den für die Aufgabe nötigen Aktionen zuordnen.
- Robust gegenüber Änderungen des Website-Layouts und verwendet keine vordefinierten XPaths oder Selektoren.
- Ein einzelner Workflow kann auf mehrere Websites angewendet werden und auch in komplexen Situationen Probleme durch Interaktion lösen.
Funktionsweise
- Agentensystem: Skyvern verwendet mehrere Agenten, um Websites zu verstehen sowie Aufgaben zu planen und auszuführen.
- Agent für interagierbare Elemente: Analysiert das HTML einer Website und extrahiert interagierbare Elemente.
- Navigationsagent: Plant die Navigation zur Erledigung einer Aufgabe.
- Agent zur Datenextraktion: Extrahiert Daten von der Website.
- Passwort-Agent: Füllt Passwortformulare aus.
- 2FA-Agent: Füllt 2FA-Formulare aus.
- Agent für dynamische Autovervollständigung: Füllt Formulare mit dynamischer Autovervollständigung aus.
Skyvern Cloud
- Cloud-Version: Die gemanagte Cloud-Version von Skyvern kann mehrere Skyvern-Instanzen parallel ausführen, um Workflows in großem Maßstab zu automatisieren, ohne dass die Infrastruktur selbst verwaltet werden muss. Außerdem sind Mechanismen zur Vermeidung von Bot-Erkennung, Proxy-Netzwerke und CAPTCHA-Lösungen enthalten.
Skyvern-Aufgaben und -Workflows
- Aufgaben: Die grundlegenden Bausteine von Skyvern, die anweisen, eine Website zu navigieren, um ein bestimmtes Ziel zu erreichen.
- Workflows: Verbinden mehrere Aufgaben zu einer Arbeitseinheit. So lässt sich zum Beispiel der Prozess zum automatischen Kauf von Produkten in einem E-Commerce-Store automatisieren.
1 Kommentare
Hacker-News-Kommentare
Es gibt Interesse an der Ankündigung der "Computer Use"-Funktion von Claude von Anthropic und Fragen dazu, wodurch sich Skyvern unterscheidet
Es wird erwähnt, dass in letzter Zeit viele AI-Wrapper auf Basis von Playwright aufgetaucht sind
Im Beispielvideo von Skyvern werden Bedenken über viel Prompt-Schreibarbeit und die Nutzung von Klartextdaten geäußert
Es wird die Ansicht geäußert, dass die Häufigkeit von Website-Redesigns übertrieben dargestellt wird
Es wird auf die Risiken von Startups hingewiesen, die auf LLMs von Drittanbietern basieren
Es gibt Glückwünsche zur Open-Source-Veröffentlichung von Skyvern unter AGPL und eine Frage nach Plänen für eine LangChain-Integration
Das Konzept der "Browser-Automatisierung" wird erklärt
Es werden Fragen zu Anwendungsfällen und den langfristigen Folgen von LLM-Workflow-Automatisierungstools aufgeworfen
Es werden Bedenken geäußert, ob Skyvern einer bereits komplexen Prozesslandschaft noch eine weitere Komplexitätsebene hinzufügt
Es gibt eine Frage dazu, ob jemand Skyvern schon auf modal.com ausgeführt hat
Es gibt eine Frage zur Leistung auf WebArena und VisualWebArena
Es gibt eine Frage dazu, ob Cloudflare Skyvern wahrscheinlich blockieren wird
Es gibt eine Frage dazu, ob jemand Skyvern schon auf Airline-Websites ausgeführt hat