4 Punkte von GN⁺ 2024-10-25 | 1 Kommentare | Auf WhatsApp teilen
  • Ein Tool, das Browser-basierte Workflows mithilfe von LLMs und Computer Vision automatisiert
  • Bestehende Automatisierungslösungen waren auf DOM-Parsing und XPath-basierte Interaktionen angewiesen, die bei Änderungen des Website-Layouts leicht kaputtgehen können. Skyvern analysiert dagegen in Echtzeit die Elemente im Viewport, erstellt einen Interaktionsplan und führt ihn aus.
  • Vorteile:
    • Funktioniert auch auf neuen Websites und kann visuelle Elemente ohne maßgeschneiderten Code den für die Aufgabe nötigen Aktionen zuordnen.
    • Robust gegenüber Änderungen des Website-Layouts und verwendet keine vordefinierten XPaths oder Selektoren.
    • Ein einzelner Workflow kann auf mehrere Websites angewendet werden und auch in komplexen Situationen Probleme durch Interaktion lösen.

Funktionsweise

  • Agentensystem: Skyvern verwendet mehrere Agenten, um Websites zu verstehen sowie Aufgaben zu planen und auszuführen.
    • Agent für interagierbare Elemente: Analysiert das HTML einer Website und extrahiert interagierbare Elemente.
    • Navigationsagent: Plant die Navigation zur Erledigung einer Aufgabe.
    • Agent zur Datenextraktion: Extrahiert Daten von der Website.
    • Passwort-Agent: Füllt Passwortformulare aus.
    • 2FA-Agent: Füllt 2FA-Formulare aus.
    • Agent für dynamische Autovervollständigung: Füllt Formulare mit dynamischer Autovervollständigung aus.

Skyvern Cloud

  • Cloud-Version: Die gemanagte Cloud-Version von Skyvern kann mehrere Skyvern-Instanzen parallel ausführen, um Workflows in großem Maßstab zu automatisieren, ohne dass die Infrastruktur selbst verwaltet werden muss. Außerdem sind Mechanismen zur Vermeidung von Bot-Erkennung, Proxy-Netzwerke und CAPTCHA-Lösungen enthalten.

Skyvern-Aufgaben und -Workflows

  • Aufgaben: Die grundlegenden Bausteine von Skyvern, die anweisen, eine Website zu navigieren, um ein bestimmtes Ziel zu erreichen.
  • Workflows: Verbinden mehrere Aufgaben zu einer Arbeitseinheit. So lässt sich zum Beispiel der Prozess zum automatischen Kauf von Produkten in einem E-Commerce-Store automatisieren.

1 Kommentare

 
GN⁺ 2024-10-25
Hacker-News-Kommentare
  • Es gibt Interesse an der Ankündigung der "Computer Use"-Funktion von Claude von Anthropic und Fragen dazu, wodurch sich Skyvern unterscheidet

    • Es wird gefragt, was im Vergleich zu Claudes neuer Funktion das Unterscheidungsmerkmal von Skyvern ist
  • Es wird erwähnt, dass in letzter Zeit viele AI-Wrapper auf Basis von Playwright aufgetaucht sind

    • Der Einsatz in der BPA (Business Process Automation) wirke attraktiver als Testautomatisierung
    • Bei der Testautomatisierung seien Genauigkeit und Reproduzierbarkeit wichtig, bei BPA zähle dagegen nur das Ergebnis
  • Im Beispielvideo von Skyvern werden Bedenken über viel Prompt-Schreibarbeit und die Nutzung von Klartextdaten geäußert

    • Es werde zwar behauptet, das sei weniger technisch als die Code-Generierung von Playwright, aber es gebe vermutlich nicht viele Menschen, die das verwalten könnten
    • Es bestehen Sicherheitsbedenken dabei, Website-Logins und Kreditkarteninformationen im Klartext weiterzugeben
  • Es wird die Ansicht geäußert, dass die Häufigkeit von Website-Redesigns übertrieben dargestellt wird

    • Bei der Automatisierung mit Playwright könne bei Prozessänderungen über Validierung erkannt werden, dass Updates nötig sind, aber bei Skyvern sei diese Option nicht sichtbar
  • Es wird auf die Risiken von Startups hingewiesen, die auf LLMs von Drittanbietern basieren

    • Durch die Beteiligung großer Unternehmen wie Anthropic, OpenAI und Google werde der Wettbewerb hart sein
  • Es gibt Glückwünsche zur Open-Source-Veröffentlichung von Skyvern unter AGPL und eine Frage nach Plänen für eine LangChain-Integration

    • Außerdem wird Neugier auf die Technologie geäußert, mit der die Denk-/Handlungslogik von Skyvern aufgebaut wurde
  • Das Konzept der "Browser-Automatisierung" wird erklärt

    • Dabei geht es darum, ähnlich wie mit Selenium ein Programm zu erstellen, das Websites bedient
  • Es werden Fragen zu Anwendungsfällen und den langfristigen Folgen von LLM-Workflow-Automatisierungstools aufgeworfen

    • Unter anderem, ob sie mangelnde Interoperabilität zwischen Tools lösen, Sicherheitsmaßnahmen umgehen oder dazu dienen, die Wartung interner Tools hinauszuzögern
  • Es werden Bedenken geäußert, ob Skyvern einer bereits komplexen Prozesslandschaft noch eine weitere Komplexitätsebene hinzufügt

    • Das Projekt werde zwar vermutlich nützlich sein, aber es gebe Zweifel an den langfristigen Auswirkungen
  • Es gibt eine Frage dazu, ob jemand Skyvern schon auf modal.com ausgeführt hat

  • Es gibt eine Frage zur Leistung auf WebArena und VisualWebArena

  • Es gibt eine Frage dazu, ob Cloudflare Skyvern wahrscheinlich blockieren wird

  • Es gibt eine Frage dazu, ob jemand Skyvern schon auf Airline-Websites ausgeführt hat

    • Airline-Websites ändern sich häufig und verfügen über starke Anti-Scraping-Maßnahmen