- Automatisiert den Browser, indem natürlichsprachliche Anweisungen in Browser-Interaktionen (Selenium-Code) umgewandelt werden
- Ziel ist es, einfache Aufgaben zu automatisieren, die im Namen des Nutzers wiederholt, zeitaufwendig und mit geringem kognitivem Aufwand ausgeführt werden
- Bietet eine Engine, die natürlichsprachliche Anfragen in Selenium-Code umwandelt, um Web-Workflows einfach zu automatisieren und im Browser auszuführen
Hauptfunktionen
- Verarbeitung natürlicher Sprache: Versteht Anweisungen in natürlicher Sprache und führt Browser-Interaktionen aus
- Selenium-Integration: Integriert sich nahtlos in Selenium zur Automatisierung von Webbrowsern
- Open Source: Basiert auf Open-Source-Projekten wie transformers und llama-index und nutzt Open-Source-Modelle, um Transparenz sicherzustellen und mit den Interessen der Nutzer im Einklang zu stehen
- Unterstützung lokaler Modelle für Datenschutz und Kontrolle: Unterstützt lokale Modelle wie
Gemma-7b, damit Nutzer die volle Kontrolle über ihren KI-Assistenten behalten und Datenschutz gewährleisten können
- Fortschrittliche KI-Techniken: Führt RAG mit lokalen Embeddings (
bge-small-en-v1.5) aus, extrahiert die relevantesten HTML-Teile und nutzt anschließend Few-shot-Lernen und Chain of Thought, um den relevantesten Selenium-Code für die Ausführung der Aufgabe abzuleiten, ohne das LLM (Nous-Hermes-2-Mixtral-8x7B-DPO) für die Codegenerierung feinabstimmen zu müssen
Erste Schritte
- LaVague kann in einem Colab-Notebook ausprobiert werden.
Roadmap
- Obwohl es sich um ein frühes Projekt handelt, könnte es sich weiterentwickeln, um transparente und ausgerichtete KI-Modelle zu verbreiten, die im Internet im Auftrag von Nutzern handeln können.
- Als zentrale Erkundungsfelder werden gesehen: lokale Modelle feinabzustimmen, damit sie zu Experten für Text2Action werden, die Suche zu verbessern, damit für die Codegenerierung nur relevante Codeteile verwendet werden, sowie andere Browser-Engines (z. B. playwright) oder andere Automatisierungs-Frameworks zu unterstützen.
Meinung von GN⁺
- LaVague hat das Potenzial, durch die Automatisierung wiederkehrender Aufgaben Zeit zu sparen und die Produktivität zu steigern. Das kann besonders bei Aufgaben wie wiederholter Dateneingabe oder dem Ausfüllen von Formularen nützlich sein.
- Da es auf Open Source basiert, bietet es sowohl Nutzern als auch Entwicklern Transparenz und Anpassbarkeit. Das kann communitygetriebene Innovation fördern und dazu beitragen, Vertrauen bei den Nutzern aufzubauen.
- Die von LaVague behandelte Automatisierungstechnologie ist bereits mit Tools wie Selenium integriert, die vielen Unternehmen und Entwicklern vertraut sind, sodass sie sich leicht in bestehende Workflows einfügen lässt.
- Automatisierung mithilfe von KI-Technologien erfordert hohe Genauigkeit und Effizienz. Techniken wie Few-shot-Lernen und Chain of Thought, die LaVague bietet, können helfen, Fehler zu minimieren, die bei der Bearbeitung komplexer Aufgaben auftreten können.
- Die Einführung solcher Technologien erfordert die Berücksichtigung von Datenschutz und Datensicherheit der Nutzer. Die Unterstützung lokaler Modelle kann ein Weg sein, diese Bedenken auszuräumen, dennoch sollten Nutzer weiterhin genau beobachten, wie ihre Daten verarbeitet werden.
2 Kommentare
Es sieht wirklich gut aus, dass man es in einer Notebook-Umgebung testen kann. Gut, dass die Playwright-Integration auf der Roadmap steht,,
Hacker-News-Kommentare
Meinung zum Ausprobieren neuer Tools
Erfahrung mit dem Leeren von Google Photos
Meinung zu Browser-Automatisierungstools wie TaxyAI
Erfahrung mit Selenium-Tests
Sorge über das Ignorieren von Automatisierungsanweisungen auf Websites
Meinung zu den potenziellen Auswirkungen der Automatisierung
Interesse an Modellkompatibilität
Auswirkungen auf Online-Abstimmungen
Wichtigkeit von Benchmarks, die Erfolgsraten zeigen
Interesse am Projekt