14 Punkte von GN⁺ 2025-12-25 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Ein Open-Source-Projekt zur Browser-Automatisierung, das Jason Huggins, der vor 21 Jahren Selenium entwickelt hat, mit Blick auf AI-Agenten neu aufgebaut hat
  • Vibium ist eine Browser-Automatisierungsinfrastruktur für AI-Agenten, die als einzelne Binärdatei den Browser-Lebenszyklus und das WebDriver-BiDi-Protokoll verwaltet und einen MCP-Server bereitstellt
  • Die 10 MB große einzelne Go-Binärdatei Clicker erkennt und startet Chrome automatisch und ermöglicht es AI-Modellen oder JS-Clients, den Browser zu steuern – über einen BiDi-Proxy und einen MCP-Server
  • Der JS/TS-Client unterstützt sowohl synchrone als auch asynchrone APIs und ist nach npm install vibium sofort einsatzbereit
  • LLM-Agenten wie Claude Code können mit einem einzigen Befehl claude mcp add vibium Browser-Steuerung hinzufügen
  • Eignet sich sowohl für AI-Automatisierung als auch für Testautomatisierung und bietet eine konfigurationsfreie Browser-Steuerungsumgebung

Überblick über Vibium

  • Vibium ist eine Browser-Automatisierungsinfrastruktur für AI-Agenten und menschliche Nutzer
    • Vereint Browser-Management, WebDriver-BiDi-Proxy und MCP-Server-Funktionen in einer einzelnen Go-Binärdatei
    • Kompatibel mit verschiedenen LLM-Modellen wie Claude Code, Codex und Gemini
  • Die Architektur funktioniert sofort ohne Installationsprozess und lässt sich in AI-Agenten- oder Testautomatisierungsumgebungen einsetzen

Komponenten

  • Clicker: eine etwa 10 MB große Go-Binärdatei mit folgenden Funktionen
    • Automatische Chrome-Erkennung und Start im BiDi-Modus
    • Weiterleitung von Befehlen über einen WebSocket-basierten BiDi-Proxy-Server
    • Kommunikation mit LLM-Agenten über einen MCP-Server
    • Auto-Wait-Funktion zum Warten auf Elemente vor der Interaktion
    • Unterstützung für Screenshot-Erfassung
  • JS/TS-Client: als npm-Paket verfügbar und mit Unterstützung für synchrone (browserSync) und asynchrone (browser) APIs
    • Browser-Steuerung mit einfachen Befehlen wie vibe.go(), vibe.find(), vibe.click(), vibe.quit()
    • Enthält grundlegende Automatisierungsfunktionen wie Screenshot-Speicherung, Elementsuche und Klicks

Integration von AI-Agenten

  • Befehl zum Hinzufügen von Browser-Steuerung zu Claude Code:
    claude mcp add vibium -- npx -y vibium  
    
    • Chrome wird automatisch heruntergeladen, daher ist keine zusätzliche Konfiguration nötig
  • Verfügbare Befehle
    • browser_launch: Browser starten
    • browser_navigate: zu einer URL navigieren
    • browser_find: Element per CSS-Selektor finden
    • browser_click: auf ein Element klicken
    • browser_type: Text eingeben
    • browser_screenshot: Viewport aufnehmen
    • browser_quit: Browser beenden

Installation für menschliche Nutzer

  • Automatische Installation mit dem Befehl npm install vibium
    • Lädt je nach Plattform die Clicker-Binärdatei sowie Chrome for Testing und chromedriver in den Cache herunter
    • Linux: ~/.cache/vibium/, macOS: ~/Library/Caches/vibium/, Windows: %LOCALAPPDATA%\vibium\
  • Mit der Umgebungsvariable VIBIUM_SKIP_BROWSER_DOWNLOAD=1 lässt sich der Browser-Download überspringen

Plattformunterstützung

  • Unterstützt Linux x64, macOS (Intel/Apple Silicon) und Windows x64

Schnellstart

  • Beispiel für die Nutzung als Bibliothek
    import { browser } from "vibium";  
    const vibe = await browser.launch();  
    await vibe.go("https://example.com");  
    const el = await vibe.find("a");  
    await el.click();  
    await vibe.quit();  
    
  • Beispiel für die Integration mit Claude Code
    • Nach der Installation ist Browser-Steuerung mit einem Befehl wie “Go to example.com and click the first link” möglich

Roadmap

  • V1: Fokus auf Browser-Steuerung über MCP und den JS-Client
  • V2 geplant
    • Python- und Java-Clients
    • Cortex (Speicher- und Navigationsschicht)
    • Retina (Erweiterung für Aufzeichnung)
    • Videoaufzeichnung, AI-basierte Elementsuche

Noch keine Kommentare.

Noch keine Kommentare.