2 Punkte von GN⁺ 2025-04-08 | 1 Kommentare | Auf WhatsApp teilen
  • Ein Tool, das AI-Apps über MCP mit dem Browser verbindet, um Aufgaben auf Websites zu automatisieren
    • Zum Beispiel das wiederholte Ausfüllen von Formularen auf Websites automatisieren
  • Workflow-Automatisierung: Beschleunigt Aufgaben und automatisiert sie, um die Effizienz zu steigern
  • Automatisierte Tests: Mit einem AI-Editor End-to-End-Tests für Code automatisch ausführen. Testet User Flows, überprüft UI-Elemente und stellt sicher, dass die Anwendung in verschiedenen Szenarien wie erwartet funktioniert
  • Aufgabenautomatisierung: Wiederkehrende webbasierte Aufgaben wie Datenerfassung, Formularausfüllung und Workflow-Automatisierung lassen sich einfach automatisieren, um Zeit zu sparen und Fehler zu reduzieren

Vorteile von Browser MCP

  • Geschwindigkeit: Die Automatisierung läuft lokal, wodurch die Leistung ohne Netzwerklatenz verbessert wird.
  • Datenschutz: Da die Automatisierung lokal ausgeführt wird, bleibt die Browser-Aktivität auf dem Gerät und wird nicht an Remote-Server übertragen.
  • Login bleibt erhalten: Durch die Nutzung des bestehenden Browser-Profils bleibt man bei allen Diensten angemeldet.
  • Unauffälligkeit: Verwendet den echten Browser-Fingerprint, um Bot-Erkennung und CAPTCHAs zu vermeiden.

Verwendung

  1. Browser-MCP-Erweiterung installieren: Die Browser-MCP-Erweiterung zum Browser hinzufügen.
  2. MCP-Server einrichten: Den Browser-MCP-Server zur AI-Anwendung hinzufügen und mit der Browser-Erweiterung verbinden.
  3. Automatisierung starten: Automatisierte Workflows erstellen und den AI-Assistenten wiederkehrende Aufgaben im Browser ausführen lassen.

Tools für Browser-Automatisierung

  • Navigieren: Zu einer URL wechseln
  • Zurück: Zur vorherigen Seite wechseln
  • Vorwärts: Zur nächsten Seite wechseln
  • Warten: Für eine angegebene Zeit (Sekunden) warten
  • Taste drücken: Eine Taste auf der Tastatur drücken
  • Snapshot: Einen Accessibility-Snapshot der aktuellen Seite erfassen
  • Klicken: Einen Klick auf der Webseite ausführen
  • Drag-and-Drop: Drag-and-Drop zwischen zwei Elementen ausführen
  • Hover: Mit der Maus über ein Element auf der Seite fahren
  • Text eingeben: Text in ein bearbeitbares Element eingeben
  • Option auswählen: Eine Option aus einem Dropdown auswählen
  • Konsolenprotokolle abrufen: Die Konsolenprotokolle des Browsers abrufen

Kompatible MCP-AI-Anwendungen

  • Cursor
  • Claude
  • Windsurf
  • VSCode

1 Kommentare

 
GN⁺ 2025-04-08
Hacker-News-Kommentare
  • Die Website behauptet, „echte Browser-Fingerprints zu verwenden, um Bot-Erkennung und CAPTCHAs zu umgehen“

    • Ich habe ein ähnliches System ausprobiert, aber als die AI den Browser steuerte, tauchten CAPTCHAs auf und ich wurde auf mehreren Websites blockiert
    • Nachdem ich aufgehört hatte, Browsersitzungen zu verwenden, wurde die Sperre aufgehoben, aber dieser Ansatz ist keine Universallösung
  • Dieses System wirkt wie eine veraltete Kopie von Microsofts Playwright-MCP

  • Ein Browser, der auf Shopping-Websites Produkte nach bestimmten Bedingungen filtern kann, wäre nützlich

  • Ich weiß nicht, was MCP ist, und inzwischen habe ich Angst zu fragen

  • Die Aufgabe, Informationen im Web zu suchen und die Ergebnisse in Google Sheets einzufügen, funktionierte anfangs fast perfekt, scheiterte aber bei späteren Versuchen

    • Ich frage mich, ob es ein Latenzproblem zwischen dem Browser und der MCP-App gibt
    • Beim ersten Versuch habe ich schnell auf die Berechtigung „Diesen Chat zulassen“ geklickt, aber bei späteren Versuchen meldete das LLM Klickprobleme
    • Das Klicken auf den Titel einer Google-Tabelle und das Eingeben eines Namens funktionierte zunächst, scheiterte aber bei späteren Versuchen
    • Auch das Erkennen von Zellen wie A1, B1 usw. und das Einfügen in eine Zeile funktionierte zunächst, scheiterte aber bei späteren Versuchen
    • Der erste Versuch war fast perfekt, aber danach ließ es sich nicht mehr zu 100 % reproduzieren
    • Die Erfahrung ist flüssig, und Einrichtung sowie Ausführung sind hervorragend
  • Beim Testen in Claude Desktop funktionierte es reibungslos und war weniger umständlich als Playwright

    • Es wäre gut, wenn es eine Funktion gäbe, die bei Erkennung eines CAPTCHA die Automatisierung pausiert und den Benutzer benachrichtigt
    • Playwright versucht weiter, das CAPTCHA zu lösen
  • Es wäre gut, wenn man die Seite mithilfe des Accessibility Tree der Chrome-Entwicklertools navigieren könnte

  • Das weckt Erwartungen für manuelle Aufgaben, besonders für Dinge wie Rückerstattungsanträge

    • Jeden Monat ist es lästig, sich bei Dienstleistern einzuloggen, Abrechnungen herunterzuladen, ein Google-Dokument zu erstellen, eine E-Mail zu schreiben und Dateien hochzuladen
    • Automatisierung ist bereits möglich, und echte Apps zur Kostenverfolgung könnten die Hälfte dieser Arbeit reduzieren
    • AI-Tools haben das Potenzial, detaillierte Spezifikationen überflüssig zu machen
    • Solche Workflows werden oft schon durch kleine Änderungen beeinträchtigt
  • Ich frage mich, ob MCP das neue RPA (Robotic Process Automation) ist

  • Ich mache etwas Ähnliches, indem ich Hardware-Synthesizer steuere, um Sounddesign zu betreiben, ohne physische Regler anfassen zu müssen