42 Punkte von xguru 2026-02-11 | 3 Kommentare | Auf WhatsApp teilen
  • WebMCP ist ein vorgeschlagener Standard, der darauf ausgelegt ist, dass Websites strukturierte Tools direkt für KI-Agenten im Browser offenlegen
  • Anstelle von Screen Scraping oder DOM-Inferenz stellt das Web selbst seine „Was kann auf dieser Seite getan werden?“-Funktionen sowie Ein- und Ausgaben als expliziten Vertrag bereit
  • Unterstützt über eine deklarative API und eine imperative API alles von HTML-Formular-basierten Aufgaben bis zu komplexen JavaScript-Interaktionen
  • Vertragsstruktur, in der Agenten die Tools einer Seite entdecken (Discovery), Ein- und Ausgaben mit JSON Schema festlegen und den aktuellen Seitenstatus (State) gemeinsam nutzen
  • Ist als Early Preview in Chrome Version 146 enthalten. Für den Vorabzugang ist eine Anmeldung beim Chrome built-in AI Early Preview Program erforderlich
  • Während das bisherige MCP ein serverseitiges Protokoll ist, unterscheidet sich WebMCP dadurch, dass es ein Protokoll für clientseitige KI-Agenten im Browser ist

Spezifikationsentwurf: WebMCP Early Preview

Hintergrund zur Entstehung von WebMCP

  • In agentischen Web-Umgebungen übernimmt KI zunehmend reale Aufgaben wie Buchungen, Einreichungen, Einstellungsänderungen und Navigation im Auftrag von Nutzern
  • Das bisherige Web wurde für menschliche Nutzer entworfen, daher mussten Agenten die Bedeutung von Buttons oder die Struktur von Formularen erschließen
  • Dadurch kam es wiederholt zu Eingabefehlern, falschen Feldzuordnungen und Anfälligkeit durch UI-Änderungen
  • WebMCP führt zur Lösung dieser Probleme einen expliziten Interaktionsvertrag (contract) zwischen Web und Agenten ein
  • Anstatt dass Agenten den Zweck von Buttons oder die Struktur von Formularen erraten, veröffentlicht die Website ihre eigene Schnittstelle explizit
  • Dieser Vertrag besteht aus drei Kernelementen:
    • Discovery: Agenten fragen die von einer Seite unterstützten Tools (z. B. checkout, filter_results) auf standardisierte Weise ab
    • JSON Schema: Explizite Definition von Eingaben und erwarteten Ausgaben, wodurch Halluzinationen und Missverständnisse reduziert werden
    • State: Ein gemeinsames Verständnis des aktuellen Seitenkontexts, damit Agenten in Echtzeit verfügbare Ressourcen erkennen können

Zentrale Konzepte von WebMCP

  • Offenlegung strukturierter Tools

    • Websites deklarieren die von ihnen bereitgestellten Funktionen in Form von Tools
    • Jedes Tool definiert klar Name, Beschreibung, Eingabeschema (JSON Schema) und Ausführungsergebnis
    • Agenten können dadurch genau erkennen, was aufgerufen werden muss, ohne das DOM zu interpretieren
  • Vertrag statt Inferenz

    • Statt Button-Bedeutungen zu erraten oder Kalender-UIs zu analysieren, legt das Web selbst Absichten und Regeln offen
    • Durch feste Ein- und Ausgabeformate werden Halluzinationen und Fehlfunktionen reduziert
    • Auch bei UI-Änderungen bleibt das Verhalten von Agenten stabil, solange der Tool-Vertrag erhalten bleibt

Zwei API-Modelle

  • Deklarative API (Declarative API)

    • HTML-<form>-Elemente werden durch das Hinzufügen von Attributen in Tools umgewandelt
    • Die Attribute toolname und tooldescription deklarieren die Bedeutung des Tools
    • Formularfelder werden direkt zu den Eingabeparametern des Tools
    • Der Browser wandelt dies automatisch in JSON Schema um
    • Geeignet für einfache, wiederkehrende Aufgaben und bestehende formularbasierte UIs
  • Imperative API (Imperative API)

    • Tools werden direkt in JavaScript registriert
    • APIs wie registerTool, provideContext und unregisterTool werden bereitgestellt
    • Geeignet für komplexe Logik, Verzweigungen, asynchrone Verarbeitung und zustandsbasierte Abläufe
    • Besonders nützlich in SPAs oder fortgeschrittenen Webanwendungen

Interaktionsweise zwischen Browser und Agenten

  • Wenn ein Agent ein Tool aufruft, fokussiert der Browser automatisch die entsprechende UI und gibt Eingaben ein
  • Ob ein Formular von einem Agenten aufgerufen wurde, wird über das Flag agentInvoked unterschieden
  • Bei Erfolg oder Abbruch werden die Events toolactivated bzw. toolcancel ausgelöst
  • Über CSS-Pseudoklassen (:tool-form-active, :tool-submit-active) wird visuelles Feedback bereitgestellt
  • Die Nutzungsabläufe von Menschen und Agenten lassen sich in ein gemeinsames UI-Zustandsmodell integrieren

Typische Einsatzszenarien

  • Wenn eine Airline-Website das Tool book_flight bereitstellt, kann ein Agent strukturierte Passagierdaten direkt übermitteln, ohne die Kalender-UI zu interpretieren
  • In Medizin- oder Rechtsportalen können über das Tool submit_application die Bedeutungen von Feldern klar vermittelt werden
  • Auf Entwickler-Einstellungsseiten lassen sich Tools wie run_diagnostics offenlegen, um versteckte Menüs automatisch auszuführen
  • Besonders effektiv in Bereichen wie Kundensupport, E-Commerce und Reisediensten, in denen hochzuverlässige Eingaben erforderlich sind

Unterschied zwischen WebMCP und MCP

  • MCP (Model Context Protocol) ist ein serverseitiges Protokoll, das eine separate Server-Bereitstellung erfordert
  • WebMCP läuft innerhalb des Browsers und wird direkt in bestehende Webanwendungen integriert
  • Auch ohne Server können clientseitige Funktionen für Agenten bereitgestellt werden
  • Der entscheidende Unterschied ist der Frontend-zentrierte Ansatz für agentische Browser

Aktueller Status und Einschränkungen

  • Verfügbar in Chrome 146 oder höher bei aktiviertem Flag
  • Funktioniert nicht in Headless-Umgebungen und erfordert einen sichtbaren Browsing-Kontext
  • Es gibt noch keinen Mechanismus, um Websites mit bereitgestellten Tools automatisch zu entdecken
  • Entwickler sind selbst für die Synchronisierung des UI-Zustands verantwortlich
  • Frühe Preview-Phase, daher sind API-Änderungen und Implementierungsprobleme möglich

3 Kommentare

 
xguru 2026-02-11

Nachdem @firt auf X darüber gesprochen hat, ist das inzwischen ziemlich stark zum Thema geworden. Ich habe den Google-Link verwendet.

Es heißt, dass bei der Website-Automatisierung statt Screenshot-/DOM-Analyse schon mit nur 10 % der Tokens gearbeitet werden kann.
Das passt auch zu der Erwartung, dass Software, die Token-Kosten spart, unter evolutionärem Druck überleben wird.

 
crawler 2026-02-11

Wenn Chrome die Führung übernimmt, wird es wohl auch schnell in andere Browser übernommen werden.

 
parkindani 2026-02-11

Wirkt wie Swagger für Agenten.