WebMCP (Web Model Context Protocol) vorgestellt
(developer.chrome.com)- WebMCP ist ein vorgeschlagener Standard, der darauf ausgelegt ist, dass Websites strukturierte Tools direkt für KI-Agenten im Browser offenlegen
- Anstelle von Screen Scraping oder DOM-Inferenz stellt das Web selbst seine „Was kann auf dieser Seite getan werden?“-Funktionen sowie Ein- und Ausgaben als expliziten Vertrag bereit
- Unterstützt über eine deklarative API und eine imperative API alles von HTML-Formular-basierten Aufgaben bis zu komplexen JavaScript-Interaktionen
- Vertragsstruktur, in der Agenten die Tools einer Seite entdecken (Discovery), Ein- und Ausgaben mit JSON Schema festlegen und den aktuellen Seitenstatus (State) gemeinsam nutzen
- Ist als Early Preview in Chrome Version 146 enthalten. Für den Vorabzugang ist eine Anmeldung beim Chrome built-in AI Early Preview Program erforderlich
- Während das bisherige MCP ein serverseitiges Protokoll ist, unterscheidet sich WebMCP dadurch, dass es ein Protokoll für clientseitige KI-Agenten im Browser ist
Spezifikationsentwurf: WebMCP Early Preview
Hintergrund zur Entstehung von WebMCP
- In agentischen Web-Umgebungen übernimmt KI zunehmend reale Aufgaben wie Buchungen, Einreichungen, Einstellungsänderungen und Navigation im Auftrag von Nutzern
- Das bisherige Web wurde für menschliche Nutzer entworfen, daher mussten Agenten die Bedeutung von Buttons oder die Struktur von Formularen erschließen
- Dadurch kam es wiederholt zu Eingabefehlern, falschen Feldzuordnungen und Anfälligkeit durch UI-Änderungen
- WebMCP führt zur Lösung dieser Probleme einen expliziten Interaktionsvertrag (contract) zwischen Web und Agenten ein
- Anstatt dass Agenten den Zweck von Buttons oder die Struktur von Formularen erraten, veröffentlicht die Website ihre eigene Schnittstelle explizit
- Dieser Vertrag besteht aus drei Kernelementen:
- Discovery: Agenten fragen die von einer Seite unterstützten Tools (z. B.
checkout,filter_results) auf standardisierte Weise ab - JSON Schema: Explizite Definition von Eingaben und erwarteten Ausgaben, wodurch Halluzinationen und Missverständnisse reduziert werden
- State: Ein gemeinsames Verständnis des aktuellen Seitenkontexts, damit Agenten in Echtzeit verfügbare Ressourcen erkennen können
- Discovery: Agenten fragen die von einer Seite unterstützten Tools (z. B.
Zentrale Konzepte von WebMCP
-
Offenlegung strukturierter Tools
- Websites deklarieren die von ihnen bereitgestellten Funktionen in Form von Tools
- Jedes Tool definiert klar Name, Beschreibung, Eingabeschema (JSON Schema) und Ausführungsergebnis
- Agenten können dadurch genau erkennen, was aufgerufen werden muss, ohne das DOM zu interpretieren
-
Vertrag statt Inferenz
- Statt Button-Bedeutungen zu erraten oder Kalender-UIs zu analysieren, legt das Web selbst Absichten und Regeln offen
- Durch feste Ein- und Ausgabeformate werden Halluzinationen und Fehlfunktionen reduziert
- Auch bei UI-Änderungen bleibt das Verhalten von Agenten stabil, solange der Tool-Vertrag erhalten bleibt
Zwei API-Modelle
-
Deklarative API (Declarative API)
- HTML-
<form>-Elemente werden durch das Hinzufügen von Attributen in Tools umgewandelt - Die Attribute
toolnameundtooldescriptiondeklarieren die Bedeutung des Tools - Formularfelder werden direkt zu den Eingabeparametern des Tools
- Der Browser wandelt dies automatisch in JSON Schema um
- Geeignet für einfache, wiederkehrende Aufgaben und bestehende formularbasierte UIs
- HTML-
-
Imperative API (Imperative API)
- Tools werden direkt in JavaScript registriert
- APIs wie
registerTool,provideContextundunregisterToolwerden bereitgestellt - Geeignet für komplexe Logik, Verzweigungen, asynchrone Verarbeitung und zustandsbasierte Abläufe
- Besonders nützlich in SPAs oder fortgeschrittenen Webanwendungen
Interaktionsweise zwischen Browser und Agenten
- Wenn ein Agent ein Tool aufruft, fokussiert der Browser automatisch die entsprechende UI und gibt Eingaben ein
- Ob ein Formular von einem Agenten aufgerufen wurde, wird über das Flag
agentInvokedunterschieden - Bei Erfolg oder Abbruch werden die Events
toolactivatedbzw.toolcancelausgelöst - Über CSS-Pseudoklassen (
:tool-form-active,:tool-submit-active) wird visuelles Feedback bereitgestellt - Die Nutzungsabläufe von Menschen und Agenten lassen sich in ein gemeinsames UI-Zustandsmodell integrieren
Typische Einsatzszenarien
- Wenn eine Airline-Website das Tool
book_flightbereitstellt, kann ein Agent strukturierte Passagierdaten direkt übermitteln, ohne die Kalender-UI zu interpretieren - In Medizin- oder Rechtsportalen können über das Tool
submit_applicationdie Bedeutungen von Feldern klar vermittelt werden - Auf Entwickler-Einstellungsseiten lassen sich Tools wie
run_diagnosticsoffenlegen, um versteckte Menüs automatisch auszuführen - Besonders effektiv in Bereichen wie Kundensupport, E-Commerce und Reisediensten, in denen hochzuverlässige Eingaben erforderlich sind
Unterschied zwischen WebMCP und MCP
- MCP (Model Context Protocol) ist ein serverseitiges Protokoll, das eine separate Server-Bereitstellung erfordert
- WebMCP läuft innerhalb des Browsers und wird direkt in bestehende Webanwendungen integriert
- Auch ohne Server können clientseitige Funktionen für Agenten bereitgestellt werden
- Der entscheidende Unterschied ist der Frontend-zentrierte Ansatz für agentische Browser
Aktueller Status und Einschränkungen
- Verfügbar in Chrome 146 oder höher bei aktiviertem Flag
- Funktioniert nicht in Headless-Umgebungen und erfordert einen sichtbaren Browsing-Kontext
- Es gibt noch keinen Mechanismus, um Websites mit bereitgestellten Tools automatisch zu entdecken
- Entwickler sind selbst für die Synchronisierung des UI-Zustands verantwortlich
- Frühe Preview-Phase, daher sind API-Änderungen und Implementierungsprobleme möglich
3 Kommentare
Nachdem @firt auf X darüber gesprochen hat, ist das inzwischen ziemlich stark zum Thema geworden. Ich habe den Google-Link verwendet.
Es heißt, dass bei der Website-Automatisierung statt Screenshot-/DOM-Analyse schon mit nur 10 % der Tokens gearbeitet werden kann.
Das passt auch zu der Erwartung, dass Software, die Token-Kosten spart, unter evolutionärem Druck überleben wird.
Wenn Chrome die Führung übernimmt, wird es wohl auch schnell in andere Browser übernommen werden.
Wirkt wie Swagger für Agenten.