- Fara-7B ist ein ultrakompaktes agentisches Sprachmodell (SLM) mit 7 Milliarden Parametern und einer Computer-Use-Agent-Architektur, die Aufgaben durch die tatsächliche Bedienung eines Webbrowsers ausführt
- Es sagt Maus- und Tastatureingaben direkt voraus, erkennt und bedient Webseiten visuell und interagiert ohne separaten Accessibility-Tree oder Parsing-Modell auf dieselbe Weise wie ein Mensch
- On-Device-Ausführung ist möglich, wodurch Latenzen reduziert und der Datenschutz verbessert werden; Aufgaben werden im Durchschnitt in 16 Schritten abgeschlossen, was die Effizienz gegenüber Modellen derselben Klasse erhöht
- In verschiedenen Benchmarks wie WebTailBench erzielte es bessere Ergebnisse als gleich große und größere Modelle, insbesondere bei Web-Automatisierung und mehrstufigen Aufgaben mit hohen Erfolgsraten
- Zusammen mit dem von Microsoft veröffentlichten WebTailBench-Datensatz bietet es eine standardisierte Grundlage für die Bewertung webbasierten Agenten und reproduzierbare Experimentumgebungen und trägt damit zur Standardisierung der Forschung zu realen Web-Interaktionen bei
Überblick über Fara-7B
- Microsofts erstes agentisches Small Language Model (SLM) speziell für die Computernutzung, das mit 7 Milliarden Parametern Leistung auf dem neuesten Stand der Technik erreicht
- Basierend auf Qwen2.5-VL-7B, trainiert mit synthetischen Daten (145.000 Pfade) unter Nutzung des Magentic-One-Multi-Agent-Frameworks
- Mit 7B Parametern ausgestattet und lokal ausführbar, wodurch Latenzen sinken und der Datenschutz verbessert wird
Hauptmerkmale
- Visuell gesteuerte Interaktion zur Erkennung von Webseiten und zur Nachahmung realer Nutzeraktionen wie Scrollen, Klicken und Eingaben
- Nutzt dieselben Eingabemodalitäten wie Menschen, ohne dass ein separates Parsing-Modell erforderlich ist
- Schließt Aufgaben in durchschnittlich 16 Schritten ab und ist damit effizienter als vergleichbare Modelle (durchschnittlich 41 Schritte)
- On-Device-Bereitstellung reduziert die Abhängigkeit von der Cloud und stärkt den Schutz persönlicher Daten
Unterstützte Funktionen
- Websuche und Zusammenfassung von Ergebnissen
- Formularausfüllung, Kontoverwaltung
- Buchung von Flügen, Kinotickets und Restaurantreservierungen
- Online-Shopping und Preisvergleich
- Recherche zu Stellenangeboten und Immobilieninformationen
Leistungsvergleich
- Bewertet in vier Benchmarks: WebVoyager, Online-M2W, DeepShop, WebTailBench
- Fara-7B erreichte Erfolgsraten von 73,5 % bei WebVoyager, 34,1 % bei Online-M2W, 26,2 % bei DeepShop und 38,4 % bei WebTailBench
- Höhere Leistung als gleich große Modelle (UI-TARS-1.5-7B) und größere Modelle (GLM-4.1V-9B)
Benchmark WebTailBench
- Besteht aus 609 Aufgaben mit 11 Typen realer Web-Aufgaben
- Umfasst Einzelseiten-Aufgaben (Shopping, Flüge, Hotels usw.) sowie mehrstufige Aufgaben (Vergleichsshopping, kombinierte Aufgaben usw.)
- Fara-7B erzielte in allen Kategorien die beste Leistung unter Computer-Use-Modellen
- Beispiel: Hotels 53,8 %, Flüge 37,9 %, Shopping 52,4 %, Vergleichsshopping 32,7 %
Evaluierungsinfrastruktur
- Reproduktion realer Browserumgebungen mit Playwright
- Integration verschiedener Modelle über das Abstract Web Agent Interface
- Unterstützung für Modellausführung und Tests über die Fara-Agent-Klasse
- Als experimentell veröffentlichte Version wird die Ausführung in einer Sandbox-Umgebung und die Einschränkung bei der Nutzung sensibler Daten empfohlen
Installation und Ausführung
Reproduzierbarkeit und Evaluierungsumgebung
- Das
webeval/-Framework ermöglicht die Reproduktion der Evaluierungen von WebVoyager und OnlineMind2Web
- Stabile Verwaltung von Browser-Sitzungen durch Integration von BrowserBase
- Konsistente Evaluierung durch Aktualisierungen zeitkritischer Aufgaben, Behandlung von Umgebungsfehlern und eine Begrenzung auf 100 Schritte
- Entfernung von 48 unmöglichen Aufgaben aus dem WebVoyager-Datensatz und Aktualisierung von 50 zukünftigen Datumsangaben
Ausführung und Analyse der Evaluierung
- Ausführung der Evaluierungsskripte im Verzeichnis
webeval/scripts
- Wahlweise VLLM-Self-Hosting oder Azure-Foundry-Endpunkt
- Ergebnisse werden in
gpt_eval/, traj/, screenshot_X.png usw. gespeichert
- Mit Jupyter Notebook lassen sich Durchschnittswerte, Fehlerursachen und abgebrochene Pfade analysieren
Ausblick
- Geplant ist die Veröffentlichung einer Validierungspipeline für LLM-as-a-judge-Evaluierungen sowie der offiziellen, von Menschen annotierten Daten von WebTailBench
- Verbesserung der Evaluierungsqualität durch Zusammenarbeit mit BrowserBase
Zitationshinweis
- Für die Nutzung in der Forschung wird die Zitierung der Arbeit von Microsoft Research Fara: Fast and Accurate Web Agent (2025) empfohlen
1 Kommentare
Hacker-News-Kommentare
Ich denke, das ist der eigentliche Ausgangspunkt dieser Diskussion. Ich frage mich, ob andere große Unternehmen ebenfalls schon externe Modelle auf diese Weise feinabgestimmt haben.
Inzwischen scheinen chinesische Unternehmen die Führung zu übernehmen.
Vielleicht können sie wegen ihres Vertrags mit OpenAI kein eigenes LLM bauen. Meta bringt als einziges Unternehmen in den USA große Open-Source-Modelle heraus, während chinesische Unternehmen weiterhin vollständig offene Modelle veröffentlichen.
Dieses Modell ist für Computersteuerung gedacht, daher sind synthetische Daten passend, weil es kaum echte Datensätze gibt.
Dass chinesische Unternehmen auf Open Source setzen, dient vor allem dem Vertrauensaufbau und der Marketing-Differenzierung.
Passendes Paper: https://arxiv.org/pdf/2504.14772v1
Ich habe Qwen3-VL-30B zusammen mit Playwright ausprobiert, und für Browser-Automatisierung war es ziemlich gut. Wiederkehrende Aufgaben muss man am Ende aber doch im Code festhalten.
Interessant ist, dass dieses Modell kleiner ist, aber für einen spezialisierten Zweck entwickelt wurde.
Ich frage mich, ob Leute wirklich Shopping an eine AI auslagern.
Es wirkt, als würde Microsoft einfach wahllos AI-Experimente herumwerfen.
Das Modell bekommt einen Screenshot der Seite und ein Ziel und erzeugt daraus Automatisierungsbefehle für dieses Ziel.
Als ich es mit Opus3 ausprobierte, war es ziemlich komisch, wie es Dinge sagte wie „Ich beginne das Notfall-Evakuierungsverfahren“ und dann das Raumschiff in die Luft jagte.
Zugehöriges Paper: https://arxiv.org/abs/2511.10395
Empfehlenswert ist auch Sung Kims Feedback-Post.
Ich weiß nicht, ob wir hier gelandet sind, weil wir keine Skripte mehr schreiben können, oder weil der Software-Stack zu komplex geworden ist.
Es wirkte fast so, als wolle man den Token-Verbrauch künstlich erhöhen.
Weil Unternehmen keine APIs für Interoperabilität bereitstellen, ist es am Ende einfacher, wenn ein LLM die UI wie ein Mensch per Brute Force bedient.