Fara-7B: Ein effizientes agentisches Modell für die Computernutzung

(github.com/microsoft)

3 Punkte von GN⁺ 2025-11-28 | 1 Kommentare | Auf WhatsApp teilen

Fara-7B ist ein ultrakompaktes agentisches Sprachmodell (SLM) mit 7 Milliarden Parametern und einer Computer-Use-Agent-Architektur, die Aufgaben durch die tatsächliche Bedienung eines Webbrowsers ausführt
Es sagt Maus- und Tastatureingaben direkt voraus, erkennt und bedient Webseiten visuell und interagiert ohne separaten Accessibility-Tree oder Parsing-Modell auf dieselbe Weise wie ein Mensch
On-Device-Ausführung ist möglich, wodurch Latenzen reduziert und der Datenschutz verbessert werden; Aufgaben werden im Durchschnitt in 16 Schritten abgeschlossen, was die Effizienz gegenüber Modellen derselben Klasse erhöht
In verschiedenen Benchmarks wie WebTailBench erzielte es bessere Ergebnisse als gleich große und größere Modelle, insbesondere bei Web-Automatisierung und mehrstufigen Aufgaben mit hohen Erfolgsraten
Zusammen mit dem von Microsoft veröffentlichten WebTailBench-Datensatz bietet es eine standardisierte Grundlage für die Bewertung webbasierten Agenten und reproduzierbare Experimentumgebungen und trägt damit zur Standardisierung der Forschung zu realen Web-Interaktionen bei

Überblick über Fara-7B

Microsofts erstes agentisches Small Language Model (SLM) speziell für die Computernutzung, das mit 7 Milliarden Parametern Leistung auf dem neuesten Stand der Technik erreicht
Basierend auf Qwen2.5-VL-7B, trainiert mit synthetischen Daten (145.000 Pfade) unter Nutzung des Magentic-One-Multi-Agent-Frameworks
Mit 7B Parametern ausgestattet und lokal ausführbar, wodurch Latenzen sinken und der Datenschutz verbessert wird

Hauptmerkmale

Visuell gesteuerte Interaktion zur Erkennung von Webseiten und zur Nachahmung realer Nutzeraktionen wie Scrollen, Klicken und Eingaben
Nutzt dieselben Eingabemodalitäten wie Menschen, ohne dass ein separates Parsing-Modell erforderlich ist
Schließt Aufgaben in durchschnittlich 16 Schritten ab und ist damit effizienter als vergleichbare Modelle (durchschnittlich 41 Schritte)
On-Device-Bereitstellung reduziert die Abhängigkeit von der Cloud und stärkt den Schutz persönlicher Daten

Unterstützte Funktionen

Websuche und Zusammenfassung von Ergebnissen
Formularausfüllung, Kontoverwaltung
Buchung von Flügen, Kinotickets und Restaurantreservierungen
Online-Shopping und Preisvergleich
Recherche zu Stellenangeboten und Immobilieninformationen

Leistungsvergleich

Bewertet in vier Benchmarks: WebVoyager, Online-M2W, DeepShop, WebTailBench
Fara-7B erreichte Erfolgsraten von 73,5 % bei WebVoyager, 34,1 % bei Online-M2W, 26,2 % bei DeepShop und 38,4 % bei WebTailBench
Höhere Leistung als gleich große Modelle (UI-TARS-1.5-7B) und größere Modelle (GLM-4.1V-9B)

Benchmark WebTailBench

Besteht aus 609 Aufgaben mit 11 Typen realer Web-Aufgaben
Umfasst Einzelseiten-Aufgaben (Shopping, Flüge, Hotels usw.) sowie mehrstufige Aufgaben (Vergleichsshopping, kombinierte Aufgaben usw.)
Fara-7B erzielte in allen Kategorien die beste Leistung unter Computer-Use-Modellen
- Beispiel: Hotels 53,8 %, Flüge 37,9 %, Shopping 52,4 %, Vergleichsshopping 32,7 %

Evaluierungsinfrastruktur

Reproduktion realer Browserumgebungen mit Playwright
Integration verschiedener Modelle über das Abstract Web Agent Interface
Unterstützung für Modellausführung und Tests über die Fara-Agent-Klasse
Als experimentell veröffentlichte Version wird die Ausführung in einer Sandbox-Umgebung und die Einschränkung bei der Nutzung sensibler Daten empfohlen

Installation und Ausführung

Installation mit pip install -e . oder uv sync --all-extras
Installation des Playwright-Browsers erforderlich
Unterstützung für Cloud-Hosting über Azure Foundry oder GPU-Self-Hosting mit VLLM

Befehlsbeispiel:

fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com";

Reproduzierbarkeit und Evaluierungsumgebung

Das webeval/-Framework ermöglicht die Reproduktion der Evaluierungen von WebVoyager und OnlineMind2Web
Stabile Verwaltung von Browser-Sitzungen durch Integration von BrowserBase
Konsistente Evaluierung durch Aktualisierungen zeitkritischer Aufgaben, Behandlung von Umgebungsfehlern und eine Begrenzung auf 100 Schritte
Entfernung von 48 unmöglichen Aufgaben aus dem WebVoyager-Datensatz und Aktualisierung von 50 zukünftigen Datumsangaben

Ausführung und Analyse der Evaluierung

Ausführung der Evaluierungsskripte im Verzeichnis webeval/scripts
Wahlweise VLLM-Self-Hosting oder Azure-Foundry-Endpunkt
Ergebnisse werden in gpt_eval/, traj/, screenshot_X.png usw. gespeichert
Mit Jupyter Notebook lassen sich Durchschnittswerte, Fehlerursachen und abgebrochene Pfade analysieren

Ausblick

Geplant ist die Veröffentlichung einer Validierungspipeline für LLM-as-a-judge-Evaluierungen sowie der offiziellen, von Menschen annotierten Daten von WebTailBench
Verbesserung der Evaluierungsqualität durch Zusammenarbeit mit BrowserBase

Zitationshinweis

Für die Nutzung in der Forschung wird die Zitierung der Arbeit von Microsoft Research Fara: Fast and Accurate Web Agent (2025) empfohlen

1 Kommentare

GN⁺ 2025-11-28

Hacker-News-Kommentare

Der Kernpunkt ist, dass Microsoft Qwen2.5-VL-7B feinabgestimmt hat.
Ich denke, das ist der eigentliche Ausgangspunkt dieser Diskussion. Ich frage mich, ob andere große Unternehmen ebenfalls schon externe Modelle auf diese Weise feinabgestimmt haben.
Es wirkt, als hätte man einfach nur einen Microsoft-Aufkleber auf Qwen2.5-VL geklebt.
Inzwischen scheinen chinesische Unternehmen die Führung zu übernehmen.
- Stimmt. Fara-7B antwortet zum Beispiel gut auf die Schlacht an der Somme im Ersten Weltkrieg, weicht aber beim Tian’anmen-Massaker mit der Aussage aus, dass es sich um ein sensibles politisches Thema handle und keine Antwort gegeben werden könne.
Der eigentliche Punkt ist die Veröffentlichung des neuen Web-Task-Benchmarks WebTailBench.
Ich frage mich, warum Microsoft weiterhin nur Modelle veröffentlicht, die mit synthetischen Daten (synthetic data) trainiert wurden.
Vielleicht können sie wegen ihres Vertrags mit OpenAI kein eigenes LLM bauen. Meta bringt als einziges Unternehmen in den USA große Open-Source-Modelle heraus, während chinesische Unternehmen weiterhin vollständig offene Modelle veröffentlichen.
- Ich glaube nicht, dass es vertragliche Einschränkungen gibt. Sie wollen wahrscheinlich einfach keine Ressourcen darauf verschwenden, noch ein weiteres Foundation Model zu bauen.
  Dieses Modell ist für Computersteuerung gedacht, daher sind synthetische Daten passend, weil es kaum echte Datensätze gibt.
  Dass chinesische Unternehmen auf Open Source setzen, dient vor allem dem Vertrauensaufbau und der Marketing-Differenzierung.
- Wahrscheinlich hat die Rechtsabteilung das so vorgegeben. Große Unternehmen haben im Kern eine innovationsfeindliche Struktur.
- Modelle wie Gemma, Phi, OLMO, Mistral und GPT-OSS sind ebenfalls durchaus konkurrenzfähig und laufen auch auf gewöhnlicher Hardware gut.
- Training mit synthetischen Daten ist viel effizienter. Echte Daten kennen nur das nächste Token, synthetische Daten kennen dagegen die gesamte Wahrscheinlichkeitsverteilung, wodurch sich der Trainingseffekt vervielfacht.
  Passendes Paper: https://arxiv.org/pdf/2504.14772v1
- Nur synthetische Daten zu verwenden ist sicherer. So lassen sich Probleme wie Erwachsenen-Inhalte oder Rollenspiel vermeiden.
Das Modell scheint auf die Nutzung des Browsers beschränkt zu sein. Allgemeine Programme wie etwa KiCAD lassen sich damit zum Beispiel nicht steuern.
Ich habe Qwen3-VL-30B zusammen mit Playwright ausprobiert, und für Browser-Automatisierung war es ziemlich gut. Wiederkehrende Aufgaben muss man am Ende aber doch im Code festhalten.
Interessant ist, dass dieses Modell kleiner ist, aber für einen spezialisierten Zweck entwickelt wurde.
- Wenn man solche CUA-Aktionen in deterministische Skripte umwandeln will, lohnt sich ein Blick in den Stagehand-Caching-Guide.
- Das wäre innerhalb des Browsers per WASM-Emulation möglich. Das liegt weniger an einer Modellgrenze als an den Sicherheits-Sandbox-Beschränkungen.
- Es gibt die Bitte, entsprechende Tools oder Code zu teilen, falls jemand welche hat.
- Im tatsächlichen Test lief es nur in einer Playwright-Umgebung.
Wenn ich mir die Tabelle ansehe, verstehe ich die meisten Anwendungsfälle nicht wirklich. Nur Preisvergleiche beim Einkaufen sind nachvollziehbar.
Ich frage mich, ob Leute wirklich Shopping an eine AI auslagern.
- Das ist nicht unbedingt nur für Verbraucher gedacht. Nützlich ist es zum Beispiel, wenn man Versicherungs-Websites ohne API automatisieren will.
- Produkte nach Kategorien zu sammeln und zusammenzufassen, ist durchaus eine nützliche Funktion.
- Ich fände es unangenehm, wenn eine AI für mich bezahlt oder bucht. Recherche und Erkundung würde ich ihr aber gern überlassen.
- Ich überlasse Wein-Shopping tatsächlich bereits einer AI.
Solche Automatisierung war schon vor Jahren möglich. Dafür braucht man nicht einmal eine GPU, und wenn sich die Oberfläche ändert, passt man eben das Skript an.
Es wirkt, als würde Microsoft einfach wahllos AI-Experimente herumwerfen.
- Der entscheidende Punkt ist, dass man die Skripte nicht selbst schreiben muss und trotzdem über eine Milliarde Websites automatisieren kann.
  Das Modell bekommt einen Screenshot der Seite und ein Ziel und erzeugt daraus Automatisierungsbefehle für dieses Ziel.
Ich frage mich, ob sich so ein Modell auch für die Eingabesteuerung in Videospielen nutzen ließe. Es wäre lustig zu sehen, wie eine AI Kerbal Space Program spielt.
- Solche Experimente gab es schon früher. Mit kRPC kann ein Modell leicht mit dem Spiel interagieren.
  Als ich es mit Opus3 ausprobierte, war es ziemlich komisch, wie es Dinge sagte wie „Ich beginne das Notfall-Evakuierungsverfahren“ und dann das Raumschiff in die Luft jagte.
- Auch DeepMinds SIMA-2 ist einen Blick wert (wenn auch kein lokales Modell).
- Alibabas AgentEvolver ist nicht speziell für Spiele gedacht, aber als agentenbasiertes System auf OODA-Loop-Basis interessant.
  Zugehöriges Paper: https://arxiv.org/abs/2511.10395
  Empfehlenswert ist auch Sung Kims Feedback-Post.
- Ich frage mich, was passieren würde, wenn man es Online-Poker spielen ließe.
Es sieht so aus, als hätte Microsoft Qwen-7B feinabgestimmt.
- Genauer gesagt ist es Qwen2.5-VL-7B. Dieser Unterschied ist ziemlich wichtig.
- Es fühlt sich an, als würde sich das Machtgefüge verschieben.
Es ist schon absurd, dass man für automatisiertes Klicken auf Webseiten ein 7-Milliarden-Parameter-Modell braucht.
Ich weiß nicht, ob wir hier gelandet sind, weil wir keine Skripte mehr schreiben können, oder weil der Software-Stack zu komplex geworden ist.
- Ich habe kürzlich ein Video mit dem Titel „My New Agent Coding Workflow“ gesehen, in dem jemand die IDE per Prompt etwas erledigen ließ, was auch durch simples Herunterladen einer Datei möglich gewesen wäre.
  Es wirkte fast so, als wolle man den Token-Verbrauch künstlich erhöhen.
- Das ist kein technisches Problem, sondern ein Problem sozialer Zusammenarbeit.
  Weil Unternehmen keine APIs für Interoperabilität bereitstellen, ist es am Ende einfacher, wenn ein LLM die UI wie ein Mensch per Brute Force bedient.
- Die Hälfte der heutigen Software- und Finanzindustrie steht auf künstlichen Eintrittsbarrieren, die durch übermäßige Komplexität entstehen.

Fara-7B: Ein effizientes agentisches Modell für die Computernutzung

Überblick über Fara-7B

Hauptmerkmale

Unterstützte Funktionen

Leistungsvergleich

Benchmark WebTailBench

Evaluierungsinfrastruktur

Installation und Ausführung

Reproduzierbarkeit und Evaluierungsumgebung

Ausführung und Analyse der Evaluierung

Ausblick

Zitationshinweis

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare