3 Punkte von GN⁺ 2025-11-28 | 1 Kommentare | Auf WhatsApp teilen
  • Fara-7B ist ein ultrakompaktes agentisches Sprachmodell (SLM) mit 7 Milliarden Parametern und einer Computer-Use-Agent-Architektur, die Aufgaben durch die tatsächliche Bedienung eines Webbrowsers ausführt
  • Es sagt Maus- und Tastatureingaben direkt voraus, erkennt und bedient Webseiten visuell und interagiert ohne separaten Accessibility-Tree oder Parsing-Modell auf dieselbe Weise wie ein Mensch
  • On-Device-Ausführung ist möglich, wodurch Latenzen reduziert und der Datenschutz verbessert werden; Aufgaben werden im Durchschnitt in 16 Schritten abgeschlossen, was die Effizienz gegenüber Modellen derselben Klasse erhöht
  • In verschiedenen Benchmarks wie WebTailBench erzielte es bessere Ergebnisse als gleich große und größere Modelle, insbesondere bei Web-Automatisierung und mehrstufigen Aufgaben mit hohen Erfolgsraten
  • Zusammen mit dem von Microsoft veröffentlichten WebTailBench-Datensatz bietet es eine standardisierte Grundlage für die Bewertung webbasierten Agenten und reproduzierbare Experimentumgebungen und trägt damit zur Standardisierung der Forschung zu realen Web-Interaktionen bei

Überblick über Fara-7B

  • Microsofts erstes agentisches Small Language Model (SLM) speziell für die Computernutzung, das mit 7 Milliarden Parametern Leistung auf dem neuesten Stand der Technik erreicht
  • Basierend auf Qwen2.5-VL-7B, trainiert mit synthetischen Daten (145.000 Pfade) unter Nutzung des Magentic-One-Multi-Agent-Frameworks
  • Mit 7B Parametern ausgestattet und lokal ausführbar, wodurch Latenzen sinken und der Datenschutz verbessert wird

Hauptmerkmale

  • Visuell gesteuerte Interaktion zur Erkennung von Webseiten und zur Nachahmung realer Nutzeraktionen wie Scrollen, Klicken und Eingaben
  • Nutzt dieselben Eingabemodalitäten wie Menschen, ohne dass ein separates Parsing-Modell erforderlich ist
  • Schließt Aufgaben in durchschnittlich 16 Schritten ab und ist damit effizienter als vergleichbare Modelle (durchschnittlich 41 Schritte)
  • On-Device-Bereitstellung reduziert die Abhängigkeit von der Cloud und stärkt den Schutz persönlicher Daten

Unterstützte Funktionen

  • Websuche und Zusammenfassung von Ergebnissen
  • Formularausfüllung, Kontoverwaltung
  • Buchung von Flügen, Kinotickets und Restaurantreservierungen
  • Online-Shopping und Preisvergleich
  • Recherche zu Stellenangeboten und Immobilieninformationen

Leistungsvergleich

  • Bewertet in vier Benchmarks: WebVoyager, Online-M2W, DeepShop, WebTailBench
  • Fara-7B erreichte Erfolgsraten von 73,5 % bei WebVoyager, 34,1 % bei Online-M2W, 26,2 % bei DeepShop und 38,4 % bei WebTailBench
  • Höhere Leistung als gleich große Modelle (UI-TARS-1.5-7B) und größere Modelle (GLM-4.1V-9B)

Benchmark WebTailBench

  • Besteht aus 609 Aufgaben mit 11 Typen realer Web-Aufgaben
  • Umfasst Einzelseiten-Aufgaben (Shopping, Flüge, Hotels usw.) sowie mehrstufige Aufgaben (Vergleichsshopping, kombinierte Aufgaben usw.)
  • Fara-7B erzielte in allen Kategorien die beste Leistung unter Computer-Use-Modellen
    • Beispiel: Hotels 53,8 %, Flüge 37,9 %, Shopping 52,4 %, Vergleichsshopping 32,7 %

Evaluierungsinfrastruktur

  • Reproduktion realer Browserumgebungen mit Playwright
  • Integration verschiedener Modelle über das Abstract Web Agent Interface
  • Unterstützung für Modellausführung und Tests über die Fara-Agent-Klasse
  • Als experimentell veröffentlichte Version wird die Ausführung in einer Sandbox-Umgebung und die Einschränkung bei der Nutzung sensibler Daten empfohlen

Installation und Ausführung

  • Installation mit pip install -e . oder uv sync --all-extras
  • Installation des Playwright-Browsers erforderlich
  • Unterstützung für Cloud-Hosting über Azure Foundry oder GPU-Self-Hosting mit VLLM
  • Befehlsbeispiel:
    fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com";
    

Reproduzierbarkeit und Evaluierungsumgebung

  • Das webeval/-Framework ermöglicht die Reproduktion der Evaluierungen von WebVoyager und OnlineMind2Web
  • Stabile Verwaltung von Browser-Sitzungen durch Integration von BrowserBase
  • Konsistente Evaluierung durch Aktualisierungen zeitkritischer Aufgaben, Behandlung von Umgebungsfehlern und eine Begrenzung auf 100 Schritte
  • Entfernung von 48 unmöglichen Aufgaben aus dem WebVoyager-Datensatz und Aktualisierung von 50 zukünftigen Datumsangaben

Ausführung und Analyse der Evaluierung

  • Ausführung der Evaluierungsskripte im Verzeichnis webeval/scripts
  • Wahlweise VLLM-Self-Hosting oder Azure-Foundry-Endpunkt
  • Ergebnisse werden in gpt_eval/, traj/, screenshot_X.png usw. gespeichert
  • Mit Jupyter Notebook lassen sich Durchschnittswerte, Fehlerursachen und abgebrochene Pfade analysieren

Ausblick

  • Geplant ist die Veröffentlichung einer Validierungspipeline für LLM-as-a-judge-Evaluierungen sowie der offiziellen, von Menschen annotierten Daten von WebTailBench
  • Verbesserung der Evaluierungsqualität durch Zusammenarbeit mit BrowserBase

Zitationshinweis

  • Für die Nutzung in der Forschung wird die Zitierung der Arbeit von Microsoft Research Fara: Fast and Accurate Web Agent (2025) empfohlen

1 Kommentare

 
GN⁺ 2025-11-28
Hacker-News-Kommentare
  • Der Kernpunkt ist, dass Microsoft Qwen2.5-VL-7B feinabgestimmt hat.
    Ich denke, das ist der eigentliche Ausgangspunkt dieser Diskussion. Ich frage mich, ob andere große Unternehmen ebenfalls schon externe Modelle auf diese Weise feinabgestimmt haben.
  • Es wirkt, als hätte man einfach nur einen Microsoft-Aufkleber auf Qwen2.5-VL geklebt.
    Inzwischen scheinen chinesische Unternehmen die Führung zu übernehmen.
    • Stimmt. Fara-7B antwortet zum Beispiel gut auf die Schlacht an der Somme im Ersten Weltkrieg, weicht aber beim Tian’anmen-Massaker mit der Aussage aus, dass es sich um ein sensibles politisches Thema handle und keine Antwort gegeben werden könne.
  • Der eigentliche Punkt ist die Veröffentlichung des neuen Web-Task-Benchmarks WebTailBench.
  • Ich frage mich, warum Microsoft weiterhin nur Modelle veröffentlicht, die mit synthetischen Daten (synthetic data) trainiert wurden.
    Vielleicht können sie wegen ihres Vertrags mit OpenAI kein eigenes LLM bauen. Meta bringt als einziges Unternehmen in den USA große Open-Source-Modelle heraus, während chinesische Unternehmen weiterhin vollständig offene Modelle veröffentlichen.
    • Ich glaube nicht, dass es vertragliche Einschränkungen gibt. Sie wollen wahrscheinlich einfach keine Ressourcen darauf verschwenden, noch ein weiteres Foundation Model zu bauen.
      Dieses Modell ist für Computersteuerung gedacht, daher sind synthetische Daten passend, weil es kaum echte Datensätze gibt.
      Dass chinesische Unternehmen auf Open Source setzen, dient vor allem dem Vertrauensaufbau und der Marketing-Differenzierung.
    • Wahrscheinlich hat die Rechtsabteilung das so vorgegeben. Große Unternehmen haben im Kern eine innovationsfeindliche Struktur.
    • Modelle wie Gemma, Phi, OLMO, Mistral und GPT-OSS sind ebenfalls durchaus konkurrenzfähig und laufen auch auf gewöhnlicher Hardware gut.
    • Training mit synthetischen Daten ist viel effizienter. Echte Daten kennen nur das nächste Token, synthetische Daten kennen dagegen die gesamte Wahrscheinlichkeitsverteilung, wodurch sich der Trainingseffekt vervielfacht.
      Passendes Paper: https://arxiv.org/pdf/2504.14772v1
    • Nur synthetische Daten zu verwenden ist sicherer. So lassen sich Probleme wie Erwachsenen-Inhalte oder Rollenspiel vermeiden.
  • Das Modell scheint auf die Nutzung des Browsers beschränkt zu sein. Allgemeine Programme wie etwa KiCAD lassen sich damit zum Beispiel nicht steuern.
    Ich habe Qwen3-VL-30B zusammen mit Playwright ausprobiert, und für Browser-Automatisierung war es ziemlich gut. Wiederkehrende Aufgaben muss man am Ende aber doch im Code festhalten.
    Interessant ist, dass dieses Modell kleiner ist, aber für einen spezialisierten Zweck entwickelt wurde.
    • Wenn man solche CUA-Aktionen in deterministische Skripte umwandeln will, lohnt sich ein Blick in den Stagehand-Caching-Guide.
    • Das wäre innerhalb des Browsers per WASM-Emulation möglich. Das liegt weniger an einer Modellgrenze als an den Sicherheits-Sandbox-Beschränkungen.
    • Es gibt die Bitte, entsprechende Tools oder Code zu teilen, falls jemand welche hat.
    • Im tatsächlichen Test lief es nur in einer Playwright-Umgebung.
  • Wenn ich mir die Tabelle ansehe, verstehe ich die meisten Anwendungsfälle nicht wirklich. Nur Preisvergleiche beim Einkaufen sind nachvollziehbar.
    Ich frage mich, ob Leute wirklich Shopping an eine AI auslagern.
    • Das ist nicht unbedingt nur für Verbraucher gedacht. Nützlich ist es zum Beispiel, wenn man Versicherungs-Websites ohne API automatisieren will.
    • Produkte nach Kategorien zu sammeln und zusammenzufassen, ist durchaus eine nützliche Funktion.
    • Ich fände es unangenehm, wenn eine AI für mich bezahlt oder bucht. Recherche und Erkundung würde ich ihr aber gern überlassen.
    • Ich überlasse Wein-Shopping tatsächlich bereits einer AI.
  • Solche Automatisierung war schon vor Jahren möglich. Dafür braucht man nicht einmal eine GPU, und wenn sich die Oberfläche ändert, passt man eben das Skript an.
    Es wirkt, als würde Microsoft einfach wahllos AI-Experimente herumwerfen.
    • Der entscheidende Punkt ist, dass man die Skripte nicht selbst schreiben muss und trotzdem über eine Milliarde Websites automatisieren kann.
      Das Modell bekommt einen Screenshot der Seite und ein Ziel und erzeugt daraus Automatisierungsbefehle für dieses Ziel.
  • Ich frage mich, ob sich so ein Modell auch für die Eingabesteuerung in Videospielen nutzen ließe. Es wäre lustig zu sehen, wie eine AI Kerbal Space Program spielt.
    • Solche Experimente gab es schon früher. Mit kRPC kann ein Modell leicht mit dem Spiel interagieren.
      Als ich es mit Opus3 ausprobierte, war es ziemlich komisch, wie es Dinge sagte wie „Ich beginne das Notfall-Evakuierungsverfahren“ und dann das Raumschiff in die Luft jagte.
    • Auch DeepMinds SIMA-2 ist einen Blick wert (wenn auch kein lokales Modell).
    • Alibabas AgentEvolver ist nicht speziell für Spiele gedacht, aber als agentenbasiertes System auf OODA-Loop-Basis interessant.
      Zugehöriges Paper: https://arxiv.org/abs/2511.10395
      Empfehlenswert ist auch Sung Kims Feedback-Post.
    • Ich frage mich, was passieren würde, wenn man es Online-Poker spielen ließe.
  • Es sieht so aus, als hätte Microsoft Qwen-7B feinabgestimmt.
    • Genauer gesagt ist es Qwen2.5-VL-7B. Dieser Unterschied ist ziemlich wichtig.
    • Es fühlt sich an, als würde sich das Machtgefüge verschieben.
  • Es ist schon absurd, dass man für automatisiertes Klicken auf Webseiten ein 7-Milliarden-Parameter-Modell braucht.
    Ich weiß nicht, ob wir hier gelandet sind, weil wir keine Skripte mehr schreiben können, oder weil der Software-Stack zu komplex geworden ist.
    • Ich habe kürzlich ein Video mit dem Titel „My New Agent Coding Workflow“ gesehen, in dem jemand die IDE per Prompt etwas erledigen ließ, was auch durch simples Herunterladen einer Datei möglich gewesen wäre.
      Es wirkte fast so, als wolle man den Token-Verbrauch künstlich erhöhen.
    • Das ist kein technisches Problem, sondern ein Problem sozialer Zusammenarbeit.
      Weil Unternehmen keine APIs für Interoperabilität bereitstellen, ist es am Ende einfacher, wenn ein LLM die UI wie ein Mensch per Brute Force bedient.
    • Die Hälfte der heutigen Software- und Finanzindustrie steht auf künstlichen Eintrittsbarrieren, die durch übermäßige Komplexität entstehen.