9 Punkte von GN⁺ 2025-07-14 | 2 Kommentare | Auf WhatsApp teilen
  • BrowserOS ist eine Open-Source-, datenschutzorientierte Alternative zu Perplexity Comet und ein agentischer Browser, der AI-Agenten lokal ausführt
  • Es basiert auf einem Fork von Chromium, unterstützt alle bestehenden Chrome-Erweiterungen und zeichnet sich dadurch aus, dass Benutzerdaten nur lokal gespeichert werden
  • Die Integration mit verschiedenen AI-Providern wie OpenAI, Anthropic, Ollama ist möglich, und es können eigene API-Schlüssel oder lokale Modelle verwendet werden
  • Integriert sind moderne Produktivitätstools wie nativer Highlighter, ChatGPT-basierter Bookmarker und semantische Suche; außerdem soll bald AI-basiertes Ad-Blocking unterstützt werden
  • Anders als bei herkömmlichen Browsern gehen keine Daten an Such- oder Werbeunternehmen, und automatisierte Workflows werden lokal von AI ausgeführt

Überblick über BrowserOS

  • BrowserOS ist ein Open-Source-Agent-Browser, der eine Umgebung bietet, in der AI-Agenten direkt auf dem Computer der Nutzer ausgeführt werden
  • Basierend auf einer Privacy-First-Philosophie werden mit API-Schlüsseln oder lokalen Modellen wie Ollama keine Daten nach außen übertragen
  • Da es auf einem Chromium-Fork basiert, ist die Benutzeroberfläche identisch mit Chrome, und alle Chrome-Erweiterungen funktionieren

Hauptfunktionen

  • AI-Agenten & lokale Ausführung

    • Im Browser werden AI-Agenten direkt lokal ausgeführt, um wiederkehrende Aufgaben und automatisierte Workflows zu erledigen
    • Durch die Integration von Ollama lassen sich große Sprachmodelle statt in der Cloud auf dem eigenen Computer betreiben, wodurch Datenschutz gewährleistet wird
  • Produktivitätstools

    • Unterstützung für integrierte Produktivitätstools im Browser wie Highlighter und ChatGPT-Bookmarker
    • Mit semantischer Suche lassen sich Browserdaten wie Verlauf und Lesezeichen schnell finden
  • Ad-Blocking und MCP Store (geplant)

    • AI-basiertes Ad-Blocking (demnächst verfügbar) soll nach der Blockierung von uBlock Origin in Chrome eine Alternative bieten
    • Im MCP (Multi Command Package) Store (demnächst verfügbar) können populäre MCPs per One-Click installiert und direkt über die Browserleiste genutzt werden
  • Open Source und Community-zentriert

    • Mit der AGPL-3.0-Lizenz ist es zu 100 % Open Source und garantiert Transparenz bei Code und Verhalten
    • Die Beteiligung und Mitwirkung der Community wird aktiv gefördert

Typische Einsatzfälle

  • Automatisierung wiederkehrender und langweiliger Aufgaben: Terminplanung, Formularausfüllen und wiederholte Arbeiten werden automatisch von AI erledigt
  • Deep Research: Das Web wird durchsucht und zusammengefasste Berichte werden erstellt, sodass Informationen effizient ohne manuelles Tab-Management gesammelt werden können
  • Scannen von Social-Media-Inhalten: Auf LinkedIn, Twitter und anderen Plattformen werden relevante Beiträge automatisch ausgewählt und organisiert

Vergleich mit anderen Browsern

  • Chrome: Seit 10 Jahren kaum verändert und ohne Funktionen für AI, Automatisierung oder MCP
  • Brave: Konzentriert sich wegen einer verteilten Strategie mit Kryptowährung, Suche und VPN nicht auf einen AI-Browser
  • Arc/Dia: Geschlossen und nicht Open Source; bei Einstellung der Nutzung gibt es keine Alternative
  • Perplexity Comet: Auf Such- und Werbeunternehmen ausgerichtet, Benutzerdaten werden an Server übertragen; BrowserOS speichert dagegen alle Daten ausschließlich lokal

Installation und Einstieg

  • Download für macOS und Windows verfügbar
  • Chrome-Daten importieren (optional)
  • AI-Provider verbinden (OpenAI, Anthropic, Ollama usw.)
  • Sofort mit agentischer Automatisierung starten

Lizenz

  • AGPL-3.0 Open-Source-Lizenz

2 Kommentare

 
luiseok 2025-07-14

https://de.news.hada.io/topic?id=21581
Kam mir irgendwie bekannt vor, und dann stellte sich heraus, dass es einfach Nxtscape mit umbenanntem Namen war.

 
GN⁺ 2025-07-14
Hacker-News-Kommentare
  • Das im Demo gezeigte Beispiel mit dem Kauf von Zahnpasta zeigt, wie schwierig solche Aufgaben sind: Schon „Zahnpasta“ ist extrem vage spezifiziert, sodass am Ende zufällig etwas aus einer riesigen Liste ausgewählt wird. Bei manchen Aufgaben können frühere Aktionen als Orientierung dienen, aber oft eben auch nicht — zum Beispiel ist unklar, was passieren soll, wenn die zuvor gekaufte Zahnpasta ausverkauft ist. Ich bezweifle daher, dass solche Beispiele wirklich Zeit sparen; schließlich muss man das Ergebnis ohnehin überprüfen und macht die Arbeit damit doppelt. Ich denke, deshalb haben Systeme wie Alexa letztlich nicht das Einkaufserlebnis geliefert, das Amazon sich anfangs erhofft hatte. Sinnvoller wäre es wohl, entweder komplexere Beispiele zu zeigen, bei denen die Zeitersparnis klar erkennbar ist und es nur wenige Ausfallfälle gibt, oder sich stattdessen darauf zu konzentrieren, wie mit Fehlerfällen umgegangen wird. Gibt es eine auf das jeweilige Problem zugeschnittene UI oder wird alles per Chat gelöst? Ich glaube, diese ganze Welt ist alles andere als einfach. Viel Glück an alle.
    • Das stimmt, der gesamte Bereich der agentischen Browser steckt noch ganz am Anfang. Wir selbst haben auch gerade erst begonnen und suchen nach wertvollen Nischen-Use-Cases. Es gibt repetitive und langweilige Aufgaben, bei denen die Zeitersparnis klar ist — zum Beispiel wenn Drittanbieter-Verkäufer auf Walmart mehrmals täglich die Preise der Konkurrenz prüfen, um ihre eigenen Produktpreise anzupassen. Das lässt sich mit einem agentischen Browser leicht automatisieren.
    • Ich denke, das System müsste auch Aufgaben passend zum ästhetischen Geschmack des jeweiligen Nutzers ausführen können, aber das könnte ein sicherheitstechnischer Albtraum werden.
  • Ich hatte Nxtscape bereits installiert und wusste nicht, dass der Produktname geändert wurde. Als ich BrowserOS gestartet habe, war ich irritiert, weil dieselbe UI und sogar dasselbe Fuchs-Emoji im Chatfenster auftauchten. Ehrlich gesagt gefiel mir der alte Name besser. Ich vermute, dass der Namenswechsel aus rechtlichen Gründen erfolgt ist.<br>Ich habe es gebeten, die Kommentare zu einem Arstechnica-Artikel zusammenzufassen, bekam aber zunächst nur die Antwort: „Kann nicht zusammenfassen, weil keine Kommentare enthalten sind.“ Erst als ich ausdrücklich angewiesen habe, auf den Link „comments“ zu klicken, begann es die Kommentare tatsächlich zu lesen. Zur Einordnung: Die Kommentarseite bestand aus insgesamt 3 Seiten, und über mehr als 20 Minuten hinweg führte es ungefähr 100 Aktionen aus, darunter auch viele Scrollbewegungen von ganz genau 1074 Pixeln, und hängt immer noch im Status „Validating task completion...“, während ich weiterhin auf die Zusammenfassung warte.<br>Funktional wirkt es leistungsstark, aber es fühlt sich zu aufwendig und zu langsam an, um es in der Praxis wirklich zu benutzen.<br>Zum Vergleich habe ich denselben Versuch auch mit Nxtscape gemacht, das ebenfalls installiert ist, und dort wurde die Aufgabe schneller und mit weniger Aktionen abgeschlossen. Ob das Zufall war oder an anderer interner Logik liegt, weiß ich nicht.<br>Außerdem gibt es eine Chrome-Erweiterung, mit der sich iCloud-Passwörter in Chrome verwenden lassen, aber sie funktioniert weder in Nxtscape noch in BrowserOS. Wenn ich den Passwortmanager weiterhin jedes Mal manuell öffnen muss, kommt so ein Browser für mich nicht infrage, und ich habe auch nicht vor, meinen Passwortmanager zu wechseln.
    • Wir haben den Namen geändert, um Probleme zu vermeiden, und der alte Name war außerdem schwer auszusprechen. Danke für das Feedback — lass uns gerne weiter auf Discord sprechen (https://discord.gg/YKwjt5vuKr)! Unser Team veröffentlicht täglich und verbessert das Produkt extrem schnell, und der Agent sollte schon in den nächsten Tagen deutlich besser werden. Wir werden uns auch die iCloud-Passwort-Erweiterung ansehen; unser Ziel ist es, Onboarding und Passwortverwaltung viel einfacher zu machen.
  • Wenn das ein Privacy-first-Browser sein soll, frage ich mich, warum nicht Firefox verwendet wurde. Firefox passt für diesen Zweck viel besser und ist auch standardmäßig die bessere Option. Sicherheits- und Privacy-orientierte Browser wie Tor Browser, Mullvad Browser und LibreWolf basieren alle auf der Firefox-Engine. Und ich denke, wir brauchen zwingend verschiedene „Web-Browser-Engines“. Wenn am Ende nur noch die Engines der großen Tech-Konzerne verwendet werden, ist das aus Verbrauchersicht ein enormer Verlust und hemmt Innovation. Unabhängige Browser wie Firefox sollten stärker unterstützt werden.
    • Das war eine wirklich schwierige Entscheidung. Ich habe mit Leuten gesprochen, die Browser auf WebKit gebaut haben, und sie meinten, allein das Beheben zufälliger Bugs und das Lösen von Site-Kompatibilitätsproblemen habe fast zwei Jahre gedauert. Die Firefox/Gecko-Engine mag besser sein als WebKit, aber am Ende bedeutet jede nicht-Chromium-Engine enorm viel Zusatzarbeit — sowohl bei der Website-Kompatibilität als auch bei der Unterstützung von Erweiterungen. Wir sind außerdem nur ein Zwei-Personen-Startup, und die Chromium-Codebasis war der deutlich leichter zu bauende Ausgangspunkt. Und es gibt ja auch Beispiele wie Brave, die zeigen, dass man selbst auf Chromium-Basis einen klar privacy-fokussierten Browser bauen kann. Gerade im Zeitalter agentischer Browser gibt es zudem unglaublich viele Bereiche, in denen sich beim Thema Privacy sofort Verbesserungen erzielen lassen — etwa wenn sensible Daten an Perplexity Comet geschickt werden, nur um Werbeumsätze zu generieren; viel wichtiger ist Unterstützung für lokale LLMs oder die Möglichkeit, dass Nutzer ihren eigenen API key verwenden können.
    • Genau dieselbe Frage hatte ich auch. Ich frage mich, warum man Chromium benutzt, wenn man sich als privacy-orientiert bezeichnet.
  • Ich habe die Aussage gesehen: „Wir patchen direkt den C++-Quellcode von Chrome und erhalten dadurch dieselbe Sicherheit wie Google Chrome.“ Dann frage ich mich, ob bei jedem Chromium-Update jedes Mal ein eigener Rebuild gemacht werden muss, denn gelegentlich betreffen Patches mit völlig harmlos wirkenden Commit-Messages in Wirklichkeit schwerwiegende Schwachstellen, die erst 90 Tage später als CVE veröffentlicht werden.
    • Gute Frage. Bisher bauen wir fortlaufend auf den Chromium-Release-Versionen auf, auf denen auch Google Chrome basiert.
  • Ich fände es besser, wenn das nicht als eigenständiger Browser, sondern als Browser-Erweiterung angeboten würde.
    • Wir wollten es ursprünglich auch als Browser-Erweiterung bauen.<br>Aber wir glauben, dass für einen guten Agent-Copilot diverse Änderungen auf Chromium-C++-Ebene zwingend nötig sind. Chromium besitzt zum Beispiel den Accessibility Tree sämtlicher Websites, aber über die Chrome-Extension-API kommt man nicht daran. Direkter Zugriff auf den Accessibility Tree verbessert die Agent-Performance erheblich. Außerdem fügen wir auf C++-Ebene verschiedene Funktionen hinzu, mit denen der Agent mit Websites interagieren kann, etwa Klickaktionen oder Element-Indizes. In JS wäre das 20- bis 40-mal langsamer.
    • Das denken wir ebenfalls ganz genau so: Um agentische Funktionen umzusetzen, braucht es nicht zwingend den kompletten Browser; innerhalb begrenzter Berechtigungen lässt sich das auch allein als Browser-Erweiterung ausreichend realisieren. Google veröffentlicht zudem oft Zero-Day-Patches direkt selbst, und es gibt definitiv Funktionen, die Google nicht in Chromium aufnimmt. Deshalb würde ich einem zufälligen Open-Source-Fork nicht als meinem Hauptbrowser vertrauen. Als AI-Web-Agent-Browser-Erweiterung empfehle ich rtrvr.ai (https://rtrvr.ai); das ist bereits auf bestehende Nutzer-Workflows zugeschnitten.
    • Als hier nanobrowser erwähnt wurde, hatte ich denselben Gedanken.
    • https://github.com/nanobrowser/nanobrowser ist einen Versuch wert.
  • Das ist ein ähnliches Projekt wie die Chrome-Erweiterung nanobrowser: https://github.com/nanobrowser/nanobrowser
    • Beim schnellen Überfliegen der Projektseite wirkt es so, als würde dort ein externer LLM-API-Key verwendet. Bei diesem im ursprünglichen Beitrag vorgestellten Projekt scheint das LLM dagegen lokal mit transformer.js zu laufen.
    • Wenn sich solche Funktionen bereits als Erweiterung umsetzen lassen, frage ich mich, warum man bestehende Software überhaupt forken muss, um so etwas zu bauen. Mich würde interessieren, ob es klare Funktionen gibt, die ausschließlich BrowserOS bietet und die nanobrowser nicht hat — also welche Unterschiede wirklich herausgestellt werden sollten.
    • Danke fürs Erwähnen.
  • Da steht: „<i>Nachdem Chrome uBlock Origin blockiert hat, bauen wir auch einen LLM-basierten Werbeblocker</i>“. Wenn es ohnehin ein Chromium-Fork ist, könnte man dann nicht einfach uBlock Origin weiterverwenden?
    • Chromium wird die Manifest-V2-API abschaffen, und offenbar möchte kein Fork diese dauerhaft weiterführen. Sogar Brave baut stattdessen einen eigenen integrierten Werbeblocker. Die eigentliche Frage ist: Warum nicht Firefox forken, wenn Firefox all das bereits liefert, statt unbedingt Chromium zu wählen?
  • Mich würde die Roadmap für Linux interessieren; ich habe weder Mac noch Windows.
    • Wir wissen Bescheid. Unterstützung soll voraussichtlich Anfang nächster Woche verfügbar sein. Wir sind allerdings weiterhin nur ein Zwei-Personen-Team, daher gibt es wirklich sehr viel zu tun.
  • Ich würde gern sehen, wie die AI den Mauszeiger direkt bewegt, klickt und Tastatureingaben in Echtzeit auf dem Bildschirm angezeigt werden — also eine Interaktion, die wie bei einem Software-Tutorial wirkt und sich wie ein echter Mensch anfühlt. Wenn die AI wie jetzt einfach Seiten wechselt und die UI abrupt umspringt, wirkt das eher ruckartig und es ist schwer, dem Ablauf zu folgen. Es gibt zu wenige Hinweise darauf, worauf man achten soll, sodass es sich eher wie das Anschauen einer Bildschirmaufnahme anfühlt. Trotzdem scheint es in Bereichen wie mcp/browser automation nützliche Einsatzmöglichkeiten zu geben, daher bin ich gespannt, wie sich das weiterentwickelt.
    • Sehr hilfreiches Feedback, danke!<br>Wir schauen, ob wir auch Cursorbewegungen hinzufügen können. Tastatureingaben wirken bereits wie die eines echten Menschen, aber wir könnten sie wohl langsamer darstellen, damit sie besser wahrnehmbar sind.
    • Ich glaube, was ich wirklich will, ist caretaker ai.
  • Glückwunsch!<br>Mich würde interessieren, wie dieses Projekt finanziell, entwicklungstechnisch und im Hinblick auf Wartung nachhaltig getragen werden soll.
    • Danke!<br>Im Grunde wollen wir es wie viele Open-Source-Projekte machen und Lizenzen für eine Enterprise-Version des Browsers verkaufen.
    • Ich vermute, es ist einfach eine Electron-App oder ein Chromium-Wrapper mit einem Ollama-Wrapper obendrauf aufgebaut (es gibt schließlich jede Menge freie Open-Source-Bibliotheken, mit denen sich Browser steuern lassen).