Nxtscape – Open-Source-Agentenbrowser
(github.com/nxtscape)- Open-Source-Browser mit KI-basierten Agentenfunktionen
- Stellt die Privatsphäre der Nutzer in den Vordergrund und bietet durch das lokale Ausführen von KI-Modellen starke Vorteile beim Datenschutz
- Betont als wichtigste Vorteile die Kompatibilität mit Chrome-Erweiterungen sowie eine transparente Open-Source-Politik
- Unterscheidet sich von bestehenden Browser-Alternativen wie Arc, Dia, Perplexity Comet durch lokale Verarbeitung und Kontrolle über Nutzerdaten
- Zielt auf kontinuierlichen Funktionsausbau und communitygetriebene Weiterentwicklung ab und unterstützt verschiedene Formen der Mitwirkung
Was ist Nxtscape?
- Nxtscape ist ein Open-Source-Agentenbrowser, der KI-Funktionen in einer lokalen Umgebung ausführt
- Er ist eine Alternative zu Browsern wie Arc, Dia, Perplexity Comet und eignet sich besonders für Nutzer, die Wert auf Privatsphäre und Datenkontrolle legen
- Nutzer können ihren eigenen API-Schlüssel verwenden oder lokale Modelle wie Ollama einbinden, sodass Informationen wie der Webverlauf nicht nach außen abfließen
Zentrale Funktionen
- Durch die vollständige Kompatibilität mit Chrome-Erweiterungen kann die gewohnte Umgebung beibehalten werden
- Der KI-Agent arbeitet direkt im Browser, ohne über die Cloud zu gehen
- Nutzer können ihren API-Schlüssel selbst eingeben oder lokale Modelle anbinden und so einen hohen Datenschutz sicherstellen
- Die Open-Source- und communitygetriebene Entwicklungsweise sorgt für Transparenz im Code
- Künftig sind verschiedene zusätzliche Funktionen geplant, darunter ein MCP Store und KI-basierter Werbeblocker
Demo und Anwendungsbeispiele
- Bietet Automatisierungsszenarien mit einem KI-Agenten
- Integriert lokalen KI-Chat, um dialogbasierte Unterstützung zu bieten
- Demonstriert verschiedene Möglichkeiten zur Arbeitsautomatisierung in Verbindung mit Produktivitätstools
Entwicklungshintergrund
- Ausgangspunkt war die Problemerkenntnis, dass sich Browsertechnologie über lange Zeit kaum weiterentwickelt hat
- Ziel ist der Aufbau einer KI-agentenbasierten Umgebung, die die Produktivität von Entwicklern deutlich steigert
- Statt mit dem Browser zu „konkurrieren“, sollen Nutzer sich vom Browser helfen lassen können, indem monotone Aufgaben automatisiert werden, zum Beispiel „Tide Pods aus der Amazon-Bestellhistorie nachbestellen“
- Es wird der klare Grundsatz vertreten, dass KI-Agenten sicher in einer lokalen Umgebung arbeiten müssen
Vergleich mit wichtigen Browsern
- Chrome: Basiert auf dem Open-Source-Projekt Chromium, hat in den vergangenen zehn Jahren jedoch kaum innovative Funktionen rund um KI, Automatisierung oder MCP (Multi Capability Plug-in) eingeführt
- Brave: Hat seine Ausrichtung um Kryptowährungen, Suche, VPN und mehr erweitert, während Nxtscape sich auf KI konzentriert
- Arc/Dia: Waren populär, sind aber Closed Source; bei einer Einstellung des Dienstes fehlt eine Alternative. Nxtscape ist vollständig Open Source
- Perplexity Comet: Als Such-/Werbeunternehmen besteht das Problem, dass Daten wie der Browserverlauf dem Unternehmen zufallen. Nxtscape beschränkt sämtliche Nutzerdaten auf die lokale Umgebung
Community-Beteiligung und Beiträge
- Beiträge sind auf verschiedene Weise möglich, etwa durch Bug Reports, Funktionsvorschläge, Teilnahme auf Discord oder das Folgen auf Twitter
Lizenz und technische Hinweise
- Der Quellcode wird unter der Lizenz AGPL-3.0 veröffentlicht
- Das Projekt wurde mit Inspiration aus Open-Source-Projekten wie Chromium, browser-use, Stagehand und Nanobrowser entwickelt
1 Kommentare
Hacker-News-Kommentare
Ich habe das Gefühl, dass sich die bisherigen Kommentare eher auf Details als auf das Gesamtbild konzentrieren. Ich persönlich stelle mir enormen Wert in einem Browser vor, der mit einem lokalen LLM verbunden ist, alles, was der Browser sieht, zusammen mit Zeitstempeln in einer lokalen DB speichert, meine Interaktionen automatisch parst/zusammenfasst, sich wie Puppeteer skripten lässt und promptbasierte Automatisierung mit Code unterstützt. Als mein eigener digitaler Assistent könnte er vergessene Informationen oder Dinge, die ich brauche, leicht wiederfinden, Suche, Werbung, Spam und unerwünschte Informationen aktiv herausfiltern und sogar gewünschte Internet-Aufgaben automatisch erledigen. Nach 25 Jahren angesammelter Bookmarks reichen Bookmarks allein nicht mehr aus. Die Situation, dass man auf überladenen Websites wegen einer einzigen Information völlig vom Weg abkommt, ließe sich verbessern, wenn ein Bodyguard-Bot Rauschen und unnötige Informationen herausfiltert. Wenn das wirklich gut funktioniert, könnte es gleichzeitig die Rolle eines persönlichen Assistenten, Tour-Managers, Türstehers, Hausverwalters, Mechanikers im digitalen Raum und mehr übernehmen, und im Jahr 2025, in dem der Browser zum Hauptportal des chaotischen Internets geworden ist, ist diese Richtung keine schlechte Idee. Am Ende kommt es auf die Umsetzungsfähigkeit an, aber ich bin extrem gespannt, wie sich so ein Projekt entwickelt
Vielen Dank für das ehrliche Feedback. Genau das ist die Vision, die wir gezeichnet haben. Obwohl wir mehr als 90 % unseres Tages im Browser verbringen, ist er immer noch nur ein „dummes Fenster“. Wenn er sich an den Verlauf erinnern, wichtige Artikel ausschneiden und Highlights wie der Evernote Web Clipper speichern und alles semantisch durchsuchbar machen könnte, würde das das Leben verändern. Alle Daten werden in einer lokalen PostgresDB gespeichert, und Fragen wie „Wie war noch mal der Preisvergleich letzten Monat?“ oder „Finde das Highlight zur Browser-Automatisierung“ könnten direkt beantwortet werden. Dazu gehört auch eine Funktion, die ablenkende Websites blockiert, wenn man sich konzentrieren muss. Es geht über Suche und Erinnerung hinaus – es ist ein Zeitalter, in dem der Browser mir tatsächlich bei der Arbeit hilft. Zum Beispiel automatisches Gruppieren von Tabs nach Themen, Preisvergleich für Festplatten je nach Website oder das Zusammenfassen neuer Beiträge in einem Discord-Server – alles lokal ausgeführt. Der Browser sollte uns im Chaos des Internets helfen, nicht es noch komplizierter machen. Ich würde besonders gern hören, welche Workflows im Alltag am unangenehmsten sind und welche Use Cases es gibt
Tatsächlich ist das fast identisch mit dem, was Microsoft mit Recall machen wollte. Ich hatte gehofft, dass Recall als einzige Funktion im AI-Hype mein Leben verbessern würde, aber wenn ich länger darüber nachdenke, ist das, was ich wirklich will, nicht AI, sondern dass mein Computer lokal detaillierte Aufzeichnungen führt und fortgeschrittene Suche anbietet. Ich möchte, dass er sich bedingungslos an alles erinnert, was ich am Computer gemacht habe. Ich brauche eine „total recall“-Funktion, die besuchte Websites, wie weit ich auf jeder Seite gescrollt habe, sogar Gedanken, die ich eingetippt und wieder gelöscht habe, alles speichert. Der Grund ist, dass mein Gehirn beim Erinnern ständig Fehler macht, also erwarte ich vom Computer ein perfekteres Gedächtnis. Und ich will, dass die Suche immer konsistent und deterministisch funktioniert. Exakte Zeitstempel und boolesche Operatoren müssen möglich sein, und NLP liefert Lucene schon seit 20 Jahren gut. Ich brauche keine automatisch erzeugten Zusammenfassungen aus externen Korpora, sondern nur, dass mein Computer sich korrekt an das erinnert, was ich selbst darauf getan habe. Ich glaube nicht, dass LLMs der persönlichen Suche viel Mehrwert hinzufügen. Aufgrund ihrer Natur ist es schwer, echte Daten exakt zurückzugeben; für präzise Suche muss man am Ende doch traditionell indexieren. Ich denke, dass LLMs gerade nur deshalb so dominant sind, weil es an guten Methoden fehlt, „alles“ effizient zu indexieren, und im Fall personalisierter Suche reicht es eigentlich, den auf meinem Bildschirm angezeigten Text und Metadaten zu kennen – Zeit, Cursorposition, Clipboard, URL usw. Ein LLM braucht man zum Indexieren nur dann, wenn echte Text-Snapshots zu groß sind, um sie in einem traditionellen Index zu speichern; wenn das nicht der Fall ist, dann ist eine vage dialogartige Suche nicht mein Ziel. Das echte Ziel ist total recall
Wirklich eine großartige Vision. Ich wünschte, der Browser würde mich daran erinnern, wenn ich den Fokus verliere, und selbst analysieren, was ich gemacht habe. Selbstreflexion wird hier zu einer mächtigen Waffe
Eine Funktion, die ich schon lange schreiben wollte, war eine Browser-Erweiterung, die den Volltext von Seiten, auf denen man länger als 30 Sekunden bleibt, automatisch speichert, indexiert und durchsuchbar macht. Dieses Projekt geht weit darüber hinaus
Aus meiner Sicht ist das ein „LLM-basierter nativer Ad-Blocker“ … Der Wald ist hier so riesig, dass mir schon bei diesem Gedanken der Kopf weh tut (Scherz)
Statt direkt einen neuen Browser zu bauen wie nanobrowser, wäre vielleicht schon eine robuste extension ausreichend. nanobrowser ist gut gemacht, ohne Webdriver-Expose, und es fehlt weder an JS-Ausführung noch an LLM-Integration. Sogar vollständige agentic Features sind vorhanden, daher würde mich interessieren, warum man unbedingt einen neuen Browser braucht
Vielleicht ist das eine dumme Frage, aber könnte jemand erklären, was genau ein „agentic browser“ ist? Es klingt so, als wüssten das schon alle, aber ich weiß nicht, ob der Begriff geläufig ist oder einfach nur „Webbrowser mit AI-Funktionen“ bedeutet
Danke für die Frage. Das ist überhaupt keine dumme Frage. Ein „agentic browser“ ist ein Browser, in dem ein AI-Agent die Web-Navigation für dich übernimmt. Das heißt, ein Browser, in dem der Agent sogar Dinge wie eine Amazon-Bestellung erneut aufgeben oder Formulare ausfüllen kann
Ein Agent ist eine Struktur, in der ein LLM zusammen mit Tools arbeitet, zum Beispiel
calculate(expression). Wenn bestimmte Aktionen nötig sind, um das gewünschte Ergebnis zu erhalten, führt es diese Tools automatisch aus. Bei komplexen Workflows kann die vom LLM aufgenommene Eingabe auch eine Kombination mehrerer Tools sein, etwa den User-Agent auf einen bestimmten String zu setzen. Beispiele wären Befehle wieset_user_agent(…), Klicks auf einer Seite oder das Einfügen von custom JS beim Laden einer SeiteDen Begriff „agentic“ habe ich vor einem Monat zum ersten Mal gehört. Danach habe ich ihn innerhalb von 2–3 Tagen sogar mehrfach in firmeninternen Townhalls gehört. Die Kernaussage ist: Ein Agent ist eine AI, die selbst entscheidet und eigenständig handelt
Das Konzept eines agentic browser klingt nach einer sehr coolen Idee. Dass man mit einem clientseitigen Agenten Dinge automatisieren kann, ist wirklich mächtig. Gleichzeitig ist es aus Sicherheitssicht aber etwas, das „niemals sicher sein könnte“. Browser sind in fast alle sensiblen Accounts eingeloggt und sind naturgemäß unzuverlässigen Eingaben aus dem Internet ausgesetzt. Eine einzige Prompt-Injection, und dein Leben kann innerhalb von Sekunden aus der Bahn geraten. Das Konzept ist wirklich gut, aber wenn nicht die gesamte Lieferkette Zertifizierungen wie PCI/SOC2/ISO 27001 hat und sogar von unabhängigen Sicherheitsanalysten mit Blut unterschrieben abgesichert ist, würde ich es persönlich nicht anfassen
Mein Use Case ist das Extrahieren von CSV-/Datendateien von wasserbezogenen Websites. Zum Beispiel war es wirklich mühsam, die Speicherstandsdaten aus South Australia zu extrahieren, besonders ohne viel Frontend-Erfahrung. Wenn sich so etwas mit einem Agenten automatisieren ließe, würde ich es sofort ausprobieren
Ich finde, das ist ein wirklich großartiges Projekt! Und auch der Launch auf HN ist beeindruckend. Hier mein ehrliches frühes Feedback: Als ich den Prompt des Browsers ausgeführt habe, „alle Tabs nach Themen zu gruppieren“, hat das wirklich gut funktioniert. Danach habe ich ihm gesagt, alle Tab-Gruppen zu entfernen und zurückzusetzen, worauf die Antwort kam: „Das ist eine Browser-Automatisierungsaufgabe, führe sie im Agent Mode aus.“ Als ich es im Agent Mode angefragt habe, kam zurück: „Das ist eine Produktivitätsaufgabe, führe sie im Chat Mode aus.“ Am Ende ging das immer wieder hin und her; schließlich hat es zwar geschafft, alle Tabs in einer neuen Gruppe zusammenzufassen, aber die Gruppe selbst zu entfernen ist gescheitert. Vermutlich gibt es dafür in der API selbst keine Unterstützung. Generell fände ich es gut, wenn es für Browser-Aktionen auf dieser Ebene einen „Undo“-Button gäbe. Wenn das schwierig ist, dann sollte es zumindest in der Lage sein, von sich aus Tab-Gruppen zu löschen, die es ein paar Sekunden vorher selbst erstellt hat. Ich werde es auf jeden Fall weiter benutzen. edit1: Auf internen Chrome-Seiten wie
chrome://extensionsspringt die Chat-Oberfläche gelegentlich zu google.com. edit2: Ich habe bestätigt, dass der Produktivitätsmodus kein Tool zum Auflösen von Gruppen hat, sondern sie nur erstellen kannDer Name „nxtscape“ weckt nostalgische Erinnerungen an altes SCSI. Ich würde ein Naming empfehlen, das man wie „GPT“ einfach in einem Rutsch aussprechen kann. Das Produkt ist wirklich hervorragend
Dieser Markt ist komplett winner-take-all. Dass ihr es versucht habt, ist wirklich beeindruckend, aber mit einem Team von zwei oder drei Leuten einen Browser zu bauen, ist einfach eine zu große Aufgabe. Außerdem hat Google auf der I/O die zukünftige Richtung bereits leicht angedeutet, und in so einem Bereich kann Google das wahrscheinlich bald in Chrome einbauen und schnell genug Marktanteile gewinnen. Deep-Tech-Gründer haben jahrelang versucht, Chrome zu schlagen, und nicht ein einziges Mal Erfolg gehabt. Realistisch gesehen sollte man mit einem kleinen, klar definierten Need und einem klaren ICP anfangen. Es wäre zu schade um die ganze Leidenschaft und Energie
Ich denke, Browser-Funktionen, die dem Nutzer helfen, insbesondere indem sie webfreundliche Inhalte, die dem Nutzer feindlich gesinnt sind, automatisch verarbeiten oder umformen, haben eindeutig großen Wert. Konkrete Einsatzbeispiele wären: 1) Beim Kauf eines Sofas statt Marketing-Übertreibungen nur nach bestimmten Bedingungen filtern, 2) nur benachrichtigt werden, wenn Freunde auf Facebook posten, und alles andere herausfiltern, 3) wenn lokale Communities über Facebook oder nextdoor laufen, die ständigen Wiederholungsposts derselben Person ausblenden, oder 4) Seiten für staatliche Anhörungen, die unnötig auf 700 Seiten aufgebläht sind, automatisch zusammenfassen und nur die wirklich wichtigen Inhalte herausziehen. Das ließe sich in vielen Domänen anwenden
Bei Dingen wie dem Kauf eines Sofas fehlt selbst großen Websites wie Amazon standardmäßig eine gute Möglichkeit, nach bestimmten Bedingungen zu filtern. Früher habe ich mit einer Kombination aus Scraping und Data Science selbst Websites wie diskprices.com gebaut, und wenn LLMs für solche Zwecke wirklich nützlich sind, wird es künftig vermutlich mehr solche funktionsspezifischen Websites geben, statt dass man im Browser direkt Prompts schreibt. Für das Blockieren von Wiederholungsposts hat nextdoor übrigens eine Nutzerblockierfunktion, die man sich ansehen kann (nextdoor-Blockieranleitung)
Das sind wirklich fantastische Beispiele!
Hält es sich an
robots.txt?Noch nicht. Aber ehrlich gesagt bin ich mir nicht sicher, ob das wichtig ist, weil ein Agent, der nur für einen „Menschen“ verwendet wird, eigentlich kein Scraping ist
Das ist ganz klar ein Agent für Endnutzer. Wenn er sich sogar an
robots.txthalten müsste, wäre das ehrlich gesagt viel zu frustrierend.robots.txtwurde ursprünglich als Höflichkeitsregel für Webcrawler entworfen, nicht um Tools zu blockieren, die im Auftrag einzelner Nutzer Anfragen ausführen. Wenn Website-Betreiber beschränken können, mit welchen Tools ich ihre Seite aufrufe – Terminal, normaler Browser, AI-Browser oder was auch immer –, dann schwächt das eine der großen Stärken des Webs. Aus Abneigung gegen AI-Tools die Vielfalt des Webs zu opfern, ist auch mit Blick auf die Zukunft riskant. Siehe: robots.txt FAQ