Nxtscape – Open-Source-Agentenbrowser

(github.com/nxtscape)

6 Punkte von GN⁺ 2025-06-21 | 1 Kommentare | Auf WhatsApp teilen

Open-Source-Browser mit KI-basierten Agentenfunktionen
Stellt die Privatsphäre der Nutzer in den Vordergrund und bietet durch das lokale Ausführen von KI-Modellen starke Vorteile beim Datenschutz
Betont als wichtigste Vorteile die Kompatibilität mit Chrome-Erweiterungen sowie eine transparente Open-Source-Politik
Unterscheidet sich von bestehenden Browser-Alternativen wie Arc, Dia, Perplexity Comet durch lokale Verarbeitung und Kontrolle über Nutzerdaten
Zielt auf kontinuierlichen Funktionsausbau und communitygetriebene Weiterentwicklung ab und unterstützt verschiedene Formen der Mitwirkung

Was ist Nxtscape?

Nxtscape ist ein Open-Source-Agentenbrowser, der KI-Funktionen in einer lokalen Umgebung ausführt
Er ist eine Alternative zu Browsern wie Arc, Dia, Perplexity Comet und eignet sich besonders für Nutzer, die Wert auf Privatsphäre und Datenkontrolle legen
Nutzer können ihren eigenen API-Schlüssel verwenden oder lokale Modelle wie Ollama einbinden, sodass Informationen wie der Webverlauf nicht nach außen abfließen

Zentrale Funktionen

Durch die vollständige Kompatibilität mit Chrome-Erweiterungen kann die gewohnte Umgebung beibehalten werden
Der KI-Agent arbeitet direkt im Browser, ohne über die Cloud zu gehen
Nutzer können ihren API-Schlüssel selbst eingeben oder lokale Modelle anbinden und so einen hohen Datenschutz sicherstellen
Die Open-Source- und communitygetriebene Entwicklungsweise sorgt für Transparenz im Code
Künftig sind verschiedene zusätzliche Funktionen geplant, darunter ein MCP Store und KI-basierter Werbeblocker

Demo und Anwendungsbeispiele

Bietet Automatisierungsszenarien mit einem KI-Agenten
Integriert lokalen KI-Chat, um dialogbasierte Unterstützung zu bieten
Demonstriert verschiedene Möglichkeiten zur Arbeitsautomatisierung in Verbindung mit Produktivitätstools

Entwicklungshintergrund

Ausgangspunkt war die Problemerkenntnis, dass sich Browsertechnologie über lange Zeit kaum weiterentwickelt hat
Ziel ist der Aufbau einer KI-agentenbasierten Umgebung, die die Produktivität von Entwicklern deutlich steigert
Statt mit dem Browser zu „konkurrieren“, sollen Nutzer sich vom Browser helfen lassen können, indem monotone Aufgaben automatisiert werden, zum Beispiel „Tide Pods aus der Amazon-Bestellhistorie nachbestellen“
Es wird der klare Grundsatz vertreten, dass KI-Agenten sicher in einer lokalen Umgebung arbeiten müssen

Vergleich mit wichtigen Browsern

Chrome: Basiert auf dem Open-Source-Projekt Chromium, hat in den vergangenen zehn Jahren jedoch kaum innovative Funktionen rund um KI, Automatisierung oder MCP (Multi Capability Plug-in) eingeführt
Brave: Hat seine Ausrichtung um Kryptowährungen, Suche, VPN und mehr erweitert, während Nxtscape sich auf KI konzentriert
Arc/Dia: Waren populär, sind aber Closed Source; bei einer Einstellung des Dienstes fehlt eine Alternative. Nxtscape ist vollständig Open Source
Perplexity Comet: Als Such-/Werbeunternehmen besteht das Problem, dass Daten wie der Browserverlauf dem Unternehmen zufallen. Nxtscape beschränkt sämtliche Nutzerdaten auf die lokale Umgebung

Community-Beteiligung und Beiträge

Beiträge sind auf verschiedene Weise möglich, etwa durch Bug Reports, Funktionsvorschläge, Teilnahme auf Discord oder das Folgen auf Twitter

Lizenz und technische Hinweise

Der Quellcode wird unter der Lizenz AGPL-3.0 veröffentlicht
Das Projekt wurde mit Inspiration aus Open-Source-Projekten wie Chromium, browser-use, Stagehand und Nanobrowser entwickelt

1 Kommentare

GN⁺ 2025-06-21

Hacker-News-Kommentare

Ich habe das Gefühl, dass sich die bisherigen Kommentare eher auf Details als auf das Gesamtbild konzentrieren. Ich persönlich stelle mir enormen Wert in einem Browser vor, der mit einem lokalen LLM verbunden ist, alles, was der Browser sieht, zusammen mit Zeitstempeln in einer lokalen DB speichert, meine Interaktionen automatisch parst/zusammenfasst, sich wie Puppeteer skripten lässt und promptbasierte Automatisierung mit Code unterstützt. Als mein eigener digitaler Assistent könnte er vergessene Informationen oder Dinge, die ich brauche, leicht wiederfinden, Suche, Werbung, Spam und unerwünschte Informationen aktiv herausfiltern und sogar gewünschte Internet-Aufgaben automatisch erledigen. Nach 25 Jahren angesammelter Bookmarks reichen Bookmarks allein nicht mehr aus. Die Situation, dass man auf überladenen Websites wegen einer einzigen Information völlig vom Weg abkommt, ließe sich verbessern, wenn ein Bodyguard-Bot Rauschen und unnötige Informationen herausfiltert. Wenn das wirklich gut funktioniert, könnte es gleichzeitig die Rolle eines persönlichen Assistenten, Tour-Managers, Türstehers, Hausverwalters, Mechanikers im digitalen Raum und mehr übernehmen, und im Jahr 2025, in dem der Browser zum Hauptportal des chaotischen Internets geworden ist, ist diese Richtung keine schlechte Idee. Am Ende kommt es auf die Umsetzungsfähigkeit an, aber ich bin extrem gespannt, wie sich so ein Projekt entwickelt
- Vielen Dank für das ehrliche Feedback. Genau das ist die Vision, die wir gezeichnet haben. Obwohl wir mehr als 90 % unseres Tages im Browser verbringen, ist er immer noch nur ein „dummes Fenster“. Wenn er sich an den Verlauf erinnern, wichtige Artikel ausschneiden und Highlights wie der Evernote Web Clipper speichern und alles semantisch durchsuchbar machen könnte, würde das das Leben verändern. Alle Daten werden in einer lokalen PostgresDB gespeichert, und Fragen wie „Wie war noch mal der Preisvergleich letzten Monat?“ oder „Finde das Highlight zur Browser-Automatisierung“ könnten direkt beantwortet werden. Dazu gehört auch eine Funktion, die ablenkende Websites blockiert, wenn man sich konzentrieren muss. Es geht über Suche und Erinnerung hinaus – es ist ein Zeitalter, in dem der Browser mir tatsächlich bei der Arbeit hilft. Zum Beispiel automatisches Gruppieren von Tabs nach Themen, Preisvergleich für Festplatten je nach Website oder das Zusammenfassen neuer Beiträge in einem Discord-Server – alles lokal ausgeführt. Der Browser sollte uns im Chaos des Internets helfen, nicht es noch komplizierter machen. Ich würde besonders gern hören, welche Workflows im Alltag am unangenehmsten sind und welche Use Cases es gibt
- Tatsächlich ist das fast identisch mit dem, was Microsoft mit Recall machen wollte. Ich hatte gehofft, dass Recall als einzige Funktion im AI-Hype mein Leben verbessern würde, aber wenn ich länger darüber nachdenke, ist das, was ich wirklich will, nicht AI, sondern dass mein Computer lokal detaillierte Aufzeichnungen führt und fortgeschrittene Suche anbietet. Ich möchte, dass er sich bedingungslos an alles erinnert, was ich am Computer gemacht habe. Ich brauche eine „total recall“-Funktion, die besuchte Websites, wie weit ich auf jeder Seite gescrollt habe, sogar Gedanken, die ich eingetippt und wieder gelöscht habe, alles speichert. Der Grund ist, dass mein Gehirn beim Erinnern ständig Fehler macht, also erwarte ich vom Computer ein perfekteres Gedächtnis. Und ich will, dass die Suche immer konsistent und deterministisch funktioniert. Exakte Zeitstempel und boolesche Operatoren müssen möglich sein, und NLP liefert Lucene schon seit 20 Jahren gut. Ich brauche keine automatisch erzeugten Zusammenfassungen aus externen Korpora, sondern nur, dass mein Computer sich korrekt an das erinnert, was ich selbst darauf getan habe. Ich glaube nicht, dass LLMs der persönlichen Suche viel Mehrwert hinzufügen. Aufgrund ihrer Natur ist es schwer, echte Daten exakt zurückzugeben; für präzise Suche muss man am Ende doch traditionell indexieren. Ich denke, dass LLMs gerade nur deshalb so dominant sind, weil es an guten Methoden fehlt, „alles“ effizient zu indexieren, und im Fall personalisierter Suche reicht es eigentlich, den auf meinem Bildschirm angezeigten Text und Metadaten zu kennen – Zeit, Cursorposition, Clipboard, URL usw. Ein LLM braucht man zum Indexieren nur dann, wenn echte Text-Snapshots zu groß sind, um sie in einem traditionellen Index zu speichern; wenn das nicht der Fall ist, dann ist eine vage dialogartige Suche nicht mein Ziel. Das echte Ziel ist total recall
- Wirklich eine großartige Vision. Ich wünschte, der Browser würde mich daran erinnern, wenn ich den Fokus verliere, und selbst analysieren, was ich gemacht habe. Selbstreflexion wird hier zu einer mächtigen Waffe
- Eine Funktion, die ich schon lange schreiben wollte, war eine Browser-Erweiterung, die den Volltext von Seiten, auf denen man länger als 30 Sekunden bleibt, automatisch speichert, indexiert und durchsuchbar macht. Dieses Projekt geht weit darüber hinaus
- Aus meiner Sicht ist das ein „LLM-basierter nativer Ad-Blocker“ … Der Wald ist hier so riesig, dass mir schon bei diesem Gedanken der Kopf weh tut (Scherz)
Statt direkt einen neuen Browser zu bauen wie nanobrowser, wäre vielleicht schon eine robuste extension ausreichend. nanobrowser ist gut gemacht, ohne Webdriver-Expose, und es fehlt weder an JS-Ausführung noch an LLM-Integration. Sogar vollständige agentic Features sind vorhanden, daher würde mich interessieren, warum man unbedingt einen neuen Browser braucht
Vielleicht ist das eine dumme Frage, aber könnte jemand erklären, was genau ein „agentic browser“ ist? Es klingt so, als wüssten das schon alle, aber ich weiß nicht, ob der Begriff geläufig ist oder einfach nur „Webbrowser mit AI-Funktionen“ bedeutet
- Danke für die Frage. Das ist überhaupt keine dumme Frage. Ein „agentic browser“ ist ein Browser, in dem ein AI-Agent die Web-Navigation für dich übernimmt. Das heißt, ein Browser, in dem der Agent sogar Dinge wie eine Amazon-Bestellung erneut aufgeben oder Formulare ausfüllen kann
- Ein Agent ist eine Struktur, in der ein LLM zusammen mit Tools arbeitet, zum Beispiel calculate(expression). Wenn bestimmte Aktionen nötig sind, um das gewünschte Ergebnis zu erhalten, führt es diese Tools automatisch aus. Bei komplexen Workflows kann die vom LLM aufgenommene Eingabe auch eine Kombination mehrerer Tools sein, etwa den User-Agent auf einen bestimmten String zu setzen. Beispiele wären Befehle wie set_user_agent(…), Klicks auf einer Seite oder das Einfügen von custom JS beim Laden einer Seite
- Den Begriff „agentic“ habe ich vor einem Monat zum ersten Mal gehört. Danach habe ich ihn innerhalb von 2–3 Tagen sogar mehrfach in firmeninternen Townhalls gehört. Die Kernaussage ist: Ein Agent ist eine AI, die selbst entscheidet und eigenständig handelt
Das Konzept eines agentic browser klingt nach einer sehr coolen Idee. Dass man mit einem clientseitigen Agenten Dinge automatisieren kann, ist wirklich mächtig. Gleichzeitig ist es aus Sicherheitssicht aber etwas, das „niemals sicher sein könnte“. Browser sind in fast alle sensiblen Accounts eingeloggt und sind naturgemäß unzuverlässigen Eingaben aus dem Internet ausgesetzt. Eine einzige Prompt-Injection, und dein Leben kann innerhalb von Sekunden aus der Bahn geraten. Das Konzept ist wirklich gut, aber wenn nicht die gesamte Lieferkette Zertifizierungen wie PCI/SOC2/ISO 27001 hat und sogar von unabhängigen Sicherheitsanalysten mit Blut unterschrieben abgesichert ist, würde ich es persönlich nicht anfassen
- Vielen Dank, dass du das ansprichst. Das ist eine vollkommen berechtigte Sorge. Genau deshalb bestehen wir auf local-first und Open Source. Bei Cloud-Agenten wie Manus.im musst du Anmeldedaten einem Black Box-System anvertrauen, das du nicht verifizieren kannst, aber bei einem lokalen Agenten behält der Nutzer die Kontrolle. Der Agent läuft nur, wenn man die Ausführung ausdrücklich selbst auslöst, man kann den Fortschritt in Echtzeit sehen und jederzeit stoppen, er kann isoliert in einem separaten Chrome-Nutzerprofil laufen, und am wichtigsten: Weil er Open Source ist, kann man den Code selbst überprüfen und auditieren
Mein Use Case ist das Extrahieren von CSV-/Datendateien von wasserbezogenen Websites. Zum Beispiel war es wirklich mühsam, die Speicherstandsdaten aus South Australia zu extrahieren, besonders ohne viel Frontend-Erfahrung. Wenn sich so etwas mit einem Agenten automatisieren ließe, würde ich es sofort ausprobieren
Ich finde, das ist ein wirklich großartiges Projekt! Und auch der Launch auf HN ist beeindruckend. Hier mein ehrliches frühes Feedback: Als ich den Prompt des Browsers ausgeführt habe, „alle Tabs nach Themen zu gruppieren“, hat das wirklich gut funktioniert. Danach habe ich ihm gesagt, alle Tab-Gruppen zu entfernen und zurückzusetzen, worauf die Antwort kam: „Das ist eine Browser-Automatisierungsaufgabe, führe sie im Agent Mode aus.“ Als ich es im Agent Mode angefragt habe, kam zurück: „Das ist eine Produktivitätsaufgabe, führe sie im Chat Mode aus.“ Am Ende ging das immer wieder hin und her; schließlich hat es zwar geschafft, alle Tabs in einer neuen Gruppe zusammenzufassen, aber die Gruppe selbst zu entfernen ist gescheitert. Vermutlich gibt es dafür in der API selbst keine Unterstützung. Generell fände ich es gut, wenn es für Browser-Aktionen auf dieser Ebene einen „Undo“-Button gäbe. Wenn das schwierig ist, dann sollte es zumindest in der Lage sein, von sich aus Tab-Gruppen zu löschen, die es ein paar Sekunden vorher selbst erstellt hat. Ich werde es auf jeden Fall weiter benutzen. edit1: Auf internen Chrome-Seiten wie chrome://extensions springt die Chat-Oberfläche gelegentlich zu google.com. edit2: Ich habe bestätigt, dass der Produktivitätsmodus kein Tool zum Auflösen von Gruppen hat, sondern sie nur erstellen kann
- Vielen Dank für das Feedback! Entschuldige die Unannehmlichkeiten. Wir sind noch in einer frühen Beta-Phase. Agent mode und chat mode sind jeweils mit separaten Tools konzipiert. Wir merken, dass die Prompts aktuell noch unzureichend sind und verbessert werden müssen. Beim Auflösen von Gruppen scheint es tatsächlich noch keine passende Chrome-API zu geben, daher müssten wir das direkt implementieren. Mehrere Leute wünschen sich bereits eine „Undo“-Funktion, daher überlegen wir, etwas im Stil von Cursors „restore checkpoint“ einzuführen. Ich würde sehr gern hören, wie wichtig du solche Produktivitätsfunktionen im Alltag wirklich findest und ob es konkrete Beispiele gibt :)
Der Name „nxtscape“ weckt nostalgische Erinnerungen an altes SCSI. Ich würde ein Naming empfehlen, das man wie „GPT“ einfach in einem Rutsch aussprechen kann. Das Produkt ist wirklich hervorragend
- Beim heutigen Feedback habe ich das Gefühl bekommen, dass wir mehr Zeit in Namen und Branding investieren sollten. Ich denke darüber nach :)
Dieser Markt ist komplett winner-take-all. Dass ihr es versucht habt, ist wirklich beeindruckend, aber mit einem Team von zwei oder drei Leuten einen Browser zu bauen, ist einfach eine zu große Aufgabe. Außerdem hat Google auf der I/O die zukünftige Richtung bereits leicht angedeutet, und in so einem Bereich kann Google das wahrscheinlich bald in Chrome einbauen und schnell genug Marktanteile gewinnen. Deep-Tech-Gründer haben jahrelang versucht, Chrome zu schlagen, und nicht ein einziges Mal Erfolg gehabt. Realistisch gesehen sollte man mit einem kleinen, klar definierten Need und einem klaren ICP anfangen. Es wäre zu schade um die ganze Leidenschaft und Energie
- Danke für das ehrliche Feedback! Dass der Wettbewerb hart ist, stimmt. Aber wir glauben, dass es im Markt für Open Source-, communitygetriebene, privacy-first AI-Browser definitiv eine Lücke gibt, ähnlich wie bei Brave
Ich denke, Browser-Funktionen, die dem Nutzer helfen, insbesondere indem sie webfreundliche Inhalte, die dem Nutzer feindlich gesinnt sind, automatisch verarbeiten oder umformen, haben eindeutig großen Wert. Konkrete Einsatzbeispiele wären: 1) Beim Kauf eines Sofas statt Marketing-Übertreibungen nur nach bestimmten Bedingungen filtern, 2) nur benachrichtigt werden, wenn Freunde auf Facebook posten, und alles andere herausfiltern, 3) wenn lokale Communities über Facebook oder nextdoor laufen, die ständigen Wiederholungsposts derselben Person ausblenden, oder 4) Seiten für staatliche Anhörungen, die unnötig auf 700 Seiten aufgebläht sind, automatisch zusammenfassen und nur die wirklich wichtigen Inhalte herausziehen. Das ließe sich in vielen Domänen anwenden
- Bei Dingen wie dem Kauf eines Sofas fehlt selbst großen Websites wie Amazon standardmäßig eine gute Möglichkeit, nach bestimmten Bedingungen zu filtern. Früher habe ich mit einer Kombination aus Scraping und Data Science selbst Websites wie diskprices.com gebaut, und wenn LLMs für solche Zwecke wirklich nützlich sind, wird es künftig vermutlich mehr solche funktionsspezifischen Websites geben, statt dass man im Browser direkt Prompts schreibt. Für das Blockieren von Wiederholungsposts hat nextdoor übrigens eine Nutzerblockierfunktion, die man sich ansehen kann (nextdoor-Blockieranleitung)
- Das sind wirklich fantastische Beispiele!
Hält es sich an robots.txt?
- Noch nicht. Aber ehrlich gesagt bin ich mir nicht sicher, ob das wichtig ist, weil ein Agent, der nur für einen „Menschen“ verwendet wird, eigentlich kein Scraping ist
- Das ist ganz klar ein Agent für Endnutzer. Wenn er sich sogar an robots.txt halten müsste, wäre das ehrlich gesagt viel zu frustrierend. robots.txt wurde ursprünglich als Höflichkeitsregel für Webcrawler entworfen, nicht um Tools zu blockieren, die im Auftrag einzelner Nutzer Anfragen ausführen. Wenn Website-Betreiber beschränken können, mit welchen Tools ich ihre Seite aufrufe – Terminal, normaler Browser, AI-Browser oder was auch immer –, dann schwächt das eine der großen Stärken des Webs. Aus Abneigung gegen AI-Tools die Vielfalt des Webs zu opfern, ist auch mit Blick auf die Zukunft riskant. Siehe: robots.txt FAQ

Nxtscape – Open-Source-Agentenbrowser

Was ist Nxtscape?

Zentrale Funktionen

Demo und Anwendungsbeispiele

Entwicklungshintergrund

Vergleich mit wichtigen Browsern

Community-Beteiligung und Beiträge

Lizenz und technische Hinweise

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare