13 Punkte von GN⁺ 2025-09-29 | 3 Kommentare | Auf WhatsApp teilen
  • Ollama hat eine Funktion zur Suche nach aktuellen Webinformationen als API veröffentlicht und bietet damit eine Möglichkeit, Halluzinationen von Modellen zu reduzieren und die Genauigkeit zu verbessern
  • Auch kostenlose Konten enthalten ein großzügiges kostenloses Suchkontingent; Nutzer mit hoher Frequenz können über Ollama Cloud höhere Limits nutzen
  • Auf Basis einer REST-API integriert mit Python- und JavaScript-Bibliotheken, sodass Modelle wie OpenAIs gpt-oss längere Rechercheaufgaben ausführen können
  • Mit web_search und web_fetch werden Ergebnisse im Umfang von mehreren tausend Tokens zurückgegeben; außerdem wird die Integration mit verschiedenen Tools wie Cline, Codex und Goose über einen MCP-Server unterstützt
  • Damit lassen sich Suchagenten direkt aufbauen, was die allgemeine Nutzbarkeit von KI-Modellen zur Interaktion mit aktuellen Daten deutlich erweitert

Einführung in die Web-Suchfunktion von Ollama

  • Ollama hat eine Web-Such-API veröffentlicht und schafft damit eine Umgebung, in der KI-Modelle sofort mit aktuellen Webinformationen versorgt werden können
  • Dadurch sind sowohl eine Verringerung von Halluzinationen als auch eine Verbesserung der Genauigkeit zu erwarten
  • Für einzelne Nutzer wird ein großzügiges kostenloses Suchkontingent bereitgestellt; bei höherem Bedarf lässt sich das Kontingent über ein Ollama-Cloud-Abonnement erweitern
  • Die Bereitstellung erfolgt als REST-API; über Python- und JavaScript-Bibliotheken ist auch eine tiefergehende Tool-Integration möglich
  • Dank dieser Struktur können verschiedene Modelle wie gpt-oss langfristige Forschungs- und Suchaufgaben ausführen

Beispiele für die API-Nutzung

  • Mit einem im Ollama-Konto ausgestellten API-Schlüssel lassen sich Aufrufe per cURL, in Python über ollama.web_search() und in JavaScript über client.webSearch() durchführen
  • Die Ergebnisse werden in einer JSON-Struktur zurückgegeben, die Titel, URL und Zusammenfassung des Inhalts enthält
  • Mit der web_fetch-API lassen sich Inhalte auf URL-Basis bis hin zu Fließtext und Linkliste einer Seite abrufen

Umsetzung eines Suchagenten auf Basis der Web-Suche

  • Die Ollama-API kann in Kombination mit Modellen wie Qwen3 und gpt-oss zur Entwicklung automatisierter Multi-Turn-Suchagenten verwendet werden
  • Im Beispielcode wird das Modell Qwen3:4B genutzt, um den Ablauf Suche → Schlussfolgerung → Ergebniszusammenfassung zu automatisieren
  • Auf Basis der Suchergebnisse wird ein „Thinking“-Prozess durchlaufen; durch wiederholte Nutzung der Ergebnisse von Such- und Fetch-Tool-Aufrufen werden komplexe Recherche- oder Explorationsszenarien umgesetzt
  • Das neue Upgrade der Ollama-Engine umfasst unter anderem präzises Speichermanagement, GPU-/Multi-GPU-Optimierung, Leistungsverbesserungen sowie umfassende Unterstützung für Vision-(multimodale) Modelle

Empfohlene Modelle und Leistungshinweise

  • Empfohlen werden leistungsstarke Cloud-Modelle mit ausgeprägten Tool-Fähigkeiten, etwa qwen3:480b-cloud, gpt-oss:120b-cloud und deepseek-v3.1-cloud
  • Da Such- und Fetch-Tools Daten im Umfang von mehreren tausend Tokens zurückgeben können, wird empfohlen, die Kontextlänge des Modells auf etwa 32000 Tokens zu erhöhen

Funktion zum Abrufen einzelner Webseiten

  • Neben der Web-Suche werden auch APIs und Funktionen bereitgestellt, mit denen sich Text und Linkstruktur einzelner angegebener Webseiten direkt abrufen lassen
  • In Python, JavaScript oder per cURL kann einfach eine url als Argument übergeben werden, um title, content, verlinkte URLs usw. einer Seite zu extrahieren
  • Ausführlichere Beispielcodes sind im offiziellen GitHub-Repository verfügbar

Tool- und Agenten-Integration

  • web_search und web_fetch geben mehrere tausend Tokens an Daten zurück; empfohlen wird daher, den Modellkontext auf 32K oder mehr zu erhöhen
  • Durch Unterstützung eines MCP-Servers ist eine direkte Integration mit KI-Entwicklungsumgebungen wie Cline, Codex und Goose möglich
  • Beispielcode für Python und JavaScript wird im offiziellen GitHub-Repository bereitgestellt

Erste Schritte

  • Die Web-Suche ist in einem kostenlosen Ollama-Konto standardmäßig enthalten; höhere Nutzung ist über ein kostenpflichtiges Abonnement möglich
  • Auf der Ollama-Website kann ein Konto erstellt und ein API-Schlüssel ausgestellt werden, um den Dienst sofort zu nutzen

3 Kommentare

 
shakespeares 2025-10-06

Mit dem kostenlosen ollama scheint das für den praktischen Einsatz wohl nicht auf einem ausreichenden Niveau zu sein..

 
slowandsnow 2025-09-30

Auf der Preisseite gibt es ebenfalls keine Erklärung zu den Kontingenten, daher kann ich schlecht einschätzen, ob es den Preis wert ist.

 
GN⁺ 2025-09-29
Hacker-News-Kommentare
  • Ich frage mich, welche Suchmaschine intern verwendet wird, und habe auch auf Twitter nachgefragt: https://twitter.com/simonw/status/1971210260015919488. Besonders wichtig ist dabei die Lizenz der Suchergebnisse. Ob sie gespeichert oder weiterverbreitet werden dürfen, hängt je nach Anbieter von unterschiedlichen Regeln ab.
    • Wir arbeiten mit Suchanbietern zusammen und stellen eine Umgebung sicher, in der es keinerlei Richtlinien zur Datenspeicherung gibt. Die Suchergebnisse gehören den Nutzern und können frei verwendet werden. Lokale Gesetze müssen jedoch unbedingt eingehalten werden.
    • Wenn man sagt, dass es um das Training von AI-Modellen geht, kann man es nach Belieben nutzen.
    • Wenn Suchergebnisse nur eine Liste von Links sind, ist fraglich, ob darauf überhaupt Urheberrecht besteht.
    • Es ist seltsam, eine solche Funktion zu veröffentlichen, ohne überhaupt eine Datenschutzerklärung zu haben. Ich vermute, dass das vielleicht als Zusammenarbeit mit einem VC-Partner, der kürzlich investiert hat, oder als Customer Story genutzt wird. Ich tippe auf Exa; YC hat sie früh unterstützt und sie haben in der Series B $85M eingesammelt. Bing wäre ohne Zusammenarbeit mit Microsoft wohl zu teuer, um es frei zu betreiben. Hoffentlich aktualisiert Ollama bald den Datenschutzhinweis. Der Hauptsitz ist in CA, also gilt CCPA; selbst ohne Umsatz fällt man darunter, wenn man nur die Daten von 50.000 Einwohnern Kaliforniens verarbeitet: https://oag.ca.gov/privacy/ccpa. Ich bin gespannt auf die Reaktion, falls sich Alibaba als Backend-Anbieter ohne Datenspeicherung herausstellt.
  • Ich wusste gar nicht, dass Ollama ein Unternehmen ist oder dass sie Funding bekommen haben. Ich hielt es für ein Open-Source-Utility. Ich frage mich, wie sie die Nutzer künftig monetarisieren wollen; ich bin nicht gerade optimistisch.
    • In letzter Zeit werden kaum noch Projekte vollständig Open Source veröffentlicht; meistens sind es Spendenmodelle oder Unternehmenssponsoring, und im AI-Bereich ist das wohl noch seltener.
    • Ollama wird von ehemaligen Docker-Mitarbeitern nach Docker-Art betrieben.
    • Vor Kurzem haben sie eine Hosting-Plattform veröffentlicht.
    • Bis ich deine Antwort gesehen habe, dachte ich, dieser Beitrag habe mit OpenAI zu tun.
  • Ich hätte mir mehr Details zur Implementierung von Ollama gewünscht. Ich habe es als Open-Source- und plattformunabhängiges Tool gesehen, aber die jüngste Entwicklung fühlt sich anders an, und das macht mich unsicher.
    • Ich habe auch überlegt, Ollama eine Funktion zu geben, die Suchergebnisse und Website-Inhalte über einen Headless-Browser o. Ä. abruft, hatte aber Bedenken wegen der Ergebnisqualität und IP-Sperren, weil es wie ein Crawler wirken könnte. Ein gehostetes API schien der schnellere Weg zu sein, Ergebnisse bereitzustellen, aber ich prüfe weiterhin lokale Optionen. Ideal wäre es, wenn Nutzer diese Suchfunktion auf Wunsch vollständig in einer rein lokalen Umgebung verwenden könnten.
    • Die GUI ist nicht Open Source. Wenn du eine einfache App willst, ist LMStudio vielleicht die bessere Wahl (es tut wenigstens nicht so, als wäre es OSS), und ramalama ist Ollama insofern ähnlich, als es LLMs containerisiert. Oder man geht zurück zu den „Grundbausteinen“ wie llama.cpp oder vllm.
    • Ich habe das Gefühl, dass Ollamas Betriebsweise immer schlechter wird. Ich habe das Vertrauen verloren und es von allen Systemen gelöscht.
  • Es wirkt auf mich so, als bewege sich Ollama zunehmend in eine nicht-lokale Richtung, und die Performance scheint auch schlechter als bei vLLM zu sein. Ich möchte über eine OpenAI-kompatible API etwas wie open-webui betreiben, damit Nutzer zwischen mehreren LLMs wählen können. Mich interessiert, welche Ollama-Alternative sich gut für mehrere RTX 3090s (1–5 Stück) eignet.
    • Ich habe schon von Llamaswap oder vllm gehört.
  • Mir war nicht klar, dass Ollama einen eigenen Cloud-Service hat. War der ursprüngliche Sinn von Ollama nicht, lokale Modelle zu nutzen? Warum sollte ich dafür $20 im Monat zahlen, um kleinere und leistungsschwächere Modelle zu verwenden? Wäre es dann nicht besser, gleich AI-Unternehmen wie OpenAI oder Mistral zu nutzen? Ich sehe auch keinen Grund, überhaupt ein Konto zu erstellen, nur um Modelle auf meinem Computer zu verwenden.
    • Gute Frage. Unter den unterstützten Modellen gibt es viele, die zu groß sind, um auf Geräten lokal zu laufen. Das ist gerade erst der Anfang, und dank unserer Beziehungen zu Modellanbietern kann Ollama nun auch aktuelle cloudbasierte Modelle anbieten. Ollama arbeitet mit Entwicklern und will ihre Bedürfnisse lösen: https://ollama.com/cloud
    • Ein Konto erstellt man, um ihre gehosteten Modelle zu nutzen oder Modelle lokal über die Ollama API einzusetzen. Ich zahle derzeit $100 für Claude und $200 für GPT-5; da sind $20 wirklich günstig für Modelle wie Qwen3 235b, Deepseek 3.1 671b, Llama 3.1 405b, GPT OSS 120b usw. Das sind keineswegs „kleine oder leistungsschwache“ Modelle. Sehr cool ist auch, dass man Codex an die Ollama API anbinden und Tools mit verschiedenen Modellen nutzen kann.
    • Ich sehe darin eine konsequente Entwicklung hin zu Funktionen, die sich monetarisieren lassen. Erst durch Open Source und kostenlose Arbeit Vertrauen und Marke aufbauen und dann zur Monetarisierung übergehen.
    • Es gibt auch Modelle, die lokal nicht laufen können (gpt-oss-120b, deepseek, qwen3-coder 480b usw.). Das ist ein Weg, Ollamas Erfolg zu Geld zu machen.
    • Selbst viele „lokale“ Modelle haben große Downloadgrößen und sind auf normaler Hardware langsam. Der Vorteil ist, dass man sie erst günstig in der Cloud evaluieren und dann entscheiden kann, ob man sie lokal herunterladen will. Wichtig ist das Prinzip, dass man überhaupt etwas lokal betreiben kann. Ich möchte nicht von Technologie abhängig sein, die jemand leicht wieder entziehen oder sperren kann.
  • Etwas anderes Thema, aber ich überlege, mir für den privaten Gebrauch ein „Mini-Google“ zu Hause aufzubauen. In der Praxis habe ich das Gefühl, dass sich die meisten Suchbedürfnisse innerhalb von rund 1.000 Websites abdecken lassen. Das gesamte Web zu crawlen, wäre für mich übertrieben. Das grobe Design wäre: ein Crawler (leichter Scraper), ein Indexer (Textumwandlung und invertierter Index), Storage (komprimierte Speicherung von HTML und Text), eine Suchschicht (TF-IDF- oder embeddingbasierte Bewertung), regelmäßige Updates und ein einfaches WebUI zur Navigation. Mich würde interessieren, ob jemand reale Projekte genutzt oder eine ähnliche Herausforderung schon ausprobiert hat.
    • Ich habe mir einmal Common-Crawl-Dumps angesehen, und 99,99 % des Webs bestanden aus Werbung, Pornografie, Spam, bedeutungslosen Blogs und anderem völlig Nutzlosem. Historisch, kulturell oder literarisch mag das einen gewissen Wert haben, aber für meinen Zweck fast gar keinen. Das hat mich überzeugt, dass es selbst auf meinem Laptop machbar wäre, wenn man nur die „wirklich wichtigen Webseiten“ selektiv indexiert. Allein Wikipedia hat komprimiert etwa 20 GB; wenn ich nur die Themen herausziehe, die mich tatsächlich interessieren, wäre das wohl nicht einmal 200 MB.
    • Mit YaCy (https://yacy.net) lässt sich das meiste davon erledigen. Wenn man allerdings viel crawlt, kann Cloudflare die IP schnell sperren.
    • https://marginalia-search.com mag ich ebenfalls sehr.
    • Drew DeVault wollte früher einmal etwas Ähnliches unter dem Namen SearchHut bauen, hat es dann aber eingestellt. Er hat schließlich beim Verständnis der Postgres-RUM-Extension aufgegeben. HN-Thread-Link mit Erwähnungen von SearchHut
    • Nicht ganz dasselbe, aber ich nutze auch Google CSE pro Domain, um Suchergebnisse auf Sites zu begrenzen, die zu meinen Interessengebieten passen. Über ein Kürzel in Alfred rufe ich das direkt auf und kann so meine Themen bequem durchsuchen: https://blog.gingerbeardman.com/2021/04/20/interest-specific-search-engines/
  • Ich hätte gern Tipps zu lokaler bzw. Enterprise-Suche. Ich nutze Ollama lokal und indexiere auch meine eigenen Dokumente. Mich interessiert, wie man Ollama in ein traditionelles Full-Text-Suchsystem integriert, statt Dokumente einzubetten oder feinzujustieren.
    • Ich empfehle Solr. Es ist eine sehr gute Full-Text-Suche, und dank MCP-Integration kann man es leicht einsetzen: https://github.com/mjochum64/mcp-solr-search. Mit etwas mehr Arbeit kann man Dokumente vektorisieren und zusätzlich kNN-basierte semantische Ähnlichkeitssuche nutzen. So hat man sowohl semantische als auch textbasierte Suche, und die Qualität ist gut. Man könnte wohl auch chromadb und Solr koppeln und die Ergebnisse zusammenführen; bei größerem Maßstab wäre chromadb möglicherweise effizienter.
    • docling könnte ebenfalls eine gute Alternative sein, und bewährte Full-Text-Suchmaschinen wie Typesense sind ebenfalls einen Blick wert.
  • Ich nutze schon seit Langem eine Suchfunktion für LLMs über ein Python-DuckDuckGo-Paket. Aber die Google-Ergebnisse waren besser, also habe ich im Developer Console irgendetwas eingerichtet und bin auf Google gewechselt (ich weiß nicht mehr genau, was). Die DDG-Seite ist inoffiziell, und die offizielle Google-API hat Query-Limits, weshalb sie für Deep Research nicht geeignet ist. Normalerweise gebe ich ein paar Suchergebnisse in GPT ein und füge meine Frage hinzu; damit kommen meist gute Antworten heraus. Natürlich ließe sich dieses Muster auch mit Ollama nutzen, aber meine GPU ist nicht besonders stark, daher wird es mit langem Kontext langsam.
    • Ich frage mich, wie man das sinnvoll nutzen kann, ohne eine Scraping-API zu verwenden. Die offiziellen APIs sind einfach zu stark eingeschränkt.
  • Ich bin verwirrt darüber, was mit einem „Ollama-Konto“ gemeint ist. Ich hatte anfangs verstanden, dass es bei Ollama darum geht, Modelle selbst zu hosten.
    • Für Zusatzfunktionen oder cloudgehostete Modelle von Ollama muss man ein Konto anlegen. Grundsätzlich ist das aber wirklich optional, und man kann auch komplett lokal eigene Modelle erstellen und auf ollama.com teilen.
  • Ich verbinde gerade selbst Websuche und baue dabei ein Tool, mit dem ich verschiedene Anbieter teste. openAI, xAI und gemini sind auf Konkurrenz-Websites blockiert und daher nicht nutzbar. In YT-Videos hat diese Suche in einfachen Tests gut funktioniert und ist im Gegensatz zur OpenAI-Websuche zugänglich. Auf X hat es nicht gut funktioniert, lieferte aber gelegentlich brauchbare Ergebnisse. Es ist nicht perfekt, aber im Durchschnitt durchaus brauchbar.