Ollama kündigt neue Engine für multimodale Modelle an

(ollama.com)

5 Punkte von GN⁺ 2025-05-17 | 1 Kommentare | Auf WhatsApp teilen

Ollama startet mit einer neuen Engine die Unterstützung für multimodale Modelle (Text+Bild)
Unterstützt verschiedene visuelle multimodale Modelle wie Llama 4 Scout und Gemma 3, wodurch Fragen und Antworten mit kombinierten Bild- und Texteingaben möglich werden
Die neue Engine bietet verbesserte Modellmodularität, höhere Genauigkeit und effizientes Speichermanagement
Durch Bild-Caching und die Nutzung von Hardware-Metadaten werden schnelle Inferenzleistung und Hardware-Optimierung erreicht
Künftig sind weitere Funktionsausbauten wie längere Kontexte, Tool Calling und Streaming angekündigt

Unterstützung multimodaler Modelle in Ollama

Mit der Einführung einer neuen multimodalen Engine unterstützt Ollama moderne Vision-Multimodal-Modelle, die Bilder und Text gemeinsam verarbeiten

Umfassendes multimodales Verstehen und Schlussfolgern

Llama 4 Scout

Ollama unterstützt Llama 4 Scout (109 Milliarden Parameter, ein Mixture-of-Experts-Modell)
Als Beispiel können standortbezogene Fragen zu Videoframes gestellt werden
- Beispiel: Dabei lassen sich verschiedene Bildeigenschaften wie bestimmte Gebäude, Umgebungsmerkmale und Hintergrundinformationen erkennen
Anschließend können auch verschiedene Folgefragen ganz natürlich gestellt werden
- Beispiel: Auf Fragen wie „Wie weit ist es von diesem Gebäude bis Stanford?“ oder „Wie kommt man am besten dorthin?“ liefert das Modell präzise Informationen
- Es gibt Antworten, die zur realen Situation passen, etwa zu verschiedenen Verkehrsmitteln, Routen und geschätzter Fahrzeit

Gemma 3

Gemma 3 kann mehrere Bilder gleichzeitig als Eingabe verarbeiten und die Beziehungen zwischen ihnen analysieren
- Beispiel: In vier Bildern erkennt das Modell schnell gemeinsame Pflanzen oder Tiere, das Vorhandensein bestimmter Szenen oder ungewöhnliche Situationen
- In einem spielerischen Beispiel analysiert es eine Szene, in der ein Lama und ein Delfin boxen, und schätzt anhand ihrer Eigenschaften und Dynamik ein, wer gewinnen würde

Dokumentenerkennung und -analyse

Qwen 2.5 VL

Das Modell Qwen 2.5 VL wird für Zeichenerkennung (OCR) und das Extrahieren bestimmter Textinformationen aus Bildern eingesetzt
- Ein praktisches Beispiel ist das Extrahieren von Informationen aus einem Scheck oder das Übersetzen vertikal geschriebener chinesischer Frühlingsfest-Sprüche ins Englische

Merkmale der multimodalen Engine von Ollama

Bislang stützte sich Ollama für die Modellunterstützung auf das Projekt ggml-org/llama.cpp und entwickelte vor allem mit Fokus auf Benutzerfreundlichkeit und Modellportabilität
Da zuletzt verschiedene Forschungslabore multimodale Modelle veröffentlicht haben, hat Ollama die eigene Engine ausgebaut, um entsprechend dem eigenen Ziel eine breitere Modellunterstützung zu ermöglichen
Die neue Engine behandelt multimodale Modelle als unabhängige und erstklassige Objekte und stärkt zugleich die Beteiligung von Partnern und der Community

Bedeutung der Weiterentwicklung der Engine

Sie verbessert Zuverlässigkeit und Genauigkeit der lokalen Inferenz in Ollama und schafft die Grundlage für die künftige Unterstützung verschiedenster multimodaler Bereiche, etwa Sprache, Bildgenerierung, Videogenerierung, längere Kontexte und verbesserte Tool-Nutzung

Modellmodularität

Der „Wirkungsbereich“ jedes Modells wird voneinander isoliert, um die Zuverlässigkeit zu erhöhen und Entwicklerinnen und Entwicklern die einfache Integration neuer Modelle zu ermöglichen
- Das bestehende ggml/llama.cpp unterstützt nur textbasierte Modelle; bei multimodalen Modellen laufen Text-Decoder und Vision-Encoder getrennt
- Bilder müssen im Vision-Algorithmus eingebettet und anschließend an das Textmodell übergeben werden, wodurch sich die Logik pro Modell schlank implementieren lässt
- Innerhalb von Ollama können Modelle ihre eigenen Embedding-Projektionsschichten sowie eine Aufteilung passend zum jeweiligen modellspezifischen Trainingsschema selbst umsetzen
- Modellanbieter können sich auf ihr eigenes Modell und Training konzentrieren, ohne zusätzliche Patches oder komplexe bedingte Verzweigungen
- Beispiele für einige Modellstrukturen sind im GitHub-Repository von Ollama zu finden

Höhere Genauigkeit

Große Bilder erzeugen viele Tokens und können die Batch-Größe überschreiten
- Wenn ein Bild eine Batch überschreitet, können Positionsinformationen beschädigt werden
Ollama erhöht die Genauigkeit bei der Bildverarbeitung, indem zusätzliche Metadaten vergeben werden
- Dabei werden Details wie die Anwendung von causal attention sowie die Aufteilung und Grenzverwaltung von Bild-Embedding-Batches präzise behandelt
- Werden Aufteilungspunkte ungeeignet gesetzt, kann die Ausgabequalität leiden; deshalb orientiert man sich an den Maßgaben der jeweiligen Modell-Papers
Andere lokale Inferenz-Tools implementieren dies jeweils unterschiedlich, Ollama stellt jedoch Qualität durch eine präzise Verarbeitung sicher, die zur Modellarchitektur und Trainingsweise passt

Optimiertes Speichermanagement

Bild-Caching: Einmal verarbeitete Bilder bleiben fortlaufend im Speicher, wodurch nachfolgende Prompts schneller verarbeitet werden. Solange keine Speichergrenze erreicht wird, bleiben die Bilder erhalten
Speichervorhersage und Optimierung des KV-Caches: In Zusammenarbeit mit Hardwareherstellern und OS-Partnern werden Hardware-Metadaten präzise erkannt, um die Speichernutzung zu optimieren
- Dazu gehören Validierungen nach Firmware-Versionen und Benchmarking neuer Funktionen
Ollama optimiert causal attention getrennt auf Modellebene und bietet keine Anpassung auf Gruppenebene, sondern spezifisch für einzelne Modelle
- Beispiele:
  - Google DeepMinds Gemma 3: weist per Sliding-Window-Attention nur einen Teil der Kontextlänge zu und nutzt den restlichen Speicher etwa für gleichzeitige Inferenz
  - Metas Llama 4 Scout, Maverick usw.: unterstützt Chunked Attention, 2D Rotary Embeddings und die Umsetzung langer Kontexte in Mixture-of-Experts-Modellen
Bei Modellen, deren Attention-Schichten nicht vollständig implementiert sind, kann das Modell zwar „funktionieren“, langfristig sind jedoch Qualitätsverluste und anomale Ergebnisse möglich

Ausblick

Unterstützung für noch längere Kontextlängen
Stärkere Inferenz- und Denkfähigkeiten
Tool Calling und Streaming-Antworten
Erweiterte Funktionen zur direkten Nutzung des Computers

Danksagung

Organisationen und Forschende, die zur Modellentwicklung beigetragen haben
- Dank an die vielen Labore und Community-Mitglieder, die an Vision-Modellen gearbeitet haben, darunter Google DeepMind, Meta Llama, Alibaba Qwen, Mistral und IBM Granite
GGML
- Die Tensor-Bibliothek des GGML-Teams ist ein Kernelement der Inferenz-Engine von Ollama. Über den direkten Zugriff auf GGML aus Go lassen sich benutzerdefinierte Inferenzgraphen und komplexe Modellarchitekturen entwerfen
Hardware-Partner
- Dank an Hardware-Partner wie NVIDIA, AMD, Qualcomm, Intel und Microsoft, die bei der Verbesserung der Inferenzleistung auf unterschiedlichen Geräten unterstützt haben

1 Kommentare

GN⁺ 2025-05-17

Hacker-News-Kommentare

Ausdruck der Überraschung darüber, ausgerechnet jetzt von Ollamas Ankündigung einer neuen Engine zu hören; geteilter Eindruck, dass dies daher rührt, dass llama.cpp nach langer Arbeit endlich stabile Vision-Funktionen in den Main-Branch aufgenommen hat und die Mühen nun Früchte tragen; Vermutung, dass Ollama diese Funktion schon lange vorbereitet hat; Einschätzung, dass die Entscheidung sinnvoll ist, sich von der frühen Abhängigkeit von llama.cpp zu lösen und eigenständig weiterzugehen
Neugier, worin genau der praktische Unterschied zwischen den multimodalen Erweiterungen der beiden Projekte besteht; Hinweis, dass es LLaVA-Unterstützung schon lange gab, daher die Frage, ob früher eine spezielle Behandlung nötig war; Erwartung, dass der verlinkte Artikel diesen Unterschied erklärt, und Verwirrung darüber, dass Multimodalität bei Ollama so dargestellt wird, als wäre sie völlig neu eingeführt worden
Ansicht, dass der Begriff Multimodal nicht nur Text und Bilder, sondern auch Audio (und potenziell Video) umfassen sollte; Argument, dass bei Modellen mit lediglich Bilderzeugung oder Bildanalyse die Bezeichnung „Vision-Modell“ präziser wäre; Betonung, dass Modelle wie Qwen2.5-Omni und Qwen2.5-VL klar voneinander unterschieden werden sollten; Erklärung, dass Ollamas neue Engine in diesem Sinne eher Vision-Unterstützung hinzugefügt hat
Interesse daran, Videoeingaben zu verarbeiten, mit der Frage, ob Qwen2.5-Omni und Ollama Videoeingaben unterstützen
Wunsch nach konkreteren Informationen zur tatsächlichen Implementierung hinter Ollamas „neuer Engine“, obwohl viel darüber gesprochen wird; Erwartung, Beispiele zu sehen, wie ein Ersatz für llama.cpp umgesetzt wurde, da auch llama.cpp ein beeindruckendes Projekt ist; Vermutung, dass die GGML-Tensorbibliothek eine Schlüsselrolle spielt; Einschätzung, dass die Struktur wohl darin besteht, das Modellverhalten direkt in Go über FFI zu implementieren (etwa für Gemma3) und dabei GGML-Funktionen zu nutzen; Meinung, dass solche technischen Details im offiziellen Blog deutlicher hätten beschrieben werden sollen
Ollama wurde bisher als Unternehmen wegen mangelnder Transparenz, undurchsichtiger Namensnennung von Beiträgen und nicht nutzerzentrierter Entscheidungen kritisiert; Überraschung darüber, dass in diesem Beitrag eher viele Mitwirkende genannt werden; Vermutung, dass wegen anhaltender Nutzerkritik Anpassungen vorgenommen wurden
Eingeständnis, dass die Benennungskonvention „*llama“ in der LLM-Welt extrem verwirrend ist; Hinweis, dass die Vielzahl an Projekten mit llama-ähnlichen Namen die Verwirrung weiter verstärkt
Geteilte Schwierigkeit, mit dem extrem schnellen Tempo der AI/ML-Entwicklung Schritt zu halten; Hinweis, dass man ohne ständige Aufmerksamkeit schnell den Überblick verliert, sowie auf die Vorliebe für memeartige Namen; Erinnerung daran, dass es früher Trends wie Sesamstraßen-Charaktere oder die YOLO-Modellfamilie gab und dass selbst Konferenzpaper davon nicht ausgenommen sind
Etwas abschweifend die Frage, warum Ollama von manchen Nutzern negativ gesehen wird; der Hinweis, dass es oft bei der bloßen Aufforderung bleibt, doch einfach direkt llama.cpp zu nutzen, ohne dass mehr Erklärung folgt
Verweis auf Reddit- und GitHub-Issue-Links als Beleg dafür, dass Ollama llama.cpp seit Langem nicht angemessen würdigt; zusätzlich der Hinweis, dass bei manchen Projekten sogar Ollama die Anerkennung bekommt, obwohl tatsächlich direkt llama.cpp verwendet wird; Anmerkung, dass Ollama zwar selbst nichts beiträgt (und dazu auch nicht verpflichtet ist), intern aber einen gepflegten Fork unterhält, aus dem Interessierte bei Bedarf per Cherry-Pick Code übernehmen können
Abgesehen von den zuvor genannten Kultur-, Lizenz- und FOSS-Themen Unmut über die Art der Dateispeicherung: Ollama habe eigenes Speichermanagement und ein eigenes Registry-Konzept eingeführt, was die Wiederverwendung erschwert; Vermutung, dass langfristig eine proprietäre Struktur im Hinblick auf Monetarisierung geplant ist; mögliches Motiv, wie bei Docker doppelte Speicherung zu vermeiden, aber in der Praxis habe dies die Nutzbarkeit eher verschlechtert; dadurch entstehe die lästige Situation, große Dateien von mehr als 30 GB doppelt vorzuhalten, sodass selbst kleine Probleme stark ins Gewicht fallen; eine standardisierte, mit verschiedenen Ökosystemen kompatible Lösung wäre besser; deshalb werde Ollama wegen dieser Umständlichkeit nicht mehr genutzt
Einschätzung, dass Ollama so etwas wie die Docker-ähnliche Lösung für die LLM-Welt ist; Eindruck, dass sowohl die User Experience als auch die Syntax der Modelldateien von Dockerfiles inspiriert sind; Erinnerung daran, dass es in der Anfangszeit von Docker ähnliche Debatten zwischen Docker und LXC gab, wobei Dockers Innovationskraft bei der Nutzererfahrung oft übersehen wurde; gleichzeitig der Hinweis, dass die lange ausbleibende Anerkennung von llama.cpp problematisch ist; Ergänzung, dass die Namensnennung inzwischen etwas offener geworden sei
Ärger darüber, dass Ollama nicht mit der Community zusammenarbeitet; Hinweis, dass es sich um ein von VCs finanziertes Unternehmen handelt und die Frage nach dem Erlösmodell offen bleibt; bei anderen Alternativen wie llama.cpp, lmstudio und ramalama sei jeweils klarer, woran man ist; ramalama trage vergleichsweise stark zu verschiedenen relevanten Open-Source-Projekten bei; dazu wurde ein nützlicher GitHub-Link geteilt
Bedauern darüber, dass Ollama im Grunde nur als Frontend für llama.cpp fungiert, dies aber weder offen darstellt noch entsprechend anerkennt
Kritik, dass das Ollama-Beispiel zur „Übersetzung vertikaler chinesischer Chunlian“ zahlreiche Fehlübersetzungen enthält; Vermutung, dass der Blogautor kein tatsächlicher Chinesischsprecher ist; detaillierte Analyse, wie der echte Inhalt und das Ollama-Ergebnis in den einzelnen Teilen voneinander abweichen
Ein Maintainer, der dieses Beispiel erstellt hat, meldete sich selbst zu Wort und stellte klar, dass er Chinese ist, was die Glaubwürdigkeit stärkt; Einschätzung, dass die englische Übersetzung insgesamt ziemlich korrekt war; Betonung, dass weder Modellfehler noch die Demo verborgen oder manipuliert wurden; Hoffnung, dass sich die Modellqualität langfristig weiter verbessert
Absicht, es selbst auszuprobieren; Lob dafür, dass der Artikelstil praktische Beispiele und Details direkt sichtbar macht
Als Stärke von Ollama wird genannt, dass sich Modelle ohne besondere Einrichtung sofort mit einem einfachen Docker-Befehl starten ließen; zugleich der Hinweis auf technische Einschränkungen, wenn Bilder und Videos genutzt werden sollen, weil Docker dann die GPU nicht verwendet; Neugier, wie Ollama die Docker-Integration künftig aufrechterhalten will, und die Frage, ob diese Funktion vielleicht zu einem eher nebensächlichen Bestandteil des Projekts wird
Gegenmeinung, dass sich auf einigen Plattformen GPUs auch mit Docker nutzen lassen; allerdings sei dafür mehr Konfiguration nötig, und nvidia stelle entsprechende Dokumentation bereit
Belustigung darüber, dass im Beispiel zur Wegbeschreibung in Stanford tatsächlich falsche Informationen auftauchten; geteilter Hinweis aus der Verkehrspraxis in Kalifornien, dass die CA-85 von Palo Alto aus weiter südlich liegt
Zufriedenheit damit, seit fast einem Jahr lokale Modelle mit Ollama zu verwenden; zugleich der Hinweis, dass multimodale Unterstützung wie bei Llava bislang kaum erlebt wurde, weil die Nutzung meist textlastig war; Bitte um Empfehlungen für nützliche und interessante Projekte, die auf lokalen multimodalen Modellen aufbauen, in der Hoffnung auf Ideen für eigene Projekte