Gemini Embedding 2: das erste native multimodale Embedding-Modell

(blog.google)

14 Punkte von GN⁺ 2026-03-11 | Noch keine Kommentare. | Auf WhatsApp teilen

Das erste vollständig multimodale Embedding-Modell, das Text, Bilder, Video, Audio und Dokumente in einen einzigen Embedding-Raum abbildet, wurde als Public Preview veröffentlicht
Basierend auf der Gemini-Architektur erfasst es in mehr als 100 Sprachen semantische Intentionen und unterstützt verschiedene Downstream-Aufgaben wie RAG, semantische Suche, Sentiment-Analyse und Daten-Clustering
Durch den Einsatz der Technik Matryoshka Representation Learning (MRL) lässt sich die Standarddimension von 3072 flexibel verkleinern, sodass sich die Balance zwischen Leistung und Speicherkosten anpassen lässt
Es setzt neue Leistungsmaßstäbe, übertrifft bisher führende Modelle bei Text-, Bild- und Videoaufgaben und führt zusätzlich neue Sprach-Embedding-Fähigkeiten ein
Sofort nutzbar über die Gemini API und Vertex AI, mit Unterstützung für die Integration mit Third-Party-Frameworks wie LangChain, LlamaIndex und Weaviate

Neue Modalitäten und flexible Ausgabedimensionen

Basierend auf Gemini nutzt es multimodale Verständnisfähigkeiten, um hochwertige Embeddings für verschiedene Eingabetypen zu erzeugen
- Text: Unterstützung für breiten Kontext mit bis zu 8192 Eingabetokens
- Bilder: Verarbeitung von bis zu 6 Bildern pro Anfrage, Unterstützung für PNG- und JPEG-Formate
- Video: Unterstützung für Videoeingaben bis zu 120 Sekunden in den Formaten MP4 und MOV
- Audio: Native Embeddings von Audiodaten ohne zwischengeschaltete Textumwandlung
- Dokumente: Direktes Embedding von PDFs mit bis zu 6 Seiten
Nicht nur einzelne Modalitäten, sondern auch interleaved Inputs (z. B. Bild + Text) können in einer Anfrage übergeben werden, wodurch selbst komplexe und subtile Beziehungen zwischen verschiedenen Medientypen erfasst werden
Mit der Technik Matryoshka Representation Learning (MRL) werden Informationen hierarchisch verschachtelt (nested), sodass sich Dimensionen dynamisch reduzieren lassen
- Flexible Skalierung von der Standarddimension 3072 auf 1536, 768 usw.
- Für höchste Qualität werden die Dimensionen 3072, 1536 und 768 empfohlen

Gegenüber Legacy-Modellen handelt es sich nicht nur um eine inkrementelle Verbesserung, sondern um einen neuen Leistungsstandard in multimodaler Tiefe
Es übertrifft bisher führende Modelle bei Text-, Bild- und Videoaufgaben und führt zugleich starke Sprach-Embedding-Fähigkeiten neu ein
Es bietet messbare Leistungssteigerungen und eine einzigartige multimodale Abdeckung für unterschiedlichste Embedding-Anforderungen

Embedding-Technologie ist eine Schlüsseltechnologie, die Erlebnisse in vielen Google-Produkten antreibt, und wird von Context Engineering für RAG bis hin zu großskaligem Datenmanagement sowie Suche und Analyse eingesetzt
Everlaw (Max Christoff, CTO): Setzt Gemini-Embeddings ein, damit Rechtsexperten im Rahmen von Litigation Discovery zentrale Informationen finden können; verbessert Präzision und Recall in Hunderten Millionen Datensätzen und nutzt starke neue Suchfunktionen für Bilder und Video
Sparkonomy (Guneet Singh, Mitgründer): Nutzt es als Grundlage der Creator Economic Equality Engine; durch native Multimodalität bis zu 70 % geringere Latenz, nahezu Verdopplung der semantischen Ähnlichkeitsscores für Text-Bild- und Text-Video-Paare von 0,4 auf 0,8 sowie Indizierung von Millionen Videominuten mit bislang unerreichter Präzision
Mindlid (Ertuğrul Çavuşoğlu, Mitgründer): Hebt die hervorragende API-Kontinuität hervor, die eine sofortige Nutzung mit minimalen Änderungen bestehender Workflows ermöglicht; testet das Embedding textbasierter Gesprächserinnerungen zusammen mit Audio- und visuellen Embeddings und verzeichnet in einer Personal-Wellness-App eine 20%ige Verbesserung des Top-1-Recall

Das Modell Gemini Embedding 2 ist über die Gemini API oder Vertex AI verfügbar
Es werden Codebeispiele mit dem Python SDK bereitgestellt, um Text, Bilder und Audio in einem einzigen Aufruf zu embedden
Es stehen interaktive Colab-Notebooks für die Gemini API und Vertex AI zur Verfügung
Unterstützung für die Integration mit wichtigen Third-Party-Tools wie LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB und Vector Search