- Das erste vollständig multimodale Embedding-Modell, das Text, Bilder, Video, Audio und Dokumente in einen einzigen Embedding-Raum abbildet, wurde als Public Preview veröffentlicht
- Basierend auf der Gemini-Architektur erfasst es in mehr als 100 Sprachen semantische Intentionen und unterstützt verschiedene Downstream-Aufgaben wie RAG, semantische Suche, Sentiment-Analyse und Daten-Clustering
- Durch den Einsatz der Technik Matryoshka Representation Learning (MRL) lässt sich die Standarddimension von 3072 flexibel verkleinern, sodass sich die Balance zwischen Leistung und Speicherkosten anpassen lässt
- Es setzt neue Leistungsmaßstäbe, übertrifft bisher führende Modelle bei Text-, Bild- und Videoaufgaben und führt zusätzlich neue Sprach-Embedding-Fähigkeiten ein
- Sofort nutzbar über die Gemini API und Vertex AI, mit Unterstützung für die Integration mit Third-Party-Frameworks wie LangChain, LlamaIndex und Weaviate
Neue Modalitäten und flexible Ausgabedimensionen
- Basierend auf Gemini nutzt es multimodale Verständnisfähigkeiten, um hochwertige Embeddings für verschiedene Eingabetypen zu erzeugen
- Text: Unterstützung für breiten Kontext mit bis zu 8192 Eingabetokens
- Bilder: Verarbeitung von bis zu 6 Bildern pro Anfrage, Unterstützung für PNG- und JPEG-Formate
- Video: Unterstützung für Videoeingaben bis zu 120 Sekunden in den Formaten MP4 und MOV
- Audio: Native Embeddings von Audiodaten ohne zwischengeschaltete Textumwandlung
- Dokumente: Direktes Embedding von PDFs mit bis zu 6 Seiten
- Nicht nur einzelne Modalitäten, sondern auch interleaved Inputs (z. B. Bild + Text) können in einer Anfrage übergeben werden, wodurch selbst komplexe und subtile Beziehungen zwischen verschiedenen Medientypen erfasst werden
- Mit der Technik Matryoshka Representation Learning (MRL) werden Informationen hierarchisch verschachtelt (nested), sodass sich Dimensionen dynamisch reduzieren lassen
- Flexible Skalierung von der Standarddimension 3072 auf 1536, 768 usw.
- Für höchste Qualität werden die Dimensionen 3072, 1536 und 768 empfohlen
Leistung auf dem neuesten Stand der Technik
- Gegenüber Legacy-Modellen handelt es sich nicht nur um eine inkrementelle Verbesserung, sondern um einen neuen Leistungsstandard in multimodaler Tiefe
- Es übertrifft bisher führende Modelle bei Text-, Bild- und Videoaufgaben und führt zugleich starke Sprach-Embedding-Fähigkeiten neu ein
- Es bietet messbare Leistungssteigerungen und eine einzigartige multimodale Abdeckung für unterschiedlichste Embedding-Anforderungen
Tiefere Bedeutung aus Daten gewinnen — Beispiele von Early-Access-Partnern
- Embedding-Technologie ist eine Schlüsseltechnologie, die Erlebnisse in vielen Google-Produkten antreibt, und wird von Context Engineering für RAG bis hin zu großskaligem Datenmanagement sowie Suche und Analyse eingesetzt
- Everlaw (Max Christoff, CTO): Setzt Gemini-Embeddings ein, damit Rechtsexperten im Rahmen von Litigation Discovery zentrale Informationen finden können; verbessert Präzision und Recall in Hunderten Millionen Datensätzen und nutzt starke neue Suchfunktionen für Bilder und Video
- Sparkonomy (Guneet Singh, Mitgründer): Nutzt es als Grundlage der Creator Economic Equality Engine; durch native Multimodalität bis zu 70 % geringere Latenz, nahezu Verdopplung der semantischen Ähnlichkeitsscores für Text-Bild- und Text-Video-Paare von 0,4 auf 0,8 sowie Indizierung von Millionen Videominuten mit bislang unerreichter Präzision
- Mindlid (Ertuğrul Çavuşoğlu, Mitgründer): Hebt die hervorragende API-Kontinuität hervor, die eine sofortige Nutzung mit minimalen Änderungen bestehender Workflows ermöglicht; testet das Embedding textbasierter Gesprächserinnerungen zusammen mit Audio- und visuellen Embeddings und verzeichnet in einer Personal-Wellness-App eine 20%ige Verbesserung des Top-1-Recall
Erste Schritte
- Das Modell Gemini Embedding 2 ist über die Gemini API oder Vertex AI verfügbar
- Es werden Codebeispiele mit dem Python SDK bereitgestellt, um Text, Bilder und Audio in einem einzigen Aufruf zu embedden
- Es stehen interaktive Colab-Notebooks für die Gemini API und Vertex AI zur Verfügung
- Unterstützung für die Integration mit wichtigen Third-Party-Tools wie LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB und Vector Search
Noch keine Kommentare.