14 Punkte von GN⁺ 2026-03-11 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Das erste vollständig multimodale Embedding-Modell, das Text, Bilder, Video, Audio und Dokumente in einen einzigen Embedding-Raum abbildet, wurde als Public Preview veröffentlicht
  • Basierend auf der Gemini-Architektur erfasst es in mehr als 100 Sprachen semantische Intentionen und unterstützt verschiedene Downstream-Aufgaben wie RAG, semantische Suche, Sentiment-Analyse und Daten-Clustering
  • Durch den Einsatz der Technik Matryoshka Representation Learning (MRL) lässt sich die Standarddimension von 3072 flexibel verkleinern, sodass sich die Balance zwischen Leistung und Speicherkosten anpassen lässt
  • Es setzt neue Leistungsmaßstäbe, übertrifft bisher führende Modelle bei Text-, Bild- und Videoaufgaben und führt zusätzlich neue Sprach-Embedding-Fähigkeiten ein
  • Sofort nutzbar über die Gemini API und Vertex AI, mit Unterstützung für die Integration mit Third-Party-Frameworks wie LangChain, LlamaIndex und Weaviate

Neue Modalitäten und flexible Ausgabedimensionen

  • Basierend auf Gemini nutzt es multimodale Verständnisfähigkeiten, um hochwertige Embeddings für verschiedene Eingabetypen zu erzeugen
    • Text: Unterstützung für breiten Kontext mit bis zu 8192 Eingabetokens
    • Bilder: Verarbeitung von bis zu 6 Bildern pro Anfrage, Unterstützung für PNG- und JPEG-Formate
    • Video: Unterstützung für Videoeingaben bis zu 120 Sekunden in den Formaten MP4 und MOV
    • Audio: Native Embeddings von Audiodaten ohne zwischengeschaltete Textumwandlung
    • Dokumente: Direktes Embedding von PDFs mit bis zu 6 Seiten
  • Nicht nur einzelne Modalitäten, sondern auch interleaved Inputs (z. B. Bild + Text) können in einer Anfrage übergeben werden, wodurch selbst komplexe und subtile Beziehungen zwischen verschiedenen Medientypen erfasst werden
  • Mit der Technik Matryoshka Representation Learning (MRL) werden Informationen hierarchisch verschachtelt (nested), sodass sich Dimensionen dynamisch reduzieren lassen
    • Flexible Skalierung von der Standarddimension 3072 auf 1536, 768 usw.
    • Für höchste Qualität werden die Dimensionen 3072, 1536 und 768 empfohlen

Leistung auf dem neuesten Stand der Technik

  • Gegenüber Legacy-Modellen handelt es sich nicht nur um eine inkrementelle Verbesserung, sondern um einen neuen Leistungsstandard in multimodaler Tiefe
  • Es übertrifft bisher führende Modelle bei Text-, Bild- und Videoaufgaben und führt zugleich starke Sprach-Embedding-Fähigkeiten neu ein
  • Es bietet messbare Leistungssteigerungen und eine einzigartige multimodale Abdeckung für unterschiedlichste Embedding-Anforderungen

Tiefere Bedeutung aus Daten gewinnen — Beispiele von Early-Access-Partnern

  • Embedding-Technologie ist eine Schlüsseltechnologie, die Erlebnisse in vielen Google-Produkten antreibt, und wird von Context Engineering für RAG bis hin zu großskaligem Datenmanagement sowie Suche und Analyse eingesetzt
  • Everlaw (Max Christoff, CTO): Setzt Gemini-Embeddings ein, damit Rechtsexperten im Rahmen von Litigation Discovery zentrale Informationen finden können; verbessert Präzision und Recall in Hunderten Millionen Datensätzen und nutzt starke neue Suchfunktionen für Bilder und Video
  • Sparkonomy (Guneet Singh, Mitgründer): Nutzt es als Grundlage der Creator Economic Equality Engine; durch native Multimodalität bis zu 70 % geringere Latenz, nahezu Verdopplung der semantischen Ähnlichkeitsscores für Text-Bild- und Text-Video-Paare von 0,4 auf 0,8 sowie Indizierung von Millionen Videominuten mit bislang unerreichter Präzision
  • Mindlid (Ertuğrul Çavuşoğlu, Mitgründer): Hebt die hervorragende API-Kontinuität hervor, die eine sofortige Nutzung mit minimalen Änderungen bestehender Workflows ermöglicht; testet das Embedding textbasierter Gesprächserinnerungen zusammen mit Audio- und visuellen Embeddings und verzeichnet in einer Personal-Wellness-App eine 20%ige Verbesserung des Top-1-Recall

Erste Schritte

  • Das Modell Gemini Embedding 2 ist über die Gemini API oder Vertex AI verfügbar
  • Es werden Codebeispiele mit dem Python SDK bereitgestellt, um Text, Bilder und Audio in einem einzigen Aufruf zu embedden
  • Es stehen interaktive Colab-Notebooks für die Gemini API und Vertex AI zur Verfügung
  • Unterstützung für die Integration mit wichtigen Third-Party-Tools wie LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB und Vector Search

Noch keine Kommentare.

Noch keine Kommentare.