voyage-multimodal-3: All-in-one-Embedding-Modell für Text, Bilder und Screenshots
(blog.voyageai.com)-
voyage-multimodal-3 ist ein State-of-the-Art-Modell, das visuelle und textuelle Merkmale in Dokumenten mit gemischtem Text- und Bildinhalt vektorisieren kann
- Es erfasst zentrale visuelle Merkmale aus Screenshots von PDFs, Folien, Tabellen und Abbildungen und macht damit komplexes Document Parsing überflüssig
- Bei drei multimodalen Suchaufgaben mit 20 Datensätzen zeigt es im Durchschnitt eine um 19,63 % höhere Suchgenauigkeit
-
Vergleich mit bestehenden Modellen
- voyage-multimodal-3 liefert bei der Suche nach Tabellen/Abbildungen jeweils 41,44 % und 43,37 % bessere Ergebnisse als OpenAI CLIP large bzw. Cohere multimodal v3
- Bei der Suche in Dokument-Screenshots erzielt es jeweils 26,54 % und 25,84 % bessere Ergebnisse
- Bei der Text-Foto-Suche erzielt es jeweils 6,55 % und 5,86 % bessere Ergebnisse
-
Unterstützung für gemischte Text- und Bildinhalte
- Bestehende multimodale Embedding-Modelle verarbeiten Text und Bilder in getrennten Netzwerken, doch voyage-multimodal-3 vektorisiert beide Modalitäten direkt über denselben Transformer-Encoder
- Dadurch bleiben kontextuelle Beziehungen zwischen visuellen und textuellen Informationen erhalten, sodass gemischte Text-Bild-Inhalte, Dokument-Screenshots und PDFs mit komplexen Layouts vektorisiert werden können
-
Suche im Mischmodus über Screenshots
- CLIP-ähnliche Modelle verlieren bei der Suche im Mischmodus aufgrund der Kluft zwischen den Modalitäten an Leistung
- voyage-multimodal-3 zeigt bei allen Screenshot-Anteilen die beste Leistung und erfasst den semantischen Inhalt von Screenshots tatsächlich
-
Details zur Evaluierung
- voyage-multimodal-3 wurde auf 20 multimodalen Datensätzen und 34 Datensätzen für Textsuche evaluiert
- Für jede Aufgabe erfolgte die Bewertung im Vergleich zum zuvor besten Modell
-
Ergebnisse
- Bei der multimodalen Suche zeigt voyage-multimodal-3 bessere Leistung als OpenAI CLIP large, Amazon Titan Multimodal G1, Cohere multimodal v3, SigLIP So400M und ColQwen2 v0.1
- Bei der standardmäßigen Textsuche zeigt es gegenüber OpenAI v3 large und Cohere multimodal/English1 v3 jeweils um 5,13 % und 13,70 % bessere Ergebnisse
-
Nutzungshinweise
- voyage-multimodal-3 ist ab sofort verfügbar, und die ersten 200 Millionen Token sind kostenlos
- Der Einstieg ist über ein Beispiel-Notebook möglich; weitere Informationen finden sich in der Dokumentation
1 Kommentare
Hacker-News-Kommentare