4 Punkte von GN⁺ 2024-11-18 | 1 Kommentare | Auf WhatsApp teilen
  • voyage-multimodal-3 ist ein State-of-the-Art-Modell, das visuelle und textuelle Merkmale in Dokumenten mit gemischtem Text- und Bildinhalt vektorisieren kann

    • Es erfasst zentrale visuelle Merkmale aus Screenshots von PDFs, Folien, Tabellen und Abbildungen und macht damit komplexes Document Parsing überflüssig
    • Bei drei multimodalen Suchaufgaben mit 20 Datensätzen zeigt es im Durchschnitt eine um 19,63 % höhere Suchgenauigkeit
  • Vergleich mit bestehenden Modellen

    • voyage-multimodal-3 liefert bei der Suche nach Tabellen/Abbildungen jeweils 41,44 % und 43,37 % bessere Ergebnisse als OpenAI CLIP large bzw. Cohere multimodal v3
    • Bei der Suche in Dokument-Screenshots erzielt es jeweils 26,54 % und 25,84 % bessere Ergebnisse
    • Bei der Text-Foto-Suche erzielt es jeweils 6,55 % und 5,86 % bessere Ergebnisse
  • Unterstützung für gemischte Text- und Bildinhalte

    • Bestehende multimodale Embedding-Modelle verarbeiten Text und Bilder in getrennten Netzwerken, doch voyage-multimodal-3 vektorisiert beide Modalitäten direkt über denselben Transformer-Encoder
    • Dadurch bleiben kontextuelle Beziehungen zwischen visuellen und textuellen Informationen erhalten, sodass gemischte Text-Bild-Inhalte, Dokument-Screenshots und PDFs mit komplexen Layouts vektorisiert werden können
  • Suche im Mischmodus über Screenshots

    • CLIP-ähnliche Modelle verlieren bei der Suche im Mischmodus aufgrund der Kluft zwischen den Modalitäten an Leistung
    • voyage-multimodal-3 zeigt bei allen Screenshot-Anteilen die beste Leistung und erfasst den semantischen Inhalt von Screenshots tatsächlich
  • Details zur Evaluierung

    • voyage-multimodal-3 wurde auf 20 multimodalen Datensätzen und 34 Datensätzen für Textsuche evaluiert
    • Für jede Aufgabe erfolgte die Bewertung im Vergleich zum zuvor besten Modell
  • Ergebnisse

    • Bei der multimodalen Suche zeigt voyage-multimodal-3 bessere Leistung als OpenAI CLIP large, Amazon Titan Multimodal G1, Cohere multimodal v3, SigLIP So400M und ColQwen2 v0.1
    • Bei der standardmäßigen Textsuche zeigt es gegenüber OpenAI v3 large und Cohere multimodal/English1 v3 jeweils um 5,13 % und 13,70 % bessere Ergebnisse
  • Nutzungshinweise

    • voyage-multimodal-3 ist ab sofort verfügbar, und die ersten 200 Millionen Token sind kostenlos
    • Der Einstieg ist über ein Beispiel-Notebook möglich; weitere Informationen finden sich in der Dokumentation

1 Kommentare

 
GN⁺ 2024-11-18
Hacker-News-Kommentare
  • Das CLIP-Modell zeigt bei der Suche über gemischte Modalitäten hinweg eine schwächere Leistung. Das liegt an der Modalitätslücke, bei der Textvektoren näher an irrelevanten Texten liegen können
    • Googles Gemini wurde von Grund auf multimodal konzipiert und verbessert dieses Problem dadurch. Es wurde mit verschiedenen Modalitäten vortrainiert und kann alle Eingaben effektiv verstehen und Schlussfolgerungen daraus ziehen
  • Das ColiVara-Projekt implementiert ein multimodales Modell mit ColPali. Ich würde die Leistung von VoyageAI gern auf dem Vidore-Leaderboard vergleichen
  • Schade, dass das kommerzielle Modell nur als API angeboten wird
  • Ein kritischer Blick auf reine API-Modelle ist nötig. Insbesondere braucht es Bewertungen für nichtenglische Texte
  • Es ist wichtig, eine qualitative Analyse mit realen Datensätzen durchzuführen. Quantitative Benchmarks sind nützlich, werden aber nur selten verwendet
  • Das ist eine interessante Art, multimodale Embeddings zu betrachten. Die Leistung wird anhand des Anteils bewertet, in dem Eingaben von einer Modalität in eine andere übergehen
  • Die Voyage-Engine tokenisiert in der traditionellen Python-API Textblöcke und gibt Zeichenketten aus. Dieses Modell erledigt das über die Vektorisierung von Bildern
    • Wörter wie 'you' und 'apple' werden als einzelne Tokens verarbeitet, während komplexere Begriffe wie 'pikachu' in 'pik-a-chu' aufgeteilt werden können
  • Im Colab werden Skalarprodukt-Werte von 0,428 und 0,498 als „ziemlich hohe Ähnlichkeitswerte“ beschrieben. Es stellt sich die Frage, ob man ein System entwerfen kann, das mit einem Schwellenwert von 0,4 Daten zuverlässig labeln kann