PDF-Research-Paper-RAG: Reicht nur Text? – Experiment zur Embedding-Suche mit Gemini embedding 002
(brunch.co.kr/@230kimi)Zusammenfassung der Vergleichsexperimente mit Gemini embedding-2-preview (native multimodale Embeddings) zwischen Text-Embeddings und Bild-Embeddings aus PDF-Dateien wissenschaftlicher Arbeiten.
∙ Die durchschnittliche Kosinusähnlichkeit zwischen Text und Bild derselben Seite lag bei 0,642. Etwa 36 % der visuellen Information – etwa SEM-Aufnahmen, Graphenkurven oder räumliche Anordnungen – wurden in Text-Embeddings nicht abgebildet.
∙ Bei der Suche mit 18 Text-Queries war der Bildindex (MRR 0,719) dem Textindex (0,631) überlegen. Da sich zentrale Begriffe in wissenschaftlichen Arbeiten oft über mehrere Seiten wiederholen, boten Bilder hier sogar eine höhere Trennschärfe zwischen Seiten.
∙ Das kombinierte Multi-Embedding aus Text+Bild (MRR 0,650) schnitt schlechter ab als nur Bild. Die Merkmale beider Modalitäten wurden dabei verwässert.
∙ Die Crossmodal-Suche innerhalb desselben Dokuments (Text→Bild) scheiterte mit Hit@5 von 0 %. Der Grund: Die Textähnlichkeit zwischen verschiedenen Seiten war höher als die Text↔Bild-Ähnlichkeit auf derselben Seite.
Bei Dokumenten mit vielen Figures ist Bildindexierung vorteilhaft; das Fazit lautet, dass der RAG-Standardansatz „erst Text extrahieren, dann vektorisieren“ überdacht werden sollte.
2 Kommentare
Wie ist es im Vergleich zu ColPali?
Für englische Texte scheint colpali eindeutig besser zu sein. Bei Koreanisch oder anderen nicht englischsprachigen Sprachen sinkt die Genauigkeit allerdings stark T_T