PDF-Research-Paper-RAG: Reicht nur Text? – Experiment zur Embedding-Suche mit Gemini embedding 002

(brunch.co.kr/@230kimi)

5 Punkte von 230kimi 2026-03-31 | 2 Kommentare | Auf WhatsApp teilen

Zusammenfassung der Vergleichsexperimente mit Gemini embedding-2-preview (native multimodale Embeddings) zwischen Text-Embeddings und Bild-Embeddings aus PDF-Dateien wissenschaftlicher Arbeiten.

∙	Die durchschnittliche Kosinusähnlichkeit zwischen Text und Bild derselben Seite lag bei 0,642. Etwa 36 % der visuellen Information – etwa SEM-Aufnahmen, Graphenkurven oder räumliche Anordnungen – wurden in Text-Embeddings nicht abgebildet.  
∙	Bei der Suche mit 18 Text-Queries war der Bildindex (MRR 0,719) dem Textindex (0,631) überlegen. Da sich zentrale Begriffe in wissenschaftlichen Arbeiten oft über mehrere Seiten wiederholen, boten Bilder hier sogar eine höhere Trennschärfe zwischen Seiten.  
∙	Das kombinierte Multi-Embedding aus Text+Bild (MRR 0,650) schnitt schlechter ab als nur Bild. Die Merkmale beider Modalitäten wurden dabei verwässert.  
∙	Die Crossmodal-Suche innerhalb desselben Dokuments (Text→Bild) scheiterte mit Hit@5 von 0 %. Der Grund: Die Textähnlichkeit zwischen verschiedenen Seiten war höher als die Text↔Bild-Ähnlichkeit auf derselben Seite.

Bei Dokumenten mit vielen Figures ist Bildindexierung vorteilhaft; das Fazit lautet, dass der RAG-Standardansatz „erst Text extrahieren, dann vektorisieren“ überdacht werden sollte.

2 Kommentare

mammal 29 일 전

Wie ist es im Vergleich zu ColPali?

230kimi 29 일 전

Für englische Texte scheint colpali eindeutig besser zu sein. Bei Koreanisch oder anderen nicht englischsprachigen Sprachen sinkt die Genauigkeit allerdings stark T_T

PDF-Research-Paper-RAG: Reicht nur Text? – Experiment zur Embedding-Suche mit Gemini embedding 002

Verwandte Beiträge

2 Kommentare