LLaVA: Visual Instruction Tuning

xguru · 2023-04-22T10:32:01+09:00

"LLaVA: Large Language and Vision Assistant" Ein großes multimodales Modell, das einen Vision-Encoder mit Vicuna für ein allgemeines Verständnis von Bild und Sprache kombiniert Zielt auf Fähigkeiten auf dem Niveau von multimodalem GPT-4 sowie auf SOTA-Genauigkeit bei wissenschaftlichen Frage-Antwort-Aufgaben Paper, Code und Demo veröffentlicht

(llava-vl.github.io)

6 Punkte von xguru 2023-04-22 | Noch keine Kommentare. | Auf WhatsApp teilen

"LLaVA: Large Language and Vision Assistant"
Ein großes multimodales Modell, das einen Vision-Encoder mit Vicuna für ein allgemeines Verständnis von Bild und Sprache kombiniert
Zielt auf Fähigkeiten auf dem Niveau von multimodalem GPT-4 sowie auf SOTA-Genauigkeit bei wissenschaftlichen Frage-Antwort-Aufgaben
Paper, Code und Demo veröffentlicht

LLaVA: Visual Instruction Tuning

Verwandte Beiträge

Noch keine Kommentare.