LLaVA: Visual Instruction Tuning
(llava-vl.github.io)- "LLaVA: Large Language and Vision Assistant"
- Ein großes multimodales Modell, das einen Vision-Encoder mit Vicuna für ein allgemeines Verständnis von Bild und Sprache kombiniert
- Zielt auf Fähigkeiten auf dem Niveau von multimodalem GPT-4 sowie auf SOTA-Genauigkeit bei wissenschaftlichen Frage-Antwort-Aufgaben
- Paper, Code und Demo veröffentlicht
Noch keine Kommentare.