6 Punkte von xguru 2023-04-22 | Noch keine Kommentare. | Auf WhatsApp teilen
  • "LLaVA: Large Language and Vision Assistant"
  • Ein großes multimodales Modell, das einen Vision-Encoder mit Vicuna für ein allgemeines Verständnis von Bild und Sprache kombiniert
  • Zielt auf Fähigkeiten auf dem Niveau von multimodalem GPT-4 sowie auf SOTA-Genauigkeit bei wissenschaftlichen Frage-Antwort-Aufgaben
  • Paper, Code und Demo veröffentlicht

Noch keine Kommentare.

Noch keine Kommentare.