- MLLM (Multimodal Large Language Model)
- Versteht alle Formen und fein granularen räumlichen Bezüge innerhalb von Bildern
- Wichtige Beiträge
- Ferret-Modell: hybride Regionsrepräsentation + visuelle Sampler mit räumlichem Bewusstsein
- GRIT-Datensatz: groß angelegter, hierarchischer und robuster Datensatz für Instruction Tuning. Enthält 1,1 Millionen Samples und 950.000 Hard-Negative-Daten
- Ferret Bench: multimodaler Evaluierungs-Benchmark (erfordert kombiniert Referring/Grounding + Semantik + Wissen + Reasoning)
Noch keine Kommentare.