Ferret – Apples multimodales LLM

xguru · 2023-12-28T11:21:02+09:00

MLLM (Multimodal Large Language Model) Versteht alle Formen und fein granularen räumlichen Bezüge innerhalb von Bildern Wichtige Beiträge Ferret-Modell: hybride Regionsrepräsentation + visuelle Sampler mit räumlichem Bewusstsein GRIT-Datensatz: groß angelegter, hierarchischer und robuster Datensatz für Instruction Tuning. Enthält 1,1 Millionen Samples und 950.000 Hard-Negative-Daten Ferret Bench: multimodaler Evaluierungs-Benchmark (erfordert kombiniert Referring/Grounding + Semantik + Wissen + Reasoning)

(github.com/apple)

13 Punkte von xguru 2023-12-28 | Noch keine Kommentare. | Auf WhatsApp teilen

MLLM (Multimodal Large Language Model)
- Versteht alle Formen und fein granularen räumlichen Bezüge innerhalb von Bildern
Wichtige Beiträge
- Ferret-Modell: hybride Regionsrepräsentation + visuelle Sampler mit räumlichem Bewusstsein
- GRIT-Datensatz: groß angelegter, hierarchischer und robuster Datensatz für Instruction Tuning. Enthält 1,1 Millionen Samples und 950.000 Hard-Negative-Daten
- Ferret Bench: multimodaler Evaluierungs-Benchmark (erfordert kombiniert Referring/Grounding + Semantik + Wissen + Reasoning)

Ferret – Apples multimodales LLM

Verwandte Beiträge

Noch keine Kommentare.