13 Punkte von xguru 2023-12-28 | Noch keine Kommentare. | Auf WhatsApp teilen
  • MLLM (Multimodal Large Language Model)
    • Versteht alle Formen und fein granularen räumlichen Bezüge innerhalb von Bildern
  • Wichtige Beiträge
    • Ferret-Modell: hybride Regionsrepräsentation + visuelle Sampler mit räumlichem Bewusstsein
    • GRIT-Datensatz: groß angelegter, hierarchischer und robuster Datensatz für Instruction Tuning. Enthält 1,1 Millionen Samples und 950.000 Hard-Negative-Daten
    • Ferret Bench: multimodaler Evaluierungs-Benchmark (erfordert kombiniert Referring/Grounding + Semantik + Wissen + Reasoning)

Noch keine Kommentare.

Noch keine Kommentare.