- Eine Vision-Language-Architektur, die hochauflösende Bilder in mehrere kleine Bereiche aufteilt und analysiert, um detailliertes Verständnis und Schlussfolgerungen zu ermöglichen
- Veröffentlichung von zwei Open-Source-Modellen, darunter Llama-3-8b-Dragonfly-v1 (allgemeine Domäne) und Llama-3-8b-Dragonfly-Med-v1 (medizinische Domäne)
- Llama-3-8b-Dragonfly-v1 wurde mit 5,5 Millionen Bild-Anweisungs-Paaren trainiert, und Llama-3-8b-Dragonfly-Med-v1 wurde zusätzlich mit 1,4 Millionen medizinischen Bild-Anweisungen feinabgestimmt
- Dragonfly zeigt starke Leistung in Benchmarks für visuelles Common-Sense-Reasoning, Image Captioning und mehr
- Dragonfly-Med übertrifft bestehende Modelle wie Med-Gemini im Bereich des Verständnisses medizinischer Bilder
Dragonfly-Architektur
-
Multi-resolution Visual Encoding:
- Verarbeitet Bilder in niedriger, mittlerer und hoher Auflösung
- Jedes Bild wird je nach Auflösung in mehrere Teilbilder zerlegt und als visuelle Tokens kodiert
- Die kodierten Tokens werden in den Sprachraum projiziert und als konkatenierten Sequenz als Eingabe an das LLM übergeben
- Dadurch lassen sich große Bilder effizient verarbeiten und die Granularität der Verarbeitung visueller Daten erhöhen
-
Zoom-in Patch Selection:
- Ein selektiver Ansatz, um sich in hochauflösenden Bildern auf wichtige visuelle Details zu konzentrieren
- Nutzt eine neuartige Zoom-in-Patch-Selection-Strategie, bei der nur hochauflösende Teilbilder mit hoher Relevanz ausgewählt werden
- Dazu werden Summary-Embeddings mittel- und hochauflösender Teilbilder verglichen, um nur die relevantesten Patches auszuwählen
- So werden Redundanzen entfernt und der Fokus auf zentrale Inhaltsbereiche gelegt, was sowohl die Gesamteffizienz des Modells als auch das Verständnis feiner Details verbessert
-
Diese beiden Strategien sorgen dafür, dass sich das Modell stärker auf feine Details in Bildbereichen konzentriert und seine Fähigkeit zu Common-Sense-Reasoning verbessert.
-
Obwohl es auf das Erfassen von Details optimiert ist, zeigt es auch in allgemeinen Bildverständnis-Benchmarks wie VQA und Image Captioning eine gute Zero-Shot-Leistung.
Bewertung der Dragonfly-Modellleistung
- Bewertet in fünf Vision-Language-Benchmarks: AI2D, ScienceQA, MMMU, MMVet und POPE
- AI2D, ScienceQA: Bewertung visuellen Common-Sense-Reasonings im wissenschaftlichen Bereich
- MMMU, MMVet: Umfassende Bewertung von Vision-Language-Fähigkeiten
- POPE: Bewertung von objektspezifischen Halluzinationen
- Zeigt eine starke Leistung, die mit anderen bekannten Vision-Language-Modellen vergleichbar ist
Leistung von Dragonfly-Med
- Eine zusammen mit Stanford Medicine entwickelte Version, bei der Dragonfly zusätzlich mit 1,4 Millionen medizinischen Bild-Anweisungen trainiert wurde
- Übertrifft bestehende Modelle wie Med-Gemini in visuellen Frage-Antwort-Benchmarks wie VQA-RAD, SLAKE und Path-VQA
- Zeigt auch in Benchmarks für medizinisches Image Captioning wie IU X-Ray, Peir Gross, ROCO und MIMIC CXR eine Leistung auf SOTA-Niveau
Nächste Pläne
- Geplant ist die Erforschung neuer Architekturen und visueller Encoding-Strategien auf Basis von LLaMA3-8B-Instruct als Backbone
- Außerdem soll der Anwendungsbereich auf weitere wissenschaftliche Felder ausgeweitet werden, um zur Open-Source-Multimodal-Forschung beizutragen
Noch keine Kommentare.