Dragonfly – Großes Vision-Language-Modell mit Multi-Resolution-Zoom

xguru · 2024-06-10T10:10:02+09:00

Eine Vision-Language-Architektur, die hochauflösende Bilder in mehrere kleine Bereiche aufteilt und analysiert, um detailliertes Verständnis und Schlussfolgerungen zu ermöglichen Veröffentlichung von zwei Open-Source-Modellen, darunter Llama-3-8b-Dragonfly-v1 (allgemeine Domäne) und Llama-3-8b-Dragonfly-Med-v1 (medizinische Domäne) Llama-3-8b-Dragonfly-v1 wurde mit 5,5 Millionen Bild-Anweisungs-Paaren trainiert, und Llama-3-8b-Dragonfly-Med-v1 wurde zusätzlich mit 1,4 Millionen medizinischen Bild-Anweisungen feinabgestimmt Dragonfly zeigt starke Leistung in Benchmarks für visuelles Common-Sense-Reasoning, Image Captioning und mehr Dragonfly-Med übertrifft bestehende Modelle wie Med-Gemini im Bereich des Verständnisses medizinischer Bilder Dragonfly-Architektur Multi-resolution Visual Encoding: Verarbeitet Bilder in niedriger, mittlerer und hoher Auflösung Jedes Bild wird je nach Auflösung in mehrere Teilbilder zerlegt und als visuelle Tokens kodiert Die kodierten Tokens werden in den Sprachraum projiziert und als konkatenierten Sequenz als Eingabe an das LLM übergeben Dadurch lassen sich große Bilder effizient verarbeiten und die Granularität der Verarbeitung visueller Daten erhöhen Zoom-in Patch Selection: Ein selektiver Ansatz, um sich in hochauflösenden Bildern auf wichtige visuelle Details zu konzentrieren Nutzt eine neuartige Zoom-in-Patch-Selection-Strategie, bei der nur hochauflösende Teilbilder mit hoher Relevanz ausgewählt werden Dazu werden Summary-Embeddings mittel- und hochauflösender Teilbilder verglichen, um nur die relevantesten Patches auszuwählen So werden Redundanzen entfernt und der Fokus auf zentrale Inhaltsbereiche gelegt, was sowohl die Gesamteffizienz des Modells als auch das Verständnis feiner Details verbessert Diese beiden Strategien sorgen dafür, dass sich das Modell stärker auf feine Details in Bildbereichen konzentriert und seine Fähigkeit zu Common-Sense-Reasoning verbessert. Obwohl es auf das Erfassen von Details optimiert ist, zeigt es auch in allgemeinen Bildverständnis-Benchmarks wie VQA und Image Captioning eine gute Zero-Shot-Leistung. Bewertung der Dragonfly-Modellleistung Bewertet in fünf Vision-Language-Benchmarks: AI2D, ScienceQA, MMMU, MMVet und POPE AI2D, ScienceQA: Bewertung visuellen Common-Sense-Reasonings im wissenschaftlichen Bereich MMMU, MMVet: Umfassende Bewertung von Vision-Language-Fähigkeiten POPE: Bewertung von objektspezifischen Halluzinationen Zeigt eine starke Leistung, die mit anderen bekannten Vision-Language-Modellen vergleichbar ist Leistung von Dragonfly-Med Eine zusammen mit Stanford Medicine entwickelte Version, bei der Dragonfly zusätzlich mit 1,4 Millionen medizinischen Bild-Anweisungen trainiert wurde Übertrifft bestehende Modelle wie Med-Gemini in visuellen Frage-Antwort-Benchmarks wie VQA-RAD, SLAKE und Path-VQA Zeigt auch in Benchmarks für medizinisches Image Captioning wie IU X-Ray, Peir Gross, ROCO und MIMIC CXR eine Leistung auf SOTA-Niveau Nächste Pläne Geplant ist die Erforschung neuer Architekturen und visueller Encoding-Strategien auf Basis von LLaMA3-8B-Instruct als Backbone Außerdem soll der Anwendungsbereich auf weitere wissenschaftliche Felder ausgeweitet werden, um zur Open-Source-Multimodal-Forschung beizutragen

(together.ai)

4 Punkte von xguru 2024-06-10 | Noch keine Kommentare. | Auf WhatsApp teilen

Eine Vision-Language-Architektur, die hochauflösende Bilder in mehrere kleine Bereiche aufteilt und analysiert, um detailliertes Verständnis und Schlussfolgerungen zu ermöglichen
Veröffentlichung von zwei Open-Source-Modellen, darunter Llama-3-8b-Dragonfly-v1 (allgemeine Domäne) und Llama-3-8b-Dragonfly-Med-v1 (medizinische Domäne)
Llama-3-8b-Dragonfly-v1 wurde mit 5,5 Millionen Bild-Anweisungs-Paaren trainiert, und Llama-3-8b-Dragonfly-Med-v1 wurde zusätzlich mit 1,4 Millionen medizinischen Bild-Anweisungen feinabgestimmt
Dragonfly zeigt starke Leistung in Benchmarks für visuelles Common-Sense-Reasoning, Image Captioning und mehr
Dragonfly-Med übertrifft bestehende Modelle wie Med-Gemini im Bereich des Verständnisses medizinischer Bilder

Dragonfly-Architektur

Multi-resolution Visual Encoding:
- Verarbeitet Bilder in niedriger, mittlerer und hoher Auflösung
- Jedes Bild wird je nach Auflösung in mehrere Teilbilder zerlegt und als visuelle Tokens kodiert
- Die kodierten Tokens werden in den Sprachraum projiziert und als konkatenierten Sequenz als Eingabe an das LLM übergeben
- Dadurch lassen sich große Bilder effizient verarbeiten und die Granularität der Verarbeitung visueller Daten erhöhen
Zoom-in Patch Selection:
- Ein selektiver Ansatz, um sich in hochauflösenden Bildern auf wichtige visuelle Details zu konzentrieren
- Nutzt eine neuartige Zoom-in-Patch-Selection-Strategie, bei der nur hochauflösende Teilbilder mit hoher Relevanz ausgewählt werden
- Dazu werden Summary-Embeddings mittel- und hochauflösender Teilbilder verglichen, um nur die relevantesten Patches auszuwählen
- So werden Redundanzen entfernt und der Fokus auf zentrale Inhaltsbereiche gelegt, was sowohl die Gesamteffizienz des Modells als auch das Verständnis feiner Details verbessert
Diese beiden Strategien sorgen dafür, dass sich das Modell stärker auf feine Details in Bildbereichen konzentriert und seine Fähigkeit zu Common-Sense-Reasoning verbessert.
Obwohl es auf das Erfassen von Details optimiert ist, zeigt es auch in allgemeinen Bildverständnis-Benchmarks wie VQA und Image Captioning eine gute Zero-Shot-Leistung.

Bewertung der Dragonfly-Modellleistung

Bewertet in fünf Vision-Language-Benchmarks: AI2D, ScienceQA, MMMU, MMVet und POPE
- AI2D, ScienceQA: Bewertung visuellen Common-Sense-Reasonings im wissenschaftlichen Bereich
- MMMU, MMVet: Umfassende Bewertung von Vision-Language-Fähigkeiten
- POPE: Bewertung von objektspezifischen Halluzinationen
Zeigt eine starke Leistung, die mit anderen bekannten Vision-Language-Modellen vergleichbar ist

Leistung von Dragonfly-Med

Eine zusammen mit Stanford Medicine entwickelte Version, bei der Dragonfly zusätzlich mit 1,4 Millionen medizinischen Bild-Anweisungen trainiert wurde
Übertrifft bestehende Modelle wie Med-Gemini in visuellen Frage-Antwort-Benchmarks wie VQA-RAD, SLAKE und Path-VQA
Zeigt auch in Benchmarks für medizinisches Image Captioning wie IU X-Ray, Peir Gross, ROCO und MIMIC CXR eine Leistung auf SOTA-Niveau

Nächste Pläne

Geplant ist die Erforschung neuer Architekturen und visueller Encoding-Strategien auf Basis von LLaMA3-8B-Instruct als Backbone
Außerdem soll der Anwendungsbereich auf weitere wissenschaftliche Felder ausgeweitet werden, um zur Open-Source-Multimodal-Forschung beizutragen