4 Punkte von xguru 2024-06-10 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Eine Vision-Language-Architektur, die hochauflösende Bilder in mehrere kleine Bereiche aufteilt und analysiert, um detailliertes Verständnis und Schlussfolgerungen zu ermöglichen
  • Veröffentlichung von zwei Open-Source-Modellen, darunter Llama-3-8b-Dragonfly-v1 (allgemeine Domäne) und Llama-3-8b-Dragonfly-Med-v1 (medizinische Domäne)
  • Llama-3-8b-Dragonfly-v1 wurde mit 5,5 Millionen Bild-Anweisungs-Paaren trainiert, und Llama-3-8b-Dragonfly-Med-v1 wurde zusätzlich mit 1,4 Millionen medizinischen Bild-Anweisungen feinabgestimmt
  • Dragonfly zeigt starke Leistung in Benchmarks für visuelles Common-Sense-Reasoning, Image Captioning und mehr
  • Dragonfly-Med übertrifft bestehende Modelle wie Med-Gemini im Bereich des Verständnisses medizinischer Bilder

Dragonfly-Architektur

  • Multi-resolution Visual Encoding:

    • Verarbeitet Bilder in niedriger, mittlerer und hoher Auflösung
    • Jedes Bild wird je nach Auflösung in mehrere Teilbilder zerlegt und als visuelle Tokens kodiert
    • Die kodierten Tokens werden in den Sprachraum projiziert und als konkatenierten Sequenz als Eingabe an das LLM übergeben
    • Dadurch lassen sich große Bilder effizient verarbeiten und die Granularität der Verarbeitung visueller Daten erhöhen
  • Zoom-in Patch Selection:

    • Ein selektiver Ansatz, um sich in hochauflösenden Bildern auf wichtige visuelle Details zu konzentrieren
    • Nutzt eine neuartige Zoom-in-Patch-Selection-Strategie, bei der nur hochauflösende Teilbilder mit hoher Relevanz ausgewählt werden
    • Dazu werden Summary-Embeddings mittel- und hochauflösender Teilbilder verglichen, um nur die relevantesten Patches auszuwählen
    • So werden Redundanzen entfernt und der Fokus auf zentrale Inhaltsbereiche gelegt, was sowohl die Gesamteffizienz des Modells als auch das Verständnis feiner Details verbessert
  • Diese beiden Strategien sorgen dafür, dass sich das Modell stärker auf feine Details in Bildbereichen konzentriert und seine Fähigkeit zu Common-Sense-Reasoning verbessert.

  • Obwohl es auf das Erfassen von Details optimiert ist, zeigt es auch in allgemeinen Bildverständnis-Benchmarks wie VQA und Image Captioning eine gute Zero-Shot-Leistung.

Bewertung der Dragonfly-Modellleistung

  • Bewertet in fünf Vision-Language-Benchmarks: AI2D, ScienceQA, MMMU, MMVet und POPE
    • AI2D, ScienceQA: Bewertung visuellen Common-Sense-Reasonings im wissenschaftlichen Bereich
    • MMMU, MMVet: Umfassende Bewertung von Vision-Language-Fähigkeiten
    • POPE: Bewertung von objektspezifischen Halluzinationen
  • Zeigt eine starke Leistung, die mit anderen bekannten Vision-Language-Modellen vergleichbar ist

Leistung von Dragonfly-Med

  • Eine zusammen mit Stanford Medicine entwickelte Version, bei der Dragonfly zusätzlich mit 1,4 Millionen medizinischen Bild-Anweisungen trainiert wurde
  • Übertrifft bestehende Modelle wie Med-Gemini in visuellen Frage-Antwort-Benchmarks wie VQA-RAD, SLAKE und Path-VQA
  • Zeigt auch in Benchmarks für medizinisches Image Captioning wie IU X-Ray, Peir Gross, ROCO und MIMIC CXR eine Leistung auf SOTA-Niveau

Nächste Pläne

  • Geplant ist die Erforschung neuer Architekturen und visueller Encoding-Strategien auf Basis von LLaMA3-8B-Instruct als Backbone
  • Außerdem soll der Anwendungsbereich auf weitere wissenschaftliche Felder ausgeweitet werden, um zur Open-Source-Multimodal-Forschung beizutragen

Noch keine Kommentare.

Noch keine Kommentare.