10 Punkte von GN⁺ 2024-05-29 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Llama3-V ist das erste multimodale Modell auf Basis von Llama3
  • Llama3-V wurde mit Kosten von unter 500 Dollar trainiert
  • In Benchmarks zeigte es eine um 10–20 % bessere Leistung als Llava und erreichte bei den meisten Metriken eine ähnliche Leistung wie ein 100-mal größeres Closed-Source-Modell

Modellarchitektur

  • SigLIP: Ein Bild-Embedding-Modell, ähnlich wie CLIP, aber mit Sigmoid-Loss.
  • Ausrichtung der Text-Embeddings: SigLIP wird eingefroren, und ein Projektionsmodul richtet die Bild-Embeddings an den Text-Embeddings aus.
  • Hinzufügen von Bild-Token: Die Bild-Embeddings werden vor den Text-Token eingefügt und an Llama3 übergeben.

Optimierung der Inferenz

  • Caching: Die Bild-Embeddings des SigLIP-Modells werden vorab berechnet, um die GPU-Auslastung zu erhöhen und Trainings-/Inferenzzeit zu sparen.
  • MPS/MLX-Optimierung: Das SigLIP-Modell wurde für MPS optimiert und verarbeitet 32 Bilder pro Sekunde.

Trainingsprozess

  • Vorab-Berechnung der Embeddings: Bild-Embeddings werden mit SigLIP im Voraus berechnet.
  • Training der Projektionsschicht: Über die Projektionsschicht werden Bild- und Text-Embeddings in einem multimodalen Embedding-Raum ausgerichtet.
  • Überwachtes Lernen: Nach dem Pretraining wurde die Modellleistung durch überwachtes Lernen verbessert.

Zusammenfassung

  • Ein Vision-Encoder wurde zu Llama3 8B hinzugefügt.
  • 10–20 % bessere Leistung als Llava.
  • Ähnliche Leistung wie 100-mal größere Modelle wie GPT4v, Gemini Ultra und Claude Opus.
  • Bietet eine effiziente Trainings- und Supervised-Learning-Pipeline für unter 500 Dollar.

Meinung von GN⁺

  • Interessanter Punkt: Spannend an Llama3-V ist, dass es ein leistungsstarkes multimodales Modell zu geringen Kosten umsetzt.
  • Kritische Perspektive: Fraglich ist, wie nachhaltig es ist, Modellgröße und Kosten zu senken und dabei die Leistung zu halten.
  • Verwandte Technologien: Modelle mit ähnlichen Funktionen sind unter anderem CLIP und DALL-E.
  • Überlegungen zur Einführung: Bei der Einführung neuer Technologien sollten die Genauigkeit des Modells und die Kosteneffizienz berücksichtigt werden.
  • Vor- und Nachteile der Technologiewahl: Hohe Leistung bei geringen Kosten ist möglich, aber auch Skalierbarkeit und Wartungskosten des Modells müssen bedacht werden.

Noch keine Kommentare.

Noch keine Kommentare.