5 Punkte von GN⁺ 2025-01-28 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Janus-Pro: eine verbesserte Version eines integrierten multimodalen Verstehens- und Generierungsmodells
  • Das Modell baut auf dem bestehenden Janus-Modell auf und umfasst die folgenden Verbesserungen
    • optimierte Trainingsstrategie
    • erweiterte Trainingsdaten
    • Skalierung auf eine größere Modellgröße
  • Ziel: Verbesserung der Leistung beim multimodalen Verstehen und bei der Text-zu-Bild-Generierung sowie höhere Stabilität bei der Generierung

Zentrale Leistungsverbesserungen

Multimodales Verstehen

  • Janus-Pro erreicht im Benchmark für multimodales Verstehen (MMBench) den Bestwert von 79,2
  • Es erzielt eine bessere Leistung als bestehende Modelle wie Janus, TokenFlow und MetaMorph
  • Durch die Trennung der visuellen Kodierung werden Konflikte zwischen Verstehen und Generierung reduziert

Text-zu-Bild-Generierung

  • Im GenEval-Benchmark übertrifft es mit 80 % Genauigkeit unter anderem DALL-E 3 (67 %) und SD3-Medium (74 %)
  • Im DPG-Bench erreicht es 84,19 Punkte und liefert damit bessere Ergebnisse als alle anderen Modelle

Modellstruktur und Verbesserungen

Modellarchitektur

  • Die visuelle Kodierung wird für multimodales Verstehen und Generierung getrennt
  • Verwendet einen SigLIP-Encoder, der hochdimensionale semantische Merkmale extrahiert
  • Der Bilddecoder wandelt Bilder in IDs um und verknüpft sie mit dem LLM-Eingang

Optimierte Trainingsstrategie

  • Stufenweises Training: verbessert die Ineffizienz der bisherigen dreistufigen Strategie
    • längere Trainingszeit mit ImageNet-Daten (Stage I)
    • Fokus des Trainings ausschließlich auf Text-zu-Bild-Daten (Stage II)
  • Anpassung der Datenanteile: Der Anteil der Text-zu-Bild-Daten wurde reduziert und die Leistung beim multimodalen Verstehen gestärkt

Daten- und Modellskalierung

  • Datenskalierung:
    • 90 Millionen zusätzliche Samples für multimodales Verstehen
    • Verstärkung der Text-zu-Bild-Daten mit 70 Millionen synthetischen Ästhetik-Daten
  • Modellskalierung:
    • Skalierung von 1.5B auf 7B, mit deutlichen Verbesserungen bei Trainingseffizienz und Leistung

Experimente und Bewertung

Leistungsvergleich

  • Janus-Pro-7B zeigt im Vergleich zu Modellen gleicher Größe die beste Leistung
    • Es übertrifft große Modelle wie TokenFlow-XL (13B) sowohl beim multimodalen Verstehen als auch bei der Generierung
  • Sowohl die Stabilität der generierten Bilder als auch ihre ästhetische Qualität wurden verbessert

Einschränkungen

  • Die niedrige Auflösung (384 × 384) ist bei detailreichen Aufgaben wie OCR eingeschränkt
  • Bei der Text-zu-Bild-Generierung fehlt es an feinen Details

Fazit

  • Janus-Pro stellt bei Trainingsstrategie, Daten und Modellgröße einen wichtigen Fortschritt dar
  • Es erreicht Spitzenleistung sowohl beim multimodalen Verstehen als auch bei der Text-zu-Bild-Generierung
  • Künftig soll eine höhere Auflösung helfen, detailreiche Aufgaben zu lösen

Noch keine Kommentare.

Noch keine Kommentare.