- Janus-Pro: eine verbesserte Version eines integrierten multimodalen Verstehens- und Generierungsmodells
- Das Modell baut auf dem bestehenden Janus-Modell auf und umfasst die folgenden Verbesserungen
- optimierte Trainingsstrategie
- erweiterte Trainingsdaten
- Skalierung auf eine größere Modellgröße
- Ziel: Verbesserung der Leistung beim multimodalen Verstehen und bei der Text-zu-Bild-Generierung sowie höhere Stabilität bei der Generierung
Zentrale Leistungsverbesserungen
Multimodales Verstehen
- Janus-Pro erreicht im Benchmark für multimodales Verstehen (MMBench) den Bestwert von 79,2
- Es erzielt eine bessere Leistung als bestehende Modelle wie Janus, TokenFlow und MetaMorph
- Durch die Trennung der visuellen Kodierung werden Konflikte zwischen Verstehen und Generierung reduziert
Text-zu-Bild-Generierung
- Im GenEval-Benchmark übertrifft es mit 80 % Genauigkeit unter anderem DALL-E 3 (67 %) und SD3-Medium (74 %)
- Im DPG-Bench erreicht es 84,19 Punkte und liefert damit bessere Ergebnisse als alle anderen Modelle
Modellstruktur und Verbesserungen
Modellarchitektur
- Die visuelle Kodierung wird für multimodales Verstehen und Generierung getrennt
- Verwendet einen SigLIP-Encoder, der hochdimensionale semantische Merkmale extrahiert
- Der Bilddecoder wandelt Bilder in IDs um und verknüpft sie mit dem LLM-Eingang
Optimierte Trainingsstrategie
- Stufenweises Training: verbessert die Ineffizienz der bisherigen dreistufigen Strategie
- längere Trainingszeit mit ImageNet-Daten (Stage I)
- Fokus des Trainings ausschließlich auf Text-zu-Bild-Daten (Stage II)
- Anpassung der Datenanteile: Der Anteil der Text-zu-Bild-Daten wurde reduziert und die Leistung beim multimodalen Verstehen gestärkt
Daten- und Modellskalierung
- Datenskalierung:
- 90 Millionen zusätzliche Samples für multimodales Verstehen
- Verstärkung der Text-zu-Bild-Daten mit 70 Millionen synthetischen Ästhetik-Daten
- Modellskalierung:
- Skalierung von 1.5B auf 7B, mit deutlichen Verbesserungen bei Trainingseffizienz und Leistung
Experimente und Bewertung
Leistungsvergleich
- Janus-Pro-7B zeigt im Vergleich zu Modellen gleicher Größe die beste Leistung
- Es übertrifft große Modelle wie TokenFlow-XL (13B) sowohl beim multimodalen Verstehen als auch bei der Generierung
- Sowohl die Stabilität der generierten Bilder als auch ihre ästhetische Qualität wurden verbessert
Einschränkungen
- Die niedrige Auflösung (384 × 384) ist bei detailreichen Aufgaben wie OCR eingeschränkt
- Bei der Text-zu-Bild-Generierung fehlt es an feinen Details
Fazit
- Janus-Pro stellt bei Trainingsstrategie, Daten und Modellgröße einen wichtigen Fortschritt dar
- Es erreicht Spitzenleistung sowohl beim multimodalen Verstehen als auch bei der Text-zu-Bild-Generierung
- Künftig soll eine höhere Auflösung helfen, detailreiche Aufgaben zu lösen
Noch keine Kommentare.