DeepSeek veröffentlicht Janus Pro, ein Text-to-Image-Generierungsmodell [PDF]

(github.com/deepseek-ai)

5 Punkte von GN⁺ 2025-01-28 | Noch keine Kommentare. | Auf WhatsApp teilen

Janus-Pro: eine verbesserte Version eines integrierten multimodalen Verstehens- und Generierungsmodells
Das Modell baut auf dem bestehenden Janus-Modell auf und umfasst die folgenden Verbesserungen
- optimierte Trainingsstrategie
- erweiterte Trainingsdaten
- Skalierung auf eine größere Modellgröße
Ziel: Verbesserung der Leistung beim multimodalen Verstehen und bei der Text-zu-Bild-Generierung sowie höhere Stabilität bei der Generierung

Zentrale Leistungsverbesserungen

Multimodales Verstehen

Janus-Pro erreicht im Benchmark für multimodales Verstehen (MMBench) den Bestwert von 79,2
Es erzielt eine bessere Leistung als bestehende Modelle wie Janus, TokenFlow und MetaMorph
Durch die Trennung der visuellen Kodierung werden Konflikte zwischen Verstehen und Generierung reduziert

Text-zu-Bild-Generierung

Im GenEval-Benchmark übertrifft es mit 80 % Genauigkeit unter anderem DALL-E 3 (67 %) und SD3-Medium (74 %)
Im DPG-Bench erreicht es 84,19 Punkte und liefert damit bessere Ergebnisse als alle anderen Modelle

Modellstruktur und Verbesserungen

Modellarchitektur

Die visuelle Kodierung wird für multimodales Verstehen und Generierung getrennt
Verwendet einen SigLIP-Encoder, der hochdimensionale semantische Merkmale extrahiert
Der Bilddecoder wandelt Bilder in IDs um und verknüpft sie mit dem LLM-Eingang

Optimierte Trainingsstrategie

Stufenweises Training: verbessert die Ineffizienz der bisherigen dreistufigen Strategie
- längere Trainingszeit mit ImageNet-Daten (Stage I)
- Fokus des Trainings ausschließlich auf Text-zu-Bild-Daten (Stage II)
Anpassung der Datenanteile: Der Anteil der Text-zu-Bild-Daten wurde reduziert und die Leistung beim multimodalen Verstehen gestärkt

Daten- und Modellskalierung

Datenskalierung:
- 90 Millionen zusätzliche Samples für multimodales Verstehen
- Verstärkung der Text-zu-Bild-Daten mit 70 Millionen synthetischen Ästhetik-Daten
Modellskalierung:
- Skalierung von 1.5B auf 7B, mit deutlichen Verbesserungen bei Trainingseffizienz und Leistung

Experimente und Bewertung

Leistungsvergleich

Janus-Pro-7B zeigt im Vergleich zu Modellen gleicher Größe die beste Leistung
- Es übertrifft große Modelle wie TokenFlow-XL (13B) sowohl beim multimodalen Verstehen als auch bei der Generierung
Sowohl die Stabilität der generierten Bilder als auch ihre ästhetische Qualität wurden verbessert

Einschränkungen

Die niedrige Auflösung (384 × 384) ist bei detailreichen Aufgaben wie OCR eingeschränkt
Bei der Text-zu-Bild-Generierung fehlt es an feinen Details

Fazit

Janus-Pro stellt bei Trainingsstrategie, Daten und Modellgröße einen wichtigen Fortschritt dar
Es erreicht Spitzenleistung sowohl beim multimodalen Verstehen als auch bei der Text-zu-Bild-Generierung
Künftig soll eine höhere Auflösung helfen, detailreiche Aufgaben zu lösen

Noch keine Kommentare.

Noch keine Kommentare.