- Auf Basis der im Januar veröffentlichten Qwen2.5-VL-Serie wurde das Modell durch Reinforcement Learning optimiert und das neue VL-Modell Qwen2.5-VL-32B-Instruct mit 32B Parametern unter der Apache-2.0-Lizenz als Open Source veröffentlicht
- Im Vergleich zu früheren Modellen zeichnet sich dieses 32B-VL-Modell durch Folgendes aus:
- Antworten, die besser an menschliche Präferenzen angepasst sind: Der Ausgabestil wurde so abgestimmt, dass detailliertere und besser strukturierte Antworten geliefert werden.
- Mathematisches Schlussfolgern: Die Genauigkeit beim Lösen komplexer mathematischer Probleme wurde deutlich verbessert.
- Feingranulares Bildverständnis und Schlussfolgern: Bei Aufgaben wie Bild-Parsing, Inhaltserkennung und visuellem logischem Schlussfolgern wurden Genauigkeit und Detailanalyse verbessert.
Leistung
- In umfangreichen Benchmarks mit aktuellen Modellen derselben Klasse übertrifft Qwen2.5-VL-32B-Instruct Referenzmodelle wie Mistral-Small-3.1-24B und Gemma-3-27B-IT und erzielt sogar bessere Ergebnisse als das größere Qwen2-VL-72B-Instruct.
- Besonders bei multimodalen Aufgaben, die komplexes und mehrstufiges Schlussfolgern erfordern, wie MMMU, MMMU-Pro und MathVista, zeigt es deutliche Vorteile.
- Auf MM-MT-Bench, das subjektive Bewertungen der User Experience betont, erzielt es mit deutlichem Abstand bessere Ergebnisse als Qwen2-VL-72B-Instruct.
- Neben den visuellen Fähigkeiten erreicht es bei gleicher Größe auch im reinen Textbereich Ergebnisse auf Spitzenniveau.
1 Kommentare
Hacker-News-Kommentare
uv, ohne dass Bibliotheken installiert werden müssen.