Qwen2.5-VL-32B – ein intelligenteres und leichteres Modell

(qwenlm.github.io)

5 Punkte von GN⁺ 2025-03-25 | 1 Kommentare | Auf WhatsApp teilen

Auf Basis der im Januar veröffentlichten Qwen2.5-VL-Serie wurde das Modell durch Reinforcement Learning optimiert und das neue VL-Modell Qwen2.5-VL-32B-Instruct mit 32B Parametern unter der Apache-2.0-Lizenz als Open Source veröffentlicht
Im Vergleich zu früheren Modellen zeichnet sich dieses 32B-VL-Modell durch Folgendes aus:
- Antworten, die besser an menschliche Präferenzen angepasst sind: Der Ausgabestil wurde so abgestimmt, dass detailliertere und besser strukturierte Antworten geliefert werden.
- Mathematisches Schlussfolgern: Die Genauigkeit beim Lösen komplexer mathematischer Probleme wurde deutlich verbessert.
- Feingranulares Bildverständnis und Schlussfolgern: Bei Aufgaben wie Bild-Parsing, Inhaltserkennung und visuellem logischem Schlussfolgern wurden Genauigkeit und Detailanalyse verbessert.

Leistung

In umfangreichen Benchmarks mit aktuellen Modellen derselben Klasse übertrifft Qwen2.5-VL-32B-Instruct Referenzmodelle wie Mistral-Small-3.1-24B und Gemma-3-27B-IT und erzielt sogar bessere Ergebnisse als das größere Qwen2-VL-72B-Instruct.
Besonders bei multimodalen Aufgaben, die komplexes und mehrstufiges Schlussfolgern erfordern, wie MMMU, MMMU-Pro und MathVista, zeigt es deutliche Vorteile.
Auf MM-MT-Bench, das subjektive Bewertungen der User Experience betont, erzielt es mit deutlichem Abstand bessere Ergebnisse als Qwen2-VL-72B-Instruct.
Neben den visuellen Fähigkeiten erreicht es bei gleicher Größe auch im reinen Textbereich Ergebnisse auf Spitzenniveau.

1 Kommentare

GN⁺ 2025-03-25

Hacker-News-Kommentare

Ein großer Tag für die Veröffentlichung chinesischer Open-Source-Modelle. DeepSeek-v3-0324 wurde heute aktualisiert und unter der MIT-Lizenz veröffentlicht (zuvor unter einer benutzerdefinierten DeepSeek-Lizenz).
Ich habe vor ein paar Monaten Llama Vision 3.2 verwendet und war sowohl von der Geschwindigkeit als auch von der Qualität der Ergebnisse sehr enttäuscht. Auf der Suche nach Alternativen auf Hugging Face bin ich auf Qwen gestoßen. Der Unterschied bei Genauigkeit und Geschwindigkeit war enorm. Wenn ich ein Bild analysieren lasse und um eine Reaktion bitte, bekomme ich auf einer 4090 in einer halben Sekunde meist eine korrekte Antwort. Noch beeindruckender ist, dass es beim Extrahieren von Entitätsnamen aus Bildern den vollständigen Namen liefert, selbst wenn der Name abgeschnitten ist (zum Beispiel wird bei einem schwach im Hintergrund sichtbaren „Coca-C“ „Coca-Cola“ zurückgegeben). Auch weniger bekannte Entitäten oder nur in bestimmten Regionen bekannte Entitäten verarbeitet es gut. Seit ich Qwen nutze, bin ich nicht mehr zu Llama oder anderen Vision-Modellen zurückgekehrt.
Das 32B-Modell ist derzeit eine meiner bevorzugten Modellgrößen. Es ist sehr leistungsfähig und gleichzeitig klein genug, um auf einer einzelnen GPU oder auf einem Mac-Notebook mit mittlerer Ausstattung (32 GB oder mehr) zu laufen.
Dieses Modell ist jetzt in verschiedenen Größen in MLX verfügbar.
- Es läuft mit uv, ohne dass Bibliotheken installiert werden müssen.
- Ich habe etwa 18 GB an Modellen heruntergeladen und sehr beeindruckende Ergebnisse erhalten.
Vielleicht ist das eine dumme Frage, aber ich frage mich, wie OpenAI, Claude usw. angesichts all dieser Open-Source-Modelle so hoch bewertet sein können. Ich sage nicht, dass sie verschwinden oder schrumpfen werden, aber ich frage mich, warum sie so viel wert sind.
Open-Weight-Modelle erscheinen so schnell, dass es schwer ist, den Überblick zu behalten. Ich frage mich, ob jemand eine Liste pflegt, die festhält, was bei den einzelnen Modellen gerade „aktuell“ ist.
Ich frage mich, ob jemand weiß, welche Auswirkungen es auf die Textfähigkeiten hat, wenn man ein Modell multimodal macht. Der Artikel behauptet, dass es auch bei reinem Text gute Leistung bringt, aber ich frage mich, ob es Analysen dazu gibt, wie stark sich das tatsächlich auswirkt. Manche behaupten, dass Modelle bei Text dadurch besser werden, aber ohne Daten fällt es mir schwer, das zu glauben.
Ich würde gern besser verstehen, welche Größe an Grafikkarte dafür nötig ist. Laut dem HuggingFace-Link ist es bfloat16, also scheint man mindestens 64 GB zu brauchen. Könnte das -7B auf meiner AMD-Karte mit 16 GB laufen?
Qwen wird von Alibaba Cloud entwickelt (im Blogpost wird das nirgends erwähnt).
Heute Qwen, morgen Googles neues SOTA-Modell, nächste Woche soll R2 kommen. Wir haben die Grenze noch nicht erreicht.

Qwen2.5-VL-32B – ein intelligenteres und leichteres Modell

Leistung

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare