Erfahrungsbericht zu Qwens neuem visuellen Reasoning-Modell QvQ
(simonwillison.net)- Das Alibaba-Qwen-Team hat das neue visuelle Reasoning-Modell QvQ-72B-Preview vorgestellt
- Es verarbeitet Bilder und Prompts als Eingabe und führt detailliertes Reasoning durch
- Ursprünglich als Apache 2.0 gekennzeichnet, wurde es inzwischen auf die Qwen-Lizenz umgestellt
- Unterschiede zum vorherigen Modell QwQ
- QwQ konzentrierte sich auf textbasiertes Reasoning und wurde als Mechanismus entworfen, der die „Grenzen des Denkens“ widerspiegelt
- QvQ ergänzt dies um visuelle Eingaben und führt auf Basis von Bildern eine tiefgehende Analyse durch
QvQ-Anwendungsfälle und Tests
- QvQ ist auf Hugging Face Spaces verfügbar
- Bei Eingabe von Bild und einem einzelnen Prompt erzeugt es eine sehr lange Antwort, weitere Prompts können nicht mehr hinzugefügt werden
- Es analysiert das Eingangsbild und erklärt den Reasoning-Prozess schrittweise
- Testergebnisse
- Pelikan-Zählung: Mit dem Prompt „Count the pelicans“ wurde die Anzahl der Pelikane im Foto berechnet
- Es zählte exakt vier Pelikane, während teilweise sichtbare Vögel ausgeschlossen wurden
- Es erklärte das Reasoning in einem freundlichen, dialognahen Stil
- ARC-AGI-Rätsel: Es versuchte, eine komplexe Aufgabe zu lösen, konnte aber kein korrektes Ergebnis erzielen
- Es schlug einen originellen Ansatz vor, ähnlich wie bei einem zellulären Automaten
- Drachenhöhen-Schätzung: Es wurde versucht, die Höhe eines Drachen ohne vergleichbares Referenzobjekt abzuschätzen
- Es schlug eine Höhe von etwa 8–9 Fuß vor und zeigte dabei ausgeprägte Beobachtungsgabe
- Pelikan-Zählung: Mit dem Prompt „Count the pelicans“ wurde die Anzahl der Pelikane im Foto berechnet
QvQ-Modell ausführen
-
Hosting-Umgebung
- Tests sind auf Hugging Face Spaces mit den GPU-Modellgewichten möglich
- Ausführung über das Python-Paket qwen-vl-utils
-
Lokale Ausführung
- Prince Canuma hat das Modell für das Apple-MLX-Framework konvertiert, sodass es über das mlx-vlm-Paket ausgeführt werden kann
- Auf einem macOS M2 mit 64 GB RAM lief es erfolgreich mit der 4-Bit-Quantisierungsversion
- Ausführungsbefehl:
uv run --with 'numpy<2.0' --with mlx-vlm python \ -m mlx_vlm.generate \ --model mlx-community/QVQ-72B-Preview-4bit \ --max-tokens 10000 \ --temp 0.0 \ --prompt "describe this" \ --image pelicans-on-bicycles-veo2.jpg
- Ausführungsbefehl:
QvQ-Lizenzänderung
- Die QvQ-Lizenz wurde von Apache 2.0 auf die Qwen-Lizenz geändert
- Das wirkt wie eine Korrektur eines Anfangsfehlers
- Das QwQ-Modell behält weiterhin die Apache 2.0-Lizenz
- Unterschiede in der Lizenzpolitik zwischen beiden Modellen sind ersichtlich
Fazit
- QvQ ist ein starkes visuelles Reasoning-Modell, das Bilder und Text kombiniert und in verschiedenen Experimenten interessante Ergebnisse liefert
- Weitere Updates und zusätzliche Einsatzmöglichkeiten werden mit Spannung erwartet
1 Kommentare
Hacker News Kommentar
Er beschreibt, wie er das Modell QVQ-72B-Preview-4bit auf einem M2-Laptop mit 64 GB RAM ausführt, um Bilder zu analysieren
uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpgDas Modell ist amüsant
Als Test wurde ein Wortfindungsrätsel verwendet, aber das QvQ-Modell scheiterte
Bei der Eingabe des berühmten „Tank-Man“-Fotos wurde eine leere Antwort erhalten
Der Datensatz für den „laut nachdenken beim Betrachten von Bildern“-Ansatz ist laut Kommentator PixMo
Es wird gefragt, ob das Q*-Modell Open Source ist
Der Antwortstil auf die Frage, wie viele Tiere im Pelikanbild zu zählen sind, war amüsant
Beim QvQ-72B-Preview-Modell wird über Lizenzfragen diskutiert
Das QvQ-Modell zeigt eine gute Leistung bei der Analyse von Fotos mit Prominenten, Hunden und The New Yorker Comics
Es ist auch in der Lage, Bilder mit mathematischen Gleichungen zu verarbeiten