Erfahrungsbericht zu Qwens neuem visuellen Reasoning-Modell QvQ

(simonwillison.net)

5 Punkte von GN⁺ 2024-12-26 | 1 Kommentare | Auf WhatsApp teilen

Das Alibaba-Qwen-Team hat das neue visuelle Reasoning-Modell QvQ-72B-Preview vorgestellt
- Es verarbeitet Bilder und Prompts als Eingabe und führt detailliertes Reasoning durch
- Ursprünglich als Apache 2.0 gekennzeichnet, wurde es inzwischen auf die Qwen-Lizenz umgestellt
Unterschiede zum vorherigen Modell QwQ
- QwQ konzentrierte sich auf textbasiertes Reasoning und wurde als Mechanismus entworfen, der die „Grenzen des Denkens“ widerspiegelt
- QvQ ergänzt dies um visuelle Eingaben und führt auf Basis von Bildern eine tiefgehende Analyse durch

QvQ-Anwendungsfälle und Tests

QvQ ist auf Hugging Face Spaces verfügbar
- Bei Eingabe von Bild und einem einzelnen Prompt erzeugt es eine sehr lange Antwort, weitere Prompts können nicht mehr hinzugefügt werden
- Es analysiert das Eingangsbild und erklärt den Reasoning-Prozess schrittweise
Testergebnisse
- Pelikan-Zählung: Mit dem Prompt „Count the pelicans“ wurde die Anzahl der Pelikane im Foto berechnet
  - Es zählte exakt vier Pelikane, während teilweise sichtbare Vögel ausgeschlossen wurden
  - Es erklärte das Reasoning in einem freundlichen, dialognahen Stil
- ARC-AGI-Rätsel: Es versuchte, eine komplexe Aufgabe zu lösen, konnte aber kein korrektes Ergebnis erzielen
  - Es schlug einen originellen Ansatz vor, ähnlich wie bei einem zellulären Automaten
- Drachenhöhen-Schätzung: Es wurde versucht, die Höhe eines Drachen ohne vergleichbares Referenzobjekt abzuschätzen
  - Es schlug eine Höhe von etwa 8–9 Fuß vor und zeigte dabei ausgeprägte Beobachtungsgabe

QvQ-Modell ausführen

Hosting-Umgebung
- Tests sind auf Hugging Face Spaces mit den GPU-Modellgewichten möglich
- Ausführung über das Python-Paket qwen-vl-utils
Lokale Ausführung
- Prince Canuma hat das Modell für das Apple-MLX-Framework konvertiert, sodass es über das mlx-vlm-Paket ausgeführt werden kann
- Auf einem macOS M2 mit 64 GB RAM lief es erfolgreich mit der 4-Bit-Quantisierungsversion
  - Ausführungsbefehl:
```
uv run --with 'numpy<2.0' --with mlx-vlm python \
  -m mlx_vlm.generate \
  --model mlx-community/QVQ-72B-Preview-4bit \
  --max-tokens 10000 \
  --temp 0.0 \
  --prompt "describe this" \
  --image pelicans-on-bicycles-veo2.jpg
```

QvQ-Lizenzänderung

Die QvQ-Lizenz wurde von Apache 2.0 auf die Qwen-Lizenz geändert
- Das wirkt wie eine Korrektur eines Anfangsfehlers
Das QwQ-Modell behält weiterhin die Apache 2.0-Lizenz
- Unterschiede in der Lizenzpolitik zwischen beiden Modellen sind ersichtlich

Fazit

QvQ ist ein starkes visuelles Reasoning-Modell, das Bilder und Text kombiniert und in verschiedenen Experimenten interessante Ergebnisse liefert
Weitere Updates und zusätzliche Einsatzmöglichkeiten werden mit Spannung erwartet

1 Kommentare

GN⁺ 2024-12-26

Hacker News Kommentar

Er beschreibt, wie er das Modell QVQ-72B-Preview-4bit auf einem M2-Laptop mit 64 GB RAM ausführt, um Bilder zu analysieren
- uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg
- Die Ergebnisse sind in diesem Link zu sehen
Das Modell ist amüsant
- Wenn man ein Bild hochlädt und fragt: „Denken Sie beim Betrachten dieses Bildes laut, was Sie denken“, können interessante Ergebnisse erzielt werden
- Beispielhaft stellt es bei einem Sandwich-Bild eine detaillierte Beschreibung bereit und stellt sich dabei den Geschmack vor
Als Test wurde ein Wortfindungsrätsel verwendet, aber das QvQ-Modell scheiterte
- Auch das Gemini-Release von AI Studio misslang zunächst, fand das gesuchte Wort jedoch nach einigen Versuchen erfolgreich
- Die Erstellung eines Programms zur Lösung bringt oft bessere Ergebnisse als die direkte Aufforderung, die Lösung sofort zu liefern
Bei der Eingabe des berühmten „Tank-Man“-Fotos wurde eine leere Antwort erhalten
Der Datensatz für den „laut nachdenken beim Betrachten von Bildern“-Ansatz ist laut Kommentator PixMo
- Es wird vermutet, dass QvQ ähnlich trainiert wurde
Es wird gefragt, ob das Q*-Modell Open Source ist
- Als nach Ratschlägen für den Umgang mit Autoritäten gefragt wurde, riet das Modell zu starker Befolgung
Der Antwortstil auf die Frage, wie viele Tiere im Pelikanbild zu zählen sind, war amüsant
- Er wirkt deutlich lockerer als GPT-4
Beim QvQ-72B-Preview-Modell wird über Lizenzfragen diskutiert
- Es herrschte Verwirrung zwischen der Apache 2.0-Lizenz und der Qwen-Lizenz
Das QvQ-Modell zeigt eine gute Leistung bei der Analyse von Fotos mit Prominenten, Hunden und The New Yorker Comics
Es ist auch in der Lage, Bilder mit mathematischen Gleichungen zu verarbeiten

Erfahrungsbericht zu Qwens neuem visuellen Reasoning-Modell QvQ

QvQ-Anwendungsfälle und Tests

QvQ-Modell ausführen

QvQ-Lizenzänderung

Fazit

Verwandte Beiträge

1 Kommentare

Hacker News Kommentar