5 Punkte von GN⁺ 2024-12-26 | 1 Kommentare | Auf WhatsApp teilen
  • Das Alibaba-Qwen-Team hat das neue visuelle Reasoning-Modell QvQ-72B-Preview vorgestellt
    • Es verarbeitet Bilder und Prompts als Eingabe und führt detailliertes Reasoning durch
    • Ursprünglich als Apache 2.0 gekennzeichnet, wurde es inzwischen auf die Qwen-Lizenz umgestellt
  • Unterschiede zum vorherigen Modell QwQ
    • QwQ konzentrierte sich auf textbasiertes Reasoning und wurde als Mechanismus entworfen, der die „Grenzen des Denkens“ widerspiegelt
    • QvQ ergänzt dies um visuelle Eingaben und führt auf Basis von Bildern eine tiefgehende Analyse durch

QvQ-Anwendungsfälle und Tests

  • QvQ ist auf Hugging Face Spaces verfügbar
    • Bei Eingabe von Bild und einem einzelnen Prompt erzeugt es eine sehr lange Antwort, weitere Prompts können nicht mehr hinzugefügt werden
    • Es analysiert das Eingangsbild und erklärt den Reasoning-Prozess schrittweise
  • Testergebnisse
    • Pelikan-Zählung: Mit dem Prompt „Count the pelicans“ wurde die Anzahl der Pelikane im Foto berechnet
      • Es zählte exakt vier Pelikane, während teilweise sichtbare Vögel ausgeschlossen wurden
      • Es erklärte das Reasoning in einem freundlichen, dialognahen Stil
    • ARC-AGI-Rätsel: Es versuchte, eine komplexe Aufgabe zu lösen, konnte aber kein korrektes Ergebnis erzielen
      • Es schlug einen originellen Ansatz vor, ähnlich wie bei einem zellulären Automaten
    • Drachenhöhen-Schätzung: Es wurde versucht, die Höhe eines Drachen ohne vergleichbares Referenzobjekt abzuschätzen
      • Es schlug eine Höhe von etwa 8–9 Fuß vor und zeigte dabei ausgeprägte Beobachtungsgabe

QvQ-Modell ausführen

  • Hosting-Umgebung

  • Lokale Ausführung

    • Prince Canuma hat das Modell für das Apple-MLX-Framework konvertiert, sodass es über das mlx-vlm-Paket ausgeführt werden kann
    • Auf einem macOS M2 mit 64 GB RAM lief es erfolgreich mit der 4-Bit-Quantisierungsversion
      • Ausführungsbefehl:
        uv run --with 'numpy<2.0' --with mlx-vlm python \
          -m mlx_vlm.generate \
          --model mlx-community/QVQ-72B-Preview-4bit \
          --max-tokens 10000 \
          --temp 0.0 \
          --prompt "describe this" \
          --image pelicans-on-bicycles-veo2.jpg
        

QvQ-Lizenzänderung

  • Die QvQ-Lizenz wurde von Apache 2.0 auf die Qwen-Lizenz geändert
    • Das wirkt wie eine Korrektur eines Anfangsfehlers
  • Das QwQ-Modell behält weiterhin die Apache 2.0-Lizenz
    • Unterschiede in der Lizenzpolitik zwischen beiden Modellen sind ersichtlich

Fazit

  • QvQ ist ein starkes visuelles Reasoning-Modell, das Bilder und Text kombiniert und in verschiedenen Experimenten interessante Ergebnisse liefert
  • Weitere Updates und zusätzliche Einsatzmöglichkeiten werden mit Spannung erwartet

1 Kommentare

 
GN⁺ 2024-12-26
Hacker News Kommentar
  • Er beschreibt, wie er das Modell QVQ-72B-Preview-4bit auf einem M2-Laptop mit 64 GB RAM ausführt, um Bilder zu analysieren

    • uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg
    • Die Ergebnisse sind in diesem Link zu sehen
  • Das Modell ist amüsant

    • Wenn man ein Bild hochlädt und fragt: „Denken Sie beim Betrachten dieses Bildes laut, was Sie denken“, können interessante Ergebnisse erzielt werden
    • Beispielhaft stellt es bei einem Sandwich-Bild eine detaillierte Beschreibung bereit und stellt sich dabei den Geschmack vor
  • Als Test wurde ein Wortfindungsrätsel verwendet, aber das QvQ-Modell scheiterte

    • Auch das Gemini-Release von AI Studio misslang zunächst, fand das gesuchte Wort jedoch nach einigen Versuchen erfolgreich
    • Die Erstellung eines Programms zur Lösung bringt oft bessere Ergebnisse als die direkte Aufforderung, die Lösung sofort zu liefern
  • Bei der Eingabe des berühmten „Tank-Man“-Fotos wurde eine leere Antwort erhalten

  • Der Datensatz für den „laut nachdenken beim Betrachten von Bildern“-Ansatz ist laut Kommentator PixMo

    • Es wird vermutet, dass QvQ ähnlich trainiert wurde
  • Es wird gefragt, ob das Q*-Modell Open Source ist

    • Als nach Ratschlägen für den Umgang mit Autoritäten gefragt wurde, riet das Modell zu starker Befolgung
  • Der Antwortstil auf die Frage, wie viele Tiere im Pelikanbild zu zählen sind, war amüsant

    • Er wirkt deutlich lockerer als GPT-4
  • Beim QvQ-72B-Preview-Modell wird über Lizenzfragen diskutiert

    • Es herrschte Verwirrung zwischen der Apache 2.0-Lizenz und der Qwen-Lizenz
  • Das QvQ-Modell zeigt eine gute Leistung bei der Analyse von Fotos mit Prominenten, Hunden und The New Yorker Comics

  • Es ist auch in der Lage, Bilder mit mathematischen Gleichungen zu verarbeiten