Qwen3-VL-Modell vorgestellt – schärfere Sicht, tieferes Denken, breitere Ausführung

(qwen.ai)

6 Punkte von GN⁺ 2025-09-26 | 2 Kommentare | Auf WhatsApp teilen

Qwen3-VL ist die neueste Generation eines Vision-Language-Multimodalmodells und bietet verbesserte Leistung in allen Bereichen, darunter Textverständnis und -generierung, Videoerkennung, räumliches Schlussfolgern und das Verständnis langer Kontexte
Das Flaggschiffmodell Qwen3-VL-235B-A22B wird in den Versionen Instruct und Thinking veröffentlicht und erzielt jeweils Spitzenleistungen bei visueller Erkennung und multimodalem Schlussfolgern
Das Modell stärkt vielfältige praktische Fähigkeiten wie Agentenfunktionen, Visual Coding, 2D/3D-räumliches Schlussfolgern sowie das Verständnis langer Texte und langer Videos
Der unterstützte Umfang wurde auf OCR in 32 Sprachen, Verständnis komplexer Dokumente sowie Multi-Image- und Videoverarbeitung erweitert und eignet sich damit sowohl für den Alltag als auch für professionelle Anwendungen
Damit erhält die Open-Source-Community eine Multimodal-Basis auf höchstem Niveau, die voraussichtlich die Lösung realer Probleme und die Weiterentwicklung von AI-Agenten beschleunigen wird

Einführung in Qwen3-VL

Qwen3-VL ist das von QwenTeam entwickelte neueste multimodale AI-Modell, das verschiedenste Datenformen wie Bilder und Text, Tabellen, Dokumente, Formeln und Grafiken umfassend verarbeiten und verstehen kann

Hauptmerkmale

Visuelle Agentenfunktionen: Erkennt GUIs, klickt Buttons, ruft Tools auf und ermöglicht so Automatisierungsaufgaben in Computer- und mobilen Umgebungen
Verbesserte Textleistung: Durch gemeinsames Lernen von Text und visuellen Daten bereits in einer frühen Phase erreicht es eine starke Textverarbeitung auf dem Niveau reiner Sprachmodelle
Visual Coding: Wandelt Designbilder in HTML-, CSS- und JavaScript-Code um und macht „Coding nach dem, was man sieht“ möglich
Räumliches Verständnis: Erweitert von absoluten 2D-Koordinaten auf relative Koordinaten, unterstützt auch 3D-Grounding und schafft damit eine Grundlage für Robotik und autonomes Fahren
Verarbeitung langer Kontexte und langer Videos: Unterstützt standardmäßig 256K Token, ist auf bis zu 1 Million Token erweiterbar und kann auch Inhalte aus 2-stündigen Videos präzise erinnern und abrufen
Für Schlussfolgern optimiert (Thinking-Version): Stark bei Mathematik- und STEM-Aufgaben, mit Bestleistungen in Benchmarks wie MathVision, MMMU und MathVista

Leistungsbewertung

Instruct-Version: Erreicht bei visueller Erkennung eine Leistung, die führende geschlossene Modelle wie Gemini 2.5 Pro und GPT-5 übertrifft
Thinking-Version: Erzielt Weltklasse-Ergebnisse bei multimodalem Schlussfolgern in Mathematik und Naturwissenschaften und übertrifft insbesondere Gemini 2.5 Pro bei MathVision
Textzentrierte Aufgaben: Leistung auf dem Niveau von Qwen3-235B-A22B-2507
Langzeit-Video-Tests: Belegt hohe Stabilität mit 99,5 % Genauigkeit selbst bei Eingaben von 1 Million Token
Mehrsprachiges OCR: Erreicht in 32 von 39 Sprachen eine Genauigkeit von über 70 %

Architekturverbesserungen

Interleaved-MRoPE: Verstärkt das Verständnis langer Videos, indem Zeit-, Höhen- und Breiten-Dimensionen übergreifend verteilt werden
DeepStack: Verbessert die präzise Text-Bild-Ausrichtung durch die Fusion von ViT-Merkmalen aus mehreren Ebenen
Text-Timestamp-Ausrichtung: Präzise Zuordnung von framegenauen Zeitinformationen und visuellen Inhalten, wodurch die Genauigkeit bei Ereignis- und Handlungserkennung steigt

Modellfunktionen

Agent zur Steuerung von Smartphone und PC: Automatisiert App-Starts, Button-Klicks und das Ausfüllen von Formularen
Bildbasiertes Schlussfolgern: Ermöglicht komplexe Analysen in Kombination mit Tool-Aufrufen
Unterstützung für Frontend-Entwicklung: Konvertiert Skizzen in Webseiten und hilft beim UI-Debugging
2D/3D-Objekterkennung: Erzeugt Hunderte von Bounding Boxes und schätzt Tiefeninformationen
Allgemeine Erkennung: Erkennt Prominente, Marken, Pflanzen, Tiere und Anime-Charaktere
Unterstützung kreativer Arbeit: Generiert bildbasiertes Storytelling, Copywriting und Videoskripte
Lösung von STEM-Problemen: Schrittweises Schlussfolgern, Kausalanalyse und Lösung naturwissenschaftlicher Aufgaben
Befolgen komplexer Anweisungen: Verarbeitet auch mehrstufige Bedingungen und strukturierte Anfragen
Dokumentenverständnis: Unterstützt lange PDFs, die Interpretation von Weblayouts und das QwenVL-Markdown-Format
Multi-Image-Dialoge: Vergleicht und verknüpft mehrere Bilder bei gleichzeitiger Wahrung des Kontexts
Videoverständnis: Unterstützt die Erkennung von Ereignissen in langen Videos bis hin zur Codegenerierung

Fazit

Qwen3-VL ist ein Open-Source-Multimodalmodell, das geschlossene Modelle übertrifft, und entwickelt sich umfassend von Erkennung über Schlussfolgern bis hin zur Ausführung weiter
Es etabliert sich nicht nur als Modell für visuelle Erkennung, sondern als ein auf Weltverständnis, Schlussfolgern und Handeln erweitertes System und schafft damit die Grundlage für den Einsatz von Agenten in realen Umgebungen

2 Kommentare

crawler 2025-09-26

Ich fand es schon beeindruckend, dass allein die Fähigkeit, in dem Werbevideo von Gemini vor nicht einmal einem halben Jahr zu erkennen, wer den Leichtathletikwettbewerb gewonnen hat und wen er überholt hat, bemerkenswert war.

> Selbst 2-stündige Videos können präzise erinnert und durchsucht werden

Ich bin wirklich neugierig, woran dabei eigentlich genau erinnert wird.

GN⁺ 2025-09-26

Hacker-News-Kommentare

Wie ich gestern schon erwähnt habe, musste ich neulich Hunderte von minderwertigen Rechnungsbildern aus einem Bauprojekt verarbeiten. Ursprünglich habe ich ein Skript mit PIL/opencv, pytesseract und OpenAI laufen lassen, aber es gab viel zu viele Fehlschläge. Heute habe ich ein paar Rechnungen mit wirklich miserabler Qualität durch Qwen laufen lassen, und es hat alle benötigten Informationen problemlos extrahiert. Noch erstaunlicher ist, dass es sogar Bounding-Box-Informationen liefert, die man zur Verbesserung von tesseract nutzen kann.
- Falls jemand eine ähnliche Aufgabe hat, kann ich auch Microsofts Printed Text Recognition API empfehlen.
- Mich würde interessieren, warum du Qwen gewählt hast. Mistral hat ein eigenes spezialisiertes Modell, das ausdrücklich für OCR beworben wurde, und in meinen Tests hat es bei alten englischen Büchern aus den 80er- und 90er-Jahren ziemlich gut funktioniert.
- Ich teste solche Modelle gern damit, Screenshots von Apple-][ -Spielen aus den 80ern zu lesen. Das ist ein Bereich mit sehr niedriger Auflösung und hoher Dichte, an dem die meisten Open-Source-Modelle zu kämpfen haben.
- Ich habe einmal versucht, mit einem VLLM-Modell auf Satellitenkarten die Bounding Boxes von Grundstücksgrenzen zu schätzen, aber ohne Erfolg. Mich würde interessieren, ob jemand Tipps hat, wie man bessere Ergebnisse erzielt.
- Ich habe auch versucht, Scan-Layouts zu erkennen, um die OCR-Leistung zu verbessern, aber am Ende war ein feinabgestimmtes Qwen 2.5 VLM 7B besser. Ich denke, Fine-Tuning ist die Antwort.
China macht gerade das, was es zuvor im verarbeitenden Gewerbe getan hat: Es nimmt Kerntechnologien und optimiert sie wiederholt um den Faktor 10 bei Kosten und Effizienz. Wirklich beeindruckend. Das Modell ist in Benchmarks zwar bekannt, aber heute fühlt es sich tatsächlich wie ein Kandidat für Open-Source-SOTA an. Heute wurde sogar noch ein geschlossenes Modell mit 1 Billion Parametern veröffentlicht, das in der lm arena auf Platz 3 gelandet ist, während das 80GB-Modell auf Platz 17 liegt und gpt-oss 120b auf Platz 52.
Zugehöriger Link
- Beschreibungen, Produktnamen und Versionsabgrenzungen bleiben weiterhin unklar. Ich weiß, dass Qwen3-VL Plus (das neue Modell) und Qwen3-VL 235B (ein anderes Modell) trotz ähnlicher Namen völlig unterschiedliche Modelle sind, aber die Informationen sind so vage, dass man nicht erkennen kann, welches besser ist. Auch bei qwen-plus-2025-09-11 und qwen3-235b-a22b-instruct-2507 ist allein anhand der Benennung nicht ersichtlich, worin der Unterschied besteht. Selbst OpenAI kommuniziert Namen klarer.
  Qwen3-VL Plus
  Qwen3-VL-235B
  qwen-plus-2025-09-11
  qwen3-235b-a22b-instruct-2507
- Die Formulierung „sie optimieren nur“ trifft die Sache nicht. Das Qwen-Team bringt auch neue Ideen wie DeepStack hervor.
  DeepStack-Paper
  Und statt alles pauschal unter „die Chinesen“ zusammenzufassen, sollte man die Anerkennung dem Qwen-Team selbst geben. In jedem Land der Welt gibt es herausragende wie auch durchschnittliche Forschungslabore.
- Interessanterweise fühlt es sich bei Modellen wie Kimi K2 so an, als würden sie deutlich natürlicheren Text erzeugen als US-Modelle. In Benchmarks erreichen sie zwar kein SOTA, aber die tatsächliche Nutzungserfahrung ist anders.
- Auch die USA haben sich früher auf solche Optimierungen konzentriert, aber in den letzten 10 bis 15 Jahren scheint man dort immer mehr nur noch zusätzliche Ressourcen hineinzustecken und Optimierung zu vernachlässigen. Zum Beispiel mehr RAM für progressive Web-Apps, leistungsstärkere CPUs oder einfach mehr Strom. Im Kern wirkt es so, als würde das, was man in Algorithmenkursen an der Universität lernt, in der Praxis nicht angewendet. China setzt das tatsächlich um und lässt die USA dadurch umso lächerlicher aussehen.
Wer in San Francisco ist, sollte die Gelegenheit nicht verpassen, beim ersten offiziellen US-Event des Qwen-Teams dabei zu sein. Der stellvertretende Leiter des Qwen Lab wird bei der SF teach week persönlich sprechen.
Link zur Veranstaltung
Das ist eine seltene Gelegenheit, direkt mit Mitgliedern des Qwen-Teams zu sprechen.
- Die Anmeldung ist schon voll ;-(
- Heutzutage könnte schon allein die Einreise in die USA wegen Visa-Problemen ein 50:50-Fall sein, also hoffe ich, dass sie es problemlos schaffen.
Der eigentliche Kernpunkt bei Qwen ist diesmal, dass sie multimodale SOTA-Leistung erreicht und dennoch die Modellgewichte geöffnet haben, obwohl sie proprietären Modellen voraus sind. In meinen ersten Tests scheint das tatsächlich zu stimmen, ich werde weiter testen. Wirklich beeindruckend.
- Die meisten Implementierungen für multimodale Eingaben sind oft leistungsschwach. Ich würde nicht sagen, dass Qwen gegenüber bekannten kommerziellen Lösungen klar weit vorne liegt, aber schon der Versuch, solche Ergebnisse offenzulegen, ist erfreulich. Ein Modell zu bauen, bei dem multimodale Eingaben auf diesem Niveau funktionieren, ist alles andere als einfach.
- Ehrlich gesagt habe ich das Gefühl, dass Open-Source-Modelle unabhängig von ihrer Größe immer behaupten, „nahe an kommerziellem SOTA“ zu sein.
Realistisch gesehen scheint das Qwen3-VL-Modell mit 235B Parametern (FP16) mindestens 512GB RAM zu benötigen. Um auch ein vernünftiges Context Window abzudecken, vermutlich sogar mehr. Falls man es nicht auf der CPU laufen lassen will, würde mich interessieren, wie man das zu Hause mit einem Budget von unter 10.000 Dollar betreiben kann. Wenn CPU die einzige Option ist, wäre dann vLLM + Netzwerkverbund aus mehreren Systemen (10/25/100Gbit) die beste Lösung, oder gibt es noch eine bessere Option?
- Ein Apple Mac Studio mit 512GB Unified Memory kostet etwa 10.000 Dollar. Wenn man zu Hause wirklich diese Leistung braucht und das Geld übrig hat, ist das wahrscheinlich die einfachste Lösung.
  Es muss nicht unbedingt in FP16 laufen. Bei einer Quantisierung auf q8 gibt es meist kaum Qualitätsverlust, und selbst bei q4 oder darunter kann man es oft noch mit geringer Einbuße betreiben. Selbst q8 benötigt jedoch 235GB RAM, daher bräuchte man bei einer RTX 5090 (32GB VRAM) acht Karten, und das ist preislich auch kein Spaß. Dazu kommen noch Mainboard, CPU und die Verteilung über 8 GPUs. Man könnte auf gebrauchte Mining-Server mit älteren RTX 3090 oder P40 schielen, aber mit Consumer-GPUs ist das unter 10.000 Dollar realistisch kaum machbar.
  Wenn man das Modell ohne NVLink über mehrere Rechner verteilt, ist der Geschwindigkeitsverlust enorm, daher ist eine einzelne Maschine praktisch zu empfehlen. CPU-Leistung ist ebenfalls nicht schlecht. Entscheidend ist die Speicherbandbreite, daher eignen sich Server- oder Workstation-CPUs mit vielen DDR5-Speicherkanälen, zum Beispiel AMD Ryzen Threadripper 7965WX mit 8 DDR5-Kanälen und Unterstützung für 5200 MT/s für etwa 2500 Dollar.
  Und zuletzt würde ich empfehlen, noch einmal zu überlegen, ob es wirklich zu Hause laufen muss. Je nach Einsatzzweck kann eine Investition von 10.000 Dollar in Hardware in wenigen Jahren massiv an Wert verlieren. 10.000 Dollar Cloud-Credits können sehr lange reichen.
- Alles außer CPU erfordert meistens zusätzliche elektrische Kapazität, und wenn man mehrere Maschinen mit jeweils 2 bis 3kW betreiben und auf verschiedene Stromkreise verteilen will, entstehen enorme Zusatzkosten.
Dass Qwen multimodales SOTA mit offenen Gewichten liefert, lässt mein Entwicklerherz zunehmend zu Qwen tendieren. Zumindest meins haben sie schon gewonnen.
- Ich glaube, das Rennen ist im Grunde schon entschieden. Wenn man sich heute die Top-Autorenlisten US-amerikanischer Papers ansieht, sind dort unglaublich viele chinesische Namen.
- Hinzu kommt, dass sie nicht auf Gewinnmaximierung aus sind und deshalb nach anderen Regeln spielen.
- Ich frage mich selbst, warum sie sich so sehr darum bemühen, die Herzen der Leute zu gewinnen.
Danke an das Qwen-Team für seine Großzügigkeit. Ich nutze bereits coole Workflows mit dem „Thinking“-Modell, um verschiedene langweilige interne Aufgaben zu automatisieren.
Qwen Thinking-Modell
Mit diesem Release will ich nun auch neue Workflows einsetzen, etwa zum Klassifizieren und Captioning von Essensfotos, Nutzerfotos und Ähnlichem. Sehr cool.
Referenz zu Modellen rund um das Qwen-Team
- Qwen3-VL-235B-A22B-Thinking
- Qwen3-VL-235B-A22B-Instruct
Ich bin ziemlich sicher, dass ich in dieser Ankündigung so viele Benchmark-Zahlen wie noch nie gesehen habe. Ich möchte loben, dass es keine Präsentation war, die nur die Rosinen herauspickt.
- In Bereichen, in denen Benchmarks bereits gesättigt sind, scheint es inzwischen ohnehin nicht mehr sinnvoll zu sein, nur noch mit Zahlen zu argumentieren.
Leider besteht auch Qwen3-VL den Test mit „zusätzlichen Gliedmaßen“ immer noch nicht. Ich habe per Photoshop Bilder von Tieren mit extra Gliedmaßen eingefügt, zum Beispiel ein Hund mit Beinen am Bauch oder eine Katze mit zwei Paar Vorderbeinen, und wie alle anderen Modelle beharrt es darauf, dass die Anzahl der Gliedmaßen normal sei. Selbst wenn man sagt, es sehe so aus, als hätte das Tier Beine am Bauch, behauptet es bis zum Schluss, man täusche sich und alles sei normal. Qwen antwortet sogar dann noch mit „vier“, wenn man ihm ausdrücklich sagt, dass das Bild bearbeitet wurde.
- Wie alle VLMs ist es bei Ausnahmefällen schwach. Das Ablesen analoger Uhren hat meines Wissens nach nur in dem Fall funktioniert, in dem es mit 1 Million bearbeiteten synthetischen Daten speziell darauf trainiert wurde.
  Uhren-Datensatz
  D20-Würfelbeispiel
  Im Ergebnis gilt: Auch bei Fällen wie zusätzlichen Gliedmaßen liegt das Modell ohne 1 Million Beispieldaten daneben, und bei anderen Problemen wiederholt sich das gleiche Muster, dass man ständig neue Datensätze bauen muss.
- Zum Zählen der Gliedmaßen bizarrer Arten ist das Modell ganz klar ungeeignet. Stattdessen kann es bei Themen, die in den Trainingsdaten häufig vorkamen, durchaus ausreichend sein.
- Ich frage mich, ob das Qwen-Modell bei seiner Bildbearbeitungsfunktion ebenfalls versuchen würde, die Anzahl der Gliedmaßen auf „normal“ zu korrigieren, selbst wenn man nur Änderungen an anderen Bildteilen anfordert und ausdrücklich nicht an den Gliedmaßen.