- Qwen3-VL ist die neueste Generation eines Vision-Language-Multimodalmodells und bietet verbesserte Leistung in allen Bereichen, darunter Textverständnis und -generierung, Videoerkennung, räumliches Schlussfolgern und das Verständnis langer Kontexte
- Das Flaggschiffmodell Qwen3-VL-235B-A22B wird in den Versionen Instruct und Thinking veröffentlicht und erzielt jeweils Spitzenleistungen bei visueller Erkennung und multimodalem Schlussfolgern
- Das Modell stärkt vielfältige praktische Fähigkeiten wie Agentenfunktionen, Visual Coding, 2D/3D-räumliches Schlussfolgern sowie das Verständnis langer Texte und langer Videos
- Der unterstützte Umfang wurde auf OCR in 32 Sprachen, Verständnis komplexer Dokumente sowie Multi-Image- und Videoverarbeitung erweitert und eignet sich damit sowohl für den Alltag als auch für professionelle Anwendungen
- Damit erhält die Open-Source-Community eine Multimodal-Basis auf höchstem Niveau, die voraussichtlich die Lösung realer Probleme und die Weiterentwicklung von AI-Agenten beschleunigen wird
Einführung in Qwen3-VL
- Qwen3-VL ist das von QwenTeam entwickelte neueste multimodale AI-Modell, das verschiedenste Datenformen wie Bilder und Text, Tabellen, Dokumente, Formeln und Grafiken umfassend verarbeiten und verstehen kann
Hauptmerkmale
- Visuelle Agentenfunktionen: Erkennt GUIs, klickt Buttons, ruft Tools auf und ermöglicht so Automatisierungsaufgaben in Computer- und mobilen Umgebungen
- Verbesserte Textleistung: Durch gemeinsames Lernen von Text und visuellen Daten bereits in einer frühen Phase erreicht es eine starke Textverarbeitung auf dem Niveau reiner Sprachmodelle
- Visual Coding: Wandelt Designbilder in HTML-, CSS- und JavaScript-Code um und macht „Coding nach dem, was man sieht“ möglich
- Räumliches Verständnis: Erweitert von absoluten 2D-Koordinaten auf relative Koordinaten, unterstützt auch 3D-Grounding und schafft damit eine Grundlage für Robotik und autonomes Fahren
- Verarbeitung langer Kontexte und langer Videos: Unterstützt standardmäßig 256K Token, ist auf bis zu 1 Million Token erweiterbar und kann auch Inhalte aus 2-stündigen Videos präzise erinnern und abrufen
- Für Schlussfolgern optimiert (Thinking-Version): Stark bei Mathematik- und STEM-Aufgaben, mit Bestleistungen in Benchmarks wie MathVision, MMMU und MathVista
Leistungsbewertung
- Instruct-Version: Erreicht bei visueller Erkennung eine Leistung, die führende geschlossene Modelle wie Gemini 2.5 Pro und GPT-5 übertrifft
- Thinking-Version: Erzielt Weltklasse-Ergebnisse bei multimodalem Schlussfolgern in Mathematik und Naturwissenschaften und übertrifft insbesondere Gemini 2.5 Pro bei MathVision
- Textzentrierte Aufgaben: Leistung auf dem Niveau von Qwen3-235B-A22B-2507
- Langzeit-Video-Tests: Belegt hohe Stabilität mit 99,5 % Genauigkeit selbst bei Eingaben von 1 Million Token
- Mehrsprachiges OCR: Erreicht in 32 von 39 Sprachen eine Genauigkeit von über 70 %
Architekturverbesserungen
- Interleaved-MRoPE: Verstärkt das Verständnis langer Videos, indem Zeit-, Höhen- und Breiten-Dimensionen übergreifend verteilt werden
- DeepStack: Verbessert die präzise Text-Bild-Ausrichtung durch die Fusion von ViT-Merkmalen aus mehreren Ebenen
- Text-Timestamp-Ausrichtung: Präzise Zuordnung von framegenauen Zeitinformationen und visuellen Inhalten, wodurch die Genauigkeit bei Ereignis- und Handlungserkennung steigt
Modellfunktionen
- Agent zur Steuerung von Smartphone und PC: Automatisiert App-Starts, Button-Klicks und das Ausfüllen von Formularen
- Bildbasiertes Schlussfolgern: Ermöglicht komplexe Analysen in Kombination mit Tool-Aufrufen
- Unterstützung für Frontend-Entwicklung: Konvertiert Skizzen in Webseiten und hilft beim UI-Debugging
- 2D/3D-Objekterkennung: Erzeugt Hunderte von Bounding Boxes und schätzt Tiefeninformationen
- Allgemeine Erkennung: Erkennt Prominente, Marken, Pflanzen, Tiere und Anime-Charaktere
- Unterstützung kreativer Arbeit: Generiert bildbasiertes Storytelling, Copywriting und Videoskripte
- Lösung von STEM-Problemen: Schrittweises Schlussfolgern, Kausalanalyse und Lösung naturwissenschaftlicher Aufgaben
- Befolgen komplexer Anweisungen: Verarbeitet auch mehrstufige Bedingungen und strukturierte Anfragen
- Dokumentenverständnis: Unterstützt lange PDFs, die Interpretation von Weblayouts und das QwenVL-Markdown-Format
- Multi-Image-Dialoge: Vergleicht und verknüpft mehrere Bilder bei gleichzeitiger Wahrung des Kontexts
- Videoverständnis: Unterstützt die Erkennung von Ereignissen in langen Videos bis hin zur Codegenerierung
Fazit
- Qwen3-VL ist ein Open-Source-Multimodalmodell, das geschlossene Modelle übertrifft, und entwickelt sich umfassend von Erkennung über Schlussfolgern bis hin zur Ausführung weiter
- Es etabliert sich nicht nur als Modell für visuelle Erkennung, sondern als ein auf Weltverständnis, Schlussfolgern und Handeln erweitertes System und schafft damit die Grundlage für den Einsatz von Agenten in realen Umgebungen
2 Kommentare
Ich fand es schon beeindruckend, dass allein die Fähigkeit, in dem Werbevideo von Gemini vor nicht einmal einem halben Jahr zu erkennen, wer den Leichtathletikwettbewerb gewonnen hat und wen er überholt hat, bemerkenswert war.
> Selbst 2-stündige Videos können präzise erinnert und durchsucht werden
Ich bin wirklich neugierig, woran dabei eigentlich genau erinnert wird.
Hacker-News-Kommentare
Wie ich gestern schon erwähnt habe, musste ich neulich Hunderte von minderwertigen Rechnungsbildern aus einem Bauprojekt verarbeiten. Ursprünglich habe ich ein Skript mit PIL/opencv, pytesseract und OpenAI laufen lassen, aber es gab viel zu viele Fehlschläge. Heute habe ich ein paar Rechnungen mit wirklich miserabler Qualität durch Qwen laufen lassen, und es hat alle benötigten Informationen problemlos extrahiert. Noch erstaunlicher ist, dass es sogar Bounding-Box-Informationen liefert, die man zur Verbesserung von tesseract nutzen kann.
China macht gerade das, was es zuvor im verarbeitenden Gewerbe getan hat: Es nimmt Kerntechnologien und optimiert sie wiederholt um den Faktor 10 bei Kosten und Effizienz. Wirklich beeindruckend. Das Modell ist in Benchmarks zwar bekannt, aber heute fühlt es sich tatsächlich wie ein Kandidat für Open-Source-SOTA an. Heute wurde sogar noch ein geschlossenes Modell mit 1 Billion Parametern veröffentlicht, das in der lm arena auf Platz 3 gelandet ist, während das 80GB-Modell auf Platz 17 liegt und gpt-oss 120b auf Platz 52.
Zugehöriger Link
Qwen3-VL Plus
Qwen3-VL-235B
qwen-plus-2025-09-11
qwen3-235b-a22b-instruct-2507
DeepStack-Paper
Und statt alles pauschal unter „die Chinesen“ zusammenzufassen, sollte man die Anerkennung dem Qwen-Team selbst geben. In jedem Land der Welt gibt es herausragende wie auch durchschnittliche Forschungslabore.
Wer in San Francisco ist, sollte die Gelegenheit nicht verpassen, beim ersten offiziellen US-Event des Qwen-Teams dabei zu sein. Der stellvertretende Leiter des Qwen Lab wird bei der SF teach week persönlich sprechen.
Link zur Veranstaltung
Das ist eine seltene Gelegenheit, direkt mit Mitgliedern des Qwen-Teams zu sprechen.
Der eigentliche Kernpunkt bei Qwen ist diesmal, dass sie multimodale SOTA-Leistung erreicht und dennoch die Modellgewichte geöffnet haben, obwohl sie proprietären Modellen voraus sind. In meinen ersten Tests scheint das tatsächlich zu stimmen, ich werde weiter testen. Wirklich beeindruckend.
Realistisch gesehen scheint das Qwen3-VL-Modell mit 235B Parametern (FP16) mindestens 512GB RAM zu benötigen. Um auch ein vernünftiges Context Window abzudecken, vermutlich sogar mehr. Falls man es nicht auf der CPU laufen lassen will, würde mich interessieren, wie man das zu Hause mit einem Budget von unter 10.000 Dollar betreiben kann. Wenn CPU die einzige Option ist, wäre dann vLLM + Netzwerkverbund aus mehreren Systemen (10/25/100Gbit) die beste Lösung, oder gibt es noch eine bessere Option?
Es muss nicht unbedingt in FP16 laufen. Bei einer Quantisierung auf q8 gibt es meist kaum Qualitätsverlust, und selbst bei q4 oder darunter kann man es oft noch mit geringer Einbuße betreiben. Selbst q8 benötigt jedoch 235GB RAM, daher bräuchte man bei einer RTX 5090 (32GB VRAM) acht Karten, und das ist preislich auch kein Spaß. Dazu kommen noch Mainboard, CPU und die Verteilung über 8 GPUs. Man könnte auf gebrauchte Mining-Server mit älteren RTX 3090 oder P40 schielen, aber mit Consumer-GPUs ist das unter 10.000 Dollar realistisch kaum machbar.
Wenn man das Modell ohne NVLink über mehrere Rechner verteilt, ist der Geschwindigkeitsverlust enorm, daher ist eine einzelne Maschine praktisch zu empfehlen. CPU-Leistung ist ebenfalls nicht schlecht. Entscheidend ist die Speicherbandbreite, daher eignen sich Server- oder Workstation-CPUs mit vielen DDR5-Speicherkanälen, zum Beispiel AMD Ryzen Threadripper 7965WX mit 8 DDR5-Kanälen und Unterstützung für 5200 MT/s für etwa 2500 Dollar.
Und zuletzt würde ich empfehlen, noch einmal zu überlegen, ob es wirklich zu Hause laufen muss. Je nach Einsatzzweck kann eine Investition von 10.000 Dollar in Hardware in wenigen Jahren massiv an Wert verlieren. 10.000 Dollar Cloud-Credits können sehr lange reichen.
Dass Qwen multimodales SOTA mit offenen Gewichten liefert, lässt mein Entwicklerherz zunehmend zu Qwen tendieren. Zumindest meins haben sie schon gewonnen.
Danke an das Qwen-Team für seine Großzügigkeit. Ich nutze bereits coole Workflows mit dem „Thinking“-Modell, um verschiedene langweilige interne Aufgaben zu automatisieren.
Qwen Thinking-Modell
Mit diesem Release will ich nun auch neue Workflows einsetzen, etwa zum Klassifizieren und Captioning von Essensfotos, Nutzerfotos und Ähnlichem. Sehr cool.
Referenz zu Modellen rund um das Qwen-Team
Ich bin ziemlich sicher, dass ich in dieser Ankündigung so viele Benchmark-Zahlen wie noch nie gesehen habe. Ich möchte loben, dass es keine Präsentation war, die nur die Rosinen herauspickt.
Leider besteht auch Qwen3-VL den Test mit „zusätzlichen Gliedmaßen“ immer noch nicht. Ich habe per Photoshop Bilder von Tieren mit extra Gliedmaßen eingefügt, zum Beispiel ein Hund mit Beinen am Bauch oder eine Katze mit zwei Paar Vorderbeinen, und wie alle anderen Modelle beharrt es darauf, dass die Anzahl der Gliedmaßen normal sei. Selbst wenn man sagt, es sehe so aus, als hätte das Tier Beine am Bauch, behauptet es bis zum Schluss, man täusche sich und alles sei normal. Qwen antwortet sogar dann noch mit „vier“, wenn man ihm ausdrücklich sagt, dass das Bild bearbeitet wurde.
Uhren-Datensatz
D20-Würfelbeispiel
Im Ergebnis gilt: Auch bei Fällen wie zusätzlichen Gliedmaßen liegt das Modell ohne 1 Million Beispieldaten daneben, und bei anderen Problemen wiederholt sich das gleiche Muster, dass man ständig neue Datensätze bauen muss.