Qwen VLo – Vom „Verstehen“ der Welt zu ihrer „Darstellung“

(qwenlm.github.io)

1 Punkte von GN⁺ 2025-06-29 | 1 Kommentare | Auf WhatsApp teilen

Qwen VLo ist ein integriertes multimodales Modell für Verstehen und Generierung und bietet nicht nur Bildverständnis, sondern auch hochwertige Bildgenerierung
Nutzer können in natürlicher Sprache kreative Anweisungen geben und verschiedene Bilder direkt erzeugen und bearbeiten, etwa Stiltransformationen oder Hintergrundänderungen
Es unterstützt mehrere Sprachen, sodass Nutzer weltweit es ohne Sprachbarrieren einfach verwenden können
Es verwendet einen progressiven Generierungsansatz, der Bilder fortlaufend verbessert und optimiert, und bietet dadurch höhere visuelle Qualität und mehr Kontrolle
Es befindet sich noch in der Vorschauphase, daher kann es zu Instabilitäten bei einigen Funktionen kommen, es wird jedoch kontinuierlich verbessert

Einführung

Die Entwicklung multimodaler Large Models erweitert fortlaufend die Grenzen der Technologie
Beginnend mit QwenVL bis hin zu Qwen2.5 VL wurde das Verständnis von Bildinhalten gestärkt; nun erscheint Qwen VLo als neues multimodales Modell, das sowohl Verstehen als auch Generierung umfasst
Qwen VLo geht über das bloße „Verstehen“ der Welt hinaus und kann auf Basis dieses Verständnisses detaillierte Bilder erzeugen
Dieses Modell verbindet die Grenze zwischen Wahrnehmung und Schöpfung auf praktische Weise
Derzeit ist es als Vorschauversion in Qwen Chat verfügbar. Mit Anweisungen wie „ein Bild einer niedlichen Katze erzeugen“ lassen sich Bilder erstellen, und nach dem Hochladen eines Bildes sind auch Bearbeitungen wie „der Katze einen Hut aufsetzen“ möglich.

Kreativer Generierungsprozess

Wie in einem Demo-Video zur Bildgenerierung von Qwen VLo zu sehen ist, verwendet das Modell eine progressive Generierungsmethode
Es baut das Bild schrittweise von links oben nach rechts unten auf und verfeinert seine Vorhersagen fortlaufend, um konsistente und harmonische Ergebnisse zu erzielen
Dieser Generierungsmechanismus erhöht die visuelle Qualität und hilft Nutzern, den kreativen Prozess flexibler und präziser zu steuern.

Vom Verständnis zur Kreativität: Verbesserte multimodale Generierungsfähigkeiten

Zentrale Verbesserungen von Qwen VLo

Präzises Verständnis und präzise Reproduktion von Inhalten
- Frühere multimodale Modelle zeigten während der Generierung semantische Inkonsistenzen, etwa falsches Erkennen von Autos oder den Verlust von Struktur
- Qwen VLo kann Details besser erfassen und hält eine hohe semantische Übereinstimmung aufrecht
- Wenn etwa bei einem Autofoto eine Farbänderung gewünscht wird, bleibt das tatsächliche Modell und seine Struktur erhalten, während nur die Farbe natürlich verändert wird, was zu einem realistischen Ergebnis führt
Unterstützung für bearbeitungsorientierte Open-Ended-Anweisungen
- Nutzer können freie kreative Anweisungen in natürlicher Sprache eingeben, etwa „dieses Bild im Stil von Van Gogh“, „wie ein Foto aus dem 19. Jahrhundert“ oder „einen klaren Himmel hinzufügen“
- Neben Stiltransformation, Szenenrekonstruktion und Detailbearbeitung sind auch klassische Deep-Learning-Computer-Vision-Aufgaben wie Depth Map, Segmentierung und Kantenschätzung per einfacher Anweisung möglich
- Auch kombinierte Anweisungen, etwa Objektbearbeitung + Textbearbeitung + Hintergrundänderung, lassen sich in einem Schritt ausführen
Unterstützung mehrsprachiger Anweisungen
- Qwen VLo unterstützt Eingaben in Chinesisch, Englisch und weiteren Sprachen
- Dadurch wird eine weltweite Nutzung ohne Sprachbarrieren erleichtert

Demo-Anwendungsfälle

Qwen VLo setzt wie ein menschlicher Künstler Vorstellungen auf Basis von Verständnis um. Es ermöglicht Hintergrundaustausch, das Hinzufügen von Motiven, Stilwechsel, umfangreiche Bearbeitung auf Basis offener Anweisungen sowie Erkennungs- und Segmentierungsaufgaben.

Besonders die verständnisbasierte Regenerierung unterstützt breite kreative Stiltransformationen, etwa Comic → Fotorealismus oder eine bestimmte Person → Ballon.

Dank der fortgeschrittenen Fähigkeit des Modells, Bilder und Anweisungen zu interpretieren, können komplexe Kommandos in einem Durchgang ausgeführt werden, etwa Poster-Erstellung, Kombination mehrerer Objekte und damit mehrstufige Aufgaben in einem Schritt abschließen

Außerdem unterstützt Qwen VLo Annotierungs- und Markierungsfunktionen auf bestehenden Informationen, etwa für Erkennung, Segmentierung und Edge Detection.

Die Verarbeitung mehrerer Bildeingaben ist in Vorbereitung und soll künftig offiziell veröffentlicht werden
Neben Text- und Bildeingaben wird auch Text-zu-Bild-Generierung unterstützt, etwa für allgemeine Bilder oder Poster mit gemischtem Chinesisch und Englisch
Die Generierung von Bildern mit sehr langen Quer-/Hochformatverhältnissen (bis zu 4:1, 1:3 usw.) wird unterstützt und ist für die offizielle Veröffentlichung vorgesehen
Das Modell kann von ihm selbst erzeugte Bilder erneut verstehen und analysieren und so etwa Hunderassen und Katzenrassen bestimmen

Nutzung

Qwen VLo verwendet dynamisches Lernen und Generieren mit variabler Auflösung, sodass sich Auflösung und Seitenverhältnis von Eingabe- und Ausgabebildern frei wählen lassen. Dadurch können Bilder in gewünschten Größen erstellt werden, etwa Poster, Illustrationen, Webbanner oder Social-Media-Cover.

Generierungsmechanismus: progressive Generierung von links oben nach rechts unten (Progressive generation)
Bei Aufgaben, die feine Kontrolle erfordern, etwa Werbung oder Comic-Panels mit langen Texten, kann der Prozess in Echtzeit feinjustiert werden

Grenzen

Qwen VLo befindet sich in der Vorschauphase und weist noch einige Schwächen auf. Während der Generierung können mangelnde Genauigkeit, Abweichungen vom Original, Nichtbefolgung von Anweisungen und instabiles Bildverständnis auftreten. Es wird jedoch laufend verbessert und stabilisiert.

Nächste Schritte

Da multimodale Large Models über bidirektionale Text-Bild-Ein- und Ausgaben verfügen, eröffnen sich neue Ausdrucks- und Interaktionsformen
Künftig werden Modelle Ideen nicht nur in Textantworten, sondern auch durch Diagramme, Hilfslinien, Hervorhebungen und andere visuelle Inhalte vermitteln können

Fortschrittliche Generierungsfunktionen werden auch genutzt werden, um das Verständnis des Modells selbst zu prüfen und zu verbessern
So kann es etwa seine eigene Interpretation belegen und ergänzen, indem es Zwischenergebnisse wie Segmentierungskarten oder Erkennungskarten direkt erzeugt
Diese Forschungsrichtung wird kontinuierlich weiterverfolgt

1 Kommentare

GN⁺ 2025-06-29

Hacker-News-Kommentare

Es ist schade, dass Qwen keine Open Weights veröffentlicht hat. Einer der größten Vorteile von Qwen war bisher schließlich gerade die Open-Weights-Strategie. Es wäre schön, wenn es ein wirkliches Open-Weights-Modell gäbe, das mit der automatischen Bilderzeugung von 4o konkurrieren kann. Es gibt viele spannende Forschungsrichtungen, die nur mit direktem Zugriff auf die Weights möglich sind. Falls die Refinanzierung der Entwicklungskosten das Problem ist, würde ich das Modell von BFLs Release Flux Kontext Dev als Referenz empfehlen. Man könnte die Weights für Forschende und Privatpersonen kostenlos veröffentlichen und Startups eine kommerzielle Lizenz zu einem angemessenen Preis kaufen lassen
- An den Bildern von Qwen ist klar zu erkennen, dass sie mit OpenAI-Ergebnissen trainiert wurden. Das sieht man schon an dem orangefarbenen Schimmer in den Bildern (Beispiel 1, Beispiel 2, Beispiel 3). Ich frage mich, ob überhaupt versucht wurde, eigene Daten aufzubauen. Am Ende folgt man OAI einfach direkt und versteckt alles hinter einer API. Es ist nicht nur genauso geschlossen wie OAI, sondern auch leistungsschwächer. Diese Strategie ist schwer nachzuvollziehen
- Wenn man Open Weights betont, dann aber getrennte Weights für Forschende und Privatpersonen vorsieht und Startups kommerzielle Lizenzen kaufen sollen, fühlt sich das ziemlich weit von echten Open Weights entfernt an. Wie bei "Open Source" gehört dazu die Freiheit, es nach Belieben zu nutzen. Andernfalls verliert das Wort "offen" am Ende seine Bedeutung
- Ich glaube nicht, dass sich Investitionen in Höhe von zig Millionen Dollar, GPU-Kosten und Ingenieursgehälter allein über Gebühren für Bildgenerierung wieder einspielen lassen
- Es wirkt, als sei das Zeitalter chinesischer Open Weights plötzlich vorbei. Alibaba hat aufgehört, Qwen offenzulegen, Tencent hat die Veröffentlichung von Hunyuan gestoppt, und Bytedance hat Seedream geschlossen. Offensichtlich wird weiterhin auf westlichen Modellen trainiert. Ich halte eher eine Strategie für klüger, bei der man 100 % offen ist und dann über Infrastruktur und Services monetarisiert
Bilder werden auf 256 Tokens komprimiert, bevor sie an das Sprachmodell übergeben werden. Wenn man zum Beispiel darum bittet, einen Hut hinzuzufügen, wird das gesamte Gesicht neu gezeichnet. Einzelne Objekte werden nicht separat gespeichert, und auch die Bärenfigur existiert nur vorübergehend. Alles wird in einem einzigen verschmolzenen latenten Raum gespeichert und unter neuen Bedingungen neu gesampelt. Schon kleine Änderungen am Prompt verändern das ganze Bild. Das heißt, jedes Mal wird die Szene neu erzeugt, was für verschiedene Anwendungsfälle durchaus attraktiv wirkt
- Bei Flux Kontext gefällt mir, dass Details ähnlich wie bei einem multimodalen Modell gut erhalten bleiben. Bei GPT-Image-1 ist es für globale Stiländerungen wie "im Ghibli-Stil machen" ganz gut, aber für feine Änderungen wie einer fotorealistischen Aufnahme eine Brille hinzuzufügen, bleiben Details nicht gut erhalten
Beim Beispiel zur Bearbeitung des Bärenbilds ist aufgefallen, dass mehr verändert wurde als angefordert. Es wurde nur darum gebeten, den Hintergrund zu ändern, aber auch der Bär hat sich stark verändert. Als der Bär in einen Ballon verwandelt werden sollte, verschwanden sogar der Hintergrundpflasterweg oder die Wassermelonenkerne, also völlig unerwartete Elemente. Ich frage mich, ob sich das mit besseren Prompts lösen lässt oder ob das eine Grenze der Modellarchitektur ist
- Beides trifft zu. Mit Prompt-Optimierung kann das Ergebnis etwas besser werden, aber die grundlegende Ursache liegt in der Modellarchitektur und der Trainingsmethode, also in den Grenzen von Architektur und Methodik
Ich habe ein Bild von einem Pelikan auf einem Fahrrad ausprobiert und auch ein Akkordeonbild erzeugt. Bei Details ist das Modell schwach, etwa bei Fingern oder bei der schwarzen Färbung der Tasten. Die Generierung ist ziemlich schnell Beispiellink
- Offenbar wurde übersehen, dass es beim Simon-Test gerade auf das SVG-Format ankommt. Das Bild eines Pelikans auf einem Fahrrad ist seit Stable Diffusion 2/3 eine leicht lösbare Aufgabe. Die Herausforderung liegt darin, dass bei SVG statt Pixelbildern logisches Schlussfolgern und Genauigkeit gefragt sind
Bei Beispielen für Bildänderungen wie Bearbeitung oder Stilwechsel fällt ein subtiler Gelbstich auf. Das tritt auch bei GPT Image 1 auf, bei Flux Kontext aber nicht. Ich frage mich, woran das liegt
Alle Bilder wirken wie Uncanny Valley. Farben und Schatten sehen durchweg merkwürdig aus
- Die Ergebnisse wirken insgesamt grob und unausgereift. Außerhalb der Forschung fallen mir dafür kaum praktische Einsatzfälle ein
Als Machine-Learning-Forscher mit Physikabschluss sträube ich mich dagegen, bei solchen Modellen Wörter wie "Verstehen" oder "Erklären" zu verwenden. Das hilft in Wirklichkeit nicht und stiftet eher Verwirrung. In der Physik benutzen wir Mathematik wegen ihrer Präzision, und auch Code ist äußerst konkret. Unser Leben wird von unzähligen Details beeinflusst, aber Modelle können diese Feinheiten nicht abbilden. Ich würde wirklich empfehlen, Asimovs "Relativity of Wrong" (Link) zu lesen. Wenn man wirklich sagen will, ein Modell habe "verstanden", dann müsste es neuartige Ergebnisse hervorbringen, etwa Entdeckungen, Schlussfolgerungen oder Neudefinitionen von Konzepten, die es vorher nicht kannte. Menschen beherrschen kontrafaktisches Denken (Link) ganz natürlich, moderne ML-Modelle dagegen nicht. Typische Beispiele sind Fehler bei der Anzahl der Finger im OP-Bild oder falsche Tastenanordnungen auf Tastaturen. Auf den ersten Blick wirkt alles plausibel, aber je länger man hinsieht, desto deutlicher tritt diese typische Uncanny-Valley-Wirkung hervor
- Wenn man tatsächlich etwas baut, wirken solche Debatten eher ermüdend. Es hat schon genügend Wert, wenn die Konzepte von Ein- und Ausgabe verständlich erklärt wurden. Liest man die Release-Dokumentation, sieht man, dass Qwen ursprünglich als VLM für "Verstehen/Identifizieren/Wahrnehmen" gedacht war und nun auf "Generieren/Beschreiben/Zeichnen" erweitert wurde. Mehr Krisengerede oder Überinterpretation braucht es nicht
Ich frage mich, wie man die automatische Vorlesefunktion abschalten kann. Wenn ich die Website öffne, würde ich lieber wollen, dass sie einfach im Standby bleibt und nur dann etwas tut, wenn ich selbst interagiere. In Firefox wurde ein Video im Vollbild automatisch abgespielt und plötzlich begann die Vorlesefunktion (unter iOS)
- Einstellungen > Website-Einstellungen > Autoplay für Audio und Video blockieren. In Firefox für Android geht das. Auf iOS oder auf dem Desktop gibt es ähnliche Optionen, und auch Anfragen nach Benachrichtigungsrechten lassen sich vollständig blockieren
Ich frage mich, ob es einen technischen Bericht zur 4o-Architektur für Bildgenerierung gibt. Ich würde auch gern mehr über andere Modelle erfahren, die Bilder auf ähnliche Weise erzeugen
Persönlich glaube ich, dass Machine Learning bei "Beschreiben" deutlich weiter gekommen ist als bei "Verstehen"
- Mich würde interessieren, worauf die Annahme beruht, dass Menschen die Welt besser verstehen. Menschen reagieren oft emotional auf die Welt, aber Emotionen an sich bedeuten noch kein Verständnis. Auch das Wort "verstehen" ist letztlich nur ein sehr subjektiver Maßstab