Qwen VLo – Vom „Verstehen“ der Welt zu ihrer „Darstellung“
(qwenlm.github.io)- Qwen VLo ist ein integriertes multimodales Modell für Verstehen und Generierung und bietet nicht nur Bildverständnis, sondern auch hochwertige Bildgenerierung
- Nutzer können in natürlicher Sprache kreative Anweisungen geben und verschiedene Bilder direkt erzeugen und bearbeiten, etwa Stiltransformationen oder Hintergrundänderungen
- Es unterstützt mehrere Sprachen, sodass Nutzer weltweit es ohne Sprachbarrieren einfach verwenden können
- Es verwendet einen progressiven Generierungsansatz, der Bilder fortlaufend verbessert und optimiert, und bietet dadurch höhere visuelle Qualität und mehr Kontrolle
- Es befindet sich noch in der Vorschauphase, daher kann es zu Instabilitäten bei einigen Funktionen kommen, es wird jedoch kontinuierlich verbessert
Einführung
- Die Entwicklung multimodaler Large Models erweitert fortlaufend die Grenzen der Technologie
- Beginnend mit QwenVL bis hin zu Qwen2.5 VL wurde das Verständnis von Bildinhalten gestärkt; nun erscheint Qwen VLo als neues multimodales Modell, das sowohl Verstehen als auch Generierung umfasst
- Qwen VLo geht über das bloße „Verstehen“ der Welt hinaus und kann auf Basis dieses Verständnisses detaillierte Bilder erzeugen
- Dieses Modell verbindet die Grenze zwischen Wahrnehmung und Schöpfung auf praktische Weise
- Derzeit ist es als Vorschauversion in Qwen Chat verfügbar. Mit Anweisungen wie „ein Bild einer niedlichen Katze erzeugen“ lassen sich Bilder erstellen, und nach dem Hochladen eines Bildes sind auch Bearbeitungen wie „der Katze einen Hut aufsetzen“ möglich.
Kreativer Generierungsprozess
- Wie in einem Demo-Video zur Bildgenerierung von Qwen VLo zu sehen ist, verwendet das Modell eine progressive Generierungsmethode
- Es baut das Bild schrittweise von links oben nach rechts unten auf und verfeinert seine Vorhersagen fortlaufend, um konsistente und harmonische Ergebnisse zu erzielen
- Dieser Generierungsmechanismus erhöht die visuelle Qualität und hilft Nutzern, den kreativen Prozess flexibler und präziser zu steuern.
Vom Verständnis zur Kreativität: Verbesserte multimodale Generierungsfähigkeiten
Zentrale Verbesserungen von Qwen VLo
-
Präzises Verständnis und präzise Reproduktion von Inhalten
- Frühere multimodale Modelle zeigten während der Generierung semantische Inkonsistenzen, etwa falsches Erkennen von Autos oder den Verlust von Struktur
- Qwen VLo kann Details besser erfassen und hält eine hohe semantische Übereinstimmung aufrecht
- Wenn etwa bei einem Autofoto eine Farbänderung gewünscht wird, bleibt das tatsächliche Modell und seine Struktur erhalten, während nur die Farbe natürlich verändert wird, was zu einem realistischen Ergebnis führt
-
Unterstützung für bearbeitungsorientierte Open-Ended-Anweisungen
- Nutzer können freie kreative Anweisungen in natürlicher Sprache eingeben, etwa „dieses Bild im Stil von Van Gogh“, „wie ein Foto aus dem 19. Jahrhundert“ oder „einen klaren Himmel hinzufügen“
- Neben Stiltransformation, Szenenrekonstruktion und Detailbearbeitung sind auch klassische Deep-Learning-Computer-Vision-Aufgaben wie Depth Map, Segmentierung und Kantenschätzung per einfacher Anweisung möglich
- Auch kombinierte Anweisungen, etwa Objektbearbeitung + Textbearbeitung + Hintergrundänderung, lassen sich in einem Schritt ausführen
-
Unterstützung mehrsprachiger Anweisungen
- Qwen VLo unterstützt Eingaben in Chinesisch, Englisch und weiteren Sprachen
- Dadurch wird eine weltweite Nutzung ohne Sprachbarrieren erleichtert
Demo-Anwendungsfälle
Qwen VLo setzt wie ein menschlicher Künstler Vorstellungen auf Basis von Verständnis um. Es ermöglicht Hintergrundaustausch, das Hinzufügen von Motiven, Stilwechsel, umfangreiche Bearbeitung auf Basis offener Anweisungen sowie Erkennungs- und Segmentierungsaufgaben.
Besonders die verständnisbasierte Regenerierung unterstützt breite kreative Stiltransformationen, etwa Comic → Fotorealismus oder eine bestimmte Person → Ballon.
- Dank der fortgeschrittenen Fähigkeit des Modells, Bilder und Anweisungen zu interpretieren, können komplexe Kommandos in einem Durchgang ausgeführt werden, etwa Poster-Erstellung, Kombination mehrerer Objekte und damit mehrstufige Aufgaben in einem Schritt abschließen
Außerdem unterstützt Qwen VLo Annotierungs- und Markierungsfunktionen auf bestehenden Informationen, etwa für Erkennung, Segmentierung und Edge Detection.
- Die Verarbeitung mehrerer Bildeingaben ist in Vorbereitung und soll künftig offiziell veröffentlicht werden
- Neben Text- und Bildeingaben wird auch Text-zu-Bild-Generierung unterstützt, etwa für allgemeine Bilder oder Poster mit gemischtem Chinesisch und Englisch
- Die Generierung von Bildern mit sehr langen Quer-/Hochformatverhältnissen (bis zu 4:1, 1:3 usw.) wird unterstützt und ist für die offizielle Veröffentlichung vorgesehen
- Das Modell kann von ihm selbst erzeugte Bilder erneut verstehen und analysieren und so etwa Hunderassen und Katzenrassen bestimmen
Nutzung
Qwen VLo verwendet dynamisches Lernen und Generieren mit variabler Auflösung, sodass sich Auflösung und Seitenverhältnis von Eingabe- und Ausgabebildern frei wählen lassen. Dadurch können Bilder in gewünschten Größen erstellt werden, etwa Poster, Illustrationen, Webbanner oder Social-Media-Cover.
- Generierungsmechanismus: progressive Generierung von links oben nach rechts unten (Progressive generation)
- Bei Aufgaben, die feine Kontrolle erfordern, etwa Werbung oder Comic-Panels mit langen Texten, kann der Prozess in Echtzeit feinjustiert werden
Grenzen
Qwen VLo befindet sich in der Vorschauphase und weist noch einige Schwächen auf. Während der Generierung können mangelnde Genauigkeit, Abweichungen vom Original, Nichtbefolgung von Anweisungen und instabiles Bildverständnis auftreten. Es wird jedoch laufend verbessert und stabilisiert.
Nächste Schritte
- Da multimodale Large Models über bidirektionale Text-Bild-Ein- und Ausgaben verfügen, eröffnen sich neue Ausdrucks- und Interaktionsformen
- Künftig werden Modelle Ideen nicht nur in Textantworten, sondern auch durch Diagramme, Hilfslinien, Hervorhebungen und andere visuelle Inhalte vermitteln können
- Fortschrittliche Generierungsfunktionen werden auch genutzt werden, um das Verständnis des Modells selbst zu prüfen und zu verbessern
- So kann es etwa seine eigene Interpretation belegen und ergänzen, indem es Zwischenergebnisse wie Segmentierungskarten oder Erkennungskarten direkt erzeugt
- Diese Forschungsrichtung wird kontinuierlich weiterverfolgt
1 Kommentare
Hacker-News-Kommentare
Es ist schade, dass Qwen keine Open Weights veröffentlicht hat. Einer der größten Vorteile von Qwen war bisher schließlich gerade die Open-Weights-Strategie. Es wäre schön, wenn es ein wirkliches Open-Weights-Modell gäbe, das mit der automatischen Bilderzeugung von 4o konkurrieren kann. Es gibt viele spannende Forschungsrichtungen, die nur mit direktem Zugriff auf die Weights möglich sind. Falls die Refinanzierung der Entwicklungskosten das Problem ist, würde ich das Modell von BFLs Release Flux Kontext Dev als Referenz empfehlen. Man könnte die Weights für Forschende und Privatpersonen kostenlos veröffentlichen und Startups eine kommerzielle Lizenz zu einem angemessenen Preis kaufen lassen
An den Bildern von Qwen ist klar zu erkennen, dass sie mit OpenAI-Ergebnissen trainiert wurden. Das sieht man schon an dem orangefarbenen Schimmer in den Bildern (Beispiel 1, Beispiel 2, Beispiel 3). Ich frage mich, ob überhaupt versucht wurde, eigene Daten aufzubauen. Am Ende folgt man OAI einfach direkt und versteckt alles hinter einer API. Es ist nicht nur genauso geschlossen wie OAI, sondern auch leistungsschwächer. Diese Strategie ist schwer nachzuvollziehen
Wenn man Open Weights betont, dann aber getrennte Weights für Forschende und Privatpersonen vorsieht und Startups kommerzielle Lizenzen kaufen sollen, fühlt sich das ziemlich weit von echten Open Weights entfernt an. Wie bei "Open Source" gehört dazu die Freiheit, es nach Belieben zu nutzen. Andernfalls verliert das Wort "offen" am Ende seine Bedeutung
Ich glaube nicht, dass sich Investitionen in Höhe von zig Millionen Dollar, GPU-Kosten und Ingenieursgehälter allein über Gebühren für Bildgenerierung wieder einspielen lassen
Es wirkt, als sei das Zeitalter chinesischer Open Weights plötzlich vorbei. Alibaba hat aufgehört, Qwen offenzulegen, Tencent hat die Veröffentlichung von Hunyuan gestoppt, und Bytedance hat Seedream geschlossen. Offensichtlich wird weiterhin auf westlichen Modellen trainiert. Ich halte eher eine Strategie für klüger, bei der man 100 % offen ist und dann über Infrastruktur und Services monetarisiert
Bilder werden auf 256 Tokens komprimiert, bevor sie an das Sprachmodell übergeben werden. Wenn man zum Beispiel darum bittet, einen Hut hinzuzufügen, wird das gesamte Gesicht neu gezeichnet. Einzelne Objekte werden nicht separat gespeichert, und auch die Bärenfigur existiert nur vorübergehend. Alles wird in einem einzigen verschmolzenen latenten Raum gespeichert und unter neuen Bedingungen neu gesampelt. Schon kleine Änderungen am Prompt verändern das ganze Bild. Das heißt, jedes Mal wird die Szene neu erzeugt, was für verschiedene Anwendungsfälle durchaus attraktiv wirkt
Beim Beispiel zur Bearbeitung des Bärenbilds ist aufgefallen, dass mehr verändert wurde als angefordert. Es wurde nur darum gebeten, den Hintergrund zu ändern, aber auch der Bär hat sich stark verändert. Als der Bär in einen Ballon verwandelt werden sollte, verschwanden sogar der Hintergrundpflasterweg oder die Wassermelonenkerne, also völlig unerwartete Elemente. Ich frage mich, ob sich das mit besseren Prompts lösen lässt oder ob das eine Grenze der Modellarchitektur ist
Ich habe ein Bild von einem Pelikan auf einem Fahrrad ausprobiert und auch ein Akkordeonbild erzeugt. Bei Details ist das Modell schwach, etwa bei Fingern oder bei der schwarzen Färbung der Tasten. Die Generierung ist ziemlich schnell Beispiellink
Bei Beispielen für Bildänderungen wie Bearbeitung oder Stilwechsel fällt ein subtiler Gelbstich auf. Das tritt auch bei GPT Image 1 auf, bei Flux Kontext aber nicht. Ich frage mich, woran das liegt
Alle Bilder wirken wie Uncanny Valley. Farben und Schatten sehen durchweg merkwürdig aus
Als Machine-Learning-Forscher mit Physikabschluss sträube ich mich dagegen, bei solchen Modellen Wörter wie "Verstehen" oder "Erklären" zu verwenden. Das hilft in Wirklichkeit nicht und stiftet eher Verwirrung. In der Physik benutzen wir Mathematik wegen ihrer Präzision, und auch Code ist äußerst konkret. Unser Leben wird von unzähligen Details beeinflusst, aber Modelle können diese Feinheiten nicht abbilden. Ich würde wirklich empfehlen, Asimovs "Relativity of Wrong" (Link) zu lesen. Wenn man wirklich sagen will, ein Modell habe "verstanden", dann müsste es neuartige Ergebnisse hervorbringen, etwa Entdeckungen, Schlussfolgerungen oder Neudefinitionen von Konzepten, die es vorher nicht kannte. Menschen beherrschen kontrafaktisches Denken (Link) ganz natürlich, moderne ML-Modelle dagegen nicht. Typische Beispiele sind Fehler bei der Anzahl der Finger im OP-Bild oder falsche Tastenanordnungen auf Tastaturen. Auf den ersten Blick wirkt alles plausibel, aber je länger man hinsieht, desto deutlicher tritt diese typische Uncanny-Valley-Wirkung hervor
Ich frage mich, wie man die automatische Vorlesefunktion abschalten kann. Wenn ich die Website öffne, würde ich lieber wollen, dass sie einfach im Standby bleibt und nur dann etwas tut, wenn ich selbst interagiere. In Firefox wurde ein Video im Vollbild automatisch abgespielt und plötzlich begann die Vorlesefunktion (unter iOS)
Ich frage mich, ob es einen technischen Bericht zur 4o-Architektur für Bildgenerierung gibt. Ich würde auch gern mehr über andere Modelle erfahren, die Bilder auf ähnliche Weise erzeugen
Persönlich glaube ich, dass Machine Learning bei "Beschreiben" deutlich weiter gekommen ist als bei "Verstehen"