Hallo, wir möchten Dynin-Omni (https://dynin.ai/omni/) vorstellen, ein omnimodales Foundation-Modell, das vom AIDAS-Labor der Seoul National University (https://aidas.snu.ac.kr/) veröffentlicht wurde. Es ist eine integrierte Architektur, die Text, Bilder, Sprache und Video in einem einzigen Modell versteht und generiert.
Wenn man sich aktuelle multimodale integrierte Modelle ansieht, besteht vieles aus einer Struktur, bei der an ein LLM ein Bildgenerator oder ein TTS-Modell angehängt wird. In der Praxis ist die Pipeline jedoch oft komplex, dadurch langsamer, und gelegentlich gerät auch die Orchestrierung durcheinander.
Selbst wenn ein Modell ohne externen Generator nativ sowohl Verstehen als auch Generierung unterstützt, basiert es meist auf Autoregressive (AR). Dabei müssen Tokens der Reihe nach erzeugt werden. Bilder oder Videos sind aber eigentlich keine sequenziellen Daten, weshalb sich dieser Ansatz etwas unnatürlich anfühlt.
Deshalb haben wir den Ansatz grundlegend geändert.
Anstatt Tokens einzeln zu erzeugen, verwenden wir ein Masked-Diffusion-Verfahren, bei dem maskierte Teile auf einmal rekonstruiert werden. Dadurch lässt sich die gesamte Aufgabe vereinheitlichen zu: „Welche Tokens werden maskiert und rekonstruiert?“
Zum Beispiel:
- Bild ansehen und beschreiben → nur Text ausfüllen
- Aus Text ein Bild erzeugen → Bild-Tokens ausfüllen
- Sprache erzeugen → Sprach-Tokens ausfüllen
So funktioniert es.
Dadurch mussten wir nicht separat ein Bildgenerierungsmodell oder ein TTS-Modell anbinden, sondern konnten Verstehen und Generierung gemeinsam in einem einzigen Modell verarbeiten. Die Leistung fällt für ein einzelnes Modell ziemlich stark aus.
Die Textinferenz ist auf einem Niveau, das sich mit aktuellen LLMs messen kann, und beim Bild- und Videoverstehen ist es konkurrenzfähig zu Vision-Modellen wie InternVL und Qwen2.5-VL. Bei der Bildgenerierung erreicht es ein Niveau nahe an spezialisierten Modellen wie FLUX, bei Sprache liegt es nahe an spezialisierten Modellen aus der Qwen-TTS-Familie.
Auch bei der Geschwindigkeit wurde auf Effizienz geachtet. Die Textgenerierung ist gegenüber Qwen2.5-Omni und MiniCPM-o4.5 etwa 4- bis 5-mal schneller und selbst im Vergleich zu Qwen3-8B, einem für vLLM optimierten Sprachmodell, rund 2,5-mal schneller. Auch bei der Bildgenerierung wird mit etwa halb so vielen Schritten wie bei bestehenden spezialisierten Generierungsmodellen eine ähnliche Qualität erreicht.
Während kürzlich erschienene AR-basierte, auf Wahrnehmung fokussierte omnimodale Modelle wie Qwen3.5-Omni vor allem das Verstehen in den Mittelpunkt stellen, integriert Dynin-Omni Verstehen und Generierung in einer einzigen Struktur. Statt Tokens sequenziell zu erzeugen, rekonstruiert es den gesamten Inhalt auf einmal und kann dadurch auf nicht-sequenzielle Daten wie Bilder oder Videos schneller und natürlicher reagieren.
Diese Architektur ist besonders wichtig für Bereiche wie Agenten oder Robotik, in denen unterschiedliche Eingaben gleichzeitig verstanden und daraus reale Handlungen oder Ergebnisse erzeugt werden müssen. Anders als bei der Kombination mehrerer Modelle verarbeitet hier ein einzelnes Modell die Aufgabe direkt, was die Systemkomplexität reduziert und Vorteile bei Kosten und Geschwindigkeit bietet.
Da Verstehen und Generierung in einem Framework zusammengeführt sind, lässt sich die Struktur auch dann natürlich auf verschiedene Domänen erweitern, wenn neue Modalitäten oder Tasks hinzukommen, ohne dafür separate Modelle kombinieren zu müssen.
Damit diese Architektur auch in realen Service-Umgebungen genutzt werden kann, wird derzeit an der Integration in Serving-Infrastrukturen auf Basis von vLLM, dInfer und SGLang gearbeitet. Wenn multimodale Eingaben und Generierung von einem einzigen Modell verarbeitet werden, ist auch eine effiziente Inferenz-Infrastruktur ein entscheidender Faktor.
Darüber hinaus wird auf Basis dieses Modells auch Dynin-Robotics erforscht, eine Erweiterung hin zu einem Physical-AI-Modell einschließlich Robotik- und Agenten-Umgebungen. Ziel ist eine End-to-End-Struktur, die verschiedene Sensoreingaben integriert versteht und in reale Handlungen überführt.
Künftig wollen wir das Modell durch kontinuierliche Forschung und Entwicklung weiter voranbringen, ähnlich wie bei der GLM-Serie der Tsinghua-Universität in China oder InternLM des Shanghai Artificial Intelligence Laboratory. Wenn ihr Ideen für Verbesserungen habt, sagt sie gern jederzeit 👍
4 Kommentare
Danke. Selbstverständlich sollte Koreanisch gut funktionieren, oder?
Offenbar tritt ein Fehler auf – vermutlich liegt es an
huggingface.co. Ich werde es lokal ausführen.Die koreanische Funktion wird in der aktuellen Version noch nicht unterstützt. Wir planen, in Kürze eine Version zu veröffentlichen, die auch mit Koreanisch trainiert wurde. Vielen Dank!
Wie weit sind die Pläne für eine Skalierung?
Konkrete Pläne zur Skalierung werden derzeit noch im Team ausgearbeitet. Wir planen, das Modell kontinuierlich weiterzuentwickeln. Vielen Dank.