SANA-WM, ein Open-Source-World-Model mit 2,6 Milliarden Parametern für 1-minütige 720p-Videos
(nvlabs.github.io)- SANA-WM von NVIDIA erzeugt aus einem einzelnen Bild und einer 6-DoF-Kameratrajektorie auf einer einzelnen GPU steuerbare 720p-Videos mit einer Länge von 1 Minute
- Der Hybrid Linear Diffusion Transformer kombiniert frameweises Gated DeltaNet mit periodischem Softmax und bewahrt so die Konsistenz bei langen Rollouts
- Das Training dauerte 15 Tage auf 64 H100, und die distillierte Variante denoised mit NVFP4 auf einer einzelnen RTX 5090 einen 60-Sekunden-720p-Clip in 34 Sekunden
- Mit rund 213.000 öffentlichen Videos und metrischer 6-DoF-Pose-Supervision wird präzises Verfolgen von Kamerapfaden unterstützt
- Im 1-Minuten-World-Model-Benchmark erreicht es eine höhere Genauigkeit beim Action-Following als bisherige Open-Source-Baselines und 36-fach höheren Durchsatz bei ähnlicher visueller Qualität
Modell und öffentlich verfügbare Materialien
- SANA-WM ist ein Open-Source-World-Model mit 2,6 Milliarden Parametern, das aus einem Bild und einer Kameratrajektorie steuerbare 720p-Videos mit einer Länge von 1 Minute erzeugt
- Beteiligt sind Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han und Enze Xie von NVIDIA
- Verfügbar sind Paper, Code und Models soon
- Der Titel der Arbeit lautet
SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer
Zentrales Design und Generierungspipeline
-
Hybride Architektur für lange Rollouts
- Der Hybrid Linear Diffusion Transformer kombiniert frameweises Gated DeltaNet mit periodischem Softmax und erhält die Weltkonsistenz über minutenlange Rollouts hinweg
- Im Effizienzvergleich skaliert die rekurrente Variante bei Speicher und Latenz besser, während der All-Softmax-Ansatz bei der 60-Sekunden-Generierung OOM auslöst
-
Präzise Kamerasteuerung
- SANA-WM nimmt eine 6-DoF-Kameratrajektorie als Eingabe und erzeugt Videos, die einem metrischen Kamerapfad folgen
- Ein grober globaler Pose-Branch und ein feiner Geometrie-Branch zur Pixelausrichtung arbeiten zusammen, um die Treue bei der Verfolgung des Kamerapfads zu erhöhen
- Aus öffentlichen Videos werden genaue 6-DoF-Kameraposen im Metermaßstab extrahiert, um räumlich und zeitlich konsistente hochwertige Action-Labels zu erstellen
-
Qualitätssteigerung in zwei Stufen
- Auf die Ausgabe der ersten Stufe wird ein 17B Long-Video-Refiner angewendet, der Qualität und Konsistenz über die gesamte Sequenz verbessert
- Der Refiner schärft auf Basis des Long-Rollout-Backbones Texturen, Bewegung und die Qualität späterer Abschnitte
Trainings- und Inferenz-Effizienz
- Das Training dauerte 15 Tage auf 64 H100, und für die Trainingsdaten wurden rund 213.000 öffentliche Videoclips sowie metrische Pose-Supervision genutzt
- Bei der Inferenz ist die Erzeugung eines 1-minütigen 720p-Videos auf einer einzelnen H100 möglich
- Das distillierte Variantenmodell denoised auf einer RTX 5090 mit NVFP4-Quantisierung einen 60-Sekunden-720p-Clip in 34 Sekunden
- SANA-WM zeigt eine visuelle Qualität auf dem Niveau großer industrieller Baselines wie LingBot-World und HY-WorldPlay und verbessert gleichzeitig die Effizienz
- Im 1-Minuten-World-Model-Benchmark zeigte es eine höhere Action-Following-Genauigkeit als bestehende Open-Source-Baselines und erreichte 36-fach höheren Durchsatz bei ähnlicher visueller Qualität
In den Demos sichtbare Generierungseigenschaften
-
1-Minuten-World-Demos
- Mehrere 1-Minuten-Beispiele erzeugen die Bewegung der Umgebung selbst, während ein fixierter Beobachtungspunkt aus der Ego-Perspektive ohne Kamerabewegung oder Beobachteraktion beibehalten wird
- Video 68: Ein verschneiter Alpenpfad, Klippen, ein Höhleneingang, Eiszapfen, vom Wind gebogene Kiefern und ein Bergsteiger in orangefarbener Jacke werden arrangiert; dazu entstehen Schneepartikel, Nebel, schwankende Äste und fließender Pulverschnee
- Video 72: An einer offenen Kreuzung entstehen ein blauer Wald, ein Ruinenturm unter Sturmwolken und ein dreigeteilter Weg, der zu einem sonnenbeschienenen Dorf führt
- Video 81: Es erscheinen eine T-Kreuzung in einer abgeschotteten unterirdischen SF-Forschungseinrichtung, ein überfluteter linker Korridor, ein dampfgefüllter rechter Korridor und eine runde Metalltür, die sich zur Dunkelheit hin öffnet
-
20-Sekunden-World-Demos
- Video 82: Das Innere einer verlassenen Berghütte, eine handgezeichnete Karte, ein rostiger Schlüssel, eine warme Laterne und eine goldene Höhle hinter einem verschneiten Waldpfad werden aufgebaut; Funkensmog, Laternenflamme und Schneegestöber im Türspalt bewegen sich
- Video 85: Eine versiegelte Rundtür in Dschungelruinen, grüne Symbole und ein kleiner Erkundungsroboter werden platziert; Ranken, Insekten, Schmetterlinge, Pfützen und Türsymbole pulsieren
- Video 92: Ein steinerner Gang in einem unterseeischen antiken Tempel, Korallensäulen, grün leuchtende Risse und ein kleiner kugelförmiger Tauchroboter werden arrangiert; dazu kommen Fische, Blasen, Partikel, Seegras und caustics
-
Gleicher erster Frame und wiederholte Prompts
- Video 100, Video 101, Video 102: Beim gleichen Salzebenen-Prompt bleiben Sportwagen, raue Salzkruste und tiefes Sonnenlicht erhalten, während Salzdunst, ziehende Wolken, Hitzeflimmern und Windlinien am Boden erzeugt werden
- Video 103, Video 104, Video 105: Flaches reflektierendes Wasser, schlammige Trittsteine, ein violetter Wald, ein halb versunkenes abgestürztes Raumschiff, ein Astronaut im Raumanzug und kleine außerirdische Wesen erscheinen als Varianten desselben Prompts
- Video 119, Video 120, Video 121: In einer tropischen Strandszene bei Sonnenaufgang werden Wellen, Palmblätter, Vögel und Wolkenbewegungen aus fixer Perspektive erzeugt
Beispiele für den Refiner-Effekt
-
Dschungelschlucht
- Video 124 und Video 125 sind Stage 1 Refined-Beispiele und zeigen das Innere einer riesigen Dschungelschlucht aus einer fixierten Ego-Perspektive
- Zu sehen sind ein schwach hinter dem Wasserfall sichtbarer antiker Steintempel, ein gefaltetes Papierflugzeug, bunte Vögel, schwebende Blätter, nasse Felswände, verschlungene Ranken und Wassertropfen
- Wasserfall, Nebel, Flügelschläge der Vögel, fallende Blätter, glitzernde Tropfen und das im Luftstrom zitternde Papierflugzeug bewegen sich autonom
-
Antikes Tor in die Klippe gemeißelt
- Video 126 und Video 127 zeigen ein antikes Tor in einer Klippe in einem höher gelegenen Waldgebiet
- Von einem moosbedeckten Pfad führen Steinstufen bis zu der halb geöffneten Tür; geschnitzte Säulen, Wächterstatuen, efeubedeckte Wände, ein Bergtal links und ein Reisender mit Umhang nahe dem Eingang sind angeordnet
- Warmes spätnachmittägliches Sonnenlicht verbindet sich mit türkisfarbenem Licht, das aus der Tür austritt, und Blätter, Vögel, Ranken sowie das Portallicht bewegen sich unabhängig voneinander
-
Überfluteter antiker Tempel
- Video 130 und Video 131 zeigen Stage 1- und refined-Ergebnisse nebeneinander
- Zwischen korallenbewachsenen Säulen verläuft ein steinerner Steg, und aus dem zentralen Riss einer gesprungenen Ritualwand tritt hellgrünes Licht aus, das mit den leuchtenden Symbolen am Boden ausgerichtet ist
- Ein kleiner kugelförmiger Tauchroboter schwebt vorne, während sich Fische, Blasen, Partikel, Seegras, caustics und grüne Symbole autonom bewegen
Hinweise zur Erstellung der Demos
- Alle Videos auf der Seite wurden mit der bidirektionalen Variante von SANA-WM erzeugt und anschließend durch den Long-Video-Refiner der zweiten Stufe verarbeitet
- Die First-Frame-Bilder aller Demo-Videos in der Galerie wurden mit OpenAI GPT Image 2 und Google Nano Banana Pro erzeugt, und SANA-WM animiert diese Standbilder zu 1 Minute langen Videos
1 Kommentare
Hacker-News-Kommentare
Aus der Perspektive von Videospielen erschließen sich solche World Models für mich nicht so recht
Ich bin selbst kein Spieleentwickler, aber die Spiele, die ich liebe, haben eine tiefe Intentionalität. In Spielen von FromSoftware oder auch im neueren Lies of P wird zum Beispiel normalerweise nicht einmal ein einzelner Gegenstand zufällig platziert; fast jedes Objekt ist bewusst angeordnet
Spiele ohne diese Intentionalität wirken im Gegensatz dazu leblos, reißen einen aus der Immersion oder aus der Erfahrung heraus, die die Entwickler vermitteln wollten
Es ist schwer vorstellbar, dass ein World Model jemals ein Niveau erreicht, auf dem es diese Intentionalität einfängt. Selbst die besten LLMs scheitern oft beim Schreiben und auch beim Coden, und die Erfahrungsoberfläche dieser Medien scheint kleiner zu sein als die Bandbreite an Nutzerinteraktionen in Videospielen
Unklar ist auch, wie man solche World Models modular einsetzen soll, wenn Menschen gezielt eine beabsichtigte Erfahrung schaffen wollen. LLMs sind in gewissem Maß modularisiert – eines erzeugt Text, ein Mensch überarbeitet ihn, ein anderes LLM macht weiter –, aber ich weiß nicht, ob das bei der Videoausgabe hier genauso ist
Letztlich ist das World Model selbst zwar beeindruckend, aber wie bei LLMs fürs Schreiben ist nicht klar, worauf wir eigentlich hinarbeiten. Ob wir einfach nur schneller weniger befriedigende und weniger menschliche Erfahrungen herstellen können, oder ob der unmittelbarste Nutzen eher darin liegt, dass Robotersysteme Welten erzeugen und die Folgen von Handlungen imaginiert simulieren können, weiß ich nicht
Insgesamt fühlt es sich so an, als würden wir in eine Welt rasen, in der die Intentionalität hinter allem, was wir erleben, abnimmt und alles unpersönlicher und lauter wird
Nachlässige prozedurale Generierung kann zu wenig Vielfalt oder unsinnige Ergebnisse erzeugen, und nachlässige manuelle Platzierung kann die vom Spiel etablierten Regeln brechen und so eine inkonsistente Erfahrung schaffen
Interne Konsistenz durch explizite Platzierung aufrechtzuerhalten, wird mit zunehmendem Umfang schwieriger. Wenn interne Konsistenz ein Qualitätsfaktor ist, könnte generierter Content ab einer gewissen Größenordnung sogar die hochwertigere Lösung sein
Zweitens gelten beim Erzeugen von Content mit AI dieselben Regeln in Bezug auf Nachlässigkeit. Es gibt generative-AI-Tools, die fast keine Möglichkeiten bieten, das Gewünschte gezielt zu gestalten, aber das ist keine wesentliche Eigenschaft von AI. Manchmal liegt das daran, dass Menschen einfache Interfaces wollen, und manchmal daran, dass Generatoren noch so neu sind, dass man sie erst einmal überhaupt zum Laufen bringen wollte, statt schon feingranulare Steuerung einzubauen
In mancher Hinsicht ist das alles noch zu neu, um überhaupt gut beschreiben zu können, welche Kontrollmöglichkeiten wünschenswert wären; erst einen Generator zu bauen und dann zu sehen, was Menschen damit machen wollen, scheint ein vernünftiger Weg zu sein, bevor man genau die gewünschten Steuerfunktionen entwickelt. Es gibt auch Werkzeuge mit weitreichender Kontrolle über Stil des Outputs, Objektplatzierung, Kamerabewegung und Szenenkomposition, aber deutlich weniger Menschen kommen mit ihnen in Berührung
AI kann Dinge ermöglichen, die sonst nicht machbar wären, aber um etwas Besonderes zu schaffen, braucht es weiterhin Sorgfalt
Menschen mit wenig Urteilskraft werden sich nicht beschweren, aber alle anderen werden immer mehr Zeit aufwenden müssen, um das eine Brauchbare unter 100 Ergebnissen zu finden, von denen 99 nur Rauschen sind
Das ist Amazon ziemlich ähnlich. Kaputte Sortierung, manipulierte Stückpreisangaben und eine Flut billiger Nachahmungen sorgen zusammen dafür, dass Nutzer aufgeben und das kaufen, was oben erscheint – also Empfehlungslisten oder Amazon-Kopien
Wenn man im Web nach verschiedenen Produkten sucht und dann auf die Bildersuche geht, bestehen die Ergebnisse oft zu 50–90 % aus Amazon-Produktlinks
Aber durch die schiere Masse könnte insgesamt trotzdem mehr hochwertiger Content entstehen. Anders gesagt: Die durchschnittliche Qualität von Spielen wird sinken, aber die Rate, mit der tatsächlich „großartige“ Spiele erscheinen, wird steigen
Bei jeder Aufgabe im Leben ist die Qualität des Ergebnisses ein direkter Ausdruck der Aufmerksamkeit und Absicht, die hineingeflossen sind. Vereinfacht gesagt zeigt sich daran, wie viel Mühe investiert wurde – und das merkt man immer. Das gilt auch im AI-Zeitalter
Nur ist der Weg zum Ergebnis ohne Aufwand nun viel kürzer, wodurch die Menge steigt und der Gesamteindruck verwässert wird. Diese billigen Resultate machen jedes Feld, das sie berühren, billiger, sodass man am Ende sogar noch mehr Mühe investieren muss, um überhaupt aufzufallen
Es gibt viele gute Spiele, die nicht von ausgefeilter Item-Platzierung abhängen. Viele Spiele von Bethesda waren zum Beispiel gerade deshalb großartig, weil die meisten Gegenstände bloß nutzlose Dekoration waren; als neuere Titel anfingen, jedem Krempel einen Zweck zu geben, wurde es deutlich schlechter
Es gibt auch viele gute Spiele, die sich überhaupt nicht auf solche Intentionalität stützen und buchstäblich nur coole Ideen zufällig aneinanderwerfen oder prozedural erzeugt sind
Wenn es heißt, die Modellgewichte kämen „bald“, dann bedeutet das aktuell Vaporware. Wie kann man etwas „Open Source“ nennen, wenn die Gewichte noch nicht veröffentlicht sind
Dass alle skeptisch sind, dass ein 2.8B-Modell solche Ergebnisse liefern soll, ist völlig nachvollziehbar. Ohne Gewichte ist es nicht passiert
https://github.com/NVlabs/Sana
Es heißt zwar 2.6B, aber dann kommt diese Formulierung direkt danach
„Ein dedizierter 17B Long-Video Refiner schärft Texturen, Bewegung und die Qualität späterer Abschnitte auf einem Long-Rollout-Backbone.“
Das sieht alles nach Videospielen aus. Vermutlich haben sie synthetische Trainingsdaten mit der Unreal Engine erzeugt
Dass das auf einer GPU läuft, ist ziemlich beeindruckend. Manche äußern Bedenken oder Kritik, aber es ist noch früh, und der jetzige Zustand wird der schlechteste sein, den es je hatte; deshalb bin ich sehr gespannt, welche Auswirkungen auf Spiele das haben wird
Vielleicht eine dumme Frage, aber was genau ist hier an dem Generierten eigentlich die „Welt“? Gibt es eine abstrakte Repräsentation eines echten physischen Raums, etwa wie einen Szenengraphen in einer Game Engine, oder bedeutet es nur: „Dieser Videogenerator ist physikalisch konsistenter als andere Videogeneratoren“
Dieser Weltzustand kann alles Mögliche sein, aber in den letzten ein bis zwei Jahren wird der Begriff enger verwendet. Er bezeichnet dann Videogenerierungsmodelle, die auf Interaktionen wie in einem Spiel natürlich reagieren und dadurch so wirken, als würden sie ein Videospiel simulieren. Hinter den Videoframes steckt dabei aber kein zusätzlicher Zustand
Das Modell wurde darauf trainiert, die Szenenkonsistenz ungefähr eine Minute lang aufrechtzuerhalten; wenn man sich also umschaut und ein Objekt aus dem Bild verschwindet, taucht es wieder auf, wenn man erneut in diese Richtung blickt
Wo ist der Download? Auf GitHub finde ich ihn nicht, und der Download-Button auf der Website ist deaktiviert
Und läuft das auf einer RTX 4090 mit 24 GB Speicher?
Warnung: Als ich die automatisch abgespielten Videos auf der Seite angesehen habe, schoss der Download auf 350 Mbps hoch
Ich hoffe, niemand mit einem volumenbasierten oder begrenzten Netzwerk lässt diese Seite offen
Es überrascht mich, dass GitHub die Seite nicht stillgelegt hat
Sind AI-Forscher so daran gewöhnt, Rechen- und Netzwerkressourcen zu verheizen, dass sie bei einer Website mit mehreren automatisch abgespielten und wiederholten HD-Videos gar nicht mehr darüber nachdenken
Dass ein 2.6B-Modell ein einminütiges Video mit dieser Qualität und Konsistenz erzeugt, wirkt absurd beeindruckend
Im ersten Video mit dem Mann, der durch die verschneiten Berge läuft, gibt es ein Problem mit der Konsistenz des Höhleneingangs. Ist das bei dieser Modellgröße „zu erwarten“
Wenn die Beispiele repräsentativ sind, scheint der „Refiner“-Effekt sogar eher in die falsche Richtung zu wirken. In allen Fällen wirkt das Bild aus Stufe 1 besser als das „verfeinerte“ Bild. Es ist weniger vollgestellt, realistischer und – für Leute, die den Ausdruck kennen – mit weniger „Cowbell“