SANA-WM, ein Open-Source-World-Model mit 2,6 Milliarden Parametern für 1-minütige 720p-Videos

(nvlabs.github.io)

1 Punkte von GN⁺ 1 시간 전 | 1 Kommentare | Auf WhatsApp teilen

SANA-WM von NVIDIA erzeugt aus einem einzelnen Bild und einer 6-DoF-Kameratrajektorie auf einer einzelnen GPU steuerbare 720p-Videos mit einer Länge von 1 Minute
Der Hybrid Linear Diffusion Transformer kombiniert frameweises Gated DeltaNet mit periodischem Softmax und bewahrt so die Konsistenz bei langen Rollouts
Das Training dauerte 15 Tage auf 64 H100, und die distillierte Variante denoised mit NVFP4 auf einer einzelnen RTX 5090 einen 60-Sekunden-720p-Clip in 34 Sekunden
Mit rund 213.000 öffentlichen Videos und metrischer 6-DoF-Pose-Supervision wird präzises Verfolgen von Kamerapfaden unterstützt
Im 1-Minuten-World-Model-Benchmark erreicht es eine höhere Genauigkeit beim Action-Following als bisherige Open-Source-Baselines und 36-fach höheren Durchsatz bei ähnlicher visueller Qualität

Modell und öffentlich verfügbare Materialien

SANA-WM ist ein Open-Source-World-Model mit 2,6 Milliarden Parametern, das aus einem Bild und einer Kameratrajektorie steuerbare 720p-Videos mit einer Länge von 1 Minute erzeugt
Beteiligt sind Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han und Enze Xie von NVIDIA
Verfügbar sind Paper, Code und Models soon
Der Titel der Arbeit lautet SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

Zentrales Design und Generierungspipeline

Hybride Architektur für lange Rollouts
- Der Hybrid Linear Diffusion Transformer kombiniert frameweises Gated DeltaNet mit periodischem Softmax und erhält die Weltkonsistenz über minutenlange Rollouts hinweg
- Im Effizienzvergleich skaliert die rekurrente Variante bei Speicher und Latenz besser, während der All-Softmax-Ansatz bei der 60-Sekunden-Generierung OOM auslöst
Präzise Kamerasteuerung
- SANA-WM nimmt eine 6-DoF-Kameratrajektorie als Eingabe und erzeugt Videos, die einem metrischen Kamerapfad folgen
- Ein grober globaler Pose-Branch und ein feiner Geometrie-Branch zur Pixelausrichtung arbeiten zusammen, um die Treue bei der Verfolgung des Kamerapfads zu erhöhen
- Aus öffentlichen Videos werden genaue 6-DoF-Kameraposen im Metermaßstab extrahiert, um räumlich und zeitlich konsistente hochwertige Action-Labels zu erstellen
Qualitätssteigerung in zwei Stufen
- Auf die Ausgabe der ersten Stufe wird ein 17B Long-Video-Refiner angewendet, der Qualität und Konsistenz über die gesamte Sequenz verbessert
- Der Refiner schärft auf Basis des Long-Rollout-Backbones Texturen, Bewegung und die Qualität späterer Abschnitte

Trainings- und Inferenz-Effizienz

Das Training dauerte 15 Tage auf 64 H100, und für die Trainingsdaten wurden rund 213.000 öffentliche Videoclips sowie metrische Pose-Supervision genutzt
Bei der Inferenz ist die Erzeugung eines 1-minütigen 720p-Videos auf einer einzelnen H100 möglich
Das distillierte Variantenmodell denoised auf einer RTX 5090 mit NVFP4-Quantisierung einen 60-Sekunden-720p-Clip in 34 Sekunden
SANA-WM zeigt eine visuelle Qualität auf dem Niveau großer industrieller Baselines wie LingBot-World und HY-WorldPlay und verbessert gleichzeitig die Effizienz
Im 1-Minuten-World-Model-Benchmark zeigte es eine höhere Action-Following-Genauigkeit als bestehende Open-Source-Baselines und erreichte 36-fach höheren Durchsatz bei ähnlicher visueller Qualität

In den Demos sichtbare Generierungseigenschaften

1-Minuten-World-Demos
- Mehrere 1-Minuten-Beispiele erzeugen die Bewegung der Umgebung selbst, während ein fixierter Beobachtungspunkt aus der Ego-Perspektive ohne Kamerabewegung oder Beobachteraktion beibehalten wird
- Video 68: Ein verschneiter Alpenpfad, Klippen, ein Höhleneingang, Eiszapfen, vom Wind gebogene Kiefern und ein Bergsteiger in orangefarbener Jacke werden arrangiert; dazu entstehen Schneepartikel, Nebel, schwankende Äste und fließender Pulverschnee
- Video 72: An einer offenen Kreuzung entstehen ein blauer Wald, ein Ruinenturm unter Sturmwolken und ein dreigeteilter Weg, der zu einem sonnenbeschienenen Dorf führt
- Video 81: Es erscheinen eine T-Kreuzung in einer abgeschotteten unterirdischen SF-Forschungseinrichtung, ein überfluteter linker Korridor, ein dampfgefüllter rechter Korridor und eine runde Metalltür, die sich zur Dunkelheit hin öffnet
20-Sekunden-World-Demos
- Video 82: Das Innere einer verlassenen Berghütte, eine handgezeichnete Karte, ein rostiger Schlüssel, eine warme Laterne und eine goldene Höhle hinter einem verschneiten Waldpfad werden aufgebaut; Funkensmog, Laternenflamme und Schneegestöber im Türspalt bewegen sich
- Video 85: Eine versiegelte Rundtür in Dschungelruinen, grüne Symbole und ein kleiner Erkundungsroboter werden platziert; Ranken, Insekten, Schmetterlinge, Pfützen und Türsymbole pulsieren
- Video 92: Ein steinerner Gang in einem unterseeischen antiken Tempel, Korallensäulen, grün leuchtende Risse und ein kleiner kugelförmiger Tauchroboter werden arrangiert; dazu kommen Fische, Blasen, Partikel, Seegras und caustics
Gleicher erster Frame und wiederholte Prompts
- Video 100, Video 101, Video 102: Beim gleichen Salzebenen-Prompt bleiben Sportwagen, raue Salzkruste und tiefes Sonnenlicht erhalten, während Salzdunst, ziehende Wolken, Hitzeflimmern und Windlinien am Boden erzeugt werden
- Video 103, Video 104, Video 105: Flaches reflektierendes Wasser, schlammige Trittsteine, ein violetter Wald, ein halb versunkenes abgestürztes Raumschiff, ein Astronaut im Raumanzug und kleine außerirdische Wesen erscheinen als Varianten desselben Prompts
- Video 119, Video 120, Video 121: In einer tropischen Strandszene bei Sonnenaufgang werden Wellen, Palmblätter, Vögel und Wolkenbewegungen aus fixer Perspektive erzeugt

Beispiele für den Refiner-Effekt

Dschungelschlucht
- Video 124 und Video 125 sind Stage 1 Refined-Beispiele und zeigen das Innere einer riesigen Dschungelschlucht aus einer fixierten Ego-Perspektive
- Zu sehen sind ein schwach hinter dem Wasserfall sichtbarer antiker Steintempel, ein gefaltetes Papierflugzeug, bunte Vögel, schwebende Blätter, nasse Felswände, verschlungene Ranken und Wassertropfen
- Wasserfall, Nebel, Flügelschläge der Vögel, fallende Blätter, glitzernde Tropfen und das im Luftstrom zitternde Papierflugzeug bewegen sich autonom
Antikes Tor in die Klippe gemeißelt
- Video 126 und Video 127 zeigen ein antikes Tor in einer Klippe in einem höher gelegenen Waldgebiet
- Von einem moosbedeckten Pfad führen Steinstufen bis zu der halb geöffneten Tür; geschnitzte Säulen, Wächterstatuen, efeubedeckte Wände, ein Bergtal links und ein Reisender mit Umhang nahe dem Eingang sind angeordnet
- Warmes spätnachmittägliches Sonnenlicht verbindet sich mit türkisfarbenem Licht, das aus der Tür austritt, und Blätter, Vögel, Ranken sowie das Portallicht bewegen sich unabhängig voneinander
Überfluteter antiker Tempel
- Video 130 und Video 131 zeigen Stage 1- und refined-Ergebnisse nebeneinander
- Zwischen korallenbewachsenen Säulen verläuft ein steinerner Steg, und aus dem zentralen Riss einer gesprungenen Ritualwand tritt hellgrünes Licht aus, das mit den leuchtenden Symbolen am Boden ausgerichtet ist
- Ein kleiner kugelförmiger Tauchroboter schwebt vorne, während sich Fische, Blasen, Partikel, Seegras, caustics und grüne Symbole autonom bewegen

Hinweise zur Erstellung der Demos

Alle Videos auf der Seite wurden mit der bidirektionalen Variante von SANA-WM erzeugt und anschließend durch den Long-Video-Refiner der zweiten Stufe verarbeitet
Die First-Frame-Bilder aller Demo-Videos in der Galerie wurden mit OpenAI GPT Image 2 und Google Nano Banana Pro erzeugt, und SANA-WM animiert diese Standbilder zu 1 Minute langen Videos

1 Kommentare

GN⁺ 1 시간 전

Hacker-News-Kommentare

Aus der Perspektive von Videospielen erschließen sich solche World Models für mich nicht so recht
Ich bin selbst kein Spieleentwickler, aber die Spiele, die ich liebe, haben eine tiefe Intentionalität. In Spielen von FromSoftware oder auch im neueren Lies of P wird zum Beispiel normalerweise nicht einmal ein einzelner Gegenstand zufällig platziert; fast jedes Objekt ist bewusst angeordnet
Spiele ohne diese Intentionalität wirken im Gegensatz dazu leblos, reißen einen aus der Immersion oder aus der Erfahrung heraus, die die Entwickler vermitteln wollten
Es ist schwer vorstellbar, dass ein World Model jemals ein Niveau erreicht, auf dem es diese Intentionalität einfängt. Selbst die besten LLMs scheitern oft beim Schreiben und auch beim Coden, und die Erfahrungsoberfläche dieser Medien scheint kleiner zu sein als die Bandbreite an Nutzerinteraktionen in Videospielen
Unklar ist auch, wie man solche World Models modular einsetzen soll, wenn Menschen gezielt eine beabsichtigte Erfahrung schaffen wollen. LLMs sind in gewissem Maß modularisiert – eines erzeugt Text, ein Mensch überarbeitet ihn, ein anderes LLM macht weiter –, aber ich weiß nicht, ob das bei der Videoausgabe hier genauso ist
Letztlich ist das World Model selbst zwar beeindruckend, aber wie bei LLMs fürs Schreiben ist nicht klar, worauf wir eigentlich hinarbeiten. Ob wir einfach nur schneller weniger befriedigende und weniger menschliche Erfahrungen herstellen können, oder ob der unmittelbarste Nutzen eher darin liegt, dass Robotersysteme Welten erzeugen und die Folgen von Handlungen imaginiert simulieren können, weiß ich nicht
Insgesamt fühlt es sich so an, als würden wir in eine Welt rasen, in der die Intentionalität hinter allem, was wir erleben, abnimmt und alles unpersönlicher und lauter wird
- Hier spielen zwei Dinge hinein. Erstens sind sowohl sorgfältig gestaltete Umgebungen als auch prozedural generierte Umgebungen auch ohne AI möglich, und beide können gut gemacht sein. Umgekehrt können auch beide aus ihren jeweils typischen Gründen scheitern
  Nachlässige prozedurale Generierung kann zu wenig Vielfalt oder unsinnige Ergebnisse erzeugen, und nachlässige manuelle Platzierung kann die vom Spiel etablierten Regeln brechen und so eine inkonsistente Erfahrung schaffen
  Interne Konsistenz durch explizite Platzierung aufrechtzuerhalten, wird mit zunehmendem Umfang schwieriger. Wenn interne Konsistenz ein Qualitätsfaktor ist, könnte generierter Content ab einer gewissen Größenordnung sogar die hochwertigere Lösung sein
  Zweitens gelten beim Erzeugen von Content mit AI dieselben Regeln in Bezug auf Nachlässigkeit. Es gibt generative-AI-Tools, die fast keine Möglichkeiten bieten, das Gewünschte gezielt zu gestalten, aber das ist keine wesentliche Eigenschaft von AI. Manchmal liegt das daran, dass Menschen einfache Interfaces wollen, und manchmal daran, dass Generatoren noch so neu sind, dass man sie erst einmal überhaupt zum Laufen bringen wollte, statt schon feingranulare Steuerung einzubauen
  In mancher Hinsicht ist das alles noch zu neu, um überhaupt gut beschreiben zu können, welche Kontrollmöglichkeiten wünschenswert wären; erst einen Generator zu bauen und dann zu sehen, was Menschen damit machen wollen, scheint ein vernünftiger Weg zu sein, bevor man genau die gewünschten Steuerfunktionen entwickelt. Es gibt auch Werkzeuge mit weitreichender Kontrolle über Stil des Outputs, Objektplatzierung, Kamerabewegung und Szenenkomposition, aber deutlich weniger Menschen kommen mit ihnen in Berührung
  AI kann Dinge ermöglichen, die sonst nicht machbar wären, aber um etwas Besonderes zu schaffen, braucht es weiterhin Sorgfalt
- Genau. Die Welt wird mit oberflächlich plausibel wirkendem, aber inhaltsleerem Content überschwemmt. Man kann einfach jedes gewünschte Thema daraufkleben
  Menschen mit wenig Urteilskraft werden sich nicht beschweren, aber alle anderen werden immer mehr Zeit aufwenden müssen, um das eine Brauchbare unter 100 Ergebnissen zu finden, von denen 99 nur Rauschen sind
  Das ist Amazon ziemlich ähnlich. Kaputte Sortierung, manipulierte Stückpreisangaben und eine Flut billiger Nachahmungen sorgen zusammen dafür, dass Nutzer aufgeben und das kaufen, was oben erscheint – also Empfehlungslisten oder Amazon-Kopien
  Wenn man im Web nach verschiedenen Produkten sucht und dann auf die Bildersuche geht, bestehen die Ergebnisse oft zu 50–90 % aus Amazon-Produktlinks
- Ich glaube, solche Modelle werden wie die alte Gutenberg-Druckerpresse sein. Die Menge an Content wird sprunghaft steigen, und das meiste davon wird nicht besonders gut sein
  Aber durch die schiere Masse könnte insgesamt trotzdem mehr hochwertiger Content entstehen. Anders gesagt: Die durchschnittliche Qualität von Spielen wird sinken, aber die Rate, mit der tatsächlich „großartige“ Spiele erscheinen, wird steigen
- Das trifft meiner Meinung nach den Kern dessen, was gerade allgemein bei AI passiert. Grafik, Bilder, Video, Musik, Text, Code – alles sieht beeindruckend aus und fühlt sich doch leer und wertlos an
  Bei jeder Aufgabe im Leben ist die Qualität des Ergebnisses ein direkter Ausdruck der Aufmerksamkeit und Absicht, die hineingeflossen sind. Vereinfacht gesagt zeigt sich daran, wie viel Mühe investiert wurde – und das merkt man immer. Das gilt auch im AI-Zeitalter
  Nur ist der Weg zum Ergebnis ohne Aufwand nun viel kürzer, wodurch die Menge steigt und der Gesamteindruck verwässert wird. Diese billigen Resultate machen jedes Feld, das sie berühren, billiger, sodass man am Ende sogar noch mehr Mühe investieren muss, um überhaupt aufzufallen
- Beispiele wie FromSoftware oder Lies of P, in denen jeder Gegenstand absichtlich platziert ist, sind ziemlich spezifisch und einseitig gewählt
  Es gibt viele gute Spiele, die nicht von ausgefeilter Item-Platzierung abhängen. Viele Spiele von Bethesda waren zum Beispiel gerade deshalb großartig, weil die meisten Gegenstände bloß nutzlose Dekoration waren; als neuere Titel anfingen, jedem Krempel einen Zweck zu geben, wurde es deutlich schlechter
  Es gibt auch viele gute Spiele, die sich überhaupt nicht auf solche Intentionalität stützen und buchstäblich nur coole Ideen zufällig aneinanderwerfen oder prozedural erzeugt sind
Wenn es heißt, die Modellgewichte kämen „bald“, dann bedeutet das aktuell Vaporware. Wie kann man etwas „Open Source“ nennen, wenn die Gewichte noch nicht veröffentlicht sind
Dass alle skeptisch sind, dass ein 2.8B-Modell solche Ergebnisse liefern soll, ist völlig nachvollziehbar. Ohne Gewichte ist es nicht passiert
- Das Modell ist hier hochgeladen: https://huggingface.co/Efficient-Large-Model/SANA-Video_2B_7...
- Fairerweise muss man sagen: Die gesamte Codebasis ist Open Source, also besser als die meisten Modelle mit offenen Gewichten. Dem Gefühl stimme ich aber trotzdem zu
  https://github.com/NVlabs/Sana
- Dann ist es eindeutig nicht offen. Ich frage mich, ob man den Titel ändern kann
Es heißt zwar 2.6B, aber dann kommt diese Formulierung direkt danach
„Ein dedizierter 17B Long-Video Refiner schärft Texturen, Bewegung und die Qualität späterer Abschnitte auf einem Long-Rollout-Backbone.“
Das sieht alles nach Videospielen aus. Vermutlich haben sie synthetische Trainingsdaten mit der Unreal Engine erzeugt
Dass das auf einer GPU läuft, ist ziemlich beeindruckend. Manche äußern Bedenken oder Kritik, aber es ist noch früh, und der jetzige Zustand wird der schlechteste sein, den es je hatte; deshalb bin ich sehr gespannt, welche Auswirkungen auf Spiele das haben wird
Vielleicht eine dumme Frage, aber was genau ist hier an dem Generierten eigentlich die „Welt“? Gibt es eine abstrakte Repräsentation eines echten physischen Raums, etwa wie einen Szenengraphen in einer Game Engine, oder bedeutet es nur: „Dieser Videogenerator ist physikalisch konsistenter als andere Videogeneratoren“
- Ein World Model ist ein Modell, das den nächsten Zustand einer simulierten Welt vorhersagt, gegeben den aktuellen Zustand und optional die Handlungen eines Agenten in dieser Welt. Das ist Sprachmodellen, die das nächste Wort vorhersagen, ziemlich ähnlich
  Dieser Weltzustand kann alles Mögliche sein, aber in den letzten ein bis zwei Jahren wird der Begriff enger verwendet. Er bezeichnet dann Videogenerierungsmodelle, die auf Interaktionen wie in einem Spiel natürlich reagieren und dadurch so wirken, als würden sie ein Videospiel simulieren. Hinter den Videoframes steckt dabei aber kein zusätzlicher Zustand
- In diesem Kontext bedeutet Welt, dass diese Videos wie Videospiele interaktiv sind. In den verlinkten Beispielen kann man Tastatur- und Mauseingaben sehen
  Das Modell wurde darauf trainiert, die Szenenkonsistenz ungefähr eine Minute lang aufrechtzuerhalten; wenn man sich also umschaut und ein Objekt aus dem Bild verschwindet, taucht es wieder auf, wenn man erneut in diese Richtung blickt
Wo ist der Download? Auf GitHub finde ich ihn nicht, und der Download-Button auf der Website ist deaktiviert
Und läuft das auf einer RTX 4090 mit 24 GB Speicher?
- Es gibt eine 5-Sekunden-Version: https://huggingface.co/Efficient-Large-Model/SANA-Video_2B_7...
- Wenn man nach unten scrollt, gibt es mehr Videos, und es sieht so aus, als käme das Modell „bald“ online
Warnung: Als ich die automatisch abgespielten Videos auf der Seite angesehen habe, schoss der Download auf 350 Mbps hoch
- Mir ist das erst aufgefallen, nachdem ich die Seite über eine Stunde lang in einem Tab offen hatte. Streamen die wirklich immer wieder dasselbe Video neu? Ist das zu viel zum Cachen, sodass es endlos neu übertragen wird
  Ich hoffe, niemand mit einem volumenbasierten oder begrenzten Netzwerk lässt diese Seite offen
  Es überrascht mich, dass GitHub die Seite nicht stillgelegt hat
  Sind AI-Forscher so daran gewöhnt, Rechen- und Netzwerkressourcen zu verheizen, dass sie bei einer Website mit mehreren automatisch abgespielten und wiederholten HD-Videos gar nicht mehr darüber nachdenken
- Mit meiner 70-Mbps-Verbindung konnte ich die Videos nicht einmal puffern und habe aufgegeben. So hochauflösend sahen sie ohnehin nicht aus
Dass ein 2.6B-Modell ein einminütiges Video mit dieser Qualität und Konsistenz erzeugt, wirkt absurd beeindruckend
Im ersten Video mit dem Mann, der durch die verschneiten Berge läuft, gibt es ein Problem mit der Konsistenz des Höhleneingangs. Ist das bei dieser Modellgröße „zu erwarten“
- Die meisten Videos scheinen solche Probleme in gewissem Maß zu haben. Im Bibliotheksvideo verändert sich zum Beispiel die Form der Bücher auf dem Tisch manchmal
  Wenn die Beispiele repräsentativ sind, scheint der „Refiner“-Effekt sogar eher in die falsche Richtung zu wirken. In allen Fällen wirkt das Bild aus Stufe 1 besser als das „verfeinerte“ Bild. Es ist weniger vollgestellt, realistischer und – für Leute, die den Ausdruck kennen – mit weniger „Cowbell“
- Alle Videos zeigen ziemlich auffällige Konsistenzprobleme, wenn die Blickrichtung wieder auf zuvor gezeigte Bereiche zurückschwenkt

SANA-WM, ein Open-Source-World-Model mit 2,6 Milliarden Parametern für 1-minütige 720p-Videos

Modell und öffentlich verfügbare Materialien

Zentrales Design und Generierungspipeline

Hybride Architektur für lange Rollouts

Präzise Kamerasteuerung

Qualitätssteigerung in zwei Stufen

Trainings- und Inferenz-Effizienz

In den Demos sichtbare Generierungseigenschaften

1-Minuten-World-Demos

20-Sekunden-World-Demos

Gleicher erster Frame und wiederholte Prompts

Beispiele für den Refiner-Effekt

Dschungelschlucht

Antikes Tor in die Klippe gemeißelt

Überfluteter antiker Tempel

Hinweise zur Erstellung der Demos

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare