Video-Generierungsmodelle als Weltsimulatoren

(openai.com)

1 Punkte von GN⁺ 2024-02-17 | 1 Kommentare | Auf WhatsApp teilen

OpenAI untersucht mit Sora, ob sich Video-Generierungsmodelle über reine Videosynthese hinaus zu Simulationen der physischen und digitalen Welt erweitern lassen
Das Kerndesign besteht darin, Videos und Bilder in einen zeitlich und räumlich komprimierten latenten Raum zu überführen und diesen in raumzeitliche Patches aufzuteilen, die wie Transformer-Tokens gelernt werden
Sora lernt nicht anhand fest zugeschnittener Größen, sondern mit variabler Länge, Auflösung und Seitenverhältnis und kann so Widescreen-Videos, Hochkantvideos und hochauflösende Bilder im selben Modell verarbeiten
Das Recaptioning aus DALL·E 3 wird auf Videos angewendet; GPT erweitert kurze Prompts zu detaillierten Captions, um Texttreue und Videoqualität zu erhöhen
3D-Konsistenz, Objektpersistenz und die Simulation digitaler Welten wie Minecraft sind teilweise möglich, doch bei physischen Interaktionen, die Zustandsänderungen erfordern, etwa zerbrechendem Glas oder dem Essen von Nahrung, bleiben Grenzen

Welche Probleme Sora adressiert und Umfang des Berichts

OpenAI untersucht das Training großskaliger generativer Modelle auf Videodaten
Sora ist ein textkonditioniertes Diffusionsmodell, das gemeinsam Videos und Bilder unterschiedlicher Länge, Auflösung und Seitenverhältnisse lernt
Das größte Modell, Sora, kann hochgetreue Videos mit einer Länge von bis zu einer Minute erzeugen
Dieser technische Bericht konzentriert sich auf zwei Punkte
- Wie sich vielfältige visuelle Daten in eine einheitliche Repräsentation überführen lassen, die für das Training großer generativer Modelle geeignet ist
- Eine qualitative Bewertung der Fähigkeiten und Grenzen von Sora
Details zur Modellarchitektur und Implementierung sind nicht enthalten
Bisherige Forschung zur Videoerzeugung nutzte verschiedene Ansätze wie rekurrente neuronale Netze, GANs, autoregressive Transformer und Diffusionsmodelle, konzentrierte sich jedoch häufig auf enge Datenkategorien, kurze Videos und Videos mit fester Größe
Sora ist als universelles Modell für visuelle Daten konzipiert, das Videos und Bilder über unterschiedliche Längen, Seitenverhältnisse und Auflösungen hinweg erzeugt

Visuelle Daten durch Patches vereinheitlichen

So wie große Sprachmodelle Code, Mathematik und natürliche Sprache über Text-Tokens vereinheitlichen, verwendet Sora Patches für visuelle Daten
Videos werden zunächst in einen niedrigdimensionalen latenten Raum komprimiert und anschließend in raumzeitliche Patches zerlegt
Eine patchbasierte Repräsentation ist skalierbar und funktioniert effektiv beim Lernen verschiedener Video- und Bildtypen

Videokompression und raumzeitliche latente Patches

Sora arbeitet nicht direkt mit Rohvideos im Pixelraum, sondern lernt und generiert in einer zeitlich und räumlich komprimierten latenten Repräsentation
Ein separates Decoder-Modell bildet die generierte latente Repräsentation zurück in den Pixelraum ab
Die Sequenz raumzeitlicher Patches, die aus dem komprimierten Eingabevideo extrahiert wird, funktioniert wie Tokens in einem Transformer
Bilder können als Videos mit einem einzelnen Frame betrachtet und daher auf dieselbe Weise verarbeitet werden
Bei der Inferenz wird die Größe des erzeugten Videos gesteuert, indem zufällig initialisierte Patches in einem Raster der gewünschten Größe platziert werden

Diffusion Transformer für die Videoerzeugung skalieren

Sora ist ein Diffusionsmodell, das darauf trainiert wird, aus verrauschten Patches und Konditionsinformationen wie Text-Prompts die ursprünglichen sauberen Patches vorherzusagen
Gleichzeitig ist Sora ein Diffusion Transformer
Transformer haben in Bereichen wie Sprachmodellierung, Computer Vision und Bilderzeugung Skalierungseigenschaften gezeigt und lassen sich auch bei Sora effektiv als Videomodell skalieren
Bei gleichem Seed und gleicher Eingabe verbessert sich die Sample-Qualität deutlich, je weiter das Training fortschreitet und je mehr Rechenaufwand eingesetzt wird
- Die Vergleichsbeispiele bestehen aus base compute, 4x compute und 32x compute

Vorteile des Trainings in Originalgröße

Bisherige Ansätze zur Bild- und Videoerzeugung resize, croppen und trimmen Daten typischerweise auf Standardgrößen wie 4 Sekunden oder 256x256
Sora gewinnt mehrere Vorteile daraus, Daten in ihrer Originalgröße zu lernen
Flexibilität beim Sampling
- Sora kann 1920x1080p-Widescreen-Videos, 1080x1920-Hochkantvideos und viele Formate dazwischen samplen
- Inhalte für unterschiedliche Geräte können direkt im nativen Seitenverhältnis erzeugt werden
- Mit demselben Modell lassen sich bei kleiner Größe schnell Prototypen erstellen und anschließend in voller Auflösung generieren
Besseres Framing und bessere Komposition
- Training mit dem ursprünglichen Seitenverhältnis verbessert Komposition und Framing
- Ein Modell, bei dem alle Trainingsvideos quadratisch gecroppt wurden, erzeugt mitunter Videos, in denen das Motiv nur teilweise zu sehen ist
- Sora erzeugt Videos mit besserem Framing als ein Modell mit quadratischem Crop

Sprachverständnis und Caption-Verarbeitung

Um Text-zu-Video-Generierungssysteme zu trainieren, sind große Mengen an Videos mit zugehörigen Text-Captions erforderlich
OpenAI wendet die in DALL·E 3 eingeführte Recaptioning-Technik auf Videos an
Zunächst wird ein Modell trainiert, das sehr detaillierte Captions erstellt; anschließend werden damit Text-Captions für alle Trainingsvideos generiert
Das Training mit detaillierten Video-Captions verbessert die Texttreue und die gesamte Videoqualität
Ähnlich wie bei DALL·E 3 wird GPT verwendet, um kurze Nutzer-Prompts in lange, detaillierte Captions umzuwandeln, die dann an das Videomodell weitergegeben werden
Dieses Verfahren wird genutzt, damit Sora hochwertige Videos erzeugt, die Nutzer-Prompts genauer folgen

Erzeugung und Bearbeitung mit Bildern und Videos als Eingabe

Sora kann nicht nur Text, sondern auch vorhandene Bilder oder Videos als Prompts annehmen
Diese Funktion wird unter anderem für die Erzeugung perfekt wiederholbarer Videos, die Animation statischer Bilder und die zeitliche Erweiterung von Videos nach vorne oder hinten genutzt
Animation von DALL·E-Bildern
- Sora kann aus einem Bild und einem Prompt ein Video erzeugen
- Die Beispiele bestehen aus videobasierter Erzeugung auf Grundlage von DALL·E-2- und DALL·E-3-Bildern
Erweiterung generierter Videos
- Sora kann Videos zeitlich nach vorne oder hinten erweitern
- Drei Videos, die in einem Abschnitt des generierten Videos beginnen und in die spätere Zeit erweitert werden, haben unterschiedliche Startpunkte, führen aber zum gleichen Ende
- Mit derselben Methode können Videos nach vorne und hinten erweitert werden, um nahtlose Endlosschleifen zu erzeugen
Video-zu-Video-Bearbeitung und Übergänge
- SDEdit, eine Methode zur Bild- und Videobearbeitung auf Basis von Diffusionsmodellen, wird auf Sora angewendet
- Diese Technik ermöglicht es Sora, Stil und Umgebung eines Eingabevideos Zero-Shot zu transformieren
- Durch schrittweise Interpolation zwischen zwei Eingabevideos lassen sich auch zwischen Videos mit völlig unterschiedlichen Themen und Szenenkompositionen fließende Übergänge erzeugen

Fähigkeiten zur Bilderzeugung

Sora kann auch Bilder erzeugen
Bilder werden erzeugt, indem Gaussian noise-Patches in einem räumlichen Raster mit einer zeitlichen Länge von einem Frame platziert werden
Die erzeugbaren Bildgrößen sind variabel und reichen bis zu einer Auflösung von 2048x2048
Die Beispiel-Prompts umfassen ein herbstliches Porträt in Nahaufnahme, ein Korallenriff, digitale Kunst eines jungen Tigers unter einem Apfelbaum sowie ein verschneites Bergdorf mit Polarlichtern

Durch Skalierung entstehende Simulationsfähigkeiten

Großskalig trainierte Videomodelle zeigen emergente Fähigkeiten, bestimmte Aspekte von Menschen, Tieren und Umgebungen zu simulieren
Diese Eigenschaften werden als Phänomene behandelt, die durch Skalierung entstehen, ohne expliziten induktiven Bias für 3D oder Objekte
3D-Konsistenz
- Sora kann Videos mit dynamischen Kamerabewegungen erzeugen
- Wenn sich die Kamera bewegt oder rotiert, bewegen sich Menschen und Szenenelemente konsistent im dreidimensionalen Raum
Langfristige Konsistenz und Objektpersistenz
- Zeitliche Konsistenz in langen Video-Samples zu bewahren, ist eine wichtige Herausforderung für Videoerzeugungssysteme
- Sora modelliert nicht immer, aber mitunter effektiv Abhängigkeiten über kurze und lange Zeiträume
- Menschen, Tiere und Objekte bleiben in manchen Fällen bestehen, auch wenn sie verdeckt werden oder den Frame verlassen
- Innerhalb eines Samples kann Sora mehrere Shots derselben Figur erstellen und deren Aussehen über das gesamte Video hinweg beibehalten
Interaktion mit der Welt
- Sora simuliert gelegentlich auf einfache Weise Handlungen, die den Zustand der Welt beeinflussen
- Beispiele sind Pinselstriche, die ein Maler auf einer Leinwand hinterlässt und die über die Zeit erhalten bleiben, sowie eine Person, die einen Hamburger isst und Bissspuren hinterlässt
Simulation digitaler Welten
- Sora kann auch künstliche Prozesse wie Videospiele simulieren
- Im Minecraft-Beispiel kann es bei Steuerung des Spielers durch eine Basis-Policy die Welt und ihre Dynamik mit hoher Treue rendern
- Diese Fähigkeit lässt sich Zero-Shot allein durch einen Caption-Prompt hervorrufen, der „Minecraft“ erwähnt

Aktuelle Grenzen und Fazit

Sora hat als Simulator mehrere Grenzen
Die Physik vieler grundlegender Interaktionen, etwa zerbrechendes Glas, wird nicht korrekt modelliert
Auch bei Interaktionen wie dem Essen, bei denen sich der Zustand von Objekten korrekt ändern müsste, ist Sora nicht immer zuverlässig
Weitere Fehlbeispiele, bei denen in langen Samples die Konsistenz zusammenbricht oder Objekte plötzlich auftauchen, werden auf der Sora-Landingpage gezeigt
Die aktuellen Fähigkeiten deuten darauf hin, dass die fortgesetzte Skalierung von Videomodellen ein Weg zur Entwicklung leistungsfähiger Simulatoren für die physische und digitale Welt sowie für darin enthaltene Objekte, Tiere und Menschen sein könnte

1 Kommentare

GN⁺ 2024-02-17

Meinungen auf Hacker News

Ich glaube, viele übersehen, was diese Technologie möglich macht. Sie kann plausible Fortsetzungen von Videos mit realistischer Physik erzeugen, und wenn das schnell genug wird, um in Echtzeit zu funktionieren, verändert sich sehr viel.
Wenn man sie an einen Roboter mit Live-Kamerafeed anschließt und ihn fortlaufend mehrere mögliche zukünftige Szenen des eingehenden Bilds erzeugen lässt, entsteht ein autonomer Roboter, der ein Echtzeitmodell der Umgebung aufbaut und die Zukunft vorhersagt. Wenn man eine Fehlerkorrektur ergänzt, die darauf basiert, wie gut jede Vorhersage mit dem tatsächlichen Ergebnis übereinstimmt, könnte das meiner Ansicht nach wirklich in die Nähe von AGI kommen.
Die Ausgabe ließe sich mit Texterzeugung oder der Steuerung der eigenen Bewegung verbinden, und man kann sich auch vorstellen, dass das System die Folgen der ihm möglichen Handlungen vorhersagt und dann die beste Handlung auswählt. Für einen solchen Einsatz müssten die Bilder nicht perfekt realistisch, fehlerfrei oder hochauflösend sein. Man kann sich ja fragen, wie realistisch unsere eigene Vorstellung der Welt ist.
Ein Beispiel: Ein Haushaltsroboter sieht ein Bild des Wohnzimmers, erzeugt dann ein Bild des gereinigten Wohnzimmers, stellt sich durch Interpolation ein Video davon vor, wie er den Raum reinigt, handelt dann so gut wie möglich entsprechend diesem Video, erzeugt anschließend wieder eine fortlaufende Szene und handelt weiter. Falls nötig, könnte das mehrmals pro Sekunde wiederholt werden.
- Das geht eher in Richtung eines Agenten mit einem Weltmodell zur Planung. Es ist eigentlich kaum nötig, realistische Bilder zu erzeugen; das Weltmodell arbeitet in seiner eigenen komprimierten, abstrakten Repräsentation.
  Als Beispiel für so ein System ist V-Jepa interessant: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-jo...
- Theoretisch stimmt das, aber das Problem ist, dass wir theoretisch schon mehrmals AGI hatten. Q-Learning zum Beispiel funktioniert nach dem Prinzip, den Zustand eines beliebigen Spiels oder Systems in ein neuronales Netz zu geben, mögliche zukünftige Belohnungen vorhersagen zu lassen und die Genauigkeit dieser Vorhersage iterativ zu verbessern, bis man am Ende in jedem System zur optimalen Handlung gelangt.
  Wenn man Experimente mit Reinforcement Learning macht, ist die Erwartung „man schaltet es einfach ein, und es wird schon gut funktionieren und jede Menge geniale Lösungen finden“ immer reizvoll. In der Praxis kann das zwar passieren, meistens aber nicht. Oft sieht man Anzeichen von Lernen, aber keine spektakulären Ergebnisse.
  Der Grund, warum ich weiter darauf achte, ob in Videospielen wie Civilization eine starke KI auftaucht, ist, dass ich sehen möchte, ob sie Probleme in komplexen Systemen lösen kann und zugleich realistisch genug ist, dass Spieleentwickler sie praktisch implementieren können. Ein Expertenteam könnte Civilization sicher als Forschungsprojekt lösen, aber das wäre weit von Praxistauglichkeit entfernt. Bevor eine In-Game-KI den besten Zug vorhersagt, frage ich mich, ob ein Videomodell schon allein durch das Zeigen von Videos menschlicher Civilization-Partien den besten Zug vorhersagen könnte.
- Interessant ist, dass es so viele Videodaten gibt, dass wir nun Modelle haben, die die Zukunft im 2D-Pixelraum projizieren können.
  Das Endziel der Robotik ist in Wirklichkeit, die Zukunft im 3D-Weltraum zu projizieren, und je nachdem, wie komplex das 3D-Weltmodell ist, könnte ein funktionsfähiges 3D-Projektionsmodell deutlich kleiner sein.
  Nur existieren die entsprechenden Daten im Internet eben nicht annähernd so leicht zugänglich.
- Wie andere Antworten schon sagen, berührt das die Idee der zielgerichteten KI, die Yann LeCun in [1] vorgestellt hat. In dem Paper wird dieser Begriff nicht verwendet, aber LeCun hat sie in Vorträgen und Folien so genannt und zugleich gesagt, dass so etwas nicht mit generativen Modellen erreicht werden werde.
  Wenn man länger im KI-Bereich unterwegs ist, sieht man immer wieder Durchbrüche, von denen es heißt, sie würden zu AGI führen: von DeepBlue über Convolutional Neural Networks und Deep Reinforcement Learning bis zu den heutigen großen Sprachmodellen. Vielleicht waren es jedes Mal nicht die Durchbrüche, für die man sie hielt, oder AGI braucht sehr viel mehr als einen einzelnen ingenieurtechnischen Durchbruch.
  Wenn man glaubt, dass diese Idee funktionieren kann, kann man sie in einer einfachen Umgebung selbst ausprobieren. Man könnte eine kleine Grid-World oder eine Vereinfachung eines textbasierten Spiels wie Nethack [2] bauen, sie im Reagenzglas implementieren und sehen, wie gut sie funktioniert. Daraus ließe sich vermutlich auch ein Paper machen.
  [1] https://openreview.net/pdf?id=BZ5a1r-kVsf
  [2] Es ist besser, nicht direkt mit Nethack selbst anzufangen. Für eine „KI“ ist es zu schwierig.
- Systeme wie Sora sind eindeutig notwendig, reichen für sich allein aber nicht aus. In Kombination mit einem multimodalen Modell, das wirklich schlussfolgern kann, könnten sie AGI näherkommen, genauer gesagt ASI.
  Denn sie hätten Vorteile wie eine längere Kontextlänge als Menschen, zusätzliche Sinnesmodalitäten wie Infrarot- oder Elektrosinn, deutlich breitere Expertise und enorme Bandbreite.
  Ich sehe es so: ein zukünftiges Nachfolgemodell von Sora + ein wahrscheinliches Nachfolgemodell von GPT-4 = ASI.
  Ein anderer Kommentar, den ich dazu geschrieben habe: https://news.ycombinator.com/item?id=39391971
Mir gefällt, dass diese Seite nicht nur die besten Ergebnisse zeigt, sondern auch einige Fehlbeispiele.
Zum Beispiel surft der Surfer am Ende in der Luft: https://cdn.openai.com/tmp/s/prompting_7.mp4
Es gibt auch eine Szene, in der Glas, das eigentlich zerbrechen müsste, nicht zerbricht und nur Flüssigkeit auf seltsame Weise herausläuft: https://cdn.openai.com/tmp/s/discussion_0.mp4
Auch die Art, wie diese Person läuft, ist merkwürdig: https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-a...
Bei dieser Karte weiß ich auch nicht, woher sie kommt: https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls...
- Auch in einigen der Vorzeigevideos sieht man Fehler bei Perspektive und Parallaxe. Menschliche Motive sind im Vergleich zu den Personen im Hintergrund manchmal viel zu groß oder stehen auf einer nicht passenden horizontalen Ebene. Tatsächlich macht das ein wenig schwindelig, ist aber trotzdem sehr beeindruckend.
- In der Kartenszene räumt etwa bei Sekunde 6 eine dritte Hand die Karte weg.
- In der Szene mit der „Art, wie diese Person läuft“ ist auch seltsam, warum unterhalb der Taille ein Regenschirm herausragt.
Der Abschnitt „Interaktionen wie das Essen von Nahrung erzeugen nicht immer die korrekten Zustandsänderungen der Objekte“ lässt vermuten, dass sie deshalb wohl nicht die Szene mit Will Smith gezeigt haben, der Spaghetti isst.
Der Satz „Die Skalierung von Videomodellen ist ein vielversprechender Weg zur Entwicklung leistungsfähiger Simulatoren der physischen und digitalen Welt“ ist für die Robotik interessant, aber ein naheliegenderer Anwendungsfall könnte das Füllen von Lücken in Gaussian-Splatting-Szenen sein.
Um einen 3D-Walkthrough eines Raums zu erstellen, braucht man Hunderte bis Tausende Fotos, die möglichst alle Winkel nahtlos abdecken, und trotzdem bleiben Lücken. Mit einem Modell auf diesem Niveau ließen sich verdeckte Kanten, Nahdetails und Bereiche, die bei Standardrekonstruktionen als Löcher oder Unschärfen übrig bleiben würden, plausibel rekonstruieren.
Vielleicht könnte man schon mit 5 bis 10 Fotos eines Ortes eine glatte, realistische 3D-Szene erhalten, die aus jedem Winkel erkundbar ist, und auch Menschen oder unerwünschte Objekte aus der Szene entfernen. Eine solche extrapolierte Rekonstruktion würde zwar nicht in jedem Detail vollständig mit der Realität übereinstimmen, würde aber dennoch viele Anwendungen ermöglichen.
- So etwas sollte man eher künstlerische Vorstellung nennen als „Rekonstruktion“. Für Situationen, in denen exakte Details nicht wichtig sind, ist das gut; wenn Details aber nicht wichtig sind, kann auch Unschärfe ausreichen.
AlphaGo und AlphaZero erzielten übermenschliche Leistung, weil es einen perfekten Simulator für Go gab. Für die reale Welt, in der wir leben, gibt es keinen solchen Simulator. Reine Large Language Models lernen zwar bis zu einem gewissen Grad eine grobe, abstrakte Repräsentation der von Menschen wahrgenommenen Welt, aber Sora ist ein Versuch, mit Deep Learning einen solchen Simulator zu bauen.
Der entscheidende Satz lautet: „Unsere Ergebnisse deuten darauf hin, dass die Skalierung von Videogenerierungsmodellen ein vielversprechender Weg zur Entwicklung universeller Simulatoren der physischen Welt ist.“
Wenn solche Simulatoren gut genug werden, könnte man auf Softwareseite allgemeine und übermenschliche Robotikfähigkeiten erhalten. Ob dieser Ansatz tatsächlich machbar ist, ist noch nicht sicher.
Warum übermenschlich? Eine Kontextlänge, die länger ist als unser Arbeitsgedächtnis, ist ein klarer Vorteil, und auch die Fähigkeit, alternative Sinnesmodalitäten oder Details, die den meisten Menschen nicht vertraut sind, dichter zu simulieren, könnte ein Vorteil sein.
- Wirklich spannend ist, dass das meiner Intuition widerspricht. Ich hätte gedacht, es sei viel einfacher, Kamerastreams aus der Realität zu analysieren, das Gesehene wie in einem Videospiel in eine Polygonrepräsentation zu überführen und die KI dann auf dieser Geometrie Entscheidungen treffen zu lassen.
  Stattdessen geht die Entwicklung bei KI dahin, Zwischenschritte zu überspringen und direkt auf Pixeldaten zu arbeiten. Man setzt darauf, dass ein Verständnis von 3D-Geometrie, Perspektive und Physik aus den Trainingsdaten von selbst entsteht.
- Einen perfekten Simulator der realen Welt gibt es bereits: Man muss sie nur mit einer Kamera aufzeichnen. Wenn die Forscher noch ein wenig Zeit haben, um die Richtung festzulegen und Methoden zu finden, mit denen um einen einstelligen Faktor schneller gelernt wird, werden sie dort ankommen.
Ich meine, Yann LeCun hat mehrfach gesagt, dass Video besser für das Training großer Modelle sei, weil Video eine höhere Informationsdichte hat.
Die Ergebnisse sind wirklich beeindruckend. Dass man solche hochwertigen Videos erzeugen und die Vergangenheit und Zukunft eines Videos erweitern kann, zeigt, wie sehr das Modell die reale Welt, Objektinteraktionen, 3D-Kompositionen usw. „versteht“.
Auch Bildgenerierung muss schon viel über die Welt wissen, aber bei Videogenerierung sehe ich eine deutlich größere Lücke, weil das Modell 3D, Objektbewegungen und Interaktionen verstehen muss.
Es fühlt sich verrückt an, dass die Szene, in der jemand ein Bild malt, komplett generiert ist.
Ich würde es gern selbst ausprobieren, kann mir aber nicht vorstellen, wie teuer das sein wird. Es wird in voller Auflösung trainiert und kann Videos von bis zu einer Minute Länge erzeugen.
Weil Videogenerierung bisher so schlecht war, dachte ich, bis zu diesem Niveau würden noch Jahre vergehen. Aber es wirkt wieder einmal wie ein Beispiel dafür, dass man einfach mehr Daten und Rechenleistung hinzufügen muss. Transformer scheinen erneut zu beweisen, dass sie alles lernen und gut darin werden können.
Der Hauptartikel bekommt schon viele Reaktionen, aber diese Seite ist wirklich überwältigend. Die Ergebnisse sind eindrucksvoll.
Die Robotikbeispiele sind ziemlich enttäuschend, aber Menschen und Hintergrundfiguren sind größtenteils sehr gut gemacht und deutlich besser als die meisten statischen Bild-Diffusionsmodelle. Dass eine Person während der Interaktion mit Objekten dieselbe Person bleibt, hätte ich bei solchen Modellen nicht so schnell erwartet.
Es ist erstaunlich, dass dieses Modell auch ohne explizites 3D-Vorwissen derart 3D-konsistente Videos erzeugt. So sehr, dass man aus dem Video direkt eine NeRF-ähnliche 3D-Repräsentation trainieren kann: https://twitter.com/BenMildenhall/status/1758224827788468722
- Ähnlich erstaunlich war auch eine Arbeit, die Stable Diffusion so abwandelt, dass aus einem bestehenden Bild eine HDR-sphärische Environment Map entsteht: https://diffusionlight.github.io/
  Noch erstaunlicher ist, dass man das Modell in der Bildmitte eine Chromkugel inpainten lässt, sodass sie per Reflexion erzeugt, was sich hinter der Kamera befindet. Das Modell interpretiert den Kontext und imaginiert etwas, das plausibel in die gesamte Umgebung passen könnte
- Bei genauerem Hinsehen stimmt das nicht. In den Beispielen gibt es sehr viele Inkonsistenzen. Wenn sich die Kamera dreht, ist die Perspektive völlig falsch, die Perspektive der Fenster ändert sich, und die Patio wird plötzlich tiefer oder flacher. Wenn sich die Kamera bewegt, tauchen Schatten auf und verschwinden wieder
  In anderen Beispielen erscheinen oder verschwinden Wege, Objekte und Menschen plötzlich, Steine verwandeln sich in Menschen, und ein Pferd bekommt plötzlich einen zweiten Kopf und wird dann zu einem separaten Pferd mit nur zwei Beinen
  Auf den ersten Blick ist es beeindruckend, aber wenn man genauer hinsieht, ist es eher traumartig als realistisch. Es ist eher ein Von-Bild-zu-Bild-Assoziieren, ohne langfristige zeitliche, räumliche oder kausale Konsistenz. Viel beeindruckender als Google DeepDream von vor 10 Jahren ist es schwerlich
- Ich frage mich, ob sich irgendeine Variante des Modells dazu bringen ließe, statt Bildern direkt 3D-Meshes und Kameraanimationen auszugeben
- Bei 2D-Diffusionsmodellen ist es genauso[1]. Wegen Dingen wie Beleuchtung, Schatten und Objektverdeckungen scheinen sie verstehen zu müssen, wie 3D funktioniert
  [1] https://dreamfusion3d.github.io/
- Ich frage mich, wie viel besser es würde, wenn man mit Stereo-Bilddaten trainiert
Eine interessante Idee. So wie große Sprachmodelle zwar einfache „Textprädiktoren“ sind, aber ein Modell von Sprache und Welt lernen müssen, um kohärenten Text korrekt vorherzusagen, ist es naheliegend, dass auch Videoprädiktoren ein sinnvolles Weltmodell lernen müssen
Ich frage mich, um wie viele Größenordnungen sie sich noch weiterentwickeln müssen, bevor sie ähnlich nützlich werden
Wenn solche Funktionen zugelassen werden, könnten sie – vermutlich in Premium- oder höherwertigen Modellen – bald die gesamte Pornoindustrie zu Fall bringen. Nicht die Websites, sondern die Seite der Sexarbeiter, die oft ausgebeutet werden
Jeder könnte seine Vorlieben beschreiben und sie sofort visualisieren, ohne dass echte Menschen leiden müssen, um solche Videos zu produzieren. Mir ist klar, dass das besonders in den USA ein heikles Thema ist, über das man ungern spricht, aber der Markt ist riesig und bei richtiger Umsetzung könnte es der Menschheit helfen
- Auf einen Pornodarsteller kommen Tausende Pornokonsumenten mit beschädigten Belohnungsschaltkreisen; unter den Darstellern werden einige missbraucht, viele werden aber ziemlich gut bezahlt
  Endlose süchtig machende Reize zu erzeugen, ist so ziemlich das Gegenteil davon, der Menschheit zu helfen
  Wenn man in diesem Bereich etwas Gutes tun will, sollte man lieber erforschen, wie man den Konsum einschränken kann

Video-Generierungsmodelle als Weltsimulatoren

Welche Probleme Sora adressiert und Umfang des Berichts

Visuelle Daten durch Patches vereinheitlichen

Videokompression und raumzeitliche latente Patches

Diffusion Transformer für die Videoerzeugung skalieren

Vorteile des Trainings in Originalgröße

Flexibilität beim Sampling

Besseres Framing und bessere Komposition

Sprachverständnis und Caption-Verarbeitung

Erzeugung und Bearbeitung mit Bildern und Videos als Eingabe

Animation von DALL·E-Bildern

Erweiterung generierter Videos

Video-zu-Video-Bearbeitung und Übergänge

Fähigkeiten zur Bilderzeugung

Durch Skalierung entstehende Simulationsfähigkeiten

3D-Konsistenz

Langfristige Konsistenz und Objektpersistenz

Interaktion mit der Welt

Simulation digitaler Welten

Aktuelle Grenzen und Fazit

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News