Wie das Sora-Modell von OpenAI funktioniert

xguru · 2024-03-22T09:46:01+09:00

Sora basiert auf Diffusion Transformers (DiT) und Latent Diffusion; dabei werden sowohl das Modell als auch der Trainingsdatensatz massiv skaliert Sora zeigt, dass es sich lohnt, Videomodelle zu skalieren, und dass zusätzliche Skalierung ähnlich wie bei Large Language Models (LLMs) ein zentraler Treiber für schnelle Modellverbesserungen sein wird Unternehmen wie Runway, Genmo und Pika bauen intuitive Interfaces und Workflows für Videogenerierungsmodelle wie Sora auf Für das Training von Sora ist schätzungsweise eine enorme Menge an Rechenleistung nötig: 4.200 bis 10.500 Nvidia-H100-GPUs über einen Monat hinweg Für die Inferenz wird geschätzt, dass Sora pro Nvidia-H100-GPU und Stunde bis zu etwa 5 Minuten Video erzeugen kann. Im Vergleich zu LLMs ist die Inferenz bei diffusionsbasierten Modellen wie Sora um ein Mehrfaches teurer Mit der breiten Bereitstellung von Modellen wie Sora wird Inferenz-Compute den Trainings-Compute dominieren; der „Break-even“ wird bei 15,3 bis 38,1 Millionen Minuten generiertem Video geschätzt, ab diesem Punkt wird mehr Rechenleistung für die Inferenz als für das ursprüngliche Training benötigt. Zum Vergleich: Pro Tag werden 17 Millionen Minuten (TikTok) und 43 Millionen Minuten (YouTube) Video hochgeladen Unter Berücksichtigung des Anteils von KI-generierten Videos auf TikTok und YouTube wird die maximale Nachfrage nach Nvidia-H100-GPUs für Inferenz auf etwa 720.000 Stück geschätzt Hintergrund Sora gehört zur Klasse der Diffusionsmodelle. Diffusionsmodelle sind eine beliebte Wahl für die Bildgenerierung; bekannte Modelle sind etwa OpenAIs DALL-E oder Stability AIs Stable Diffusion. In jüngerer Zeit erforschen Unternehmen wie Runway, Genmo und Pika die Videogenerierung, wobei sie sehr wahrscheinlich ebenfalls Diffusionsmodelle nutzen. Diffusionsmodelle sind eine Art generativer Machine-Learning-Modelle, die lernen, Daten wie Bilder oder Videos zu erzeugen, indem sie den Prozess des Hinzufügens von zufälligem Rauschen zu Daten schrittweise umkehren. Diese Modelle beginnen mit einem reinen Rauschmuster und entfernen dieses Rauschen nach und nach, wobei sie Muster verfeinern und in verständliche, detaillierte Ausgaben umwandeln. Technische Details von Sora OpenAI hat zusammen mit der Ankündigung von Sora einen technischen Bericht veröffentlicht. Dieser Bericht enthält nur wenige Details, aber sein Design scheint stark von der Forschungsarbeit „Scalable Diffusion Models with Transformers“ beeinflusst zu sein Die Autoren dieser Arbeit schlugen DiT vor, eine Transformer-basierte Architektur für die Bildgenerierung; DiT steht für Diffusion Transformers Sora scheint diese Arbeit auf die Videogenerierung auszuweiten. Durch die Kombination des technischen Berichts zu Sora mit dem DiT-Paper lässt sich ein recht genaues Bild davon gewinnen, wie das Sora-Modell funktioniert Sora hat drei wichtige Bestandteile: Es arbeitet nicht im Pixelraum, sondern führt Diffusion stattdessen im latenten Raum aus (das wird als Latent Diffusion bezeichnet) Es verwendet eine Transformer-Architektur Es scheint einen sehr großen Datensatz zu verwenden Latent Diffusion Um den ersten Punkt, Latent Diffusion, zu verstehen, kann man die Bildgenerierung betrachten Man könnte jedes Pixel per Diffusion erzeugen, aber das wäre sehr ineffizient (ein 512x512-Bild hat zum Beispiel 262.144 Pixel) Stattdessen kann man Pixel auf eine latente Repräsentation mit einem gewissen Kompressionsfaktor abbilden, dann die Diffusion in diesem kompakteren latenten Raum durchführen und anschließend wieder vom latenten Raum in den Pixelraum dekodieren Dieses Mapping verbessert die Rechenkomplexität erheblich: Statt den Diffusionsprozess für 512x512 = 262.144 Pixel auszuführen, muss man beispielsweise nur 64x64 = 4.096 Latents erzeugen Diese Idee war der zentrale Durchbruch der Forschungsarbeit „High-Resolution Image Synthesis with Latent Diffusion Models“ und bildet die Grundlage von Stable Diffusion. Ein Beispiel für das Mapping von Pixeln auf latente Repräsentationen ist ein Bild aus dem technischen Bericht zu Sora. Sowohl DiT als auch Sora nutzen diesen Ansatz. Im Fall von Sora kommt bei Videos noch eine zusätzliche Überlegung hinzu: Videos haben eine zeitliche Dimension; sie bestehen aus Frames als zeitlicher Abfolge von Bildern Im technischen Bericht zu Sora scheint die Kodierungsphase, die Pixel in den latenten Raum abbildet, sowohl räumlich (also die Komprimierung von Breite und Höhe jedes Frames) als auch zeitlich (also die Komprimierung über die Zeit hinweg) zu erfolgen Transformer Der zweite Punkt ist, dass sowohl DiT als auch Sora statt der häufig verwendeten U-Net-Architektur eine Vanilla-Transformer-Architektur einsetzen Das ist wichtig, weil die Autoren des DiT-Papers beobachteten, dass der Einsatz von Transformern zu vorhersehbarer Skalierung führt, was bedeutet, dass die Leistung steigt, wenn mehr Trainings-Compute eingesetzt wird (durch längeres Training, größere Modelle oder beides) Dieses Skalierungsverhalten ist eine wichtige Eigenschaft, die durch sogenannte Skalierungsgesetze quantifiziert werden kann und zuvor im Kontext von Large Language Models (LLMs) und autoregressiven Modellen in anderen Modalitäten untersucht wurde Die Fähigkeit, durch Skalierung bessere Modelle zu erhalten, war einer der wichtigsten Treiber des schnellen Fortschritts bei LLMs Da dieselbe Eigenschaft offenbar auch bei der Bild- und Videogenerierung existiert, kann man erwarten, dass hier ebenfalls dieselbe Skalierungsformel funktioniert Datensatz Der letzte zentrale Baustein für das Training eines Modells sind gelabelte Daten, und genau sie gelten als die wichtigste geheime Zutat beim Training von Modellen wie Sora Um ein Text-zu-Video-Modell wie Sora zu trainieren, benötigt man Paare aus Videos und zugehörigen Textbeschreibungen OpenAI sagt nicht viel über den eigenen Datensatz, deutet aber an, dass er sehr groß ist: „We were inspired by large language models, which acquire general-purpose capabilities from training on internet-scale data.“ OpenAI hat außerdem offengelegt, wie detaillierte Textlabels an Bilder angehängt werden; das wurde beim Aufbau des DALL-E-3-Datensatzes verwendet Die allgemeine Idee ist, ein Captioner-Modell auf einem gelabelten Teil des Datensatzes zu trainieren und dieses Captioner-Modell dann zu verwenden, um den Rest automatisch zu labeln Es scheint, dass dieselbe Technik auch auf den Datensatz von Sora angewendet wurde Auswirkungen Es wird angenommen, dass Sora einige wichtige Auswirkungen haben wird. Im Folgenden ein kurzer Blick auf diese Effekte Beginn der praktischen Nutzbarkeit von Videomodellen Die Qualität der von Sora erzeugten Videos ist ein klarer Durchbruch, nicht nur beim Detailgrad, sondern auch bei der zeitlichen Konsistenz (zum Beispiel bei der korrekten Behandlung der Objektpermanenz, wenn Objekte vorübergehend verdeckt sind, oder bei der präzisen Erzeugung von Spiegelungen im Wasser) Es wird angenommen, dass die Videoqualität nun für bestimmte Arten von Szenen hoch genug ist, um in realen Anwendungen eingesetzt zu werden Zum Beispiel könnte Sora schon bald einen Teil des Einsatzes von Stock-Video-Footage ersetzen Dennoch bleiben Herausforderungen bestehen: Es ist derzeit nicht klar, wie gut sich das aktuelle Sora-Modell steuern lässt Da das Modell Pixel ausgibt, ist die Bearbeitung generierter Videos schwierig und zeitaufwendig Außerdem müssen intuitive Benutzeroberflächen (UI) und Workflows aufgebaut werden, um diese Modelle wirklich nützlich zu machen Unternehmen wie Runway, Genmo und Pika arbeiten bereits an diesen Problemen Erwartung schneller Fortschritte bei Videomodellen Eine der zentralen Erkenntnisse des DiT-Papers war, dass sich die Modellqualität direkt durch zusätzlichen Compute verbessert, wie oben diskutiert Das ist vergleichbar mit den bei LLMs beobachteten Skalierungsgesetzen Daher ist zu erwarten, dass die Qualität von Videogenerierungsmodellen schnell weiter steigen wird, je mehr Compute für ihr Training eingesetzt wird Sora zeigt klar, dass dieses Rezept tatsächlich funktioniert, und es ist zu erwarten, dass OpenAI und andere Unternehmen sich noch stärker in diese Richtung bewegen werden Erzeugung synthetischer Daten und Data Augmentation In Bereichen wie Robotik und autonomen Fahrzeugen sind Daten von Natur aus knapp: Im Internet gibt es nicht in großem Umfang Videos von Robotern bei der Arbeit oder von fahrenden Fahrzeugen. Üblicherweise wurde dieses Problem dadurch angegangen, entweder in Simulationen zu trainieren oder Daten in großem Maßstab in der realen Welt zu sammeln (oder durch eine Kombination aus beidem) Beide Ansätze haben jedoch das Problem, dass Simulationsdaten oft unrealistisch sind Das Sammeln realer Daten in großem Maßstab ist teuer, und es ist schwierig, genügend Daten zu seltenen Ereignissen zu erfassen Modelle wie Sora könnten hier sehr nützlich sein. Es wird angenommen, dass sie direkt zur Erzeugung vollständig synthetischer Daten verwendet werden können Sora könnte auch für Data Augmentation verwendet werden, indem bestehende Videos in ein anderes Erscheinungsbild transformiert werden Der oben beschriebene zweite Punkt zeigt, wie Sora ein Video eines roten Autos auf einem Waldweg in eine dichte Dschungellandschaft umwandelt Mit derselben Technik ließen sich Szenen etwa von Tag zu Nacht neu rendern oder Wetterbedingungen verändern Simulation und World Models Das Lernen sogenannter World Models ist eine vielversprechende Forschungsrichtung Wenn sie hinreichend genau sind, könnten solche World Models genutzt werden, um Agents direkt in ihnen zu trainieren oder sie für Planung und Exploration einzusetzen. Modelle wie Sora scheinen aus Videodaten direkt implizit eine grundlegende Simulation davon zu lernen, wie die reale Welt funktioniert Diese „emergente Simulation“ ist derzeit noch fehlerhaft, aber dennoch spannend: Sie deutet darauf hin, dass sich solche World Models möglicherweise in großem Maßstab aus Videos trainieren lassen Darüber hinaus scheint Sora in der Lage zu sein, sehr komplexe Szenen zu simulieren, etwa Flüssigkeiten, Lichtreflexionen sowie Bewegungen von Stoffen und Haaren. OpenAI macht deutlich, dass dies als einer der wichtigsten Aspekte des Modells angesehen wird, indem der technische Bericht den Titel „Video generation models as world simulators“ trägt. Erst vor Kurzem demonstrierte DeepMind mit dem Genie-Modell einen ähnlichen Effekt, indem es nur mit Videos von Videospielen trainierte: Das Modell lernte, diese Spiele zu simulieren (und neue zu erschaffen) In diesem Fall lernte das Modell, auf Aktionen zu konditionieren, ohne sie direkt beobachtet zu haben Anders gesagt: Das Ziel ist, Lernen direkt in diesen Simulationen zu ermöglichen. Nimmt man beides zusammen, dann könnten Modelle wie Sora und Genie sehr nützlich dafür werden, verkörperte Agents in großem Maßstab für Aufgaben in der realen Welt zu trainieren, etwa in der Robotik Es gibt jedoch Grenzen: Da diese Modelle im Pixelraum trainiert werden, modellieren sie zwangsläufig auch alle Details, etwa wie Wind Grashalme bewegt, selbst wenn das für die auszuführende Aufgabe völlig irrelevant ist Der latente Raum ist zwar komprimiert, muss aber weiterhin in Pixel zurückübersetzbar sein und daher viele Informationen behalten; deshalb ist unklar, ob sich Planung in diesem latenten Raum effizient durchführen lässt Rechenschätzungen (Compute Estimates) Bei Factorial Funds betrachtet man gern den Compute-Aufwand für Training und Inferenz. Das ist nützlich, weil es Hinweise auf den künftig benötigten Compute liefern kann Da es jedoch kaum Details zur Modellgröße und zum Datensatz gibt, die beim Training von Sora verwendet wurden, ist auch die Schätzung dieser Zahlen schwierig Die Schätzungen in diesem Abschnitt sind daher mit großer Unsicherheit behaftet und sollten entsprechend betrachtet werden (Da es sich nur um Schätzungen handelt, wird dieser Teil ausgelassen)

(factorialfunds.com)

18 Punkte von xguru 2024-03-22 | 3 Kommentare | Auf WhatsApp teilen

Sora basiert auf Diffusion Transformers (DiT) und Latent Diffusion; dabei werden sowohl das Modell als auch der Trainingsdatensatz massiv skaliert
Sora zeigt, dass es sich lohnt, Videomodelle zu skalieren, und dass zusätzliche Skalierung ähnlich wie bei Large Language Models (LLMs) ein zentraler Treiber für schnelle Modellverbesserungen sein wird
Unternehmen wie Runway, Genmo und Pika bauen intuitive Interfaces und Workflows für Videogenerierungsmodelle wie Sora auf
Für das Training von Sora ist schätzungsweise eine enorme Menge an Rechenleistung nötig: 4.200 bis 10.500 Nvidia-H100-GPUs über einen Monat hinweg
Für die Inferenz wird geschätzt, dass Sora pro Nvidia-H100-GPU und Stunde bis zu etwa 5 Minuten Video erzeugen kann. Im Vergleich zu LLMs ist die Inferenz bei diffusionsbasierten Modellen wie Sora um ein Mehrfaches teurer
Mit der breiten Bereitstellung von Modellen wie Sora wird Inferenz-Compute den Trainings-Compute dominieren; der „Break-even“ wird bei 15,3 bis 38,1 Millionen Minuten generiertem Video geschätzt, ab diesem Punkt wird mehr Rechenleistung für die Inferenz als für das ursprüngliche Training benötigt. Zum Vergleich: Pro Tag werden 17 Millionen Minuten (TikTok) und 43 Millionen Minuten (YouTube) Video hochgeladen
Unter Berücksichtigung des Anteils von KI-generierten Videos auf TikTok und YouTube wird die maximale Nachfrage nach Nvidia-H100-GPUs für Inferenz auf etwa 720.000 Stück geschätzt

Hintergrund

Sora gehört zur Klasse der Diffusionsmodelle. Diffusionsmodelle sind eine beliebte Wahl für die Bildgenerierung; bekannte Modelle sind etwa OpenAIs DALL-E oder Stability AIs Stable Diffusion. In jüngerer Zeit erforschen Unternehmen wie Runway, Genmo und Pika die Videogenerierung, wobei sie sehr wahrscheinlich ebenfalls Diffusionsmodelle nutzen.
Diffusionsmodelle sind eine Art generativer Machine-Learning-Modelle, die lernen, Daten wie Bilder oder Videos zu erzeugen, indem sie den Prozess des Hinzufügens von zufälligem Rauschen zu Daten schrittweise umkehren. Diese Modelle beginnen mit einem reinen Rauschmuster und entfernen dieses Rauschen nach und nach, wobei sie Muster verfeinern und in verständliche, detaillierte Ausgaben umwandeln.

Technische Details von Sora

OpenAI hat zusammen mit der Ankündigung von Sora einen technischen Bericht veröffentlicht. Dieser Bericht enthält nur wenige Details, aber sein Design scheint stark von der Forschungsarbeit „Scalable Diffusion Models with Transformers“ beeinflusst zu sein
Die Autoren dieser Arbeit schlugen DiT vor, eine Transformer-basierte Architektur für die Bildgenerierung; DiT steht für Diffusion Transformers
Sora scheint diese Arbeit auf die Videogenerierung auszuweiten. Durch die Kombination des technischen Berichts zu Sora mit dem DiT-Paper lässt sich ein recht genaues Bild davon gewinnen, wie das Sora-Modell funktioniert
Sora hat drei wichtige Bestandteile:
- Es arbeitet nicht im Pixelraum, sondern führt Diffusion stattdessen im latenten Raum aus (das wird als Latent Diffusion bezeichnet)
- Es verwendet eine Transformer-Architektur
- Es scheint einen sehr großen Datensatz zu verwenden
Latent Diffusion
- Um den ersten Punkt, Latent Diffusion, zu verstehen, kann man die Bildgenerierung betrachten
  - Man könnte jedes Pixel per Diffusion erzeugen, aber das wäre sehr ineffizient (ein 512x512-Bild hat zum Beispiel 262.144 Pixel)
  - Stattdessen kann man Pixel auf eine latente Repräsentation mit einem gewissen Kompressionsfaktor abbilden, dann die Diffusion in diesem kompakteren latenten Raum durchführen und anschließend wieder vom latenten Raum in den Pixelraum dekodieren
  - Dieses Mapping verbessert die Rechenkomplexität erheblich: Statt den Diffusionsprozess für 512x512 = 262.144 Pixel auszuführen, muss man beispielsweise nur 64x64 = 4.096 Latents erzeugen
  - Diese Idee war der zentrale Durchbruch der Forschungsarbeit „High-Resolution Image Synthesis with Latent Diffusion Models“ und bildet die Grundlage von Stable Diffusion.
- Ein Beispiel für das Mapping von Pixeln auf latente Repräsentationen ist ein Bild aus dem technischen Bericht zu Sora.
- Sowohl DiT als auch Sora nutzen diesen Ansatz. Im Fall von Sora kommt bei Videos noch eine zusätzliche Überlegung hinzu: Videos haben eine zeitliche Dimension; sie bestehen aus Frames als zeitlicher Abfolge von Bildern
- Im technischen Bericht zu Sora scheint die Kodierungsphase, die Pixel in den latenten Raum abbildet, sowohl räumlich (also die Komprimierung von Breite und Höhe jedes Frames) als auch zeitlich (also die Komprimierung über die Zeit hinweg) zu erfolgen
Transformer
- Der zweite Punkt ist, dass sowohl DiT als auch Sora statt der häufig verwendeten U-Net-Architektur eine Vanilla-Transformer-Architektur einsetzen
- Das ist wichtig, weil die Autoren des DiT-Papers beobachteten, dass der Einsatz von Transformern zu vorhersehbarer Skalierung führt, was bedeutet, dass die Leistung steigt, wenn mehr Trainings-Compute eingesetzt wird (durch längeres Training, größere Modelle oder beides)
- Dieses Skalierungsverhalten ist eine wichtige Eigenschaft, die durch sogenannte Skalierungsgesetze quantifiziert werden kann und zuvor im Kontext von Large Language Models (LLMs) und autoregressiven Modellen in anderen Modalitäten untersucht wurde
- Die Fähigkeit, durch Skalierung bessere Modelle zu erhalten, war einer der wichtigsten Treiber des schnellen Fortschritts bei LLMs
- Da dieselbe Eigenschaft offenbar auch bei der Bild- und Videogenerierung existiert, kann man erwarten, dass hier ebenfalls dieselbe Skalierungsformel funktioniert
Datensatz
- Der letzte zentrale Baustein für das Training eines Modells sind gelabelte Daten, und genau sie gelten als die wichtigste geheime Zutat beim Training von Modellen wie Sora
- Um ein Text-zu-Video-Modell wie Sora zu trainieren, benötigt man Paare aus Videos und zugehörigen Textbeschreibungen
- OpenAI sagt nicht viel über den eigenen Datensatz, deutet aber an, dass er sehr groß ist: „We were inspired by large language models, which acquire general-purpose capabilities from training on internet-scale data.“
- OpenAI hat außerdem offengelegt, wie detaillierte Textlabels an Bilder angehängt werden; das wurde beim Aufbau des DALL-E-3-Datensatzes verwendet
- Die allgemeine Idee ist, ein Captioner-Modell auf einem gelabelten Teil des Datensatzes zu trainieren und dieses Captioner-Modell dann zu verwenden, um den Rest automatisch zu labeln
- Es scheint, dass dieselbe Technik auch auf den Datensatz von Sora angewendet wurde

Auswirkungen

Es wird angenommen, dass Sora einige wichtige Auswirkungen haben wird. Im Folgenden ein kurzer Blick auf diese Effekte
Beginn der praktischen Nutzbarkeit von Videomodellen
- Die Qualität der von Sora erzeugten Videos ist ein klarer Durchbruch, nicht nur beim Detailgrad, sondern auch bei der zeitlichen Konsistenz (zum Beispiel bei der korrekten Behandlung der Objektpermanenz, wenn Objekte vorübergehend verdeckt sind, oder bei der präzisen Erzeugung von Spiegelungen im Wasser)
- Es wird angenommen, dass die Videoqualität nun für bestimmte Arten von Szenen hoch genug ist, um in realen Anwendungen eingesetzt zu werden
- Zum Beispiel könnte Sora schon bald einen Teil des Einsatzes von Stock-Video-Footage ersetzen
- Dennoch bleiben Herausforderungen bestehen:
  - Es ist derzeit nicht klar, wie gut sich das aktuelle Sora-Modell steuern lässt
  - Da das Modell Pixel ausgibt, ist die Bearbeitung generierter Videos schwierig und zeitaufwendig
  - Außerdem müssen intuitive Benutzeroberflächen (UI) und Workflows aufgebaut werden, um diese Modelle wirklich nützlich zu machen
  - Unternehmen wie Runway, Genmo und Pika arbeiten bereits an diesen Problemen
Erwartung schneller Fortschritte bei Videomodellen
- Eine der zentralen Erkenntnisse des DiT-Papers war, dass sich die Modellqualität direkt durch zusätzlichen Compute verbessert, wie oben diskutiert
- Das ist vergleichbar mit den bei LLMs beobachteten Skalierungsgesetzen
- Daher ist zu erwarten, dass die Qualität von Videogenerierungsmodellen schnell weiter steigen wird, je mehr Compute für ihr Training eingesetzt wird
- Sora zeigt klar, dass dieses Rezept tatsächlich funktioniert, und es ist zu erwarten, dass OpenAI und andere Unternehmen sich noch stärker in diese Richtung bewegen werden
Erzeugung synthetischer Daten und Data Augmentation
- In Bereichen wie Robotik und autonomen Fahrzeugen sind Daten von Natur aus knapp: Im Internet gibt es nicht in großem Umfang Videos von Robotern bei der Arbeit oder von fahrenden Fahrzeugen.
- Üblicherweise wurde dieses Problem dadurch angegangen, entweder in Simulationen zu trainieren oder Daten in großem Maßstab in der realen Welt zu sammeln (oder durch eine Kombination aus beidem)
- Beide Ansätze haben jedoch das Problem, dass Simulationsdaten oft unrealistisch sind
- Das Sammeln realer Daten in großem Maßstab ist teuer, und es ist schwierig, genügend Daten zu seltenen Ereignissen zu erfassen
- Modelle wie Sora könnten hier sehr nützlich sein. Es wird angenommen, dass sie direkt zur Erzeugung vollständig synthetischer Daten verwendet werden können
- Sora könnte auch für Data Augmentation verwendet werden, indem bestehende Videos in ein anderes Erscheinungsbild transformiert werden
- Der oben beschriebene zweite Punkt zeigt, wie Sora ein Video eines roten Autos auf einem Waldweg in eine dichte Dschungellandschaft umwandelt
- Mit derselben Technik ließen sich Szenen etwa von Tag zu Nacht neu rendern oder Wetterbedingungen verändern
Simulation und World Models
- Das Lernen sogenannter World Models ist eine vielversprechende Forschungsrichtung
- Wenn sie hinreichend genau sind, könnten solche World Models genutzt werden, um Agents direkt in ihnen zu trainieren oder sie für Planung und Exploration einzusetzen.
- Modelle wie Sora scheinen aus Videodaten direkt implizit eine grundlegende Simulation davon zu lernen, wie die reale Welt funktioniert
  - Diese „emergente Simulation“ ist derzeit noch fehlerhaft, aber dennoch spannend: Sie deutet darauf hin, dass sich solche World Models möglicherweise in großem Maßstab aus Videos trainieren lassen
  - Darüber hinaus scheint Sora in der Lage zu sein, sehr komplexe Szenen zu simulieren, etwa Flüssigkeiten, Lichtreflexionen sowie Bewegungen von Stoffen und Haaren.
  - OpenAI macht deutlich, dass dies als einer der wichtigsten Aspekte des Modells angesehen wird, indem der technische Bericht den Titel „Video generation models as world simulators“ trägt.
- Erst vor Kurzem demonstrierte DeepMind mit dem Genie-Modell einen ähnlichen Effekt, indem es nur mit Videos von Videospielen trainierte: Das Modell lernte, diese Spiele zu simulieren (und neue zu erschaffen)
  - In diesem Fall lernte das Modell, auf Aktionen zu konditionieren, ohne sie direkt beobachtet zu haben
  - Anders gesagt: Das Ziel ist, Lernen direkt in diesen Simulationen zu ermöglichen.
- Nimmt man beides zusammen, dann könnten Modelle wie Sora und Genie sehr nützlich dafür werden, verkörperte Agents in großem Maßstab für Aufgaben in der realen Welt zu trainieren, etwa in der Robotik
- Es gibt jedoch Grenzen: Da diese Modelle im Pixelraum trainiert werden, modellieren sie zwangsläufig auch alle Details, etwa wie Wind Grashalme bewegt, selbst wenn das für die auszuführende Aufgabe völlig irrelevant ist
- Der latente Raum ist zwar komprimiert, muss aber weiterhin in Pixel zurückübersetzbar sein und daher viele Informationen behalten; deshalb ist unklar, ob sich Planung in diesem latenten Raum effizient durchführen lässt

Rechenschätzungen (Compute Estimates)

Bei Factorial Funds betrachtet man gern den Compute-Aufwand für Training und Inferenz. Das ist nützlich, weil es Hinweise auf den künftig benötigten Compute liefern kann
Da es jedoch kaum Details zur Modellgröße und zum Datensatz gibt, die beim Training von Sora verwendet wurden, ist auch die Schätzung dieser Zahlen schwierig
Die Schätzungen in diesem Abschnitt sind daher mit großer Unsicherheit behaftet und sollten entsprechend betrachtet werden
(Da es sich nur um Schätzungen handelt, wird dieser Teil ausgelassen)

3 Kommentare

soon0698 2024-03-23

Ich ergänze inhaltlich noch einige TMI, die ich persönlich wusste.

Diffusion Transformers (DiT) wurden damals maßgeblich von William Peebles, einem Doktoranden in Berkeley, vorangetrieben, und das entsprechende Paper wurde auf der renommiertesten Computer-Vision-Konferenz CVPR mit der Begründung „fehlende Neuartigkeit“ (Lack of Novelty) eindeutig abgelehnt. Später wurde es auf der ICCV veröffentlicht, der Autor machte seinen Abschluss, trat OpenAI bei und leitete kurz darauf direkt das Sora-Projekt.
Die Architektur von DiT ist eine Kombination aus Diffusion Model + Transformer-Architektur. Damals war die überlegene Leistung der Bildrekonstruktion mit U-Net-Strukturen in Diffusion Models bereits gut bekannt; geändert wurde hier, dass dies nicht CNN-basiert, sondern auf Vision Transformer- und Patchify-Strukturen umgestellt wurde. Dementsprechend verwendet das Paper den Großteil seines Umfangs darauf, durch die Einführung der ViT-Architektur das „Scaling Law“ zu belegen, während die tatsächlich vorgeschlagene Methode im Haupttext nicht einmal eine volle Seite einnimmt.
Anders als das große Interesse der breiten Öffentlichkeit vermuten lässt, äußern viele Menschen in der Wissenschaft erhebliche Sorge darüber, dass diese Art von Richtung zunehmend Aufmerksamkeit und Zitationen erhält. Denn wenn nur mehr (gute) Daten, enorme Computing-Ressourcen und schließlich eine Architektur, für die das Scaling Law gilt, vorhanden sind, scheint keinerlei weiterer cleverer Hack oder Erfindung mehr nötig zu sein. Wenn das Ergebnis von 100 zusätzlichen GPUs immer besser ist als intelligente Methoden, die Forschende mühsam ausgetüftelt haben, ist das kein besonders erfreuliches Gefühl.

yangisu12 2024-03-22

Es hieß, dass sowohl DiT als auch Sora anstelle der üblicherweise verwendeten U-Net-Architektur eine Vanilla-Transformer-Architektur nutzen. Welche Rolle spielen U-Net und Transformer in der künstlichen Intelligenz? Ich bin total verwirrt T_T

mhj5730 2024-03-22

Das sind Außerirdische, wow.