[Übersetzung] Road to Sora: Einführung in vorbereitende Forschung zum Verständnis von OpenAIs Sora (feat. Oxen.AI)
(discuss.pytorch.kr)- Oxen.AI, das Tools für hochwertige AI-Datensätze entwickelt, betreibt jeden Freitag ArXiv Dives, wo AI-Paper gelesen und Erkenntnisse geteilt werden.
- Dieser Beitrag ist eine mit Genehmigung geteilte Übersetzung des Beitrags Road to Sora, der Anfang März bei ArXiv Dives behandelt wurde.
- Das diesmal übersetzte Road to Sora zielt darauf ab, das Wissen zu beleuchten, das zum Verständnis des Sora-Modells nötig ist, auf Grundlage des von OpenAI veröffentlichten technischen Dokuments zum Bildgenerierungsmodell Sora.
Road to Sora: Studien zum Verständnis von OpenAIs Sora / "Road to Sora" Paper Reading List
von Greg Schoeninger, 5. März 2024
Dieser Beitrag ist Teil des Versuchs, eine Reading List für unseren Paper Club am Freitag, ArXiv Dives, zusammenzustellen. Da es bisher noch kein offizielles Paper zu Sora gibt, ist das Ziel, den Spuren aus OpenAIs technischem Bericht zu Sora zu folgen. In den kommenden Wochen wollen wir in unserem Freitags-Paper-Club einige grundlegende Paper durchgehen, um ein klareres Bild davon zu bekommen, was sich hinter den Kulissen von Sora abspielt.
> This post is an effort to put together a reading list for our Friday paper club called ArXiv Dives. Since there has not been an official paper released yet for Sora, the goal is follow the bread crumbs from OpenAI's technical report on Sora. We plan on going over a few of the fundamental papers in the coming weeks during our Friday paper club, to help paint a better picture of what is going on behind the curtain of Sora.
Was ist Sora? / What is Sora?
Sora ist ein Modell, das im Bereich der generativen AI großes Aufsehen erregt hat, weil es hochqualitative Videos aus natürlichsprachlichen Prompts erzeugen kann. Falls Sie noch kein Beispiel von Sora gesehen haben, sehen Sie sich unten das Video einer Schildkröte an, die in einem Korallenriff schwimmt.
> Sora has taken the Generative AI space by storm with it's ability to generate high fidelity videos from natural language prompts. If you haven't seen an example yet, here's a generated video of a turtle swimming in a coral reef for your enjoyment.
Obwohl das Team von OpenAI kein offizielles Forschungspaper zu den technischen Details des Modells selbst veröffentlicht hat, wurde ein technischer Bericht veröffentlicht, der einige Details auf hoher Ebene zu den verwendeten Techniken sowie einige qualitative Ergebnisse behandelt.
> While the team at OpenAI has not released an official research paper on the technical details of the model itself, they did release a technical report that covers some high level details of the techniques they used and some qualitative results.
https://openai.com/research/video-generation-models-as-world-simulators
Überblick über die Sora-Architektur / Sora Architecture Overview
Nachdem Sie die untenstehenden Paper gelesen haben, sollte die Architektur von Sora verständlicher werden. Der technische Bericht ist eine Betrachtung aus großer Flughöhe, und ich hoffe, dass jedes Paper in unterschiedliche Aspekte hineinzoomt und so das Gesamtbild zeichnet. Es gibt ein schönes Review-Paper mit dem Titel "Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models", das ein Diagramm auf hoher Ebene einer rückentwickelten Architektur liefert.
> After reading the papers below, the architecture here should start to make sense. The technical report is a 10,000 foot view and my hope is that each paper will zoom into different aspects and paint the full picture. There is a nice literature review called "Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models" that gives a high level diagram of a reverse engineered architecture.
Das Team von OpenAI erklärt, dass Sora ein "Diffusion Transformer" ist, der viele der in den oben genannten Papern aufgeführten Konzepte kombiniert, jedoch angewendet auf latente Raum-Zeit-Patches, die aus Video erzeugt werden.
> The team at OpenAI states that Sora is a "Diffusion Transformer" which combines many of the concepts listed in the papers above, but applied applied to latent spacetime patches generated from video.
Dies ist eine Kombination aus dem Stil der im Vision-Transformer-(ViT-)Paper verwendeten Patches und latenten Räumen ähnlich dem Latent-Diffusion-Paper, jedoch in der Form eines Diffusion Transformer zusammengeführt. Es gibt dabei nicht nur Patches entlang der Bildbreite und -höhe, sondern diese werden auch auf die Zeitdimension von Video erweitert.
> This is a combination of the style of patches used in the Vision Transformer (ViT) paper, with latent spaces similar to the Latent Diffusion Paper, but combined in the style of the Diffusion Transformer. They not only have patches in width and height of the image but extend it to the time dimension of video.
Es ist schwer zu sagen, wie genau die Trainingsdaten für all das gesammelt wurden, aber es scheint nicht nur eine Kombination der im DALL-E-3-Paper beschriebenen Techniken zu sein, sondern auch der Einsatz von GPT-4, um für jedes Bild detaillierte Textbeschreibungen zu erstellen, die anschließend in Videos umgewandelt werden. Die Trainingsdaten sind hier vermutlich die wichtigste geheime Zutat, weshalb der technische Bericht dazu am wenigsten ins Detail geht.
> It's hard to say how exactly they collected the training data for all of this, but it seems like a combination of the techniques in the Dalle-3 paper as well as using GPT-4 to elaborate on textual descriptions of images, that they then turn into videos. Training data is likely the main secret sauce here, hence has the least level of detail in the technical report.
Anwendungsfälle / Use Cases
Videogenerierungstechnologien wie Sora bieten viele interessante Anwendungsfälle und Einsatzmöglichkeiten. Ob Film, Bildung, Gaming, Gesundheitswesen oder Robotik – die Erzeugung realistischer Videos aus natürlichsprachlichen Prompts wird ohne Zweifel mehrere Branchen grundlegend verändern.
> There are many interesting use cases and applications for video generation technologies like Sora. Whether it be movies, education, gaming, healthcare or robotics, there is no doubt generating realistic videos from natural language prompts is going to shake up multiple industries.
Die Anmerkung am unteren Rand dieses Diagramms trifft auch auf Oxen.ai zu. Falls Sie Oxen.ai noch nicht kennen: Wir entwickeln Open-Source-Tools, die dabei helfen, die in Machine-Learning-Modelle ein- und ausgehenden Daten gemeinsam zu bearbeiten und auszuwerten. Wir sind überzeugt, dass viele Menschen Einblick in diese Daten brauchen und dass dies ein gemeinschaftlicher Aufwand sein sollte. AI wirkt sich auf viele unterschiedliche Bereiche und Branchen aus, und je mehr Augen auf den Daten liegen, die diese Modelle trainieren und bewerten, desto besser.
> The note at the bottom of this diagram rings true for us at Oxen.ai. If you are not familiar with Oxen.ai we are building open source tools to help you collaborate on and evaluate data the comes in and out of machine learning models. We believe that many people need visibility into this data, and that it should be a collaborative effort. AI is touching many different fields and industries and the more eyes on the data that trains and evaluates these models, the better.
Hier können Sie mehr erfahren: https://oxen.ai
> Check us out here: https://oxen.ai
Papierliste / Paper Reading List
Im Literaturverzeichnis des von OpenAI veröffentlichten technischen Berichts sind viele Papers verlinkt, aber es ist etwas schwierig zu erkennen, welche man zuerst lesen sollte oder welche wichtiges Hintergrundwissen liefern. Wir haben sie durchgesehen, die aus unserer Sicht wirkungsvollsten und interessantesten ausgewählt und nach Typ geordnet.
> There are many papers linked in the references section of the OpenAI technical report but it is a bit hard to know which ones to read first or are important background knowledge. We've sifted through them and selected what we think are the most impactful and interesting ones to read, and organized them by type.
Hintergrundpapiere / Background Papers
Die Qualität generierter Bilder und Videos hat sich seit 2015 stetig verbessert. Die größten Fortschritte, die die Aufmerksamkeit der breiten Öffentlichkeit auf sich zogen, begannen 2022 mit Midjourney, Stable Diffusion und DALL-E. Dieser Abschnitt enthält einige grundlegende Papers und Modellarchitekturen, auf die in der Literatur immer wieder verwiesen wird. Auch wenn nicht alle Papers direkt mit der Sora-Architektur zusammenhängen, liefern sie doch wichtigen Kontext dafür, wie sich der Stand der Technik im Laufe der Zeit verbessert hat.
> The quality of generated images and video have been steadily increasing since 2015. The biggest gains that caught the general public's eyes began in 2022 with Midjourney, Stable Diffusion and Dalle. This section contains some foundational papers and model architectures that are referenced over and over again in the literature. While not all papers are directly involved in the Sora architecture, they are all important context for how the state of the art has improved over time.
Viele der unten aufgeführten Papers haben wir bereits in früheren ArXiv Dives behandelt. Wenn Sie das nachholen möchten, sehen Sie sich alle Inhalte im Oxen.ai-Blog an.
https://www.oxen.ai/community/arxiv-dives
U-Net
Die Arbeit "U-Net: Convolutional Networks for Biomedical Image Segmentation" ist ein gutes Beispiel dafür, wie eine für Aufgaben in einem bestimmten Bereich – hier der biomedizinischen Bildverarbeitung – entwickelte Forschung auf viele unterschiedliche Anwendungsfälle übertragen wurde. Besonders bemerkenswert ist, dass sie als Backbone vieler Diffusionsmodelle wie Stable Diffusion dient, um das Lernen der Vorhersage und Reduktion von Rauschen in jedem Schritt zu erleichtern. Sie wird zwar nicht direkt in der Sora-Architektur verwendet, ist aber wichtiges Hintergrundwissen für den vorherigen Stand der Technik.
> "U-Net: Convolutional Networks for Biomedical Image Segmentation" is a great example of a paper that was used for a task in one domain (Biomedical imaging) that got applied across many different use cases. Most notably is the backbone many diffusion models such as Stable Diffusion to facilitate learning to predict and mitigate noise at each step. While not directly used in the Sora architecture, important background knowledge for previous state of the art.
https://arxiv.org/abs/1505.04597
Sprachtransformer / Language Transformers
Die Arbeit "Attention Is All You Need" ist ein weiteres Paper, das sich zunächst bei einer Aufgabe der maschinellen Übersetzung bewährte, am Ende aber zu einer wegweisenden Arbeit für die gesamte NLP-Forschung wurde. Transformer bilden heute die Grundlage vieler LLM-Anwendungen wie ChatGPT. Sie lassen sich letztlich auf viele Modalitäten erweitern und werden auch als Bestandteil der Sora-Architektur verwendet.
> "Attention Is All You Need" is another paper that proved itself on a Machine Translation task, but ended up being a seminal paper for all of natural language processing research. Transformers are now the backbone of many LLM applications such as ChatGPT. Transformers end up being extensible to many modalities and are used as a component of the Sora architecture.
https://arxiv.org/abs/1706.03762
Vision Transformer (ViT)
Die Arbeit "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" war eine der ersten, die Transformer auf die Bilderkennung anwandte, und zeigte, dass sie ResNets und andere Convolutional Neural Networks übertreffen können, wenn sie auf ausreichend großen Datensätzen trainiert werden. Diese Arbeit übernimmt die Architektur aus "Attention Is All You Need" und macht sie für Computer-Vision-Aufgaben nutzbar. Statt Text-Token als Eingabe zu verwenden, nutzt ViT 16x16-Bildpatches als Input.
> "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" was one of the first papers to apply Transformers to image recognition, proving that they can outperform ResNets and other Convolutional Neural Networks if you train them on large enough datasets. This takes the architecture from the "Attention Is All You Need" paper and makes it work for computer vision tasks. Instead of the inputs being text tokens, ViT uses 16x16 image patches as input.
https://arxiv.org/abs/2010.11929
Latent Diffusion Models
"High-Resolution Image Synthesis with Latent Diffusion Models" ist die Technologie hinter vielen Bildgenerierungsmodellen wie Stable Diffusion. Sie zeigt, wie sich Bildgenerierung als eine Sequenz von Denoising Autoencoders aus einer latenten Repräsentation neu formulieren lässt. Diese Modelle verwenden die oben erwähnte U-Net-Architektur als Backbone des Generierungsprozesses. Mit einem Texteingang können diese Modelle fotorealistische Bilder erzeugen.
> "High-Resolution Image Synthesis with Latent Diffusion Models" is the technique behind many image generation models such as Stable Diffusion. They show how you can reformulate the image generation as a sequence of denoising auto-encoders from a latent representation. They use the U-Net architecture referenced above as the backbone of the generative process. These models can generate photo-realistic images given any text input.
https://arxiv.org/abs/2112.10752
CLIP
„Learning Transferable Visual Models From Natural Language Supervision“ wird auch als Contrastive Language-Image Pre-training (CLIP) bezeichnet und ist eine Technik, bei der Textdaten und Bilddaten in denselben latenten Raum eingebettet werden. Diese Technik hilft dabei, das Sprachverständnis und das visuelle Verständnis generativer Modelle miteinander zu verbinden, indem sichergestellt wird, dass die Kosinusähnlichkeit zwischen Text- und Bildrepräsentationen bei Text-Bild-Paaren hoch ist.
"Learning Transferable Visual Models From Natural Language Supervision" often referred to as Contrastive Language-Image Pre-training (CLIP) is a technique for embedding text data and image data into the same latent space as each other. This technique helps connect the language understanding half of generative models to the visual understanding half by making sure that the cosine similarity between the text and image representations are high between text and image pairs.
https://arxiv.org/abs/2103.00020
VQ-VAE
Laut dem technischen Bericht zu Sora wird die Dimensionalität des Rohvideos mit einem Vector Quantized Variational Auto Encoder (VQ-VAE) reduziert. VAE-Modelle gelten als leistungsfähige unüberwachte Vortrainingsmethode zum Erlernen latenter Repräsentationen.
According to the technical report, they reduce the dimensionality of the raw video with a Vector Quantised Variational Auto Encoder (VQ-VAE). VAEs have been shown to be a powerful unsupervised pre-training method to learn latent representations.
https://arxiv.org/abs/1711.00937
Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
Im technischen Bericht zu Sora wird beschrieben, wie Videos mit beliebigem Seitenverhältnis verarbeitet werden und wie sich dadurch mit deutlich größeren Datensätzen trainieren lässt. Je mehr Daten sie dem Modell zuführen können, ohne sie zuschneiden zu müssen, desto bessere Ergebnisse erzielen sie. Diese Arbeit verwendet dieselbe Technik für Bilder, und Sora erweitert sie auf Video.
The Sora technical report talks about how they take in videos of any aspect ratio, and how this allows them to train on a much larger set of data. The more data they can feed the model without having to crop it, the better results they get. This paper uses the same technique but for images, and Sora extends it for video.
https://arxiv.org/abs/2307.06304
Arbeiten zur Videogenerierung / Video Generation Papers
Sie verweisen auf einige Arbeiten zur Videogenerierung, die Sora inspiriert haben und die oben genannten generativen Modelle auf die nächste Stufe heben, indem sie sie auf Video anwenden.
ViViT: A Video Vision Transformer
Diese Arbeit erläutert im Detail, wie sich Videos in die für Videoaufgaben benötigten „spatio-temporal tokens“ aufteilen lassen. Die Arbeit konzentriert sich auf Videoklassifikation, aber dieselbe Tokenisierung kann auch für die Videogenerierung verwendet werden.
This paper goes into details about how you can chop the video into "spatio-temporal tokens" needed for video tasks. The paper focuses on video classification, but the same tokenization can be applied to generating video.
https://arxiv.org/abs/2103.15691
Imagen Video: High Definition Video Generation with Diffusion Models
Imagen ist ein textkonditioniertes System zur Videogenerierung, das auf einer Kaskade von Video-Diffusionsmodellen basiert. Es verwendet Faltungen in zeitlicher Richtung und Super Resolution, um aus Text hochqualitative Videos zu erzeugen.
Imagen is a text-conditional video generation system based on a cascade of video diffusion models. They use convolutions in the temporal direction and super resolution to generate high quality videos from text.
https://arxiv.org/abs/2210.02303
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
Diese Arbeit übernimmt die latenten Diffusionsmodelle aus den oben genannten Arbeiten zur Bildgenerierung und führt eine zeitliche Dimension in den latenten Raum ein. Dabei werden einige interessante Techniken in der zeitlichen Dimension angewendet, indem die latenten Räume ausgerichtet werden, erreicht aber noch nicht ganz die zeitliche Konsistenz von Sora.
This paper takes the latent diffusion models from the image generation papers above and introduces a temporal dimension to the latent space. They apply some interesting techniques in the temporal dimension by aligning the latent spaces, but does not quite have the temporal consistency of Sora yet.
https://arxiv.org/abs/2304.08818
Photorealistic video generation with diffusion models
Dieses Paper stellt W.A.L.T vor, einen transformerbasierten Ansatz für fotorealistische Videogenerierung mittels Diffusionsmodellierung. Soweit ich beurteilen kann, ist das in der Referenzliste die Technik, die Sora am nächsten kommt; veröffentlicht wurde sie im Dezember 2023 von Teams von Google, Stanford und Georgia Tech.
> They introduce W.A.L.T, a transformer-based approach for photorealistic video generation via diffusion modeling. This feels like the closest technique to Sora in the reference list as far as I can tell, and was released in December of 2023 by the teams at Google, Stanford and Georgia Tech.
https://arxiv.org/abs/2312.06662
Paper im Bereich visuell-sprachliches Verstehen / Vision-Language Understanding
Um Videos aus Text-Prompts zu generieren, müssen große Datensätze gesammelt werden. Da es nicht praktikabel ist, so viele Videos manuell von Menschen labeln zu lassen, scheint man synthetische Datentechniken zu verwenden, die den im DALL-E 3 Paper beschriebenen ähneln.
> In order to Generate Videos from text prompts, they need to collect a large dataset. It is not feasible to have humans label that many videos, so it seems they use some synthetic data techniques similar to those described in the DALL·E 3 paper.
DALL·E 3
Das Training von Text-zu-Video-Generierungssystemen erfordert große Mengen an Videos mit den dazugehörigen Text-Captions. Die in DALL-E 3 vorgestellte Re-Captioning-Technik wird auf Videos angewendet. Ähnlich wie bei DALL·E 3 wird außerdem GPT genutzt, um kurze Nutzer-Prompts in längere, detaillierte Beschreibungen umzuwandeln, die dann an das Videomodell gesendet werden.
> Training text-to-video generation systems requires a large amount of videos with corresponding text captions. They apply the re-captioning technique introduced in DALL·E 3 to videos. Similar to DALL·E 3, they also leverage GPT to turn short user prompts into longer detailed captions that are sent to the video model.
Llava
Damit das Modell Nutzeranweisungen befolgen kann, wurde wahrscheinlich ein instructionbasiertes Fine-Tuning ähnlich dem Llava-Paper durchgeführt. Dieses Paper zeigt außerdem einige synthetische Datentechniken zur Erstellung eines großen Instruction-Datensatzes, die in Kombination mit den oben genannten Dall-E-Methoden interessant sein könnten.
> In order for the model to be able to follow user instructions, they likely did some instruction fine-tuning similar to the Llava paper. This paper also shows some synthetic data techniques to create a large instruction dataset that could be interesting in combination with the Dalle methods above.
https://arxiv.org/abs/2304.08485
Make-A-Video & Tune-A-Video
Paper wie Make-A-Video und Tune-A-Video zeigen, wie Prompt Engineering die Fähigkeit des Modells zum Verständnis natürlicher Sprache nutzt, um komplexe Anweisungen zu entschlüsseln und sie in kohärente, lebendige und hochwertige Videoerzählungen zu übersetzen. Zum Beispiel kann ein einfacher Nutzer-Prompt mit Adjektiven und Verben erweitert werden, um eine Szene vollständiger auszuarbeiten.
> Papers like Make-A-Video and Tune-A-Video have shown how prompt engineering leverages model’s natural language understanding ability to decode complex instructions and render them into cohesive, lively, and high-quality video narratives. For example: taking a simple user prompt and extending it with adjectives and verbs to more fully flush out the scene.
https://arxiv.org/abs/2209.14792
https://arxiv.org/abs/2212.11565
Fazit / Conclusion
Wir hoffen, dass dies einen guten Ausgangspunkt bietet, um alle wichtigen Komponenten kennenzulernen, aus denen ein System wie Sora bestehen könnte! Wenn Sie der Meinung sind, dass wir etwas übersehen haben, schreiben Sie uns gern an hello@oxen.ai.
> We hope this gives you a jumping off point for all the important components that could make up a system like Sora! If you think we missed anything, feel free to email us at hello@oxen.ai.
Die hier vorgestellten Paper sind keineswegs leichte Lektüre. Deshalb nehmen wir uns freitags jeweils ein Paper vor, gehen es in Ruhe durch und erklären die Themen in einfacher Sprache, damit sie jeder verstehen kann. Wir glauben, dass jeder zum Aufbau von AI-Systemen beitragen kann, und dass man umso mehr Muster erkennt und bessere Produkte bauen kann, je besser man die Grundlagen versteht.
> It is by no means a light set of reading. This is why on Fridays we take one paper at a time, slow down, and break down the topics in plain speak so anyone can understand. We believe anyone can contribute to building AI systems, and the more you understand the fundamentals, the more patterns you will spot, and better products you will build.
Begleiten Sie uns auf dieser Lernreise, indem Sie sich entweder für ArXiv Dives anmelden oder einfach der Oxen.ai-Discord-Community beitreten.
> Join us on a learning journey either by signing up for ArXiv Dives or simply joining the Oxen.ai Discord community.
https://discord.com/invite/s3tBEn7Ptg
Originaltext
https://www.oxen.ai/blog/road-to-sora-reading-list
⚠️Werbung⚠️: Fanden Sie diesen von der :pytorch:PyTorch Korean User Group:kr: zusammengestellten Artikel hilfreich? Wenn Sie Mitglied werden, senden wir Ihnen wichtige Beiträge per E-Mail :love_letter: zu! (Standard ist wöchentlich, aber Sie können auch auf täglich umstellen.)
1 Kommentare
OpenAI's Sora: