OpenAI Sora: KI-Modell zur Erzeugung von Videos aus Text vorgestellt

(openai.com)

12 Punkte von GN⁺ 2024-02-16 | 6 Kommentare | Auf WhatsApp teilen

Sora ist ein KI-Modell, das anhand von Textanweisungen realistische und fantasievolle Szenen erzeugt
Es kann Videos mit einer Länge von bis zu 1 Minute erstellen, bleibt dabei den Prompts der Nutzer treu und hält zugleich eine hohe visuelle Qualität
Vorgestellt werden Video-Beispiele, die auf Basis verschiedener Prompts mit detaillierten Szenarien erzeugt wurden
- Alle Videos auf dieser Seite wurden direkt von Sora erstellt und überhaupt nicht nachbearbeitet
Derzeit wird Sora zur Bewertung möglicher Risiken Red Teams zur Verfügung gestellt und OpenAI holt Feedback von bildenden Künstlern, Designern und Filmschaffenden ein
OpenAI möchte den Fortschritt der Forschung teilen, um Feedback von Außenstehenden zu erhalten und der Öffentlichkeit die Zukunft der KI-Fähigkeiten zu zeigen

Fähigkeiten von Sora

Es kann komplexe Szenen mit vielen Charakteren, spezifischen Bewegungen sowie präzisen Details von Motiv und Hintergrund erzeugen
Es versteht nicht nur die Prompts der Nutzer, sondern auch, wie Dinge in der physischen Welt existieren

Sicherheit von Sora

Bevor Sora in OpenAI-Produkte integriert wird, sollen verschiedene Sicherheitsmaßnahmen ergriffen werden
Dazu gehören die Entwicklung von Tools zur Erkennung irreführender Inhalte sowie eines Klassifikators, der feststellen kann, ob ein Video von Sora erzeugt wurde

Forschungstechnik

Sora ist ein Diffusionsmodell, das mit einem stark verrauschten Video beginnt und schrittweise das Rauschen entfernt, um ein Video zu erzeugen
Es verwendet eine Transformer-Architektur ähnlich den GPT-Modellen und bietet dadurch eine hervorragende Skalierbarkeit

Meinung von GN⁺

Sora ist eine innovative KI-Technologie zur Videoerzeugung auf Basis textbasierter Anweisungen und eröffnet kreativen Fachleuten neue Möglichkeiten
Durch Sicherheitsmaßnahmen und Feedback lernt das System den Einsatz in der realen Welt und spielt eine wichtige Rolle dabei, KI-Systeme schrittweise sicherer zu machen
Diese Technologie scheint ein wichtiger Meilenstein auf dem Weg zur künftigen AGI (Artificial General Intelligence) zu sein

6 Kommentare

draupnir 2024-02-17

Wirklich, da bleibt einem nur Staunen.
Damit werden sie wohl 7 Billionen einsammeln ...?

laeyoung 2024-02-16

Ob es ein echtes Video oder ein von KI erzeugtes Video ist, lässt sich auf den ersten Blick kaum erkennen.

edunga1 2024-02-16

Wow … ich möchte das schnell ausprobieren.
Mit einem Diffusionsmodell ist wohl gemeint, dass es nach demselben Prinzip wie Stable Diffusion funktioniert, oder?

dothx 2024-02-16

Der Markt für Stockfotos und Stockvideos dürfte es schwer haben..

xguru 2024-02-16

Die Qualität der Generierung ist wirklich unglaublich. Entwickelt sich das so schnell?

GN⁺ 2024-02-16

Hacker-News-Kommentare

Ein Nutzer äußert trotz der technischen Leistung Sorgen um die Zukunft. Er meint, es gebe zu wenig soziale Sicherungssysteme und man komme einem bedingungslosen Grundeinkommen (UBI) nicht näher. Außerdem fürchtet er, dass ein einzelnes Unternehmen zu viel Macht bekommt.
Ein anderer Nutzer zeigt sich von der Qualität der computergenerierten Bewegung tief beeindruckt. Gerade im Unterschied zu Motion Capture sei es in der Computeranimation schwierig, realistische Bewegungen umzusetzen, doch hier wirke es äußerst realistisch.
Ein weiterer Nutzer betont die Bedeutung eines Modells, das über Bild- und Videoaspekte hinaus ein Verständnis von Physik und den Beziehungen zwischen Objekten zeigt. Die als Fehlbeispiele genannten Beispiele seien in Wirklichkeit wichtige Fälle, die ein starkes Weltverständnis des Modells belegen.
Laut The Hollywood Reporter haben viele Menschen in der Branche aufgrund der Fortschritte bei AI-Tools Angst um ihre Jobs. Einige erwägen, die Branche zu verlassen, und es wird erwartet, dass AI-Tools besonders im Werbeproduktionsbereich Auswirkungen auf Arbeitsplätze haben werden.
Ein Nutzer erwähnt, dass die Leistung die der derzeit öffentlich vorgestellten Modelle deutlich übertrifft.
Ein anderer Nutzer weist auf einen kleinen Fehler im Tokio-Video hin und fragt sich, ob solche Fehler in generierten Inhalten immer vorhanden sein werden und ob Kinder, die von klein auf solchen Inhalten ausgesetzt sind, gegenüber solchen Fehlern abstumpfen könnten.
Ein Nutzer sagt, das Modell Gemini 1.5 sei bereits veraltet, und zeigt sich überrascht, dass Google dies per Blog angekündigt habe.
Ein Programmierer beschreibt ein unheilvolles Gefühl angesichts der Fortschritte bei AI, das über die bloße Angst hinausgehe, den eigenen Job zu verlieren. Die Qualität des Videos bewertet er als unglaublich beeindruckend.
Ein Nutzer stellt eine technische Frage zur Art der Videogenerierung und fragt sich, wie das Modell die geometrische Struktur einer Szene und die Kamera voneinander trennt.
Der letzte Nutzer glaubt, dass der technische Fortschritt kulturelle Veränderungen mit sich bringen wird, und meint, man werde sich stärker danach sehnen, im Theater von Menschen aufgeführte Stücke, Vorträge und Konzerte zu sehen. So wie Vinyl wieder populärer geworden ist, könnte auch das Theater wieder an Beliebtheit gewinnen.