Sora 2 veröffentlicht: OpenAIs nächste Generation von Video- und Audio-Generierungsmodellen (Sora 2 is here)
(openai.com)🔑 Wichtige Highlights
• Realistischere Physiksimulation
• Während das vorherige Modell Objekte durch „Teleportation“ erfolgreich erscheinen ließ, bildet Sora 2 nun auch echte physikalische Fehlschläge und Rückpralle ab.
• Zum Beispiel trifft ein Basketball den Ring und springt wieder heraus – Ergebnisse, die näher an den Gesetzen der Physik liegen.
• Fortgeschrittene Kontrolle & Konsistenz
• Komplexe Anweisungen (mehrere Shots, Szenenwechsel, Zustandserhalt) können präzise befolgt werden.
• Der Weltzustand (world state) von Charakteren/Objekten bleibt zwischen Szenen erhalten.
• Vielfalt an Stilen
• Hochwertige Videos in Realismus-, cineastischem und Animationsstil können erzeugt werden.
• Unterstützt synchron generiertes Audio bis hin zu Hintergrundmusik, Soundeffekten und Dialogen.
• Funktion „Upload yourself“ (Cameos)
• Nutzer laden kurze Videos und Audios hoch → das Modell kann diese Person in beliebige Szenen einfügen.
• Sowohl Aussehen als auch Stimme werden übernommen.
• Die Kontrolle bleibt bei der Person selbst; Zugriffsrechte und Löschung sind möglich.
• Social-App „Sora“ veröffentlicht (iOS)
• Ein neues soziales Netzwerk mit Fokus auf Erstellen, Remixen und Teilen.
• Start zunächst auf Einladungsbasis, zuerst in den USA und Kanada.
• Grundsätzlich kostenlos mit begrenztem Nutzungsumfang; Pro-Modell und zusätzliche Generierungen sollen kostenpflichtig werden.
• Sicherheit und verantwortungsbewusster Launch
• Feed-Algorithmus: Fokus auf „kreatives Schaffen“ statt auf Optimierung der Verweildauer.
• Jugendschutz: Begrenzung der Feed-Exposition und Bereitstellung von Elternkontrollen.
• Urheberrecht/Zustimmung: Cameo-Nutzern werden Rechte auf Zugriff und Löschung garantiert.
• Stärkere menschliche Moderation zur Reaktion auf Belästigung/Missbrauch.
• Technischer Kontext
• Wenn Sora 1 das „GPT-1 für Video“ war, dann ist Sora 2 ein „GPT-3.5 moment“.
• Größeres Pre-Training und Post-Training mit Videodaten → ein weiterer Schritt hin zu einem Welt-Simulationsmodell.
• Ausblick
• Auch über sora.com zugänglich.
• Sora 2 Pro für Pro-Nutzer ist geplant.
• Eine API-Veröffentlichung ist vorgesehen.
• Das bisherige Sora 1 Turbo bleibt weiter nutzbar.
⸻
📝 TL;DR
• Sora 2 = ein physikalisch präziseres Video- und Audio-Generierungsmodell
• Cameo-Einbindung von Personen/Objekten möglich → erlebbar in der Social-App Sora
• Plattform mit Fokus auf Social + Kreativität → ausgerichtet auf Content-Produktion statt Zeitkonsum
• Initialer Launch: iOS in den USA und Kanada → Erweiterung auf Web/Pro/API geplant
2 Kommentare
Wenn es mehr solcher Videos gibt, könnte das die Leute vielleicht sogar von der Shorts-Sucht wegbringen. Wenn ich Shorts, in denen man einen Supersportwagen fährt, auch mit meinem eigenen Gesicht machen kann, wie viel Wert hätten Supersportwagen-Shorts dann noch?
Hacker-News-Kommentare
Es wirkt so, als wolle OpenAI aus Sora ein soziales Netzwerk machen, also im Grunde eine KI-Version von TikTok (AITok)
Die Web-App konzentriert sich auf eine konsumorientierte Struktur mit Feed, Likes und Kommentaren zu Beiträgen, Nutzerprofilen usw.
Die Videogenerierung ist eher ein Nebenelement, die erzeugten Videos sind sehr kurz und die Einstellungen simpel (nur Quer-/Hochformat wählbar)
Von langen oder storybasierten Videos, fortgeschrittenen Bearbeitungsfunktionen usw. ist weder die Rede noch scheint es Versuche in diese Richtung zu geben; im Vergleich zu anderen Plattformen wie Google Flow gibt es große funktionale Einschränkungen
Es wurden Testvideos zur physikalischen Genauigkeit angehängt, aber auch Veo funktioniert mit diesen Prompts nicht richtig
Außerdem ist es interessant, dass sowohl ziemlich beeindruckende als auch ziemlich grobe Videos gepostet werden
Sora physics Beispiel 1
Sora physics Beispiel 2
Veo Beispiel 1
Veo Beispiel 2
Ich mag innovative Technologie und KI persönlich sehr, aber ich bin mir nicht sicher, ob „TikTok, aber mit KI“ gesellschaftlich ein wünschenswerter Ansatz ist
Falls es dadurch einen klaren positiven Effekt geben kann, würde mich das interessieren
Solange sich die Energieeffizienz der Videogenerierung nicht drastisch verbessert oder die Energiekosten nicht fast auf null sinken
halte ich es für unwahrscheinlich, dass ein groß angelegter Echtzeit-Videokonsumdienst auf TikTok-Niveau aus Rentabilitätssicht dauerhaft tragfähig ist
Im Moment sind Videos, die reale Menschen direkt hochladen, deutlich energieärmer und kostengünstiger
Die Strategie von OpenAI, Sora zu einem sozialen Netzwerk auszubauen, ist im Grunde das, was Midjourney bei Bildern bereits praktiziert
Midjourney Explore - Videos
Viele Menschen mögen den einzigartigen Bildstil von Midjourney, und das Modell lernt über Bewertungen und Interaktionen
Bei der Bildgenerierung lässt sich auch das Niveau der „Ästhetik“ leichter handhaben
Meta hat kürzlich ebenfalls etwas Ähnliches versucht
Meta kündigt Vibes AI Video an
Eine Stärkung konsumorientierter Feed-Funktionen ist eindeutig eine mögliche Richtung
Ein weiterer Grund ist, dass es effizienter ist, zuerst gute Beispiele zu zeigen und über die dazugehörige Diskussion schneller hochwertige Ergebnisse zu erzielen,
statt dass viele Nutzer gleichzeitig Ressourcen in dasselbe leere Prompt-Fenster stecken und ähnliche Resultate ausspucken
Jedes Mal, wenn ich solche Technologien sehe, muss ich an Jeff Goldblums Zeile aus Jurassic Park denken
Unser Chef zeigt KI-Videos von mäßiger Qualität, die mit solchen Tools erstellt wurden, und ruft „Das ist die Zukunft“,
aber die grundlegende Frage „Wer will das eigentlich, und wer wird das ansehen?“ scheint er nie zu stellen
KI-Inhalte haben immer noch die Einschränkung, dass man ihnen sofort ansieht, was sie sind
Wer schaut sich schon gern einen Videostream an, der nur aus KI-generierten Clips besteht? Für Meta ist das attraktiv, weil Inhalte billiger zu beschaffen sind, als Menschen dafür zu bezahlen,
tatsächlich ist es aber kaum mehr als minderwertiger „Slop“
Mit Urheberrechtsfragen wird viel zu locker umgegangen
Bei Sora ist standardmäßig vorgesehen, dass das geistige Eigentum des Nutzers in KI-Videos verwendet werden darf, und nur bei ausdrücklichem Widerspruch wird es ausgeschlossen
Zugehöriger Artikel
Außerdem scheint es, als hätten die Leute, die Projekte mit einer derart großen Tragweite vorantreiben, wenig echte Lebenserfahrung
und seien nur auf glänzende, neuartige Technologie fixiert, ohne sich für Einfluss und Folgen zu interessieren
(Bei Metas Vibes ist es ähnlich)
In dem Artikel steht, dass er von einem Roboter geschrieben wurde; ich frage mich daher, ob es eine genauere Quelle gibt
Bei Grok werden urheberrechtlich geschützte Figuren seit über einem Jahr frei verwendet, bisher aber ohne Klage
Bei dieser Technik drängt sich die Möglichkeit auf, Marken künftig Lizenzen anzubieten,
um viel stärker individualisierte Werbevideos zu erstellen
Wenn ich zum Beispiel ein Video davon sehen könnte, wie ich ein Kleidungsstück trage, bevor ich es tatsächlich bestelle, wäre das eine ziemlich faszinierende Erfahrung
Falls das sogar in Echtzeit generiert werden kann, ließe sich sich vorstellen, dass sich mein Aussehen automatisch in verschiedene Outfits verwandelt, sobald ich an einem Kaufhausspiegel vorbeigehe
Eine ziemlich aufregende Zeit
Wenn es so weit kommt, muss man vielleicht physisch gar keine Kleidung mehr kaufen
Influencer könnten sich damit begnügen, simulierte Videos von sich in sozialen Netzwerken zu posten, und Produkte bewerben, ohne sie je real getragen zu haben
Passender Meme-Tweet
Man könnte noch weiter gehen und sogar gefälschte Videos erzeugen, in denen man mit Freunden auf einer Party ist, ohne überhaupt auszugehen
Am Ende sitzt man zu Hause und isst Eis, während man in sozialen Netzwerken ein aktives Leben inszeniert
Ich glaube, ich habe etwas Ähnliches schon in Minority Report gesehen
Eindrucksvoll war dort die Szene, in der Tom Cruises Name direkt in einer Werbung genannt wird
Minority Report - Film-Wiki
Das wird als „Virtual Try On (VTO)“ bezeichnet und ist bei statischen Bildern bereits weit verbreitet
Dass Video-VTO bald auftaucht, wirkt nur folgerichtig
Letztlich dürfte sich der häufigste Einsatz solcher Videomodelle auf personalisierte Visualisierung konzentrieren, etwa virtuelles Anprobieren von Produkten
Denn Menschen bauen am Ende lieber Resonanz zu Menschen auf als zu KI
Sora oder VEO könnten aber auch die Produktion von Film- und TV-Inhalten stark verändern
AR-Möbelplatzierung (virtuell Möbel vorab im eigenen Zuhause positionieren) wurde früher ebenfalls als Innovation bezeichnet,
tatsächlich nutzt das aber fast niemand
Der Hauptgrund, warum die ChatGPT-Bildgenerierung in der ersten Woche über 100 Millionen Nutzer angezogen hat,
ist, dass Menschen es enorm mögen, Fotos von Freunden, Familie und Haustieren per KI zu erzeugen
Die „Cameo-Funktion“ dürfte ebenfalls ein Versuch sein, genau diesen viralen Reiz erneut auszunutzen
also dürfte es kein Problem geben, solange PETA nichts dagegen hat
Am interessantesten ist
die Funktion, bei der Nutzer Videoclips von Menschen oder Produkten in den Prompt einfügen können
und die KI auf Basis dieser Metadaten realistisch wirkende Videos erzeugt
Technisch wirkt das wie der Effekt eines vorab mit hochentwickelten Datensätzen trainierten Systems
Aus Nutzersicht könnte das eine wirklich brauchbare kommerzielle Funktion sein
Allerdings kann Google solche datengetriebenen Innovationen dank YouTube ebenfalls bald aufholen,
und möglicherweise betreibt das Unternehmen intern bereits ähnliche Technik
Wenn ich mein hart verdientes Geld investiere, kommen nicht existente Illusionen oder manipulierte Produktbilder Betrug sehr nahe
Rezensionen und Werbung, die auf Fantasie statt auf dem realen Produkt beruhen, halte ich ethisch für problematisch
All das ist im Grunde ein weiterer Schritt hin zu einem endlosen Strom personalisierter KI-Inhalte
optimiert darauf, den Dopaminausstoß des Einzelnen zu maximieren
Das fühlt sich an wie ein Torment Nexus in Form einer Skinner box (einem Mechanismus, der zu wiederholtem Verhalten um der Belohnung willen verleitet)
Im Moment ist eine solche Struktur weder energetisch noch ressourcenseitig nachhaltig
Einer der Beispiel-Prompts, „ein intensiver animierter Kampf zwischen einem Jungen mit einem Schwert aus blauem Licht und einem bösen Geist“,
entspricht fast exakt dem Konzept des japanischen Manga Blue Exorcist
Blue Exorcist (Wiki)
Es gibt sogar einen Beispiel-Prompt: „im Stil einer Studio-Ghibli-Animation erklimmen ein Junge und ein Hund einen blauen Berg, in der Ferne ist ein Dorf zu sehen“
Die Drachenfigur wirkt fast direkt aus How to Train Your Dragon übernommen
Ich frage mich, ob es Verträge mit den Rechteinhabern gibt oder ob man auf einen Werbeeffekt durch Klagen in den Medien spekuliert
Aus technischer Sicht ist das Ergebnis wirklich beeindruckend
Die Videoqualität ist inzwischen hoch genug, um Aufmerksamkeit zu fesseln, und erzeugt auch ein Gefühl des Uncanny Valley
Beeindruckend ist, wie OpenAI die Öffentlichkeit schrittweise an solche neue Technologie gewöhnt
Diese Version hat noch viele Einschränkungen, aber es wirkt, als könnte die Technik in ein oder zwei Generationen einen kritischen Schwellenwert überschreiten
Im LLM-Markt war Gemini 2.5 Pro zum Beispiel ein echter Wendepunkt, und für Sora scheint ein ähnlicher Moment bevorzustehen
Aus Sicht von Kreativen wäre es ideal, wenn man zuerst mehrere Assets (Hintergründe, Objekte usw.) als Set erzeugen und sie dann über mehrere Szenen hinweg natürlich verbinden könnte
Die Kontinuität des Videos ist erstaunlich hoch geworden
Allerdings fallen weiterhin einige Fehler auf
Ich bin gespannt, wie komplexere Storyboard-Probleme gelöst werden sollen
Das Video kaschiert Kontinuitätsprobleme mit enorm vielen Schnitten und schnellen Kamerwechseln
Sichtbar verändern sich von Schnitt zu Schnitt Elemente wie Wasserlinsen, Schneemobile und praktisch alles andere fortlaufend
Am Ende wirkt nur der Gesichtsbereich halbwegs konsistent
Insgesamt bleiben die typischen Probleme von KI-Videos bestehen; es gibt fast keine Szene, die in einer einzelnen Umgebung länger als fünf Sekunden anhält
Selbst in der Entenrennen-Szene erscheint beim Auftauchen von Sam bereits völlig anderes Gras
Dass sogar diese Demo so viele Fehler hat,
deutet darauf hin, dass die Ergebnisse normaler Nutzer noch deutlich schwächer ausfallen werden
In der Szene mit dem Bo Staff im Teich ist der Handgelenkwinkel unnatürlich stark abgeknickt
In der Bo-Staff-Demo im Teich verwandelt sich der Holzstab plötzlich in eine Bogenform, also eine Szene, in der der typische „KI-Look“ leicht zu erkennen ist