Seedance 1.0 – ByteDances Multi-Shot-Videogenerierungsmodell

(seed.bytedance.com)

4 Punkte von GN⁺ 2025-06-14 | 1 Kommentare | Auf WhatsApp teilen

Ein Videogenerierungsmodell auf Basis von Text und Bildern für Multi-Shot-Videos, das beim semantischen Verständnis und bei der Interpretation von Prompts genauer und flexibler ist als bestehende Modelle
Liefert neben hoher 1080p-Auflösung Ergebnisse mit flüssigen Szenenübergängen, vielen Details und filmischer Anmutung
Fein abgestimmtes Fine-Tuning und ein videospezifischer RLHF-Belohnungsmechanismus verbessern die Gesamtleistung
Kann auf Grundlage von Textbeschreibungen oder Bildern dynamische und immersive visuelle Inhalte erzeugen, die die geforderten Bedingungen erfüllen
Unterstützt dank effizienter Architektur und neuem Trainingsparadigma sowohl die Multi-Shot-Generierung als auch Text-zu-Video- und Bild-zu-Video-Aufgaben

Einführung in Seedance 1.0

Durch die jüngsten großen Fortschritte bei Diffusionsmodellen entwickelt sich die Videogenerierungstechnologie derzeit rasant weiter
Die meisten bestehenden Modelle haben jedoch weiterhin Schwierigkeiten, ein Gleichgewicht zwischen Befolgung von Anweisungen (Prompts), natürlicher Bewegung und visueller Qualität zu finden
Seedance 1.0 ist ein auf Videogenerierung basierendes Modell, das die folgenden zentralen technischen Verbesserungen umsetzt
- (i) Durch Datensammlung aus mehreren Quellen mit ergänzten präzisen Videobeschreibungen ist umfassendes Training für verschiedene Szenarien möglich
- (ii) Mit effizienter Architektur und Trainingsparadigma werden Multi-Shot-Generierung sowie Text→Video- und Bild→Video-Aufgaben gleichzeitig unterstützt
- (iii) Fein optimierte Nachbearbeitung: ausgefeiltes supervised Fine-Tuning, videospezifisches RLHF und ein mehrdimensionaler Belohnungsmechanismus verbessern die Gesamtleistung deutlich
- (iv) Modellbeschleunigung: Durch mehrstufige Distillation und Optimierungen auf Systemebene wird die Inferenzgeschwindigkeit um das 10-Fache erhöht
Auf einer NVIDIA-L20-GPU kann in nur 41,4 Sekunden ein 5-Sekunden-1080p-Video erzeugt werden
Im Vergleich zu aktuellen Videogenerierungsmodellen überzeugt es bei räumlich-zeitlicher Flexibilität, struktureller Stabilität, der Befolgung von Anweisungen in komplexen Multi-Szenarien sowie bei Multi-Shot- und Storytelling-Konsistenz

1 Kommentare

GN⁺ 2025-06-14

Hacker-News-Kommentare

Ich freue mich auf eine Zukunft, in der sich solche Funktionen irgendwann völlig gewöhnlich und langweilig anfühlen
- Ich stelle mir vor, dass ich zum Spaß direkt auf meinem Handy in einem Gruppenchat mit Freunden spontan eine 24-teilige, vollständig vertonte Animation erstellen kann
- Schon jetzt kann man unfassbar viel damit machen, und ebenso faszinierend ist, dass sich bald niemand mehr dafür interessieren wird
- Es wird darauf hingewiesen, dass sich am Ende trotzdem niemand für eine 24-teilige Serie interessieren wird, selbst wenn sie mit einem ganz simplen Prompt erstellt wurde
  - Die Idee dahinter: KI steigert nicht den Wert von Inhalten, sondern zerstört durch das Vernichten von Knappheit ihre Bedeutung
  - Dazu wurde auch die Metapher hinterlassen, dass es sich anfühlt wie bei „Tea. Earl Grey. Hot.“, also als käme es bloß mechanisch aus einer Maschine
- Wenn die Erstellung von Inhalten so einfach wird, stellt sich die Frage, wer dann noch lange Zeit damit verbringt, Videos anzuschauen
  - Die Vermutung ist, dass am Ende alle damit beschäftigt sein werden, ihre jeweils eigenen generativen Inhalte zu konsumieren
- Auch ich freue mich sehr auf diese Technologie
  - Zum Beispiel fände ich es großartig, selbst so etwas wie einen Shadowrun-Film zu machen
- Es wird erwartet, dass die Menge an Inhalten, die pro Monat erstellt wird, die Summe aller bisherigen Inhalte der Menschheitsgeschichte übertreffen wird
  - Statt nur Massenmedien wie Disney, Marvel oder Star Wars wird man Long-Tail-Medien genießen können, die exakt zu den eigenen Interessen passen
  - Wenn man sich etwa für Ägypten und Atlantis interessiert, könnte man sich sofort eine Steampunk-Serie ansehen, in der beide Zivilisationen gegeneinander kämpfen, im ernsten Ton von „The Wire“
  - Es wird eine Zeit kommen, in der auch Konzepte realisierbar sind, die früher niemals produziert worden wären
  - Gute Kreative werden auftauchen, und wie bei Indie-Musik, Indie-Comics oder Indie-Games können nun vielfältige Creator hervorstechen
  - Das eigentliche Problem wird die Auffindbarkeit sein
  - Betont wird, dass die bisherige Branchenstruktur zusammenbrechen wird, in der man letztlich auf wenige, etwa 500 begrenzte Plätze pro Jahr angewiesen war, und dass dann viele talentierte Menschen mit eigener Vision große Versuche wagen können
  - Modelle wie VivziePop(Vivienne Medrano auf Wikipedia) oder PsychicPebbles(Zach Hadel auf Wikipedia), die auf YouTube begonnen und sich zu riesigen IPs entwickelt haben, dürften zum Standard der Zukunft werden
  - Es wird erwartet, dass die Innovation in der Kreativwelt nicht bloß um das Zwei- bis Zehnfache, sondern fast um das Tausendfache zunimmt
  - Bisher mochte ich die meisten Filme und Serien nicht, weil sie meinem Geschmack nicht entsprachen, aber das Medium selbst habe ich immer geliebt
  - Nun eröffnet sich wohl eine Welt, in der ich Inhalte finden kann, die exakt meinem Geschmack und meinen Interessen entsprechen, und das begeistert mich enorm
In Zukunft könnte es wie beim TikTok-Algorithmus laufen: In dem Moment, in dem ich etwas anschaue, erkennt das System meinen Geschmack und erzeugt fortlaufend neue Videos genau dafür
- Das System würde bei jedem Scrollen lernen, was mir gefällt, und automatisch weitere Videos dafür generieren
- Wenn dem Modell genug Kontext gegeben wird, könnten die Inhalte, auf die jemand anspringt, so fesselnd werden, dass man den Blick nicht mehr vom Bildschirm lösen kann
  - Das ist eine unheimliche Vorstellung, wirkt langfristig aber unausweichlich
- Es gibt allerdings auch die Sorge, dass das System nicht einfach nur dem Geschmack der Nutzer folgt, sondern versucht, diesen Geschmack selbst zu manipulieren, um das Engagement zu maximieren
- Manche meinen auch, dass diese technische Richtung eigentlich an dem vorbeigeht, warum Menschen soziale Medien nutzen
  - Als Beispiel wird genannt, dass auch ChatGPT endlos Kommentare erzeugen könnte, wir aber trotzdem hier auf Hacker News sind
- Später könnte auch ein „Live-Modus“ auftauchen, in dem in Echtzeit sofort Videos erzeugt werden, die sich an der Stimme des Nutzers orientieren
  - So eine Funktion könnte wohl auch bei Netflix eingebaut werden
- Man fragt sich, ob das System auch lernen und richtig berücksichtigen wird, dass man Werbung nicht mag
Unter den Beispielvideos gibt es einige ziemlich beeindruckende Szenen, aber in manchen Sequenzen fallen häufig unnatürliche Bewegungen auf
- Es wirkt, als hätten sich die Trainingsdaten bei TikTok auf die überdrehtesten Teile konzentriert, sodass kaum eine Einstellung länger als 5 Sekunden gehalten werden kann
- Schwierige Szenen werden zwar klar gut verarbeitet, aber gerade bei einfach wirkenden Stellen passieren auffallend viele Fehler
  - Auf dem Klavier im Intro oder auf der Kamera des Fotografen steht „AI text“, im Café geht die Hand eines älteren Herrn durch seine Baskenmütze hindurch, und das Mädchen, das sich am Meer umdreht, dreht den Kopf wie eine Eule
  - In der Szene mit dem Jungen auf dem Fahrrad in einer europäischen Stadt endet es damit, dass auf dem Platz ein verschlüsseltes Wesen auf einem Einrad unter einem Baum steht
- ByteDance testet das Modell intern schon seit mehreren Wochen in der Model Arena unter dem Namen „Unicorn“
  - Dort erzielt es bereits höhere Werte als Google Veo 3
  - ArtificialAnalysis: direkt zum Model-Arena-Ranking
Es wird prognostiziert, dass in 5 Jahren eine Welt möglich ist, in der sämtliche Inhalte in Echtzeit generiert werden
- Wenn ich etwas sage, kommt sofort eine 5-Sekunden-Antwort in Videoform zurück
- Videos wären dann keine „festen Assets“ mehr, sondern ephemere Antworten, die spontan entstehen und wieder verschwinden
- Videos würden keine hochgeladenen passiven Dateien mehr sein, sondern die Ausgaben eines Datenstroms
- Die UI der Zukunft, die Swipes ersetzt, könnte sehr wahrscheinlich aus Sprach-Prompts bestehen
- Was Seedance hier tut, ist weniger ein Experiment mit einem neuen Format als ein Experiment mit einem System für runtime-generierte Inhalte
- Im Backend wird die model infra mit comet verdichtet, und das LLM wird so eingerichtet, dass es günstiger und schneller läuft
- Wenn diese Kombination funktioniert, könnte man Inhalte in großem Maßstab bereitstellen, ohne riesige Batches oder Caches zu benötigen
- Falls sich das tatsächlich durchsetzt, wäre der Feed kein Scrollen mehr, sondern ein Render-Loop
- All das wird nicht mehr als „Mediendienst“ gesehen, sondern als Hosting-System für latenzarme KI-Modelle in der Gestalt einer Videoplattform
Die Videoqualität ist hervorragend, aber wo ist der Ton, wird gefragt
- Es wird erwähnt, dass VEO3 zwar gute Videos erstellt, die Audioseite aber die eigentliche große Differenzierung ausmacht
- Ich arbeite selbst mit KI-Lösungen bei einem großen Video-Streaming-Unternehmen
  - Das Problem von VEO3 ist die mangelnde Konsistenz zwischen Prompts
  - Wenn man zum Beispiel ein Referenzbild für eine Figur hochlädt und dann einmal „eine alte Braut beugt sich vor“ und einmal „eine alte Braut hebt eine Münze auf“ generieren lässt, sieht die Figur jedes Mal anders aus
  - Zwar bietet VEO3 eine Image-to-Video-Funktion, aber für den Aufbau echter Szenen reicht das noch bei Weitem nicht aus
  - Mit der Zeit wird sich das sicher verbessern, aber aktuell gefällt mir persönlich, dass Seedance den Fokus auf Konsistenz zwischen einzelnen Shots legt
  - Ich hoffe, dass das auch Druck auf VEO3 ausübt und diese Funktion dort schneller verbessert wird
Es wird gefragt, warum in allen Beispielvideos große Kreise auftauchen
Es kommt die Frage auf, wo man Seedance verwenden kann
- Seedance 1.0 soll ab Juni 2025 in verschiedene Plattformen wie Doubao und Jimeng integriert werden
- Es sieht so aus, als würde diese Funktion bald direkt bei TikTok landen
  - Es wird darauf hingewiesen, dass es auf TikTok selbst eine enorme Flut generativer Inhalte geben wird und die Plattform einen Weg finden dürfte, daraus Kapital zu schlagen, dass jeder Creator werden möchte
  - Es wird vermutet, dass sich die Plattformpolitik künftig von „Du kannst Inhalte kostenlos hochladen“ zu „Du kannst nur über ein KI-Gateway hochladen, und dafür musst du zahlen“ verschieben wird
Jemand sagt, dass ihm bei Videos mit viel Bewegung übel oder schwindlig wird
- Ein ähnliches Erlebnis gab es schon bei der ersten Sora-Vorführung, bei Seedance sei es aber etwas abgeschwächt
- Bei der Veo-3-Demo sei dieses Symptom nicht aufgetreten, daher die Frage, ob andere bei bewegungsreichen Seedance-Beispielen etwas Ähnliches empfunden haben
Es wird die Frage gestellt, ob der Realismus von KI-generierten Videos inzwischen an das Niveau klassischer CGI-Animationsfilme heranreicht
- Es wird erwartet, dass Fachleute in den aktuellen Ergebnissen selbstverständlich klare Mängel aufzeigen können
- Gleichzeitig besteht die Hoffnung, dass sich bestimmte Abschnitte künftig gezielt per Prompt fein nachbearbeiten lassen
- Außerdem wird gefragt, wie viel Rechenleistung oder Geld das im Vergleich zu den Kosten pro Sekunde für High-Budget-CGI in Hollywood tatsächlich benötigt
- Da selbst gewöhnliches CGI in aktuellen Hollywood-Produktionen oft qualitativ abfällt, sind die Erwartungen ohnehin nicht besonders hoch
  - Auch der Prozess des change management bei Änderungen an CGI-Ergebnissen wirkt tatsächlich ziemlich spannend
„Old man“ sieht für mich nicht besonders alt aus, was ich persönlich etwas seltsam finde (vielleicht liegt das auch daran, dass ich selbst älter werde)

Seedance 1.0 – ByteDances Multi-Shot-Videogenerierungsmodell

Einführung in Seedance 1.0

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare