Versuch einer unbemannten vollautomatischen Produktion von der Story-Erstellung bis zum Video durch

Für alle ist es sehr wichtig, Storytelling zu entwickeln, aber zugleich ein schwieriger Bereich.
Letztlich ist die Erschaffung einer guten Geschichte der Kernpunkt.
Mit dem Aufkommen von ChatGPT gab es zwar Innovationen bei der Story-Erstellung mit AI, aber ich denke, es liegt noch ein weiter Weg vor uns.

Vor etwa einem Jahr habe ich schon einmal mit ChatGPT und Stable Diffusion ein Märchenbuch erstellt
und auf Kakao Brunch veröffentlicht, daher wollte ich diesmal etwas noch stärker Multimodales
umsetzen.

Das Ziel war, nach der anfänglichen Einrichtung den Schwerpunkt darauf zu legen, dass „AI ohne menschliches Eingreifen zu mehr als 99 % selbstständig bis zum finalen Ergebnis produziert“.
Natürlich ist es unverzichtbar, dass eine originelle und schlüssige Geschichte kausal miteinander verbunden ist.

Dementsprechend wurde „YouTube-Content für Kinder“ als Umsetzungsziel festgelegt.
Die Gründe für die Wahl von Kinder-Content waren:

Geschichten lassen sich vergleichsweise einfacher behandeln
Im Verhältnis zur Videoqualität wird ein großer Effekt erwartet
Kinder-Content war Neuland für mich, und ich wollte ihn einmal erstellen

[Konkreten Umsetzungsplan (Architektur) entwerfen und selbst bauen]

Ich ging davon aus, dass die Logik zur Story-Erstellung „so entworfen sein muss, dass bei gleichbleibender Konsistenz fortlaufend neue Episoden hinzugefügt werden können“, damit Nachhaltigkeit entsteht.
Entsprechend habe ich ein eigenes GPTs nur für Kinder-Storytelling erstellt. (Aktuell nur für mich sichtbar.)
Die Instructions des GPTs wurden auf etwa eine A4-Seite sehr detailliert ausgearbeitet („mit dem Ziel, das Gesamtkonzept und den Kontext beibehalten zu können“).
In den Instructions habe ich festgelegt, dass zu Beginn und am Ende jedes Textes bestimmte Schlüsselwörter zwingend verwendet werden müssen (eine textuelle Festlegung, damit selbst Erstzuschauer Konzept und Hintergrund erkennen und neugierig auf die nächste Folge werden).
Der Hauptteil folgt entlang eines natürlichen Zeitverlaufs der Achse Krise, Konflikt und Lösung; dabei habe ich viele detaillierte Beispiele festgelegt, sodass auch neu erzeugte Episoden unter Wahrung des Kontexts diesen Regeln folgen.
*Der Grund, warum das Konzept „Toris Abenteuer“ als „Junge, dessen Gesicht sich jeden Morgen nach dem Schlafen verändert“ festgelegt wurde, ist, dass sich bei der Bildgenerierung ein Seed nur schwer konsistent halten lässt. Ich wollte diesen Nachteil bewusst in einen Vorteil verwandeln, und da ohnehin jedes Mal eine neue Episode entsteht, hielt ich das sogar für besser.
Das im GPTs erzeugte Skript wurde über Zapier per API mit Actions verbunden, um nachgelagerte Verarbeitung und multimodale Generierung durchzuführen.

*Eine detaillierte Anleitung zur Einrichtung von GPTs Actions findet sich im von mir verfassten Kakao-Brunch-Link
https://brunch.co.kr/@seawolf/9

Bei der Verbindung mit dem GPTs habe ich es so eingerichtet, dass das GPTs mich nach dem „Themen-Keyword der neuen Episode“ fragt. Das ist der einzige Punkt, den der Mensch entscheidet. Natürlich könnte auch das zufällig erfolgen.
Die Ermittlung des „Themen-Keywords“ folgt gemäß den in den Instructions festgelegten Vorgaben diesem Ablauf:

Über Suchportale lässt es aktuelle „Keywords“ extrahieren und vorschlagen, die bei „Kindern“ beliebt sind (beurteilt etwa anhand des Suchvolumens; tatsächlich dominieren Spiele und Freizeitaktivitäten erwartungsgemäß deutlich).
Wählt man aus den vorgeschlagenen Keywords eines aus, das einem gefällt,
gibt es gemäß der in den Instructions festgelegten Logik sofort eine neue, etwa einseitige und schlüssige Story aus.
Meistens sind die Inhalte originell und ansprechend, aber per Prompt kann man kleine Änderungen oder Löschungen anfordern.
Wenn man den final bestätigten Text per Actions mit dem Befehl „an meine E-Mail oder per API senden“ übermittelt, wird er sofort verschickt und ein Trigger ausgelöst.

In Zapier, das nun vom GPTs aufgerufen wird und die übertragenen Werte (Text) erhält, werden dann in der von mir festgelegten Reihenfolge APIs aufgerufen, und Datenverarbeitung, Zusammenführung sowie Generierung werden ausgeführt.
Multimodale Komponenten bis zur finalen Videoerstellung (APIs und Nutzung verschiedener Service-Plattformen)

optimiertes Textskript
Text-zu-Sprache-Erzeugung
Aus dem Skriptkorpus (üblicherweise werden 1 bis 3 Sätze als ein Block definiert) werden Kontext und Keywords automatisch extrahiert und daraus Bilder generiert
Musik, Soundeffekte, Emoticons und andere Zusatzelemente werden passend zum Kontext automatisch platziert
Die erzeugte Stimme wird als Untertitel ausgegeben
finales Video-Rendering
Optional „mehrsprachige Sprachumwandlung“

Abschluss durch Download des fertigen Ergebnisses
Als YouTube-Content hochladen

Bei der Messung der benötigten Zeit (es wird zunehmend schneller) ergab sich:

Gesamter Prozess zur Erstellung einer neuen Story über GPTs: unter 1 Minute
Nachgelagerte Verarbeitung der Backend-APIs per Actions-Aufruf: etwa 1 bis 2 Minuten
Bis zur automatischen Generierung des finalen multimodalen Videos: etwa 3 Minuten
Wenn hier ein Mensch kurz prüft und die zu korrigierenden Stellen leicht nachbearbeitet, steigt die Qualität deutlich (bei einfachem Retouching etwa weitere 3 Minuten)
Finales Rendering: 3 bis 5 Minuten (abhängig von der Videogröße)
Das heißt: In 10 Minuten lässt sich bereits ein ziemlich solides und unterhaltsames Kindervideo mit 3D-Modelling-Hintergrund erstellen.
Die Kosten beschränken sich auf einige kostenpflichtige APIs einschließlich OPENAI sowie Hosting-Kosten; selbst zusammengerechnet dürfte die Herstellung eines Videos von unter 3 Minuten auf Minutenbasis kostenseitig unter 1.000 Won liegen.

[Link zum fertigen Ergebnis]
„Toris Abenteuer“ Episode 1: Verwandlung in einen K-POP-Star (Koreanisch)
https://www.youtube.com/watch?v=m4U-pQPXQc8&t=15s

„Toris Abenteuer“ Episode 1: Verwandlung in einen K-POP-Star (englische Version)
https://www.youtube.com/watch?v=CT3KHU7BvIs

„Toris Abenteuer“ Episode 2: Verwandlung in einen Superhelden (Koreanisch)
https://www.youtube.com/watch?v=U4n_W22zWaY&t=7s

„Toris Abenteuer“ Episode 3: Verwandlung in den Weihnachtsmann (Koreanisch / 3D-Modelling-Version)
https://www.youtube.com/watch?v=wl2RWAqOXtY

Ich denke, dass in diesem Prozess mehr als 90 % unbemannte Automatisierung erreicht wurden.
Mit diesem Experiment habe ich verschiedene Anwendungsmöglichkeiten entdeckt und teile diese Informationen hier.

Wenn Sie mehr Informationen möchten, nehmen Sie an der Community teil.
[ Link zur Community-Teilnahme (KakaoTalk Open Chat) ]
https://open.kakao.com/o/gE6hK9Vf

Versuch einer unbemannten vollautomatischen Produktion von der Story-Erstellung bis zum Video durch AI auf Basis von GPTs

1 Kommentare

Versuch einer unbemannten vollautomatischen Produktion von der Story-Erstellung bis zum Video durch AI auf Basis von GPTs

Verwandte Beiträge

1 Kommentare