- AniSora ist ein von Bilibili entwickeltes Open-Source-KI-Videogenerierungsmodell, das verschiedene Stile wie Animation, Manga und VTuber unterstützt
- Hochwertige Animationsvideos in hoher Auflösung lassen sich einfach aus Bild- oder Text-Prompts erzeugen
- Auf Basis von auf Manga und Animation spezialisierten Algorithmen und großen Datensätzen liefert es realistische Bewegungen und ausdrucksstarke Ergebnisse
- Zu den Stärken zählen eine intuitive Benutzeroberfläche und eine Community-basierte Kollaborationsumgebung, die auch für Nicht-Profis leicht nutzbar ist
- Es eignet sich für vielfältige Anwendungsfälle wie Kurzepisoden, PVs, VTuber und Concept Art
Was ist AniSora?
- AniSora ist das leistungsstärkste Open-Source-Modell zur Generierung von Animationsvideos, das von Bilibili entwickelt wurde
- Mit nur einem Klick lassen sich Videos in verschiedensten Stilen erstellen, darunter Animationsserien, Donghua, Manga-Adaptionen, VTuber und Anime-PVs
- Bereits mit einem Bild oder einem Text-Prompt können statische Szenen in dynamische und detailreiche Animationen verwandelt werden
- Die zugrunde liegende Forschung von AniSora basiert auf einem aktuellen technischen Paper, das für IJCAI’25 angenommen wurde
Beispiele für AniSora
- Die mit AniSora erzeugten Beispielvideos zeigen die Fähigkeit, Standbilder natürlich in bewegte Animationen zu überführen
- Beispiele: Haare, die sich im Auto im Wind bewegen, mehrere Mädchen, die mit erhobenen Händen tanzen, oder Bewegungsunschärfe bei einer schnell laufenden Figur
- Das Modell setzt verschiedene für Manga und Animation wichtige Inszenierungen realistisch um, darunter Gefühlsausdruck, Dynamik und Szenenwechsel der Figuren
Die wichtigsten Vorteile von AniSora
Auf Animations-/Manga-Stile spezialisierte Algorithmen
- Es verwendet eine spezialisierte Modellarchitektur, die mit großen Animations- und Manga-Datensätzen trainiert wurde
- Eigene visuelle Stile und Inszenierungen werden präzise reproduziert
- Hochwertige Ausgaben sind möglich, die sogar aktuelle Manga-Adaptionen und Trends berücksichtigen
Intuitive Benutzeroberfläche
- Das System wurde so entwickelt, dass auch technisch weniger versierte Nutzer selbst Videos erzeugen können
- Mit nur einem Klick kann jeder einfach Manga- und VTuber-Videos erstellen
Unterstützung für hochwertige Animationsvideos
- AniSora bietet standardmäßig 1080p-Videoausgabe in hoher Qualität
- Die Videos sind für verschiedene Plattformen optimiert und können für Projekte, soziale Netzwerke, PVs und weitere Kanäle genutzt werden
Zusammenfassung der AniSora-FAQ
Was ist AniSora?
- AniSora ist Teil von Project Index-AniSora und ein von Bilibili veröffentlichtes Open-Source-Modell zur Generierung von Animationsvideos
- Bereits mit Bild- oder Text-Prompts lassen sich automatisch hochauflösende Videos im Animationsstil erstellen
- Es berücksichtigt aktuelle Forschungsergebnisse mit Schwerpunkt auf Bewegungskonsistenz und Ausdrucksstärke
Unterschied zu anderen KI-Videogenerierungstools
- AniSora konzentriert sich auf spezialisierte Leistung für Animations- und Manga-Stile
- Als Community-zentriertes Open-Source-Projekt mit der Expertise von Bilibili ist es für die Erstellung spezialisierter Videos wie Animationsserien, Manga-Adaptionen und VTuber optimiert
Unterstützung für Video & Audio
- Derzeit ist AniSora ein Modell mit Schwerpunkt auf Videogenerierung
- Ob zusätzliche Funktionen wie Audiosynthese angeboten werden, sollte in der aktuellen Dokumentation geprüft werden
Ist es für Animations-/Manga-Kreative geeignet?
- AniSora ist auf Charakterkonsistenz und ausdrucksstarke Bewegungen optimiert und damit ein ideales Werkzeug für Kreative, insbesondere in den Bereichen Animation, PV, Manga und VTuber
Wichtige Anwendungsfälle
- Es ist breit einsetzbar für Kurzanimationen, Social-Media-Videos, PVs, animierte Manga-Panels, VTuber, Concept Art, Storyboards und mehr
Videoqualität und Länge
- AniSora ist besonders stark bei der Erstellung kurzer Videos in hoher Auflösung (1080p)
- Im Allgemeinen eignen sich kurze Clips, während konkrete Einschränkungen in der offiziellen Dokumentation nachgelesen werden können
Steuerung von Stil und Bewegung
- Über die Eingabe von Bild- oder Text-Prompts können Nutzer den gewünschten visuellen Stil und die Bewegung beeinflussen
- Auf Basis von Daten aus dem Animationsbereich werden erweiterte Steuerungsmöglichkeiten unterstützt, darunter Bewegungsanpassung, Charakterkonsistenz und die Anwendung detaillierter Stile
- Je nach Version oder Benutzeroberfläche kann der verfügbare Funktionsumfang variieren
Fazit
- AniSora ist ein leistungsstarkes Open-Source-KI-Modell zur Videogenerierung, das speziell für die Erstellung von Animationen sowie Manga-/VTuber-Videos entwickelt wurde
- Zu den wichtigsten Vorteilen zählen differenzierte Stiltreue, intuitive Bedienung und die Erzeugung hochauflösender Videos
- Mit Fokus auf Community-Open-Source-Kultur und Unterstützung für Kreative bietet es sowohl im japanischen Anime- als auch im chinesischen Donghua-Bereich hohen praktischen Nutzen
1 Kommentare
Hacker-News-Kommentare
Einige der Ergebnisse wirken eindeutig so, als seien sie auf Webtoons, Manga und vermutlich auch pixiv trainiert worden. Das sieht man leicht an CG-Gebäuden und verschiedenen anderen Artefakten. Am Ende läuft es also darauf hinaus, dass mit urheberrechtlich geschütztem Material trainiert wurde. Kunst ist kein Bereich, den man so synthetisch erzeugen kann wie Text, deshalb werden menschliche Künstler immer einen wichtigen Platz behalten — oder es entstehen eben weiterhin merkwürdige Artefakte. Deshalb frage ich mich, ob Künstler künftig zu einer Berufsgruppe für das "AI"-Training herabgestuft werden. Andererseits fände ich es gar nicht so schlecht, wenn Menschen einfach das zeichnen, was sie mögen, und das dann für das Modelltraining genutzt wird. Ich bin in Fragen von Urheberrecht und Markenrecht sehr pro AI eingestellt, aber ich frage mich weiterhin, was mit vielen der Menschen passiert, die uns unterhalten haben. Ob die Qualität immer weiter steigt oder ob herausfordernde Stile verschwinden, weil sie für AI "zu schwierig" sind und am Ende alles gleich aussieht. Das fühlt sich anders an als wenn PCs und Maschinen Menschen ersetzen — eher so, als wäre man an einem Endpunkt angekommen.
Vielleicht kommt jetzt endlich die Zeit, in der wir die gewünschte dritte Staffel von Haruhi bekommen können. Wirklich eine gute Zeit zum Leben.
Mit einer Promo-Illustration von Neon Genesis Evangelion getestet. Das Ergebnis ist okay, aber während sich der Kopf dreht, treten zeitliche Artefakte in der Haaranimation auf. Es gibt auch eine Seite mit Beispielsammlungen und anderem Referenzmaterial.
Zusammenfassung eines Auszugs aus dem Paper: "Ein Training mit variabler Länge wurde eingeführt, mit Sequenzen von 2 bis 8 Sekunden. Mit dieser Strategie lassen sich 720p-Videos mit einer Länge von 2 bis 8 Sekunden erzeugen." Ich würde das gern mit FramePack benchmarken. Gerade bei 2D-Animationen sehe ich den Vorteil, dass es praktisch keine Einschränkungen bei der Frame-Dauer gibt.
Wer sich für AI-Animationsinhalte interessiert, sollte am AniGen-Wettbewerb teilnehmen.
Ich frage mich, ob es denselben Charakter in verschiedenen Szenen und Perspektiven konsistent darstellen kann. Das ist meiner Meinung nach bisher die Grenze der Bildgenerierung.
Schon im ersten Beispiel sind viele Fehler zu sehen. Die Ärmel des Shirts brechen auf, und die sich bewegenden Haare verschwinden und tauchen wieder auf. Im Grunde bewegen sich meistens nur die Arme und die Wolken.
Selbst wenn man Account und Eingabewerte ändert, treten jedes Mal seltsame Fehler auf, sodass es nicht richtig funktioniert.
Mich interessiert der urheberrechtliche Status von Videos, die mit so einem Dienst erstellt werden. Ich würde gern wissen, ob sie urheberrechtlich geschützt sind. Die derzeitige Position des US Copyright Office lautet: "Ergebnisse generativer AI sind nur dann urheberrechtlich schützbar, wenn ein menschlicher Urheber in ausreichendem Maß kreative Elemente bestimmt (eingebracht) hat." Falls kein Schutz besteht, könnten Filme oder Ähnliches, die mit einem solchen Dienst erstellt wurden, einfach kopiert oder plagiiert werden. Unabhängig davon, mit welchen Daten dieses Tool trainiert wurde.
Ich würde gern sehen, wie sich die Kampfszenen von The Beginning After the End verändern würden, wenn dieses Tool darüberläuft. Mich interessiert ernsthaft, in welche Richtung sich das entwickelt. Werden die Leute es akzeptieren, wenn es eine neue Staffel ihres Lieblingsfranchise gibt, auch wenn es etwas mehr visuelle Fehler und Artefakte gibt, oder wird es eher auf Ablehnung stoßen wie der unbeholfene Einsatz von 3D-Modellen?