Veröffentlichung von Stable Video Diffusion

(stability.ai)

14 Punkte von GN⁺ 2023-11-22 | 2 Kommentare | Auf WhatsApp teilen

Stable Video Diffusion ist das erste generative Videomodell auf Basis des Bildmodells Stable Diffusion
Es wird als Forschungsvorschau bereitgestellt und ist ein wichtiger Schritt auf dem Weg zur Entwicklung verschiedenster Modelltypen
Der Code ist im GitHub-Repository verfügbar, und die zum lokalen Ausführen des Modells nötigen Gewichte sind auf der Hugging Face-Seite zu finden

Für verschiedene Videoanwendungen einsetzbar

Das Videomodell lässt sich leicht auf verschiedene Downstream-Aufgaben anwenden, darunter die Multi-View-Synthese aus einem einzelnen Bild
Ähnlich wie beim Ökosystem rund um Stable Diffusion sind verschiedene Modelle geplant, die auf dieser Grundlage aufbauen und sie erweitern
Ab heute ist die Anmeldung zur Waitlist für eine neue Web-Erfahrung mit einer Text-to-Video-Oberfläche möglich

Wettbewerbsfähige Leistung

Stable Video Diffusion wird mit zwei Image-to-Video-Modellen veröffentlicht, die 14 bzw. 25 Frames mit einer anpassbaren Bildrate zwischen 3 und 30 Frames pro Sekunde erzeugen können
Bereits in der grundlegenden Form bei der Veröffentlichung zeigten externe Bewertungen, dass diese Modelle in Studien zur Nutzerpräferenz führende geschlossene Modelle übertreffen

Nur für die Forschung

Man möchte die Modelle mit den neuesten Fortschritten aktualisieren und Feedback einfließen lassen, betont aber, dass sie in der aktuellen Phase nicht für reale oder kommerzielle Anwendungen gedacht sind
Erkenntnisse und Feedback zu Sicherheit und Qualität sind entscheidend, um die Modelle für eine finale Veröffentlichung weiter zu verfeinern

Kontinuierliche Erweiterung der AI-Modelle

Stable Video Diffusion ist eine stolze Ergänzung zu der breiten Palette an Open-Source-Modellen, die verschiedene Modalitäten wie Bild, Sprache, Audio, 3D und Code abdecken
Ein Portfolio, das Stability AIs Engagement für die Erweiterung menschlicher Intelligenz unter Beweis stellt.

Meinung von GN⁺

Das Wichtigste an diesem Artikel ist die Veröffentlichung des Stable-Video-Diffusion-Modells, die den Fortschritt der AI-Technologie zeigt und Anwendungsmöglichkeiten in verschiedensten Bereichen eröffnet.
Diese Technologie bietet Forschern und Entwicklern ein neues Werkzeug und ermöglicht kreative Videoerzeugung, sodass spannende Anwendungen in Bereichen wie Werbung, Bildung und Unterhaltung zu erwarten sind.

2 Kommentare

xguru 2023-11-22

Der Stable-Diffusion-Moment kommt zu LLMs

Kommt dieser Stable Diffusion Moment jetzt auch zu Videos? Es wirkt jedenfalls so, als würde bei ausländischen KI-Startups derzeit tatsächlich im Videobereich das Geld zusammenfließen.

GN⁺ 2023-11-22

Hacker-News-Kommentare

Unten auf der Videoseite erscheinen zwei Vögel, vermutlich Blauhäher, und im Hintergrund stehen zwei identische Gebäude, die wie der CN Tower aussehen. Der CN Tower ist ein wichtiges Wahrzeichen Torontos, und Torontos Baseballteam heißt Blue Jays. Der Turm befindet sich in der Nähe des wichtigsten Sportstadions der Innenstadt. Ich verstehe grob, wie Text-zu-Bild funktioniert, und es scheint plausibel, dass „Blauhäher“ im Vektorraum nahe bei „Toronto“ oder „CN Tower“ liegt. Die Verbesserungen bei Skalierung und Geschwindigkeit von Bild-zu-Video sind beeindruckend, aber wenn man sieht, wie leistungsfähig Bildgenerierungsmodelle sind, wirkt das Ganze wegen des Fehlens von Bearbeitungs- oder Iterationsfähigkeiten noch eingeschränkt. Ich frage mich zum Beispiel, ob es eine Lösung gibt, bei der das Modell iterative Aufgaben mit Prompts wie „Verschiebe das Fahrrad im Foto nach links“ ausführen kann. Dieses Feld entwickelt sich extrem schnell.
Das Entwicklungstempo im Bereich Machine Learning im letzten Jahr war erstaunlich. Wenn ControlNet sinnvoll auf Video angewendet wird, bin ich gespannt, wie die Leute diese Technologie nutzen werden. Videos komplett von Grund auf zu erzeugen ist cool, aber der eigentliche Nutzen dieser Technologie liegt in der zeitlichen Konsistenz. Um stabile Videos zu erhalten, ist in der Regel viel manuelle Nachbearbeitung nötig.
Ich frage mich immer noch, wie eine „nicht-kommerzielle“ Modelllizenz durchgesetzt werden kann. Softwarelizenzen regeln die Weiterverbreitung von Software, aber nicht die mit ihr erzeugten Produkte. Ein mit GIMP erzeugtes Bild steht zum Beispiel nicht unter der GPL.
Dieses Feld bewegt sich sehr schnell. Im Handumdrehen erscheint ein neues Paper. Das Lerntempo der Menschheit ist erstaunlich. Es ist sehr interessant, dies für Downstream-Tasks zu verwenden. Ich frage mich, wie einfach sich dieses Modell mit animatediff integrieren lässt. Außerdem würde ich gern wissen, ob jemand Benchmarks auf einem m3-Gerät durchführen kann und ob sich ein m3 pro lohnt, um solche Diffusion-Inferenz und Entwicklung auszuführen.
Ein faszinierender Sprung beim technischen Fortschritt. Das bringt mich dazu, über den Unterschied zwischen ancestral samplers und non-ancestral samplers nachzudenken. Zum Beispiel ist die Euler-Methode eher deterministisch, und selbst wenn die Anzahl der Sampling-Schritte steigt, ändert sich die Ausgabe nicht, während Euler Ancestral in jedem Schritt Rauschen hinzufügt, dadurch mehr Vielfalt erzeugt, aber auch zufälliger/stochastischer ist. Um Video zu erzeugen, müsste der Sampler meiner Meinung nach stark vom vorherigen Frame abhängen und eine Art Sub-Prompt einspeisen, etwa „Drehe ein bestimmtes Objekt um 5 Grad nach links“. Mir gefällt der Ausdruck „zeitliche Konsistenz“, den ein anderer Kommentator verwendet hat.
Es leuchtet ein, dass sich die Ergebnisse verbessern lassen, wenn man aus den Trainingsdaten alle Schnitte und Überblendungen entfernt. Im Hintergrundteil des Research-Papers werden „temporal convolution layers“ erwähnt; kann jemand erklären, was das ist? Ich frage mich, welche Art von Trainingsdaten eingegeben wird, um den zeitlichen Zustand zwischen den Bildern eines Videos darzustellen, oder ob damit etwas anderes gemeint ist.
Eine sehr coole Entwicklung. Ich habe vor ein paar Monaten bei Replicate einige „Video“-Generierungsmodelle ausprobiert und sehr coole Ergebnisse erhalten, aber am Ende war klar, dass die entstandenen Videos erzeugt wurden, indem der vorherige Frame als Prompt verwendet wurde. Diese Technologie scheint tatsächlich etwas mit einem höheren Maß an Kontext erzeugen zu können. Es ist erstaunlich, ein solches Fortschrittsniveau in kaum mehr als einem halben Jahr zu sehen.
Ich bitte Stability.ai darum, sicherzustellen, dass der Vorstand vernünftig ist.
Ich freue mich sehr darauf, diese Technologie auszuprobieren. Hier sind einige Experimente, die ich kürzlich durchgeführt habe.
Wie bei statischen Bildern ist es sehr interessant, die subtilen unbeabsichtigten Fehler zu beobachten. Zum Beispiel wirkt der Mann mit dem Cowboyhut fast, als würde er ersticken, und im Zugvideo sehen die Schienen viel zu breit aus, während sich der Zug bewegt, als würde er über Eis skaten.