- Stable Video Diffusion ist das erste generative Videomodell auf Basis des Bildmodells Stable Diffusion
- Es wird als Forschungsvorschau bereitgestellt und ist ein wichtiger Schritt auf dem Weg zur Entwicklung verschiedenster Modelltypen
- Der Code ist im GitHub-Repository verfügbar, und die zum lokalen Ausführen des Modells nötigen Gewichte sind auf der Hugging Face-Seite zu finden
Für verschiedene Videoanwendungen einsetzbar
- Das Videomodell lässt sich leicht auf verschiedene Downstream-Aufgaben anwenden, darunter die Multi-View-Synthese aus einem einzelnen Bild
- Ähnlich wie beim Ökosystem rund um Stable Diffusion sind verschiedene Modelle geplant, die auf dieser Grundlage aufbauen und sie erweitern
- Ab heute ist die Anmeldung zur Waitlist für eine neue Web-Erfahrung mit einer Text-to-Video-Oberfläche möglich
Wettbewerbsfähige Leistung
- Stable Video Diffusion wird mit zwei Image-to-Video-Modellen veröffentlicht, die 14 bzw. 25 Frames mit einer anpassbaren Bildrate zwischen 3 und 30 Frames pro Sekunde erzeugen können
- Bereits in der grundlegenden Form bei der Veröffentlichung zeigten externe Bewertungen, dass diese Modelle in Studien zur Nutzerpräferenz führende geschlossene Modelle übertreffen
Nur für die Forschung
- Man möchte die Modelle mit den neuesten Fortschritten aktualisieren und Feedback einfließen lassen, betont aber, dass sie in der aktuellen Phase nicht für reale oder kommerzielle Anwendungen gedacht sind
- Erkenntnisse und Feedback zu Sicherheit und Qualität sind entscheidend, um die Modelle für eine finale Veröffentlichung weiter zu verfeinern
Kontinuierliche Erweiterung der AI-Modelle
- Stable Video Diffusion ist eine stolze Ergänzung zu der breiten Palette an Open-Source-Modellen, die verschiedene Modalitäten wie Bild, Sprache, Audio, 3D und Code abdecken
- Ein Portfolio, das Stability AIs Engagement für die Erweiterung menschlicher Intelligenz unter Beweis stellt.
Meinung von GN⁺
- Das Wichtigste an diesem Artikel ist die Veröffentlichung des Stable-Video-Diffusion-Modells, die den Fortschritt der AI-Technologie zeigt und Anwendungsmöglichkeiten in verschiedensten Bereichen eröffnet.
- Diese Technologie bietet Forschern und Entwicklern ein neues Werkzeug und ermöglicht kreative Videoerzeugung, sodass spannende Anwendungen in Bereichen wie Werbung, Bildung und Unterhaltung zu erwarten sind.
2 Kommentare
Der Stable-Diffusion-Moment kommt zu LLMs
Kommt dieser Stable Diffusion Moment jetzt auch zu Videos? Es wirkt jedenfalls so, als würde bei ausländischen KI-Startups derzeit tatsächlich im Videobereich das Geld zusammenfließen.
Hacker-News-Kommentare
Unten auf der Videoseite erscheinen zwei Vögel, vermutlich Blauhäher, und im Hintergrund stehen zwei identische Gebäude, die wie der CN Tower aussehen. Der CN Tower ist ein wichtiges Wahrzeichen Torontos, und Torontos Baseballteam heißt Blue Jays. Der Turm befindet sich in der Nähe des wichtigsten Sportstadions der Innenstadt. Ich verstehe grob, wie Text-zu-Bild funktioniert, und es scheint plausibel, dass „Blauhäher“ im Vektorraum nahe bei „Toronto“ oder „CN Tower“ liegt. Die Verbesserungen bei Skalierung und Geschwindigkeit von Bild-zu-Video sind beeindruckend, aber wenn man sieht, wie leistungsfähig Bildgenerierungsmodelle sind, wirkt das Ganze wegen des Fehlens von Bearbeitungs- oder Iterationsfähigkeiten noch eingeschränkt. Ich frage mich zum Beispiel, ob es eine Lösung gibt, bei der das Modell iterative Aufgaben mit Prompts wie „Verschiebe das Fahrrad im Foto nach links“ ausführen kann. Dieses Feld entwickelt sich extrem schnell.
Das Entwicklungstempo im Bereich Machine Learning im letzten Jahr war erstaunlich. Wenn ControlNet sinnvoll auf Video angewendet wird, bin ich gespannt, wie die Leute diese Technologie nutzen werden. Videos komplett von Grund auf zu erzeugen ist cool, aber der eigentliche Nutzen dieser Technologie liegt in der zeitlichen Konsistenz. Um stabile Videos zu erhalten, ist in der Regel viel manuelle Nachbearbeitung nötig.
Ich frage mich immer noch, wie eine „nicht-kommerzielle“ Modelllizenz durchgesetzt werden kann. Softwarelizenzen regeln die Weiterverbreitung von Software, aber nicht die mit ihr erzeugten Produkte. Ein mit GIMP erzeugtes Bild steht zum Beispiel nicht unter der GPL.
Dieses Feld bewegt sich sehr schnell. Im Handumdrehen erscheint ein neues Paper. Das Lerntempo der Menschheit ist erstaunlich. Es ist sehr interessant, dies für Downstream-Tasks zu verwenden. Ich frage mich, wie einfach sich dieses Modell mit animatediff integrieren lässt. Außerdem würde ich gern wissen, ob jemand Benchmarks auf einem m3-Gerät durchführen kann und ob sich ein m3 pro lohnt, um solche Diffusion-Inferenz und Entwicklung auszuführen.
Ein faszinierender Sprung beim technischen Fortschritt. Das bringt mich dazu, über den Unterschied zwischen ancestral samplers und non-ancestral samplers nachzudenken. Zum Beispiel ist die Euler-Methode eher deterministisch, und selbst wenn die Anzahl der Sampling-Schritte steigt, ändert sich die Ausgabe nicht, während Euler Ancestral in jedem Schritt Rauschen hinzufügt, dadurch mehr Vielfalt erzeugt, aber auch zufälliger/stochastischer ist. Um Video zu erzeugen, müsste der Sampler meiner Meinung nach stark vom vorherigen Frame abhängen und eine Art Sub-Prompt einspeisen, etwa „Drehe ein bestimmtes Objekt um 5 Grad nach links“. Mir gefällt der Ausdruck „zeitliche Konsistenz“, den ein anderer Kommentator verwendet hat.
Es leuchtet ein, dass sich die Ergebnisse verbessern lassen, wenn man aus den Trainingsdaten alle Schnitte und Überblendungen entfernt. Im Hintergrundteil des Research-Papers werden „temporal convolution layers“ erwähnt; kann jemand erklären, was das ist? Ich frage mich, welche Art von Trainingsdaten eingegeben wird, um den zeitlichen Zustand zwischen den Bildern eines Videos darzustellen, oder ob damit etwas anderes gemeint ist.
Eine sehr coole Entwicklung. Ich habe vor ein paar Monaten bei Replicate einige „Video“-Generierungsmodelle ausprobiert und sehr coole Ergebnisse erhalten, aber am Ende war klar, dass die entstandenen Videos erzeugt wurden, indem der vorherige Frame als Prompt verwendet wurde. Diese Technologie scheint tatsächlich etwas mit einem höheren Maß an Kontext erzeugen zu können. Es ist erstaunlich, ein solches Fortschrittsniveau in kaum mehr als einem halben Jahr zu sehen.
Ich bitte Stability.ai darum, sicherzustellen, dass der Vorstand vernünftig ist.
Ich freue mich sehr darauf, diese Technologie auszuprobieren. Hier sind einige Experimente, die ich kürzlich durchgeführt habe.
Wie bei statischen Bildern ist es sehr interessant, die subtilen unbeabsichtigten Fehler zu beobachten. Zum Beispiel wirkt der Mann mit dem Cowboyhut fast, als würde er ersticken, und im Zugvideo sehen die Schienen viel zu breit aus, während sich der Zug bewegt, als würde er über Eis skaten.