- Ovi, entwickelt von Character AI, ist ein KI-Modell, das aus Text- oder Bildeingaben gleichzeitig Audio und Video generiert
- Ovi kombiniert einen selbst aufgebauten Audio-Branch im Umfang von 5B mit einem auf Wan2.2 basierenden Video-Branch, um hochwertige, synchronisierte audiovisuelle Inhalte zu erzeugen
- Das Modell wurde mit einer Auflösung von 720×720 trainiert, erzeugt aber auch bei Auflösungen ab 960×960 natürliche Ergebnisse und unterstützt verschiedene Seitenverhältnisse (9:16, 16:9 usw.)
- Es bietet verschiedene Ausführungsoptionen und Effizienzfunktionen wie Gradio UI, ComfyUI-Integration (WIP), Multi-GPU-Inferenz und qint8/fp8-Quantisierung
- Das Projekt ist ein aktuelles Beispiel für Fortschritte bei Text-to-Video-Generierung (T2V) und Image-to-Video-Generierung (I2V) und setzt einen neuen Standard für fusionierte Audio-Video-Generierung
Überblick über Ovi
- Ovi ist ein von Character AI und Forschenden der Yale University gemeinsam entwickeltes crossmodales generatives Modell, ein System, das aus Text- oder Text+Bild-Eingaben synchronisiertes Audio und Video gleichzeitig erzeugt
- Die Modellarchitektur trägt den Namen „Twin Backbone Cross-Modal Fusion“ und nutzt einen Ansatz, bei dem Audio- und Video-Branches parallel trainiert und fusioniert werden
- Projektleiter ist Weimin Wang, weitere Mitwirkende sind Chetwin Low und Calder Katyal
- Es wird als Veo-3-ähnliches Modell vorgestellt und verwendet den internen Audio-Datensatz von Character AI, um einen Audio-Branch mit 5B Parametern von Grund auf vorzutrainieren
- Die generierten Videos sind standardmäßig 5 Sekunden lang, 24FPS und in 720×720 Auflösung, unterstützt werden verschiedene Formate wie 9:16, 16:9 und 1:1
Wichtige Funktionen und Merkmale
- 🎬 Video+Audio Generation: Erzeugt Audio und Video gleichzeitig aus Text- oder Bildeingaben
- 🎵 High-Quality Audio Branch: Bietet einen Audio-Branch, der mit einem selbst aufgebauten großen Audio-Datensatz trainiert wurde
- 📝 Flexible Input: Unterstützt sowohl reinen Text als auch Text+Bild als Eingabe
- ⏱️ 5-Sekunden-Videoerzeugung: Erzeugt kurze Videos von 5 Sekunden Länge bei 24FPS
- 🎯 Unterstützung hoher Auflösungen: Kann auch bei Auflösungen ab 960×960 natürliche Ergebnisse erzeugen
- Als Beispiele werden Videos in verschiedenen Formaten wie 1280×704, 1504×608 und 1344×704 bereitgestellt
- 🚀 Upscaling-Fähigkeit: Obwohl das Training bei 720×720 erfolgte, bleibt die zeitliche und räumliche Konsistenz auch bei hohen Auflösungen erhalten
Verfügbare Plattformen und Demos
- Auf Wavespeed.ai sind Text→Video- und Bild→Video-Generierung verfügbar
- Auch auf HuggingFace Spaces ist eine Demo verfügbar
- ComfyUI-Integration (WIP): Über
ComfyUI-WanVideoWrapper lässt sich das Ovi-Modell in Workflows integrieren
Training und Leistung
- Trainingsauflösung: 720×720
- Skalierung der Auflösung bei der Inferenz: Unterstützung für 960×960 und verschiedene Seitenverhältnisse
- Erhalt der zeitlichen Konsistenz: Natürliche Übergänge zwischen Frames
- Qualität der Audio-Video-Synchronisation: Die Synchronisationsqualität kann durch Anpassung der Audio Guidance Scale gesteuert werden
Ausführung und Konfiguration
- Installationsverfahren
- Installation von PyTorch 2.6.0, Flash Attention und den Abhängigkeiten aus
requirements.txt
- Download der Checkpoints mit
download_weights.py (einschließlich T5, VAE und MMAudio)
- Bei 24GB GPU-VRAM können die quantisierten Versionen
fp8 oder qint8 verwendet werden
- Inferenz-Konfigurationsdatei:
ovi/configs/inference/inference_fusion.yaml
- Wichtige Konfigurationsparameter:
num_steps: Anzahl der Denoising-Schritte (30~50)
audio_guidance_scale, video_guidance_scale: Stärke der Audio-/Video-Synchronisation
sp_size: Sequence-Parallel-Größe (auf die Anzahl der GPUs abstimmen)
cpu_offload: Modus zum Sparen von GPU-VRAM
fp8: Ausführbar in Umgebungen mit 24GB VRAM
- Beispiele für die Inferenz-Ausführung
- Single-GPU:
python3 inference.py --config-file ...
- Multi-GPU:
torchrun --nnodes 1 --nproc_per_node 8 inference.py ...
Leistungs- und Speicheranforderungen
- Für die Ausführung des Basismodells werden mindestens 32GB VRAM benötigt, im fp8-Modus sind 24GB möglich
- Bei aktiviertem FlashAttention-3 steigt die Verarbeitungsgeschwindigkeit
- Mit Sequence-Parallel-Verarbeitung liegt die Verarbeitungszeit bei 4~8 GPUs bei etwa 40~55 Sekunden
- Mit CPU-Offloading lässt sich VRAM sparen, allerdings erhöht sich die Verarbeitungszeit um etwa 20 Sekunden
Gradio-UI ausführen
- Die Gradio-basierte Oberfläche kann mit einem einfachen Befehl gestartet werden
python3 gradio_app.py
- Unterstützung für verschiedene Umgebungen über die Optionen
--cpu_offload, --use_image_gen, --qint8, --fp8
- Im I2V-Modus wird automatisch ein Bildgenerierungsmodell für die Erzeugung des ersten Frames aktiviert
Prompt-Struktur und Beispiele
- Text-to-Audio-Video (T2AV):
example_prompts/gpt_examples_t2v.csv
- Image-to-Audio-Video (I2AV):
example_prompts/gpt_examples_i2v.csv
- Verwendung spezieller Tags
...: Text für Sprachumwandlung
...: Beschreibung von Hintergrundmusik und Soundeffekten
- Prompt-Erstellung mit GPT
- Auf Basis der Beispiel-CSV kann GPT angewiesen werden, Dialoge zu einem bestimmten Thema (z. B. „Duell zwischen KI und Mensch“) anzupassen
- Der angepasste Prompt kann dann in Ovi eingegeben werden, um themenbasierte Videos zu erzeugen
Zukünftige Pläne (Todo List)
- Veröffentlichung von Forschungsarbeit und Demo-Website geplant
- 11B-Modell-Checkpoint und Code für Multi-GPU-Inferenz sollen veröffentlicht werden
- fp8-Gewichte, Verbesserung der Effizienz von Sequence Parallelism und FSDP-Sharding-Inferenz sind geplant
- Forschung zu Fine-Tuning mit hochauflösenden Daten und leistungssteigerung auf RL-Basis läuft
- Geplant sind außerdem Generierung längerer Videos, referenzsprachbasierte Konditionierung und distillierte Modelle zur Beschleunigung der Inferenz
Technischer Dank und Zusammenarbeit
- Wan2.2: für die Initialisierung des Video-Branches verwendet
- MMAudio: Audio-VAE wiederverwendet
- Mitwirkende: @rkfg (fp8-Effizienzoptimierung), @gluttony-10 (qint8-Quantisierung)
- Vorschläge zur Zusammenarbeit und Anfragen: Kontaktaufnahme mit Weimin Wang möglich
Zitationsinformationen
- Paper: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
- arXiv: https://arxiv.org/abs/2510.01284
- BibTeX wird bereitgestellt, Zitation bei Forschungsnutzung empfohlen
Projektmetadaten
- Lizenz: Apache-2.0
- Sprachzusammensetzung: Python 96.3%, CUDA 2.1%, C 1.4%, C++ 0.2%
- GitHub-Statistik: ★955, Forks 92, Issues 20, PRs 2
- Entwickler: Character-AI-Team, Forschende der Yale University
1 Kommentare
Hacker-News-Meinungen
Ich beschäftige mich seit einigen Monaten mit KI-Generierungstools, und es ist erstaunlich, wie schnell die einzelnen Tools zu einer Einheit zusammenwachsen und sogar auf lokalen Rechnern nutzbar werden
Ich habe Ovi seit letzter Woche ausprobiert, und es macht wirklich Spaß. KI-generierte Inhalte sind eine Art Spielautomaten: Selbst mit guten Eingaben ist das Ergebnis manchmal chaotisch, aber wenn man es oft genug laufen lässt, kommt etwas Brauchbares heraus
Mit I2V und T2V habe ich ziemlich echt aussehende und klingende Videos erstellt. T2V sieht manchmal aus wie die Bildqualität eines Fernsehers aus den 90ern, aber genau das wirkt sogar eher realistisch
Wenn man Flux SPRO als Bildquelle verwendet, kommen ziemlich realistische Videos heraus. Meine GPU ist eine 5090, und für einen 5-Sekunden-Clip braucht sie etwa 4 bis 5 Minuten
Das Videomodell scheint auf Wan 2.2 zu basieren
Rund um Wan gibt es zuletzt viel Aktivität, und es ist erfreulich, dass flexible offene Modelle auftauchen, die den geschlossenen Modellen kapitalstarker Akteure wie OpenAI oder Runway entgegentreten
Es gibt auch Wan 2.5, das jedoch über offizielle Anbieter anonym weitergeleitet wird. Das ist deutlich günstiger als vermittelte Optionen wie Kling, Veo oder Sora
Ich habe früher bei Nokias Ovi gearbeitet. Damals war Ovi so etwas wie eine GSuite für Nokia-Handys, und offiziell hieß es, „Ovi“ bedeute auf Finnisch „Tür“, aber intern nannten wir es als Witz „Kindergarten“ auf Ungarisch. Den Ursprung des Namens dieses Ovi konnte ich nicht herausfinden
Letztlich scheiterte es jedoch an fehlender Markenstrategie und einer misslungenen Softwarepolitik für Geräte. Vermutlich wurde das Ganze etwa 2013 vollständig eingestellt. Da hatte ich das Unternehmen bereits verlassen
Meine Ohren stammen wohl noch aus der Vor-AutoTune-Generation, deshalb höre ich im Audio immer noch Spuren von perfekter Tonhöhe und Kompression (Companding)
Besonders klingt es ähnlich wie die Stimme der Figur Machine Head aus der Invincible-Reihe
Insgesamt ist es trotzdem großartige Arbeit
Das Projekt selbst ist interessant, aber bei der praktischen Nutzbarkeit generativer audiovisueller Inhalte bin ich noch nicht überzeugt
Im Moment scheint es eher mehr Ärger als Nutzen zu bringen
In diesem Tempo könnte es sein, dass schon in wenigen Monaten hochwertige Kurzfilme vollständig generativ erstellt werden
Ich habe diesen Thread und diesen Thread verglichen, weil ich wissen wollte, ob diese Projekte miteinander zusammenhängen
Dank KI-Coding-Tools ist eine solche automatische Erstellung von Landingpages heute viel einfacher geworden
Bei I2V kann man, wenn man eine NVIDIA-4070-oder-besser-GPU und genügend VRAM hat, bei 440x440 Auflösung in 1 bis 2 Minuten einen brauchbaren ersten Entwurf bekommen
Bei T2V bleibt die Qualität derzeit nur in der Nähe der trainierten Auflösung stabil. Trotzdem gibt es bei den bekannten Wan-Auflösungen gelegentlich gute Ergebnisse
Mit CUDA 12.8 oder höher, Torch 2.8 oder höher und insbesondere mit SageAttention statt Flash 2 wird die Qualität spürbar besser
Eine interessante Entwicklung, aber es ist bedauerlich, dass ein Unternehmen wie CAI das in die Hände bekommen hat
Sie nutzen KI gegen junge und einsame Menschen