Ovi - Twin-Backbone-Cross-Modal-Fusion für die Audio-Video-Generierung

(github.com/character-ai)

1 Punkte von GN⁺ 2025-10-24 | 1 Kommentare | Auf WhatsApp teilen

Ovi, entwickelt von Character AI, ist ein KI-Modell, das aus Text- oder Bildeingaben gleichzeitig Audio und Video generiert
Ovi kombiniert einen selbst aufgebauten Audio-Branch im Umfang von 5B mit einem auf Wan2.2 basierenden Video-Branch, um hochwertige, synchronisierte audiovisuelle Inhalte zu erzeugen
Das Modell wurde mit einer Auflösung von 720×720 trainiert, erzeugt aber auch bei Auflösungen ab 960×960 natürliche Ergebnisse und unterstützt verschiedene Seitenverhältnisse (9:16, 16:9 usw.)
Es bietet verschiedene Ausführungsoptionen und Effizienzfunktionen wie Gradio UI, ComfyUI-Integration (WIP), Multi-GPU-Inferenz und qint8/fp8-Quantisierung
Das Projekt ist ein aktuelles Beispiel für Fortschritte bei Text-to-Video-Generierung (T2V) und Image-to-Video-Generierung (I2V) und setzt einen neuen Standard für fusionierte Audio-Video-Generierung

Überblick über Ovi

Ovi ist ein von Character AI und Forschenden der Yale University gemeinsam entwickeltes crossmodales generatives Modell, ein System, das aus Text- oder Text+Bild-Eingaben synchronisiertes Audio und Video gleichzeitig erzeugt
- Die Modellarchitektur trägt den Namen „Twin Backbone Cross-Modal Fusion“ und nutzt einen Ansatz, bei dem Audio- und Video-Branches parallel trainiert und fusioniert werden
- Projektleiter ist Weimin Wang, weitere Mitwirkende sind Chetwin Low und Calder Katyal
Es wird als Veo-3-ähnliches Modell vorgestellt und verwendet den internen Audio-Datensatz von Character AI, um einen Audio-Branch mit 5B Parametern von Grund auf vorzutrainieren
Die generierten Videos sind standardmäßig 5 Sekunden lang, 24FPS und in 720×720 Auflösung, unterstützt werden verschiedene Formate wie 9:16, 16:9 und 1:1

Wichtige Funktionen und Merkmale

🎬 Video+Audio Generation: Erzeugt Audio und Video gleichzeitig aus Text- oder Bildeingaben
🎵 High-Quality Audio Branch: Bietet einen Audio-Branch, der mit einem selbst aufgebauten großen Audio-Datensatz trainiert wurde
📝 Flexible Input: Unterstützt sowohl reinen Text als auch Text+Bild als Eingabe
⏱️ 5-Sekunden-Videoerzeugung: Erzeugt kurze Videos von 5 Sekunden Länge bei 24FPS
🎯 Unterstützung hoher Auflösungen: Kann auch bei Auflösungen ab 960×960 natürliche Ergebnisse erzeugen
- Als Beispiele werden Videos in verschiedenen Formaten wie 1280×704, 1504×608 und 1344×704 bereitgestellt
🚀 Upscaling-Fähigkeit: Obwohl das Training bei 720×720 erfolgte, bleibt die zeitliche und räumliche Konsistenz auch bei hohen Auflösungen erhalten

Verfügbare Plattformen und Demos

Auf Wavespeed.ai sind Text→Video- und Bild→Video-Generierung verfügbar
- https://wavespeed.ai/models/character-ai/ovi/image-to-video
- https://wavespeed.ai/models/character-ai/ovi/text-to-video
Auch auf HuggingFace Spaces ist eine Demo verfügbar
- https://huggingface.co/spaces/akhaliq/Ovi
ComfyUI-Integration (WIP): Über ComfyUI-WanVideoWrapper lässt sich das Ovi-Modell in Workflows integrieren

Training und Leistung

Trainingsauflösung: 720×720
Skalierung der Auflösung bei der Inferenz: Unterstützung für 960×960 und verschiedene Seitenverhältnisse
Erhalt der zeitlichen Konsistenz: Natürliche Übergänge zwischen Frames
Qualität der Audio-Video-Synchronisation: Die Synchronisationsqualität kann durch Anpassung der Audio Guidance Scale gesteuert werden

Ausführung und Konfiguration

Installationsverfahren
- Installation von PyTorch 2.6.0, Flash Attention und den Abhängigkeiten aus requirements.txt
- Download der Checkpoints mit download_weights.py (einschließlich T5, VAE und MMAudio)
- Bei 24GB GPU-VRAM können die quantisierten Versionen fp8 oder qint8 verwendet werden
Inferenz-Konfigurationsdatei: ovi/configs/inference/inference_fusion.yaml
- Wichtige Konfigurationsparameter:
  - num_steps: Anzahl der Denoising-Schritte (30~50)
  - audio_guidance_scale, video_guidance_scale: Stärke der Audio-/Video-Synchronisation
  - sp_size: Sequence-Parallel-Größe (auf die Anzahl der GPUs abstimmen)
  - cpu_offload: Modus zum Sparen von GPU-VRAM
  - fp8: Ausführbar in Umgebungen mit 24GB VRAM
Beispiele für die Inferenz-Ausführung
- Single-GPU: python3 inference.py --config-file ...
- Multi-GPU: torchrun --nnodes 1 --nproc_per_node 8 inference.py ...

Leistungs- und Speicheranforderungen

Für die Ausführung des Basismodells werden mindestens 32GB VRAM benötigt, im fp8-Modus sind 24GB möglich
Bei aktiviertem FlashAttention-3 steigt die Verarbeitungsgeschwindigkeit
Mit Sequence-Parallel-Verarbeitung liegt die Verarbeitungszeit bei 4~8 GPUs bei etwa 40~55 Sekunden
Mit CPU-Offloading lässt sich VRAM sparen, allerdings erhöht sich die Verarbeitungszeit um etwa 20 Sekunden

Gradio-UI ausführen

Die Gradio-basierte Oberfläche kann mit einem einfachen Befehl gestartet werden
- python3 gradio_app.py
- Unterstützung für verschiedene Umgebungen über die Optionen --cpu_offload, --use_image_gen, --qint8, --fp8
Im I2V-Modus wird automatisch ein Bildgenerierungsmodell für die Erzeugung des ersten Frames aktiviert

Prompt-Struktur und Beispiele

Text-to-Audio-Video (T2AV): example_prompts/gpt_examples_t2v.csv
Image-to-Audio-Video (I2AV): example_prompts/gpt_examples_i2v.csv
Verwendung spezieller Tags
- ...: Text für Sprachumwandlung
- ...: Beschreibung von Hintergrundmusik und Soundeffekten
Prompt-Erstellung mit GPT
- Auf Basis der Beispiel-CSV kann GPT angewiesen werden, Dialoge zu einem bestimmten Thema (z. B. „Duell zwischen KI und Mensch“) anzupassen
- Der angepasste Prompt kann dann in Ovi eingegeben werden, um themenbasierte Videos zu erzeugen

Zukünftige Pläne (Todo List)

Veröffentlichung von Forschungsarbeit und Demo-Website geplant
11B-Modell-Checkpoint und Code für Multi-GPU-Inferenz sollen veröffentlicht werden
fp8-Gewichte, Verbesserung der Effizienz von Sequence Parallelism und FSDP-Sharding-Inferenz sind geplant
Forschung zu Fine-Tuning mit hochauflösenden Daten und leistungssteigerung auf RL-Basis läuft
Geplant sind außerdem Generierung längerer Videos, referenzsprachbasierte Konditionierung und distillierte Modelle zur Beschleunigung der Inferenz

Technischer Dank und Zusammenarbeit

Wan2.2: für die Initialisierung des Video-Branches verwendet
MMAudio: Audio-VAE wiederverwendet
Mitwirkende: @rkfg (fp8-Effizienzoptimierung), @gluttony-10 (qint8-Quantisierung)
Vorschläge zur Zusammenarbeit und Anfragen: Kontaktaufnahme mit Weimin Wang möglich

Zitationsinformationen

Paper: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
arXiv: https://arxiv.org/abs/2510.01284
BibTeX wird bereitgestellt, Zitation bei Forschungsnutzung empfohlen

Projektmetadaten

Lizenz: Apache-2.0
Sprachzusammensetzung: Python 96.3%, CUDA 2.1%, C 1.4%, C++ 0.2%
GitHub-Statistik: ★955, Forks 92, Issues 20, PRs 2
Entwickler: Character-AI-Team, Forschende der Yale University

1 Kommentare

GN⁺ 2025-10-24

Hacker-News-Meinungen

Ich beschäftige mich seit einigen Monaten mit KI-Generierungstools, und es ist erstaunlich, wie schnell die einzelnen Tools zu einer Einheit zusammenwachsen und sogar auf lokalen Rechnern nutzbar werden
Ich habe Ovi seit letzter Woche ausprobiert, und es macht wirklich Spaß. KI-generierte Inhalte sind eine Art Spielautomaten: Selbst mit guten Eingaben ist das Ergebnis manchmal chaotisch, aber wenn man es oft genug laufen lässt, kommt etwas Brauchbares heraus
Mit I2V und T2V habe ich ziemlich echt aussehende und klingende Videos erstellt. T2V sieht manchmal aus wie die Bildqualität eines Fernsehers aus den 90ern, aber genau das wirkt sogar eher realistisch
Wenn man Flux SPRO als Bildquelle verwendet, kommen ziemlich realistische Videos heraus. Meine GPU ist eine 5090, und für einen 5-Sekunden-Clip braucht sie etwa 4 bis 5 Minuten
Das Videomodell scheint auf Wan 2.2 zu basieren
Rund um Wan gibt es zuletzt viel Aktivität, und es ist erfreulich, dass flexible offene Modelle auftauchen, die den geschlossenen Modellen kapitalstarker Akteure wie OpenAI oder Runway entgegentreten
- Die datenschutzorientierten Open-Source-Videomodelle von VeniceAI stehen dabei im Mittelpunkt. Ovi unterstützt Bild→Video, Wan 2.1 unterstützt Bild→Video, und Wan 2.2 unterstützt Text→Video
  Es gibt auch Wan 2.5, das jedoch über offizielle Anbieter anonym weitergeleitet wird. Das ist deutlich günstiger als vermittelte Optionen wie Kling, Veo oder Sora
- Verwandte Diskussionen wurden auch im Thread Wan – Open-source alternative to VEO 3 behandelt
- Und auch Google ist darin verwickelt
Ich habe früher bei Nokias Ovi gearbeitet. Damals war Ovi so etwas wie eine GSuite für Nokia-Handys, und offiziell hieß es, „Ovi“ bedeute auf Finnisch „Tür“, aber intern nannten wir es als Witz „Kindergarten“ auf Ungarisch. Den Ursprung des Namens dieses Ovi konnte ich nicht herausfinden
- Ich habe auch an einem Ovi-bezogenen Projekt gearbeitet. In frühen Meetings in der Helsinkier Zentrale hörte ich Führungskräfte darüber sprechen, Google als Wettbewerber ins Visier zu nehmen, und das war ein ziemlich kühner Versuch
  Letztlich scheiterte es jedoch an fehlender Markenstrategie und einer misslungenen Softwarepolitik für Geräte. Vermutlich wurde das Ganze etwa 2013 vollständig eingestellt. Da hatte ich das Unternehmen bereits verlassen
Meine Ohren stammen wohl noch aus der Vor-AutoTune-Generation, deshalb höre ich im Audio immer noch Spuren von perfekter Tonhöhe und Kompression (Companding)
Besonders klingt es ähnlich wie die Stimme der Figur Machine Head aus der Invincible-Reihe
Insgesamt ist es trotzdem großartige Arbeit
Das Projekt selbst ist interessant, aber bei der praktischen Nutzbarkeit generativer audiovisueller Inhalte bin ich noch nicht überzeugt
Im Moment scheint es eher mehr Ärger als Nutzen zu bringen
In diesem Tempo könnte es sein, dass schon in wenigen Monaten hochwertige Kurzfilme vollständig generativ erstellt werden
- Gleichzeitig wird es dann wohl auch Fälle geben, in denen Menschen durch missbräuchliche Deepfakes schwer geschädigt werden
- Vielleicht kommt stattdessen sogar eine Zukunft mit Prompt-Partys, bei denen sich Freunde treffen, jeweils eigene Prompts schreiben, die Ergebnisse aneinanderhängen und gemeinsam den Film ansehen. Schon die Vorstellung ist lustig
- Trotzdem halte ich es für wahrscheinlicher, dass vor Kurzfilmen zuerst Spielfilme entstehen. Je kürzer ein Video ist, desto schwieriger ist es, die Qualität durchgehend hoch zu halten
Ich habe diesen Thread und diesen Thread verglichen, weil ich wissen wollte, ob diese Projekte miteinander zusammenhängen
- Sobald ein neues Open-Weights-Modell erscheint, registrieren Opportunisten Domains mit diesem Namen und versuchen, mit SEO Geld zu verdienen
  Dank KI-Coding-Tools ist eine solche automatische Erstellung von Landingpages heute viel einfacher geworden
Bei I2V kann man, wenn man eine NVIDIA-4070-oder-besser-GPU und genügend VRAM hat, bei 440x440 Auflösung in 1 bis 2 Minuten einen brauchbaren ersten Entwurf bekommen
Bei T2V bleibt die Qualität derzeit nur in der Nähe der trainierten Auflösung stabil. Trotzdem gibt es bei den bekannten Wan-Auflösungen gelegentlich gute Ergebnisse
Mit CUDA 12.8 oder höher, Torch 2.8 oder höher und insbesondere mit SageAttention statt Flash 2 wird die Qualität spürbar besser
Eine interessante Entwicklung, aber es ist bedauerlich, dass ein Unternehmen wie CAI das in die Hände bekommen hat
Sie nutzen KI gegen junge und einsame Menschen

Ovi - Twin-Backbone-Cross-Modal-Fusion für die Audio-Video-Generierung

Überblick über Ovi

Wichtige Funktionen und Merkmale

Verfügbare Plattformen und Demos

Training und Leistung

Ausführung und Konfiguration

Leistungs- und Speicheranforderungen

Gradio-UI ausführen

Prompt-Struktur und Beispiele

Zukünftige Pläne (Todo List)

Technischer Dank und Zusammenarbeit

Zitationsinformationen

Projektmetadaten

Verwandte Beiträge

1 Kommentare

Hacker-News-Meinungen