1 Punkte von GN⁺ 2025-10-24 | 1 Kommentare | Auf WhatsApp teilen
  • Ovi, entwickelt von Character AI, ist ein KI-Modell, das aus Text- oder Bildeingaben gleichzeitig Audio und Video generiert
  • Ovi kombiniert einen selbst aufgebauten Audio-Branch im Umfang von 5B mit einem auf Wan2.2 basierenden Video-Branch, um hochwertige, synchronisierte audiovisuelle Inhalte zu erzeugen
  • Das Modell wurde mit einer Auflösung von 720×720 trainiert, erzeugt aber auch bei Auflösungen ab 960×960 natürliche Ergebnisse und unterstützt verschiedene Seitenverhältnisse (9:16, 16:9 usw.)
  • Es bietet verschiedene Ausführungsoptionen und Effizienzfunktionen wie Gradio UI, ComfyUI-Integration (WIP), Multi-GPU-Inferenz und qint8/fp8-Quantisierung
  • Das Projekt ist ein aktuelles Beispiel für Fortschritte bei Text-to-Video-Generierung (T2V) und Image-to-Video-Generierung (I2V) und setzt einen neuen Standard für fusionierte Audio-Video-Generierung

Überblick über Ovi

  • Ovi ist ein von Character AI und Forschenden der Yale University gemeinsam entwickeltes crossmodales generatives Modell, ein System, das aus Text- oder Text+Bild-Eingaben synchronisiertes Audio und Video gleichzeitig erzeugt
    • Die Modellarchitektur trägt den Namen „Twin Backbone Cross-Modal Fusion“ und nutzt einen Ansatz, bei dem Audio- und Video-Branches parallel trainiert und fusioniert werden
    • Projektleiter ist Weimin Wang, weitere Mitwirkende sind Chetwin Low und Calder Katyal
  • Es wird als Veo-3-ähnliches Modell vorgestellt und verwendet den internen Audio-Datensatz von Character AI, um einen Audio-Branch mit 5B Parametern von Grund auf vorzutrainieren
  • Die generierten Videos sind standardmäßig 5 Sekunden lang, 24FPS und in 720×720 Auflösung, unterstützt werden verschiedene Formate wie 9:16, 16:9 und 1:1

Wichtige Funktionen und Merkmale

  • 🎬 Video+Audio Generation: Erzeugt Audio und Video gleichzeitig aus Text- oder Bildeingaben
  • 🎵 High-Quality Audio Branch: Bietet einen Audio-Branch, der mit einem selbst aufgebauten großen Audio-Datensatz trainiert wurde
  • 📝 Flexible Input: Unterstützt sowohl reinen Text als auch Text+Bild als Eingabe
  • ⏱️ 5-Sekunden-Videoerzeugung: Erzeugt kurze Videos von 5 Sekunden Länge bei 24FPS
  • 🎯 Unterstützung hoher Auflösungen: Kann auch bei Auflösungen ab 960×960 natürliche Ergebnisse erzeugen
    • Als Beispiele werden Videos in verschiedenen Formaten wie 1280×704, 1504×608 und 1344×704 bereitgestellt
  • 🚀 Upscaling-Fähigkeit: Obwohl das Training bei 720×720 erfolgte, bleibt die zeitliche und räumliche Konsistenz auch bei hohen Auflösungen erhalten

Verfügbare Plattformen und Demos

Training und Leistung

  • Trainingsauflösung: 720×720
  • Skalierung der Auflösung bei der Inferenz: Unterstützung für 960×960 und verschiedene Seitenverhältnisse
  • Erhalt der zeitlichen Konsistenz: Natürliche Übergänge zwischen Frames
  • Qualität der Audio-Video-Synchronisation: Die Synchronisationsqualität kann durch Anpassung der Audio Guidance Scale gesteuert werden

Ausführung und Konfiguration

  • Installationsverfahren
    • Installation von PyTorch 2.6.0, Flash Attention und den Abhängigkeiten aus requirements.txt
    • Download der Checkpoints mit download_weights.py (einschließlich T5, VAE und MMAudio)
    • Bei 24GB GPU-VRAM können die quantisierten Versionen fp8 oder qint8 verwendet werden
  • Inferenz-Konfigurationsdatei: ovi/configs/inference/inference_fusion.yaml
    • Wichtige Konfigurationsparameter:
      • num_steps: Anzahl der Denoising-Schritte (30~50)
      • audio_guidance_scale, video_guidance_scale: Stärke der Audio-/Video-Synchronisation
      • sp_size: Sequence-Parallel-Größe (auf die Anzahl der GPUs abstimmen)
      • cpu_offload: Modus zum Sparen von GPU-VRAM
      • fp8: Ausführbar in Umgebungen mit 24GB VRAM
  • Beispiele für die Inferenz-Ausführung
    • Single-GPU: python3 inference.py --config-file ...
    • Multi-GPU: torchrun --nnodes 1 --nproc_per_node 8 inference.py ...

Leistungs- und Speicheranforderungen

  • Für die Ausführung des Basismodells werden mindestens 32GB VRAM benötigt, im fp8-Modus sind 24GB möglich
  • Bei aktiviertem FlashAttention-3 steigt die Verarbeitungsgeschwindigkeit
  • Mit Sequence-Parallel-Verarbeitung liegt die Verarbeitungszeit bei 4~8 GPUs bei etwa 40~55 Sekunden
  • Mit CPU-Offloading lässt sich VRAM sparen, allerdings erhöht sich die Verarbeitungszeit um etwa 20 Sekunden

Gradio-UI ausführen

  • Die Gradio-basierte Oberfläche kann mit einem einfachen Befehl gestartet werden
    • python3 gradio_app.py
    • Unterstützung für verschiedene Umgebungen über die Optionen --cpu_offload, --use_image_gen, --qint8, --fp8
  • Im I2V-Modus wird automatisch ein Bildgenerierungsmodell für die Erzeugung des ersten Frames aktiviert

Prompt-Struktur und Beispiele

  • Text-to-Audio-Video (T2AV): example_prompts/gpt_examples_t2v.csv
  • Image-to-Audio-Video (I2AV): example_prompts/gpt_examples_i2v.csv
  • Verwendung spezieller Tags
    • ...: Text für Sprachumwandlung
    • ...: Beschreibung von Hintergrundmusik und Soundeffekten
  • Prompt-Erstellung mit GPT
    • Auf Basis der Beispiel-CSV kann GPT angewiesen werden, Dialoge zu einem bestimmten Thema (z. B. „Duell zwischen KI und Mensch“) anzupassen
    • Der angepasste Prompt kann dann in Ovi eingegeben werden, um themenbasierte Videos zu erzeugen

Zukünftige Pläne (Todo List)

  • Veröffentlichung von Forschungsarbeit und Demo-Website geplant
  • 11B-Modell-Checkpoint und Code für Multi-GPU-Inferenz sollen veröffentlicht werden
  • fp8-Gewichte, Verbesserung der Effizienz von Sequence Parallelism und FSDP-Sharding-Inferenz sind geplant
  • Forschung zu Fine-Tuning mit hochauflösenden Daten und leistungssteigerung auf RL-Basis läuft
  • Geplant sind außerdem Generierung längerer Videos, referenzsprachbasierte Konditionierung und distillierte Modelle zur Beschleunigung der Inferenz

Technischer Dank und Zusammenarbeit

  • Wan2.2: für die Initialisierung des Video-Branches verwendet
  • MMAudio: Audio-VAE wiederverwendet
  • Mitwirkende: @rkfg (fp8-Effizienzoptimierung), @gluttony-10 (qint8-Quantisierung)
  • Vorschläge zur Zusammenarbeit und Anfragen: Kontaktaufnahme mit Weimin Wang möglich

Zitationsinformationen

  • Paper: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
  • arXiv: https://arxiv.org/abs/2510.01284
  • BibTeX wird bereitgestellt, Zitation bei Forschungsnutzung empfohlen

Projektmetadaten

  • Lizenz: Apache-2.0
  • Sprachzusammensetzung: Python 96.3%, CUDA 2.1%, C 1.4%, C++ 0.2%
  • GitHub-Statistik: ★955, Forks 92, Issues 20, PRs 2
  • Entwickler: Character-AI-Team, Forschende der Yale University

1 Kommentare

 
GN⁺ 2025-10-24
Hacker-News-Meinungen
  • Ich beschäftige mich seit einigen Monaten mit KI-Generierungstools, und es ist erstaunlich, wie schnell die einzelnen Tools zu einer Einheit zusammenwachsen und sogar auf lokalen Rechnern nutzbar werden
    Ich habe Ovi seit letzter Woche ausprobiert, und es macht wirklich Spaß. KI-generierte Inhalte sind eine Art Spielautomaten: Selbst mit guten Eingaben ist das Ergebnis manchmal chaotisch, aber wenn man es oft genug laufen lässt, kommt etwas Brauchbares heraus
    Mit I2V und T2V habe ich ziemlich echt aussehende und klingende Videos erstellt. T2V sieht manchmal aus wie die Bildqualität eines Fernsehers aus den 90ern, aber genau das wirkt sogar eher realistisch
    Wenn man Flux SPRO als Bildquelle verwendet, kommen ziemlich realistische Videos heraus. Meine GPU ist eine 5090, und für einen 5-Sekunden-Clip braucht sie etwa 4 bis 5 Minuten

  • Das Videomodell scheint auf Wan 2.2 zu basieren
    Rund um Wan gibt es zuletzt viel Aktivität, und es ist erfreulich, dass flexible offene Modelle auftauchen, die den geschlossenen Modellen kapitalstarker Akteure wie OpenAI oder Runway entgegentreten

    • Die datenschutzorientierten Open-Source-Videomodelle von VeniceAI stehen dabei im Mittelpunkt. Ovi unterstützt Bild→Video, Wan 2.1 unterstützt Bild→Video, und Wan 2.2 unterstützt Text→Video
      Es gibt auch Wan 2.5, das jedoch über offizielle Anbieter anonym weitergeleitet wird. Das ist deutlich günstiger als vermittelte Optionen wie Kling, Veo oder Sora
    • Verwandte Diskussionen wurden auch im Thread Wan – Open-source alternative to VEO 3 behandelt
    • Und auch Google ist darin verwickelt
  • Ich habe früher bei Nokias Ovi gearbeitet. Damals war Ovi so etwas wie eine GSuite für Nokia-Handys, und offiziell hieß es, „Ovi“ bedeute auf Finnisch „Tür“, aber intern nannten wir es als Witz „Kindergarten“ auf Ungarisch. Den Ursprung des Namens dieses Ovi konnte ich nicht herausfinden

    • Ich habe auch an einem Ovi-bezogenen Projekt gearbeitet. In frühen Meetings in der Helsinkier Zentrale hörte ich Führungskräfte darüber sprechen, Google als Wettbewerber ins Visier zu nehmen, und das war ein ziemlich kühner Versuch
      Letztlich scheiterte es jedoch an fehlender Markenstrategie und einer misslungenen Softwarepolitik für Geräte. Vermutlich wurde das Ganze etwa 2013 vollständig eingestellt. Da hatte ich das Unternehmen bereits verlassen
  • Meine Ohren stammen wohl noch aus der Vor-AutoTune-Generation, deshalb höre ich im Audio immer noch Spuren von perfekter Tonhöhe und Kompression (Companding)
    Besonders klingt es ähnlich wie die Stimme der Figur Machine Head aus der Invincible-Reihe
    Insgesamt ist es trotzdem großartige Arbeit

  • Das Projekt selbst ist interessant, aber bei der praktischen Nutzbarkeit generativer audiovisueller Inhalte bin ich noch nicht überzeugt
    Im Moment scheint es eher mehr Ärger als Nutzen zu bringen

  • In diesem Tempo könnte es sein, dass schon in wenigen Monaten hochwertige Kurzfilme vollständig generativ erstellt werden

    • Gleichzeitig wird es dann wohl auch Fälle geben, in denen Menschen durch missbräuchliche Deepfakes schwer geschädigt werden
    • Vielleicht kommt stattdessen sogar eine Zukunft mit Prompt-Partys, bei denen sich Freunde treffen, jeweils eigene Prompts schreiben, die Ergebnisse aneinanderhängen und gemeinsam den Film ansehen. Schon die Vorstellung ist lustig
    • Trotzdem halte ich es für wahrscheinlicher, dass vor Kurzfilmen zuerst Spielfilme entstehen. Je kürzer ein Video ist, desto schwieriger ist es, die Qualität durchgehend hoch zu halten
  • Ich habe diesen Thread und diesen Thread verglichen, weil ich wissen wollte, ob diese Projekte miteinander zusammenhängen

    • Sobald ein neues Open-Weights-Modell erscheint, registrieren Opportunisten Domains mit diesem Namen und versuchen, mit SEO Geld zu verdienen
      Dank KI-Coding-Tools ist eine solche automatische Erstellung von Landingpages heute viel einfacher geworden
  • Bei I2V kann man, wenn man eine NVIDIA-4070-oder-besser-GPU und genügend VRAM hat, bei 440x440 Auflösung in 1 bis 2 Minuten einen brauchbaren ersten Entwurf bekommen
    Bei T2V bleibt die Qualität derzeit nur in der Nähe der trainierten Auflösung stabil. Trotzdem gibt es bei den bekannten Wan-Auflösungen gelegentlich gute Ergebnisse
    Mit CUDA 12.8 oder höher, Torch 2.8 oder höher und insbesondere mit SageAttention statt Flash 2 wird die Qualität spürbar besser

  • Eine interessante Entwicklung, aber es ist bedauerlich, dass ein Unternehmen wie CAI das in die Hände bekommen hat
    Sie nutzen KI gegen junge und einsame Menschen