VoxCPM2 – Open-Source-Sprachsynthese mit mehrsprachigem Voice Cloning nahe an echter Sprache

(github.com/OpenBMB)

43 Punkte von xguru 15 일 전 | 2 Kommentare | Auf WhatsApp teilen

Unterstützung für 30 Sprachen inklusive Koreanisch; Synthese funktioniert sofort allein mit Text, ohne Sprach-Tags anzugeben
Auch ohne Sprecher-Sample kann man einfach eine natürlichsprachliche Beschreibung wie (Young female voice, warm and gentle) vor den Text setzen und direkt den gewünschten Stimmcharakter erzeugen (Geschlecht, Alter, Ton, Emotion, Geschwindigkeit)
Diffusions-autoregressives TTS-System, das kontinuierliche Sprachrepräsentationen direkt erzeugt statt diskreter Tokenisierung; das 2B-Parameter-Modell wurde mit mehr als 2 Millionen Stunden mehrsprachiger Daten trainiert
Unterstützt Controllable Voice Cloning, bei dem sich aus einem kurzen Referenzclip die Stimmfarbe klonen lässt, während Emotion, Geschwindigkeit und Stil separat steuerbar bleiben (slightly faster, cheerful tone)
Ultimate-Cloning-Modus, der bei Eingabe von Referenz-Audio plus Transkript Stimme, Rhythmus, Emotion und Stil vollständig reproduziert, ohne zusätzliche Nachbearbeitung
Selbst mit 16-kHz-Referenzeingabe wird 48-kHz-Studioausgabe direkt über AudioVAE V2 mit asymmetrischem Encode/Decode erzeugt. Externer Upsampler oder nachgelagerte Postprocessing-Pipeline nicht nötig
Auf einer RTX 4090 liegt der RTF (Real-Time Factor) bei etwa 0,3, mit Nano-vLLM-Beschleunigung bei etwa 0,13, daher für Echtzeit-Streaming nutzbar
Betrieb bereits mit etwa 8 GB VRAM möglich, also auch auf GPUs der Klasse RTX 3070 bis 4060
In Seed-TTS-eval unter Open-Source-Modellen Spitzengruppe bei der Sprecherähnlichkeit (SIM), durchschnittliche Fehlerrate im internen ASR-Benchmark über 30 Sprachen bei 1,68 %
Mit nur 5 bis 10 Minuten Audio ist per LoRA-Fine-Tuning eine Anpassung an bestimmte Sprecher oder Domänen möglich; mit lora_ft_webui.py werden auch WebUI-basiertes Training und Inferenz unterstützt
Basierend auf dem MiniCPM-4-Backbone, aufgebaut als 4-stufige Pipeline LocEnc → TSLM → RALM → LocDiT
Viele Optionen für Inferenz ohne GPU, darunter GGML/GGUF-CPU-Inferenz (VoxCPM.cpp), ONNX-Konvertierung, Apple-Neural-Engine-Backend, Rust-Reimplementierung, ComfyUI-Nodes und mehr
Apache-2.0-Lizenz mit keinen Einschränkungen für die kommerzielle Nutzung, Python-Implementierung

2 Kommentare

cr543l 14 일 전

Ich konnte es sogar auf einer 3060 ausprobieren, und die Qualität war hervorragend.

crawler 14 일 전

Ah, ich hatte mich schon gefragt, woher ich OpenBMB kenne — das war ja das Team hinter dem MiniCPM-o-Modell.
MiniCPM-o ist ein Omni-Modell ähnlich wie GPT-4o, und die Leistung war wirklich ziemlich ordentlich.

Schaut euch auf jeden Fall mal das MiniCPM-o-Demovideo an,

ich war mit dem Modell ziemlich zufrieden, deshalb bin ich auch auf das neue Voice-Cloning-Modell gespannt.

VoxCPM2 – Open-Source-Sprachsynthese mit mehrsprachigem Voice Cloning nahe an echter Sprache

Verwandte Beiträge

2 Kommentare