- Unterstützung für 30 Sprachen inklusive Koreanisch; Synthese funktioniert sofort allein mit Text, ohne Sprach-Tags anzugeben
- Auch ohne Sprecher-Sample kann man einfach eine natürlichsprachliche Beschreibung wie
(Young female voice, warm and gentle) vor den Text setzen und direkt den gewünschten Stimmcharakter erzeugen (Geschlecht, Alter, Ton, Emotion, Geschwindigkeit)
- Diffusions-autoregressives TTS-System, das kontinuierliche Sprachrepräsentationen direkt erzeugt statt diskreter Tokenisierung; das 2B-Parameter-Modell wurde mit mehr als 2 Millionen Stunden mehrsprachiger Daten trainiert
- Unterstützt Controllable Voice Cloning, bei dem sich aus einem kurzen Referenzclip die Stimmfarbe klonen lässt, während Emotion, Geschwindigkeit und Stil separat steuerbar bleiben
(slightly faster, cheerful tone)
- Ultimate-Cloning-Modus, der bei Eingabe von Referenz-Audio plus Transkript Stimme, Rhythmus, Emotion und Stil vollständig reproduziert, ohne zusätzliche Nachbearbeitung
- Selbst mit 16-kHz-Referenzeingabe wird 48-kHz-Studioausgabe direkt über AudioVAE V2 mit asymmetrischem Encode/Decode erzeugt. Externer Upsampler oder nachgelagerte Postprocessing-Pipeline nicht nötig
- Auf einer RTX 4090 liegt der RTF (Real-Time Factor) bei etwa 0,3, mit Nano-vLLM-Beschleunigung bei etwa 0,13, daher für Echtzeit-Streaming nutzbar
- Betrieb bereits mit etwa 8 GB VRAM möglich, also auch auf GPUs der Klasse RTX 3070 bis 4060
- In Seed-TTS-eval unter Open-Source-Modellen Spitzengruppe bei der Sprecherähnlichkeit (SIM), durchschnittliche Fehlerrate im internen ASR-Benchmark über 30 Sprachen bei 1,68 %
- Mit nur 5 bis 10 Minuten Audio ist per LoRA-Fine-Tuning eine Anpassung an bestimmte Sprecher oder Domänen möglich; mit
lora_ft_webui.py werden auch WebUI-basiertes Training und Inferenz unterstützt
- Basierend auf dem MiniCPM-4-Backbone, aufgebaut als 4-stufige Pipeline LocEnc → TSLM → RALM → LocDiT
- Viele Optionen für Inferenz ohne GPU, darunter GGML/GGUF-CPU-Inferenz (VoxCPM.cpp), ONNX-Konvertierung, Apple-Neural-Engine-Backend, Rust-Reimplementierung, ComfyUI-Nodes und mehr
- Apache-2.0-Lizenz mit keinen Einschränkungen für die kommerzielle Nutzung, Python-Implementierung
2 Kommentare
Ich konnte es sogar auf einer 3060 ausprobieren, und die Qualität war hervorragend.
Ah, ich hatte mich schon gefragt, woher ich OpenBMB kenne — das war ja das Team hinter dem MiniCPM-o-Modell.
MiniCPM-o ist ein Omni-Modell ähnlich wie GPT-4o, und die Leistung war wirklich ziemlich ordentlich.
Schaut euch auf jeden Fall mal das MiniCPM-o-Demovideo an,
ich war mit dem Modell ziemlich zufrieden, deshalb bin ich auch auf das neue Voice-Cloning-Modell gespannt.