- Erzeugt Sprache und Soundeffekte durch die Kombination von Spracheingaben und natürlichsprachlichen Text-Prompts
- Damit lässt sich leicht maßgeschneidertes Audio für verschiedene Anwendungsfälle erstellen
- Baut auf dem Anfang des Jahres vorgestellten Voicebox auf und integriert Generierungs- und Bearbeitungsfunktionen für Sprache, Soundeffekte (kurze, diskontinuierliche Geräusche wie Hundegebell, Autohupen oder Donner) und Soundscapes, wobei durch verschiedene Eingabemechanismen die Steuerbarkeit für jeden Anwendungsfall maximiert wird
- Mit natürlichsprachlichen Prompts lässt sich der gewünschte Klang oder Sprachtyp beschreiben
- Mit einem Prompt wie „Fließendes Flusswasser und zwitschernde Vögel“ lassen sich Soundscapes erzeugen
- Durch die Eingabe „Eine junge Frau spricht mit hoher Tonlage und schnellem Tempo“ kann die gewünschte Stimme erzeugt werden
- Durch die Kombination von Audio-Spracheingaben und textbasierten Stil-Prompts lässt sich die Stimme in jeder Umgebung (z. B. „in einer Kathedrale“) oder mit jeder Emotion (z. B. „traurig und langsam sprechend“) synthetisieren
- Erstes Modell, das Dual-Input (Sprach-Prompt und beschreibender Text-Prompt) für freie Änderungen des Sprachstils unterstützt
- Zeigt bei verschiedenen Sprachstilen in Bezug auf Stilähnlichkeit eine um mehr als 30 % bessere Leistung als Voicebox
- Meta stellt Audiobox ausgewählten Forschenden und akademischen Einrichtungen mit nachgewiesener Expertise in der Sprachforschung zur Verfügung, um den Stand der Technik in diesem Forschungsfeld voranzubringen und ein breites Spektrum an Partnern zu gewinnen, die die verantwortungsvollen KI-Aspekte dieser Arbeit adressieren können
1 Kommentare
Meta stellt Voicebox vor, ein Generative-AI-Modell für Sprache