Nvidia stellt das flexible KI-Modell zur Soundgenerierung Fugatto vor
(blogs.nvidia.com)- Das Soundgenerierungs-KI-Modell „Fugatto“ kann Audioausgaben per Text steuern
- Es beherrscht verschiedenste Aufgaben wie Musikgenerierung, das Verändern von Intonation oder Emotionen einer Stimme sowie das Hinzufügen oder Entfernen von Instrumenten in bestehender Musik
- Es kann sogar völlig neue Klänge erzeugen, die es so bisher nicht gab
- Fugatto kann Musik, Sprache und Umgebungsgeräusche aus Text oder Audiodateien als Eingabe erzeugen oder transformieren
- Es wurde so entwickelt, dass es Klänge ähnlich wie ein Mensch versteht und erzeugt
-
„Unsupervised Multitask Learning ermöglicht es, auf Ebene von Daten und Modellgröße neues Potenzial zu entfalten“
Vielfältige Anwendungsfälle
- Musikproduktion: Stil, Stimme und Instrumente eines Songs lassen sich sofort ausprobieren und anpassen
- Werbung: Stimmen können je nach Region und Situation individuell angepasst werden, um Kampagnen zu optimieren
- Sprachenlernen: Personalisierte Lerninhalte mit einer vom Nutzer gewählten Stimme
- Spieleentwicklung: Audio-Assets lassen sich je nach Spielsituation verändern oder neu erzeugen
- Neue Klänge erschaffen: ähnlich dem „Avocado-Stuhl“ bei Bildgenerierungs-KI
- Zum Beispiel kann eine Trompete erzeugt werden, die wie ein Hund bellt (
bark), oder ein Saxofon, das wie eine Katze miaut (meow) - Durch Feintuning und kleine Mengen an Songdaten lassen sich auch nicht vortrainierte Aufgaben bewältigen, etwa hochwertige Gesangsstimmen aus Text-Prompts erzeugen
- Zum Beispiel kann eine Trompete erzeugt werden, die wie ein Hund bellt (
Artistic Control für Nutzer
- Nutzerorientierte Steuerungsfunktionen
- Über die ComposableART-Technologie lassen sich mehrere Anweisungen kombinieren
- Textanweisungen können fein abgestimmt werden: etwa ein französischer Akzent kombiniert mit trauriger Emotion
- Mit zeitlicher Interpolation lässt sich die Entwicklung eines Klangs steuern: z. B. eine regnerische Landschaft mit allmählich abklingendem Donner erzeugen
- Bietet Nutzern eine beispiellose Freiheit beim Erschaffen von Klängen
Technische Merkmale
- Generatives KI-Modell mit 250 Millionen Parametern, trainiert auf NVIDIA-DGX-Systemen und H100-GPUs
- Unterstützung für mehrere Sprachen und Akzente wurde durch die Zusammenarbeit eines multinationalen Forschungsteams verstärkt
- Trainingsdatensatz aus mehreren Millionen Audiosamples erstellt
- Durch eine neue Analyse der Beziehungen zwischen den Daten wurde die Leistung verbessert
- Die Beschaffung der Trainingsdaten und die Skalierung des Modells dauerten mehr als ein Jahr
- Das Team war überrascht, als bereits der erste Text-Prompt erfolgreich Musik erzeugte, und ein Demo, das elektronische Musik mit Hundegebell kombinierte, sorgte für großes Gelächter und zeigte das künftige Potenzial
Noch keine Kommentare.