Nvidia stellt das flexible KI-Modell zur Soundgenerierung Fugatto vor

xguru · 2024-11-27T11:20:01+09:00

Das Soundgenerierungs-KI-Modell „Fugatto“ kann Audioausgaben per Text steuern Es beherrscht verschiedenste Aufgaben wie Musikgenerierung, das Verändern von Intonation oder Emotionen einer Stimme sowie das Hinzufügen oder Entfernen von Instrumenten in bestehender Musik Es kann sogar völlig neue Klänge erzeugen, die es so bisher nicht gab Fugatto kann Musik, Sprache und Umgebungsgeräusche aus Text oder Audiodateien als Eingabe erzeugen oder transformieren Es wurde so entwickelt, dass es Klänge ähnlich wie ein Mensch versteht und erzeugt „Unsupervised Multitask Learning ermöglicht es, auf Ebene von Daten und Modellgröße neues Potenzial zu entfalten“ Vielfältige Anwendungsfälle Musikproduktion: Stil, Stimme und Instrumente eines Songs lassen sich sofort ausprobieren und anpassen Werbung: Stimmen können je nach Region und Situation individuell angepasst werden, um Kampagnen zu optimieren Sprachenlernen: Personalisierte Lerninhalte mit einer vom Nutzer gewählten Stimme Spieleentwicklung: Audio-Assets lassen sich je nach Spielsituation verändern oder neu erzeugen Neue Klänge erschaffen: ähnlich dem „Avocado-Stuhl“ bei Bildgenerierungs-KI Zum Beispiel kann eine Trompete erzeugt werden, die wie ein Hund bellt (bark), oder ein Saxofon, das wie eine Katze miaut (meow) Durch Feintuning und kleine Mengen an Songdaten lassen sich auch nicht vortrainierte Aufgaben bewältigen, etwa hochwertige Gesangsstimmen aus Text-Prompts erzeugen Artistic Control für Nutzer Nutzerorientierte Steuerungsfunktionen Über die ComposableART-Technologie lassen sich mehrere Anweisungen kombinieren Textanweisungen können fein abgestimmt werden: etwa ein französischer Akzent kombiniert mit trauriger Emotion Mit zeitlicher Interpolation lässt sich die Entwicklung eines Klangs steuern: z. B. eine regnerische Landschaft mit allmählich abklingendem Donner erzeugen Bietet Nutzern eine beispiellose Freiheit beim Erschaffen von Klängen Technische Merkmale Generatives KI-Modell mit 250 Millionen Parametern, trainiert auf NVIDIA-DGX-Systemen und H100-GPUs Unterstützung für mehrere Sprachen und Akzente wurde durch die Zusammenarbeit eines multinationalen Forschungsteams verstärkt Trainingsdatensatz aus mehreren Millionen Audiosamples erstellt Durch eine neue Analyse der Beziehungen zwischen den Daten wurde die Leistung verbessert Die Beschaffung der Trainingsdaten und die Skalierung des Modells dauerten mehr als ein Jahr Das Team war überrascht, als bereits der erste Text-Prompt erfolgreich Musik erzeugte, und ein Demo, das elektronische Musik mit Hundegebell kombinierte, sorgte für großes Gelächter und zeigte das künftige Potenzial

(blogs.nvidia.com)

3 Punkte von xguru 2024-11-27 | Noch keine Kommentare. | Auf WhatsApp teilen

Das Soundgenerierungs-KI-Modell „Fugatto“ kann Audioausgaben per Text steuern
- Es beherrscht verschiedenste Aufgaben wie Musikgenerierung, das Verändern von Intonation oder Emotionen einer Stimme sowie das Hinzufügen oder Entfernen von Instrumenten in bestehender Musik
- Es kann sogar völlig neue Klänge erzeugen, die es so bisher nicht gab
Fugatto kann Musik, Sprache und Umgebungsgeräusche aus Text oder Audiodateien als Eingabe erzeugen oder transformieren
- Es wurde so entwickelt, dass es Klänge ähnlich wie ein Mensch versteht und erzeugt
- „Unsupervised Multitask Learning ermöglicht es, auf Ebene von Daten und Modellgröße neues Potenzial zu entfalten“

Vielfältige Anwendungsfälle

Musikproduktion: Stil, Stimme und Instrumente eines Songs lassen sich sofort ausprobieren und anpassen
Werbung: Stimmen können je nach Region und Situation individuell angepasst werden, um Kampagnen zu optimieren
Sprachenlernen: Personalisierte Lerninhalte mit einer vom Nutzer gewählten Stimme
Spieleentwicklung: Audio-Assets lassen sich je nach Spielsituation verändern oder neu erzeugen
Neue Klänge erschaffen: ähnlich dem „Avocado-Stuhl“ bei Bildgenerierungs-KI
- Zum Beispiel kann eine Trompete erzeugt werden, die wie ein Hund bellt (bark), oder ein Saxofon, das wie eine Katze miaut (meow)
- Durch Feintuning und kleine Mengen an Songdaten lassen sich auch nicht vortrainierte Aufgaben bewältigen, etwa hochwertige Gesangsstimmen aus Text-Prompts erzeugen

Artistic Control für Nutzer

Nutzerorientierte Steuerungsfunktionen
- Über die ComposableART-Technologie lassen sich mehrere Anweisungen kombinieren
- Textanweisungen können fein abgestimmt werden: etwa ein französischer Akzent kombiniert mit trauriger Emotion
- Mit zeitlicher Interpolation lässt sich die Entwicklung eines Klangs steuern: z. B. eine regnerische Landschaft mit allmählich abklingendem Donner erzeugen
Bietet Nutzern eine beispiellose Freiheit beim Erschaffen von Klängen

Technische Merkmale

Generatives KI-Modell mit 250 Millionen Parametern, trainiert auf NVIDIA-DGX-Systemen und H100-GPUs
Unterstützung für mehrere Sprachen und Akzente wurde durch die Zusammenarbeit eines multinationalen Forschungsteams verstärkt
Trainingsdatensatz aus mehreren Millionen Audiosamples erstellt
- Durch eine neue Analyse der Beziehungen zwischen den Daten wurde die Leistung verbessert
Die Beschaffung der Trainingsdaten und die Skalierung des Modells dauerten mehr als ein Jahr
Das Team war überrascht, als bereits der erste Text-Prompt erfolgreich Musik erzeugte, und ein Demo, das elektronische Musik mit Hundegebell kombinierte, sorgte für großes Gelächter und zeigte das künftige Potenzial

Nvidia stellt das flexible KI-Modell zur Soundgenerierung Fugatto vor

Vielfältige Anwendungsfälle

Artistic Control für Nutzer

Technische Merkmale

Verwandte Beiträge

Noch keine Kommentare.