3 Punkte von xguru 2024-11-27 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Das Soundgenerierungs-KI-Modell „Fugatto“ kann Audioausgaben per Text steuern
    • Es beherrscht verschiedenste Aufgaben wie Musikgenerierung, das Verändern von Intonation oder Emotionen einer Stimme sowie das Hinzufügen oder Entfernen von Instrumenten in bestehender Musik
    • Es kann sogar völlig neue Klänge erzeugen, die es so bisher nicht gab
  • Fugatto kann Musik, Sprache und Umgebungsgeräusche aus Text oder Audiodateien als Eingabe erzeugen oder transformieren
    • Es wurde so entwickelt, dass es Klänge ähnlich wie ein Mensch versteht und erzeugt
    • „Unsupervised Multitask Learning ermöglicht es, auf Ebene von Daten und Modellgröße neues Potenzial zu entfalten“

Vielfältige Anwendungsfälle

  • Musikproduktion: Stil, Stimme und Instrumente eines Songs lassen sich sofort ausprobieren und anpassen
  • Werbung: Stimmen können je nach Region und Situation individuell angepasst werden, um Kampagnen zu optimieren
  • Sprachenlernen: Personalisierte Lerninhalte mit einer vom Nutzer gewählten Stimme
  • Spieleentwicklung: Audio-Assets lassen sich je nach Spielsituation verändern oder neu erzeugen
  • Neue Klänge erschaffen: ähnlich dem „Avocado-Stuhl“ bei Bildgenerierungs-KI
    • Zum Beispiel kann eine Trompete erzeugt werden, die wie ein Hund bellt (bark), oder ein Saxofon, das wie eine Katze miaut (meow)
    • Durch Feintuning und kleine Mengen an Songdaten lassen sich auch nicht vortrainierte Aufgaben bewältigen, etwa hochwertige Gesangsstimmen aus Text-Prompts erzeugen

Artistic Control für Nutzer

  • Nutzerorientierte Steuerungsfunktionen
    • Über die ComposableART-Technologie lassen sich mehrere Anweisungen kombinieren
    • Textanweisungen können fein abgestimmt werden: etwa ein französischer Akzent kombiniert mit trauriger Emotion
    • Mit zeitlicher Interpolation lässt sich die Entwicklung eines Klangs steuern: z. B. eine regnerische Landschaft mit allmählich abklingendem Donner erzeugen
  • Bietet Nutzern eine beispiellose Freiheit beim Erschaffen von Klängen

Technische Merkmale

  • Generatives KI-Modell mit 250 Millionen Parametern, trainiert auf NVIDIA-DGX-Systemen und H100-GPUs
  • Unterstützung für mehrere Sprachen und Akzente wurde durch die Zusammenarbeit eines multinationalen Forschungsteams verstärkt
  • Trainingsdatensatz aus mehreren Millionen Audiosamples erstellt
    • Durch eine neue Analyse der Beziehungen zwischen den Daten wurde die Leistung verbessert
  • Die Beschaffung der Trainingsdaten und die Skalierung des Modells dauerten mehr als ein Jahr
  • Das Team war überrascht, als bereits der erste Text-Prompt erfolgreich Musik erzeugte, und ein Demo, das elektronische Musik mit Hundegebell kombinierte, sorgte für großes Gelächter und zeigte das künftige Potenzial

Noch keine Kommentare.

Noch keine Kommentare.