Google stellt den End-to-End-Neural-Audio-Codec SoundStream vor
(ai.googleblog.com)- Der erste Neural-Network-Codec, der sowohl für Sprache als auch für Musik einsetzbar ist
→ Kann in Echtzeit auf der Smartphone-CPU ausgeführt werden
→ Kodiert verschiedene Audiotypen, darunter hochwertiges Audio und klare Sprache, Sprache mit viel Rauschen und Hall, Musik sowie Umgebungsgeräusche
- Wird mit neuronalen Netzen an beiden Enden trainiert und führt dadurch Kompression und Audioqualitätsverbesserung gleichzeitig aus, um Audio in hoher Qualität bereitzustellen
→ SoundStream übertrifft bei 3 kbps Opus mit 12 kbps und bietet eine Qualität auf dem Niveau von EVS 9.6 kbps
→ Da 3.2x- bis 4x weniger Bits verwendet werden, lässt sich das Übertragungsvolumen deutlich reduzieren
→ Rauschunterdrückung auf hervorragendem Niveau möglich
- Soll in Lyra integriert werden, den Anfang des Jahres vorgestellten Codec für Sprache mit niedriger Bitrate
1 Kommentare
Opus ist ja auch dafür bekannt, ziemlich gut zu sein.
Wirklich beeindruckend.