Wichtige Upgrades in Opus 1.5
- Mit der Ankündigung von Version 1.5 von Opus wurden verschiedene Upgrades eingeführt, darunter qualitätssteigernde Verbesserungen auf Basis von Machine Learning.
- Neue Funktionen wurden eingeführt, die bei vollständiger Kompatibilität mit früheren Versionen das Audioerlebnis verbessern.
- Durch Machine Learning kommen bei Signalverarbeitung und -erzeugung erstmals Deep-Learning-Techniken zum Einsatz.
Umgang mit Paketverlusten
- Paketverlust ist eine der größten Beeinträchtigungen bei Anrufen; wenn Pakete nicht zugestellt werden, nützt selbst eine gute Codec-Qualität wenig.
- Packet Loss Concealment (PLC) füllt Audio anstelle fehlender Pakete auf, wobei Machine Learning stark hilft.
- PLC wird mit einem Deep Neural Network (DNN) umgesetzt; Details dazu finden sich in dem Paper und den technischen Ausführungen.
Deep Redundancy (DRED)
- Wenn Pakete fortlaufend verloren gehen, stößt PLC allein an Grenzen; Redundanz schafft hier Abhilfe.
- Opus enthält bereits den Low Bit-Rate Redundancy (LBRR)-Mechanismus, führt mit DRED aber eine Methode ein, die Sprache mithilfe von ML effizient komprimiert.
- DRED kann bei einem Overhead von etwa 12–32 kb/s Redundanz für 1 Sekunde übertragen.
Neural Vocoder
- Die geringe Komplexität von DRED und PLC wird durch eine neue Neural-Vocoder-Technik ermöglicht.
- Der FARGAN-Vocoder benötigt nur ein Fünftel der Komplexität von LPCNet und nutzt selbst auf Laptops oder modernen Smartphones weniger als 1 % eines CPU-Kerns.
Verbesserte Sprachqualität bei niedriger Bitrate
- Wenn nicht genügend Bits zur Verfügung stehen, können Coding-Artefakte hörbar werden; dafür wurden zwei Verbesserungsverfahren namens LACE und NoLACE eingeführt.
- LACE ähnelt einem traditionellen Postfilter, doch ein DNN optimiert die Postfilter-Koeffizienten auf Basis aller Daten, die dem Decoder zur Verfügung stehen.
- NoLACE benötigt mehr Rechenleistung, ist durch zusätzliche nichtlineare Signalverarbeitung aber leistungsfähiger.
WebRTC-Integration
- DRED erfordert eine enge Integration mit dem Jitter Buffer; dessen Größe bestimmt die maximal zulässige Verzögerung bei der Paketankunft.
- DRED-Daten werden ähnlich behandelt wie verspätet eintreffende Audiopakete, und wenn sich die Netzwerksituation verbessert, kann die Buffer-Größe reduziert werden.
IETF und Standardisierung
- Diese Arbeit erfolgt innerhalb der IETF-Arbeitsgruppe mlcodec und konzentriert sich auf den allgemeinen Erweiterungsmechanismus von Opus, Deep Redundancy und Verbesserungen der Sprachcodierung.
- Der DRED-Mechanismus fügt Opus-Paketen zusätzliche Informationen hinzu und ermöglicht es zugleich älteren Decodern, weiterhin reguläre Opus-Daten zu decodieren.
Weitere Verbesserungen
- Opus ergänzt AVX2-Unterstützung und Echtzeiterkennung, wodurch der neue DNN-Code und der SILK-Encoder schneller werden.
- Die ARMv7-Neon-Optimierung wurde auf AArch64 wieder aktiviert, was das Encoding effizienter macht.
- Um Paketverluste realistischer zu simulieren, kann ein Paketverlustmodell erstellt werden, das Verluste ähnlich wie in der Praxis nachbildet.
Meinung von GN⁺
- Opus 1.5 zeigt einen innovativen Ansatz, bestehende Audiocodec-Technik mit Machine Learning zu verbessern. Das könnte ein wichtiger Fortschritt für die Weiterentwicklung von Kommunikationstechnologien sein.
- Paketverlust ist ein zentrales Problem in der Echtzeitkommunikation, und die Technik in Opus 1.5 bietet dafür wirksame Lösungsansätze. Besonders Funktionen wie DRED können in Umgebungen mit instabilen Netzwerken nützlich sein.
- Technologien wie Neural Vocoder spielen eine wichtige Rolle bei der Verbesserung der Sprachqualität; angesichts ihrer Komplexität und Leistungsanforderungen bleibt jedoch zu diskutieren, ob alle Nutzer gleichermaßen davon profitieren können.
- Die Technik von Opus 1.5 kann ihr Potenzial besonders dann entfalten, wenn sie in Echtzeit-Kommunikationsplattformen wie WebRTC integriert wird, was die Qualität von Remote-Arbeit und Online-Kommunikation deutlich verbessern könnte.
- Der Standardisierungsprozess spielt eine wichtige Rolle dafür, dass solche Technologien breit übernommen werden und kompatibel bleiben; die Bemühungen der IETF dürften dazu beitragen, dass diese Technik in einem größeren Spektrum von Anwendungen und Diensten genutzt werden kann.
Noch keine Kommentare.