1 Punkte von GN⁺ 2024-03-05 | Noch keine Kommentare. | Auf WhatsApp teilen

Wichtige Upgrades in Opus 1.5

  • Mit der Ankündigung von Version 1.5 von Opus wurden verschiedene Upgrades eingeführt, darunter qualitätssteigernde Verbesserungen auf Basis von Machine Learning.
  • Neue Funktionen wurden eingeführt, die bei vollständiger Kompatibilität mit früheren Versionen das Audioerlebnis verbessern.
  • Durch Machine Learning kommen bei Signalverarbeitung und -erzeugung erstmals Deep-Learning-Techniken zum Einsatz.

Umgang mit Paketverlusten

  • Paketverlust ist eine der größten Beeinträchtigungen bei Anrufen; wenn Pakete nicht zugestellt werden, nützt selbst eine gute Codec-Qualität wenig.
  • Packet Loss Concealment (PLC) füllt Audio anstelle fehlender Pakete auf, wobei Machine Learning stark hilft.
  • PLC wird mit einem Deep Neural Network (DNN) umgesetzt; Details dazu finden sich in dem Paper und den technischen Ausführungen.

Deep Redundancy (DRED)

  • Wenn Pakete fortlaufend verloren gehen, stößt PLC allein an Grenzen; Redundanz schafft hier Abhilfe.
  • Opus enthält bereits den Low Bit-Rate Redundancy (LBRR)-Mechanismus, führt mit DRED aber eine Methode ein, die Sprache mithilfe von ML effizient komprimiert.
  • DRED kann bei einem Overhead von etwa 12–32 kb/s Redundanz für 1 Sekunde übertragen.

Neural Vocoder

  • Die geringe Komplexität von DRED und PLC wird durch eine neue Neural-Vocoder-Technik ermöglicht.
  • Der FARGAN-Vocoder benötigt nur ein Fünftel der Komplexität von LPCNet und nutzt selbst auf Laptops oder modernen Smartphones weniger als 1 % eines CPU-Kerns.

Verbesserte Sprachqualität bei niedriger Bitrate

  • Wenn nicht genügend Bits zur Verfügung stehen, können Coding-Artefakte hörbar werden; dafür wurden zwei Verbesserungsverfahren namens LACE und NoLACE eingeführt.
  • LACE ähnelt einem traditionellen Postfilter, doch ein DNN optimiert die Postfilter-Koeffizienten auf Basis aller Daten, die dem Decoder zur Verfügung stehen.
  • NoLACE benötigt mehr Rechenleistung, ist durch zusätzliche nichtlineare Signalverarbeitung aber leistungsfähiger.

WebRTC-Integration

  • DRED erfordert eine enge Integration mit dem Jitter Buffer; dessen Größe bestimmt die maximal zulässige Verzögerung bei der Paketankunft.
  • DRED-Daten werden ähnlich behandelt wie verspätet eintreffende Audiopakete, und wenn sich die Netzwerksituation verbessert, kann die Buffer-Größe reduziert werden.

IETF und Standardisierung

  • Diese Arbeit erfolgt innerhalb der IETF-Arbeitsgruppe mlcodec und konzentriert sich auf den allgemeinen Erweiterungsmechanismus von Opus, Deep Redundancy und Verbesserungen der Sprachcodierung.
  • Der DRED-Mechanismus fügt Opus-Paketen zusätzliche Informationen hinzu und ermöglicht es zugleich älteren Decodern, weiterhin reguläre Opus-Daten zu decodieren.

Weitere Verbesserungen

  • Opus ergänzt AVX2-Unterstützung und Echtzeiterkennung, wodurch der neue DNN-Code und der SILK-Encoder schneller werden.
  • Die ARMv7-Neon-Optimierung wurde auf AArch64 wieder aktiviert, was das Encoding effizienter macht.
  • Um Paketverluste realistischer zu simulieren, kann ein Paketverlustmodell erstellt werden, das Verluste ähnlich wie in der Praxis nachbildet.

Meinung von GN⁺

  • Opus 1.5 zeigt einen innovativen Ansatz, bestehende Audiocodec-Technik mit Machine Learning zu verbessern. Das könnte ein wichtiger Fortschritt für die Weiterentwicklung von Kommunikationstechnologien sein.
  • Paketverlust ist ein zentrales Problem in der Echtzeitkommunikation, und die Technik in Opus 1.5 bietet dafür wirksame Lösungsansätze. Besonders Funktionen wie DRED können in Umgebungen mit instabilen Netzwerken nützlich sein.
  • Technologien wie Neural Vocoder spielen eine wichtige Rolle bei der Verbesserung der Sprachqualität; angesichts ihrer Komplexität und Leistungsanforderungen bleibt jedoch zu diskutieren, ob alle Nutzer gleichermaßen davon profitieren können.
  • Die Technik von Opus 1.5 kann ihr Potenzial besonders dann entfalten, wenn sie in Echtzeit-Kommunikationsplattformen wie WebRTC integriert wird, was die Qualität von Remote-Arbeit und Online-Kommunikation deutlich verbessern könnte.
  • Der Standardisierungsprozess spielt eine wichtige Rolle dafür, dass solche Technologien breit übernommen werden und kompatibel bleiben; die Bemühungen der IETF dürften dazu beitragen, dass diese Technik in einem größeren Spektrum von Anwendungen und Diensten genutzt werden kann.

Noch keine Kommentare.

Noch keine Kommentare.