AV2-Video-Codec erreicht 30 % niedrigere Bitrate als AV1, finale Spezifikation für Ende 2025 geplant

(videocardz.com)

6 Punkte von GN⁺ 2025-10-13 | 3 Kommentare | Auf WhatsApp teilen

AV2 ist ein von der Alliance for Open Media entwickelter Video-Codec der nächsten Generation und steht nach fünf Jahren Entwicklung kurz vor der Veröffentlichung der finalen Spezifikation Ende 2025
Testergebnisse zeigen, dass AV2 bei gleicher Bildqualität eine etwa 30 % niedrigere Bitrate als AV1 erreicht und laut VMAF eine Verbesserung von 32,59 % verzeichnet
Kennzeichnend ist die gesteigerte Effizienz durch mathematische Optimierung und Algorithmusverbesserungen statt durch KI-basierte Innovationen
Mit 256×256-Superblöcken, vollständig rekursiver Aufteilung, datenbasierten Vorhersagemodi und TIP (Temporal Interpolation) wird die Leistung bei hohen Auflösungen und schnellen Bewegungen verbessert
Die Hardware-Effizienz wurde bereits validiert; der Entwicklungsfokus soll sich künftig auf Encoder-Optimierung und die Erweiterung um KI-unterstützte Profile verlagern

Entwicklungsstand von AV2

AV2 behält die hybride blockbasierte Struktur von AV1 bei und führt dabei größere 256×256-Superblöcke sowie eine vollständig rekursive Aufteilung ein
- Durch die getrennte Aufteilung von Luma und Chroma werden präzisere Vorhersagen möglich
- Das Vorhersagesystem umfasst datenbasierte Intra-Modi, verbessertes Chroma-from-Luma-Modelling und ein rangbasiertes Referenzsystem mit bis zu 7 Referenzframes
Die zusätzliche Funktion TIP (Temporal Interpolation Prediction) verbessert die Effizienz der Bewegungskompensation in Szenen mit schneller Bewegung oder hoher Auflösung

Qualität und Kompressionseffizienz

Andrey Norkin von Netflix gab bekannt, dass eine Bitrateneinsparung von 28,63 % nach PSNR-YUV und 32,59 % nach VMAF bestätigt wurde
- VMAF (Video Multi-Method Assessment Fusion) ist eine von Netflix entwickelte Metrik zur Messung der Videoqualität, die subjektive Bildqualitätsbewertungen berücksichtigt
Diese Verbesserungen sind das Ergebnis von mathematischer Modellierung und Algorithmus-Innovationen statt KI. Die AOM-Gruppe erwähnte zwar Erweiterungsmöglichkeiten mit KI, der Codec selbst basiert jedoch auf traditionellen Verfahren

Transformations- und Quantisierungssystem

Ein einheitlicher exponentieller Quantizer wurde eingeführt, um 8-, 10- und 12-Bit-Video mit größerem Bereich und höherer Präzision zu unterstützen
Trellis-basierte Quantisierung und benutzerdefinierte Matrizen ermöglichen auch bei niedrigen Bitraten eine feinere Steuerung
lernungsbasierte Transformationen (transform) und Cross-Component-Transformationen reduzieren Artefakte und erhalten dabei Texturen
Die Koeffizientencodierung (coefficient coding) wurde für Screen-Content und gemischte Inhalte verbessert

Filterung und Nachbearbeitung

Ein vereinheitlichter generischer Deblocker bewahrt feine Texturen besser,
während neue Filter wie Guided Detail Filter und Cross-Component Sample Offset die Rauschunterdrückung verbessern
Film-Grain-Synthese (film grain synthesis) lässt sich flexibler anwenden
mehrschichtiges Video (multi-layer) und Stereo-Video (stereo video) werden unterstützt, um künftige Multimediaformate abzudecken

Ausblick

Alle AV2-Tools haben die Validierung der Hardware-Effizienz abgeschlossen
In der nächsten Phase liegt der Fokus auf Encoder-Optimierung sowie der Entwicklung von Profilen für hohe Bittiefe und KI-Erweiterungen
Die finale Spezifikation soll Ende 2025 veröffentlicht werden; eine schrittweise Kommerzialisierung bei großen Plattformen und Streaming-Diensten wird danach erwartet

3 Kommentare

kippler 2025-10-13

Ich fand den Namen AV1 ungewöhnlich, aber offenbar war das alles Teil des Plans ...

carnoxen 2025-10-13

Ich dachte, mit AV1 wäre Schluss, aber es scheint noch Potenzial für weitere Fortschritte zu geben?!
Technologie ist wirklich kaum vorhersehbar...

GN⁺ 2025-10-13

Hacker-News-Kommentare

Ich frage mich, wann Streaming-Dienste endlich mit der übermäßigen Komprimierung aufhören. Ich nutze einen erstklassigen 4K-Fernseher und Gigabit-Internet, und trotzdem sieht das Bild wegen der Kompressionsartefakte aus wie Knetmasse. Tatsächlich war die beste Bildqualität, die ich je gesehen habe, vor 20 Jahren mit einer einfachen digitalen Antenne. Besonders bei Farbverläufen oder dunklen Filmszenen fallen die Kompressionsspuren extrem auf. Mein Fernseher ist übrigens vollständig kalibriert, und ich nutze den Streaming-Tarif mit der höchsten Bandbreite. Ein visuell ähnliches Beispielbild gibt es hier
- Aus Sicht der Streaming-Dienste sind die Kosten für die Auslieferung der Inhalte enorm, und nach der Produktion ist das der größte verbleibende Kostenblock. Deshalb greifen sie zu extremen Maßnahmen, um die Bitrate zu senken. Daher kommt auch der Algorithmus von Netflix, der Kamerakorn (Rauschen) entfernt und auf dem Client künstlich erzeugtes Rauschen wieder hinzufügt, und es gibt auch ein aktuelles Beispiel dafür, dass YouTube Shorts extrem aggressive Denoising-Techniken verwendet. Rauschen besteht aus Zufallsdaten und lässt sich daher sehr schlecht komprimieren, also will man es möglichst loswerden. Der Nebeneffekt ist jedoch, dass bei Live-Kameraaufnahmen mit dem Entfernen des Rauschens auch extrem feine Details verschwinden. Eine dazugehörige Diskussion gibt es hier
- Dass bei Farbverläufen oder dunklen Szenen Kompressionsspuren sichtbar sind, tritt auch auf, wenn die TV-Kalibrierung nicht korrekt ist. Häufig ist der Kontrast zu hoch eingestellt. Viele Menschen justieren so, dass sie in dunklen Szenen jedes Detail sehen können, aber eigentlich sollte das nicht so sein. Auf einem korrekt eingestellten Display sollten dunkle Bereiche fast unsichtbar sein. Die meisten Codecs sind auch so ausgelegt, Details in dunklen Szenen zu entfernen. Natürlich ist es auch wahr, dass Streaming-Dienste diesen Maßstab oft zu aggressiv anwenden, aber viele Konflikte entstehen auch dadurch, dass Leute ihre Displays falsch einstellen
- Netflix nutzte vor Corona bei 1080P-Inhalten etwa 8 Mbps. Mit x264/beamr war das ziemlich ordentlich, mit HEVC sogar noch besser. Seit Corona haben jedoch alle Streaming-Dienste wegen des sprunghaft gestiegenen Bedarfs und Bandbreitenbeschränkungen die Bildqualität gesenkt. Seitdem haben sich die Kunden an die niedrigere Qualität gewöhnt, und wahrscheinlich wird sie nicht wieder angehoben. Aktuelle Tests liegen bei 3–5 Mbps. Codecs wie HEVC/AV1/AV2 können gegenüber H.264 mehr als 50 % Bitrate einsparen, aber oberhalb des Bereichs von 0,5–4 Mbps nimmt dieser Vorteil schnell ab, und der x264-Encoder kann bei hohen Bitraten sogar besser aussehen
- Es ist nicht so, dass nur Netflix extrem niedrige durchschnittliche Bitraten nutzt; das variiert je nach Dienst. Als Datenbeispiele: Netflix’ Kate liegt bei 11,15 Mbps, Disneys Andor bei 15,03 Mbps, Amazons Jack Ryan bei 15,02 Mbps, Max’ The Last of Us bei 19,96 Mbps und Apples For All Mankind bei 25,12 Mbps. Weitere Details und Vergleiche gibt es unter diesem Link
- Vielleicht passt eine Raubkopie sogar besser zu dir
Es ist ziemlich erstaunlich, dass Leute immer noch Wege finden, Videodateien weiter zu verkleinern. Ich frage mich, ob das einfach an den Ideen kluger Menschen liegt oder daran, dass beim Decoding/Encoding inzwischen mehr Rechenleistung verfügbar ist
- Beides stimmt. Mit der Weiterentwicklung der Formate kann man kreativere Methoden einsetzen oder mehr Rechenressourcen investieren. Zum Beispiel werden Frame-Änderungen in Einheiten von „Superblocks“ codiert (ähnlich wie Makroblöcke). Diese Blöcke referenzieren andere Teile desselben Frames oder vorherige Frames, um die Änderung zu schätzen. Je genauer man den geänderten Bereich eines Blocks umreißen und definieren kann, desto effizienter wird es. Allerdings kostet auch die Beschreibung der Blockpositionen Daten, daher gibt es Einschränkungen, um diese Beschreibung zu minimieren. In AV2 hat sich die Art geändert, wie Blöcke definiert werden, sodass sie sich leichter an Änderungsbereiche anpassen lassen, und die maximale Blockgröße wurde verdoppelt, sodass auch große Bewegungen mit weniger Blöcken effizient komprimiert werden können. Daneben gab es viele weitere Änderungen, und auch die algorithmische Kreativität der Encoder entwickelt sich ständig weiter. Um solche Fortschritte tatsächlich einzusetzen, braucht man einen Standardkonsens darüber, welche Transformationen, Vorhersagemethoden usw. im Bitstream erlaubt sind. Ein passendes Video gibt es hier
- Patente spielen weiterhin eine große Rolle. Bei neuer Technik muss sehr darauf geachtet werden, keine bestehenden Patente zu verletzen. Deshalb könnte es Tricks oder Verfahren geben, die auch in AV1/AV2 nicht verwendet werden dürfen
- Man braucht beides. Moderne Codecs haben jeweils unterschiedliche Trade-offs bei Bildqualität (PSNR, SSIM), Rechenkomplexität (CPU vs DSP vs Speicher), Speicherplatz und Bitrate, daher gibt es keinen einzelnen Codec, der für alle Situationen optimal ist
- Ich frage mich, wann generative KI-Codecs tatsächlich in der Produktion eingesetzt werden. Das Konzept ist relativ einfach: Der Encoder kennt das exakte Modell, das der Decoder verwenden wird, sendet nur die wichtigsten Pixel, und der Decoder füllt den Rest mit KI auf. So könnte man zum Beispiel zufällige Gesichter in einer Menschenmenge generieren oder, falls nötig, mehr Daten für diesen Bereich senden, damit dort das Gesicht eines bestimmten Team-Maskottchens erscheint. Wenn die Komprimierung extrem weit getrieben wird, bleibt am Ende im Grunde kein Video mehr übrig, sondern nur noch Daten, die die Szene wie ein Textskript beschreiben
- Ich kenne die Details von AV2 nicht gut, aber beim Übergang von H.265 zu H.266 wurde zum Beispiel die Zahl der Angular-(prediction)-Winkel verdoppelt, es kamen Tools hinzu, um Chroma aus Luma vorherzusagen, Pixelblock-Kopien und viele weitere Verfahren allein für die Intra Prediction. Auch bei der Inter Prediction gab es enorme Verbesserungen. All das verbraucht zwar viel Logikschaltung bzw. Siliziumfläche im Hardware-Decoder, bringt aber große Bitrateneinsparungen. Für CPU-Decoder ist die zusätzliche Rechenlast gar nicht so hoch. Die eigentlichen Kosten liegen beim Encoding. Um die Kompressionseffizienz zu maximieren, gibt es mehr Vorhersagewerkzeuge zur Auswahl, was die Encoding-Zeit erhöht. Deshalb setzt Google AV1-Encoding nur für Videos mit sehr vielen Aufrufen ein
Da dies nun der zweite Anlauf ist, hoffe ich, dass es diesmal etwas solider wird. Bei AOM ist für den 20. Oktober eine Live-Session geplant, auf die ich gespannt bin. Dort sollen mehr Daten und Kennzahlen, Encoding-/Decoding-Komplexität, Hardware-Decoder-Roadmaps, Konformität und Test-Kits, zukünftige Profile, Verbesserungen bei AVIF und AV2 sowie Vergleiche mit JPEG-XL behandelt werden. Ich frage mich, ob sich die 30 % BDRATE auf den neuesten AV1-Encoder oder auf Version 1.0 beziehen. Wahrscheinlich wird auch über Verbesserungen beim Live-Encoding gesprochen
30 % Einsparung gegenüber AV1 ist verrückt. Es fühlt sich an, als wäre das erst vor Kurzem erschienen, aber es kam schon 2019 heraus
- Ich habe sogar erst letztes Jahr mein erstes Gerät mit AV1-Hardware-Unterstützung benutzt. Das schnelle Tempo bei der Codec-Entwicklung hat immer auch Nachteile: Inhalte müssen entweder dauerhaft in mehreren Formaten gespeichert werden, oder die Clients müssen softwarebasiert decodieren, was mehr Akku verbraucht. YouTube bevorzugt eindeutig Letzteres
- Das ist so beeindruckend, dass es schon wieder verdächtig wirkt. Wenn das stimmt, wäre das wirklich großartig
An Codec-Implementierungen und -Optimierungen zu arbeiten, war wahrscheinlich eines der spannendsten Dinge, die ich in meinem Leben gemacht habe. Ich würde AV2 gern tiefer erforschen, aber im Moment fehlt mir die Zeit
Endlich mal ein Codec mit einem Namen, der nicht wie AVI klingt
- AVI ist doch kein Codec, sondern ein Containerformat, oder?
Dieses schnelle Glasfaser-Internet verliert dadurch irgendwie an Bedeutung...
- Der Großteil der Welt konsumiert Daten und Videos immer noch über mobile Netzwerke
- Stimmt. Da habe ich Glück, dass die Rückgabefrist für meine 1-TB-microSD-Karte noch nicht abgelaufen ist
- Vielleicht beginnt dann bald das Streaming von 8K-Inhalten, oder es wird für 16K-VR-Videos genutzt
- Das Ideal ist, maximale Effizienz und maximale Verfügbarkeit gleichzeitig anzustreben. Dasselbe Prinzip sollte auch für Rechenleistung oder den Energiemarkt gelten
- Mehr Medien erzeugen mehr Nachfrage nach Geschwindigkeit, und steigende Geschwindigkeit führt wiederum zu mehr Medien – ein endloser Kreislauf
Ich dachte, der Name AV1 sei als Anspielung oder Scherz in Richtung AVI (Audio Video Interleave) gemeint, aber bei AV2 geht dieses Gefühl verloren. Es gibt für AV1 bereits Dateien mit der Endung .av1 und den MIME-Typ video/AV1. Wenn jetzt AV2 kommt, muss dann alles zusätzlich als .av2 und video/AV2 doppelt vorhanden sein? Und wie sieht es dann mit dem AVIF-Format aus?
- Die Endung .av1 ist für rohe AV1-Datendateien. AV2 wird voraussichtlich .av2 verwenden, und beide sind nicht kompatibel. In der Praxis liegen Videostreams jedoch in Containern wie Matroska (.mkv), WebM oder MP4, und dort wird ein Codec-Typcode angegeben (av01, av02). AVIF ist ebenfalls ein Container; der Name steht zwar für AV1 Image Format, könnte aber theoretisch auch auf AV2 erweitert werden. Wenn man es ganz klar ausrichten wollte, könnte man es in AOMedia Video Image Format umbenennen
- Meinst du also, Dateiendungen sollten nur das Dateiformat widerspiegeln und vom internen Codec getrennt sein? Früher hat genau das manchmal Probleme verursacht. Es ist praktisch, wenn man allein an der Endung erkennen kann, ob man eine Datei lesen kann
Bekommt sonst noch jemand bei AV1- oder AV2-Formaten eine Cloudflare-Blockierungsnachricht?
Ich frage mich, wann ein auf gaussian splatting basierender Videocodec erscheint