當我們談論視頻技術時,超高清視頻(Ultra High Definition,簡稱UHD)無疑是當今最令人興奮的領域之一。上期,我們介紹了一下高動態范圍(HDR)發展面臨適配性、流程復雜、兩極化的挑戰,了解到視頻從產生到播放,中間經歷的復雜流程,也牽扯紛繁復雜的利益相關人,所以在視頻內容編解碼方面,存在著各方利益的博弈。各大組織、企業都有在視頻編解碼上投入,致力于爭奪技術和專利上的制高點。本期,我們就聊聊超高清視頻編解碼的現狀。
關聯回顧
全圖說電視的發展歷史
全圖說視頻編解碼的發展歷史
由淺入深說高清——聊聊高動態范圍(HDR)
由淺入深說高清——HDR的標準之爭
由淺入深說高清——HDR的適配性與流程化的挑戰 視頻壓縮編解碼格式復雜現狀背后的無奈視頻壓縮編解碼領域,一直都特別繁雜,讓人看得眼花繚亂,各種彼此不完全兼容的編解碼格式共存,從而導致市場碎片化。之所以有這么多可用的視頻編解碼格式,單純從技術上來說,是因為有各種各樣的用例、設備和平臺,它們對視頻編碼和解碼有不同的要求和約束。
例如,一些用例可能需要低延遲編碼以進行實時流媒體或實時通信,而其他用例可能優先考慮高質量壓縮以進行視頻存儲和分發。同樣,不同的設備和平臺可能具有不同級別的計算能力和對特定編解碼格式的硬件支持。
因此,有許多不同的視頻編解碼格式可用,它們在壓縮效率、計算復雜性和與不同設備和平臺的兼容性之間具有不同的權衡。一些流行的視頻編解碼格式包括 H.264/AVC、H.265/HEVC、VP9和AV1 等。
但我們也看到多種編解碼格式在市場上爭奪主導地位殺的天昏地暗,復雜性源于多種因素,除了技術之外,更多是行業標準和專利許可的博弈。
視頻編解碼格式復雜性的非技術原因之一是專利格局。許多視頻編解碼格式受專利保護,這使得其他公司很難在不侵犯這些專利的情況下開發競爭編解碼格式。這可能會導致擁有強大專利組合的公司比規模較小的競爭對手更具優勢,從而使新的編解碼格式難以獲得吸引力。
造成視頻編解碼格式復雜性的另一個因素是工業利益之間的博弈。開發和擁有視頻編解碼格式的公司在推廣自己的技術方面具有既得利益,并且可能會采取營銷策略和游說活動來推廣他們的編解碼格式。這可能會在市場上造成混亂,并使消費者難以知道哪種編解碼格式最適合他們的需求。
從壓縮技術來看,視頻壓縮編解碼分為無損視頻壓縮和有損壓縮。從產業角度來劃分,分為制播域和發布域兩大類型。今天我們就按照后者的維度和大家聊聊高清視頻的編解碼格式。
制播域的高清視頻編解碼格式制播域格式主要由攝像機和非編系統(非線性編輯系統的簡稱)廠家帶動和主導的,以通用編解碼標準為基礎擴展支持42色度和10-12bit精度編碼為主要特點。制播域編解碼格式有很多,今天介紹主流的幾種:
H.264/AVC
高級視頻編碼( AVC ),也稱為H.264或MPEG-4 Part 10,是一種基于面向塊的運動補償編碼的視頻壓縮標準。它是由ITU-T 視頻編碼專家組(VCEG)和ISO/IEC JTC 1運動圖像專家組(MPEG)聯合發布的視頻編解碼格式標準。也是迄今為止,最常用的視頻內容錄制、壓縮和分發格式,截至 2019 年 9 月,91% 的視頻行業開發人員使用它,或者它的變種。AVC支持高達8K UHD 的分辨率。
它是藍光光盤上最常用的視頻編碼格式。它也被互聯網大量的視頻資源以及各種地面高清電視廣播廣泛使用。
H.264的核心技術是:整數離散余弦變換(整數 DCT)、可變塊大小分割和多畫面間預測。
補充小知識:離散余弦變換(DCT)
離散余弦變換( DCT )根據以不同頻率振蕩的余弦函數之和表示有限的數據點序列。這是由一位印度裔美國電氣工程師和計算機科學家Nasir Ahmed在1972年發明的一個數據壓縮變換算法。DCT 是使用最廣泛的數據壓縮變換算法,是大多數數字媒體標準(圖像、視頻、音頻、廣播電視、語音編解碼等等)的基礎,常用于數字信號處理、電信設備,以減少網絡帶寬使用和數字內容的存儲空間。
整數DCT是基于DCT的一種快速算法來降低DCT的計算復雜度。整數DCT壓縮,也成為塊壓縮,以離散 DCT 塊集的形式壓縮數據。DCT 塊大小一般包括 4x4 和 32x32 像素之間的各種整數 DCT 大小。DCT能夠實現高數據壓縮比下的高品質內容。然而,當應用大量DCT壓縮時,可能會出現塊狀的壓縮偽影(Compression artifact),比如下面的右圖。
H.264/AVC 第一個版本的標準化于 2003 年 5 月完成。截至2021 年 8 月 22 日,已經發布了版本27。
H.264并不是免費的標準。H.264 專利許可證由MPEG LA專利池管理。獲得 H.264 技術的商業使用需要向 MPEG LA 和其他專利所有者支付版稅。為了避免為 AVC 支付許可費用,一些公司和組織開發了自己的編解碼格式,這些編解碼格式基于 AVC 標準,但使用不同的技術或算法進行壓縮。例如,XAVC 和 AVC-Intra 都是基于 AVC,但分別由 Sony 和 Panasonic 開發,以避免支付使用原始 AVC 編解碼格式的許可費。同樣,Apple ProRes 是 Apple 開發的專有編解碼格式,它也基于 AVC,但針對專業視頻制作工作流程進行了優化。
XAVC
XAVC是Sony于 2012 年 10 月 30 日推出的一種錄制格式。XAVC 使用H.264/MPEG-4 AVC的 5.2 級,這是該視頻標準支持的非常高的級別。支持每秒 60 幀(fps) 的4K 分辨率(4096 × 2160 和 3840 × 2160) 。XAVC 支持8、10 和 12 位的顏色深度。色度采樣(Chroma subsampling)可以是 40、42 或 44。素材交換格式(MXF)可用于數字容器格式。XAVC 支持范圍廣泛的內容制作,包括幀內錄制和長畫面組(GOP) 錄制。XAVC的規范缺點是并未擴展到8K。
AVC-Intra AVC-Intra是Panasonic在2007年4月宣布開發支持的一種視頻編碼格式,用于 Panasonic 的高清廣播產品,例如配備P2 卡的廣播攝像機。AVC-Intra同樣,也是基于H.264/MPEG-4 AVC標準。它定義了 10 位幀內壓縮,10 位亮度和色度,便于編輯并保持最高的視頻質量。支持40,42 和44色度采樣。支持4K分辨率。ProRes Apple ProRes是蘋果在2007年開發的一種高質量、“視覺無損”的有損 視頻壓縮格式。ProRes用于后期制作,支持高達8K的視頻分辨率。ProRes 編解碼器系列使用基于離散余弦變換(DCT) 的壓縮算法。ProRes 被廣泛用作商業廣告、特寫、藍光和流媒體中高清廣播文件的最終格式交付方法。ProRes 是一系列中間編解碼器。僅使用幀內壓縮來實現的,其中每個幀都是獨立存儲的,并且可以在不依賴于其他幀的情況下進行解碼。ProRes 支持不同的數據速率和不同的分辨率(可變比特率 ( VBR ) 編碼)。所有 ProRes422 變體都在 10 位色深下使用 42 的色度子采樣。ProRes 4444 和 4444 XQ 以 44 模式對顏色進行采樣,顏色深度為 10 或 12 位,并且可以選擇包括一個 alpha 通道。JPEG-XS JPEG XS (ISO/IEC 21122) 是由聯合攝影專家組(JPEG)在2019年推出的最新的淺壓縮編解碼標準,JPEG XS是一種用于專業應用程序的可互操作、視覺無損、低延遲和輕量級圖像和視頻編碼系統。JPEG-XS具備成為超高清制播域主流格式的潛力。優勢在于標準化、低延遲和低復雜性。基于離散小波技術應用上的一些突破,實際測試能夠以16:1壓縮率達到視覺無損的質量,滿足8K編輯的質量要求且編解碼效率很高,有望以單一格式滿足制作、傳輸和播出的需求,對于提高超高清制播效率和降低成本具有重要意義。該標準的應用包括為虛擬現實、無人機、使用攝像頭的自動駕駛汽車、游戲和廣播流式傳輸高質量內容。JPEG XS有三個關鍵技術能力:(1)視頻透明壓縮;(2)低延遲;(3)輕量級。JPEG XS支持精確的比特率分配、多平臺互操作性、數字無損編碼(MLS)、高動態范圍(HDR)內容和RAW Bayer/CFA壓縮。中央廣播電視總臺和北京臺已經開始對該技術的嘗試,產品生態逐步完善。 除了上述提及的編解碼,制播域還有其他的編解碼比如:AVCHD、REDCODE RAW、Canon XF-AVC等,這里不再一一展開贅述。補充小知識:色度采樣(Chroma subsampling)
色度(Colorfulness)指的是色彩的純度,也叫飽和度或彩度,是“色彩三屬性”之一。利用人類視覺系統對色差的敏銳度低于對亮度的敏銳度,色度采樣(Chroma subsampling)指在表示圖像時使用較亮度信息低的分辨率來表示色彩(色度)信息。數字信號通常被壓縮以減小文件大小并節省傳輸時間。因此往往通過將更多帶寬分配給亮度分量(通常表示為 Y')而不是色差分量Cb和Cr來優化視頻系統。色度采樣(Chroma subsampling)方案通常表示為三部分比例J : a : b
J:水平采樣參考(概念區域的寬度)。通常,4。
a :第一行J像素中的色度樣本數(Cr,Cb ) 。
b :第一行和第二行J像素之間色度樣本( Cr,Cb)的變化次數。
42就表示:每行4個亮度采樣,第一行J像素中的色度樣本數2,第一行和第二行J像素之間色度樣本( Cr,Cb)的變化次數也是2。
發布域的高清視頻編解碼格式發布域高清視頻編解碼格式使用場景廣泛,各大組織、企業投入力度大,致力于爭奪技術和專利上的制高點。HEVC 在前面談到制播域視頻編解碼的時候,我們就談到了H.264/MPEG-4 AVC。這個編解碼廣泛應用于制播域和發布域。高效視頻編碼( HEVC ),也稱為H.265和MPEG-H Part 2,是在H.264/MPEG-4 AVC基礎上開發的視頻編解碼格式。它還是由ITU-T 視頻編碼專家組(VCEG)和ISO/IEC JTC 1運動圖像專家組(MPEG)聯合成立的視頻編碼聯合協作小組 (JCT-VC) 標準化的,在2013年6月份首次發布?,F在已經演進到8.0版本了。 與 AVC 相比,HEVC在相同視頻質量水平下提供 25% 到 50% 更好的數據壓縮。它支持高達 8192×4320 的分辨率,包括8K UHD, 與主要的 8 位 AVC 不同,HEVC 的保真度更高的 Main 10 配置文件已被整合到幾乎所有支持的硬件中。截至 2019 年,43% 的視頻開發者使用 HEVC,是僅次于 AVC 的第二大使用最廣泛的視頻編碼格式。 同樣是整數離散余弦變換(DCT),AVC 使用塊大小為 4×4 和 8×8,而HEVC 使用塊大小在 4×4 和 32×32 之間靈活調整。其他的技術變化還包括將模式比較和差異編碼區域從 16×16 像素擴展到最大 64×64,改進可變塊大小分割,改進同一圖片內的“幀內”預測,改進運動矢量預測和運動區域合并,改進的運動補償過濾,以及稱為樣本自適應偏移過濾的附加過濾步驟。 不過,HEVC還是犯了AVC同樣的毛病,就是專利費。甚至,HEVC的綜合許可費還高于 AVC,這也是HEVC 在網絡上采用率低的主要原因之一。而且,不僅如此,高昂的專利許可費,還讓很多大的科技公司干脆另起爐灶,搞起了開放媒體聯盟(Alliance for Open Media,簡稱:AOMedia),并在2018年3月28日發布了免版稅的替代視頻編解碼格式AV1。AV1
剛剛說到,考慮到HEVC專利許可所涉及的高成本和不確定性,七家初創成員:亞馬遜、思科、谷歌、英特爾、微軟、Mozilla和Netflix,在2015年宣布成立開放媒體聯盟(AOMedia),目的就是開發免版稅許可的高清視頻編解碼格式。AV1就是這個背景下的產物。AV1第一個版本在2016 年 4 月 7 日發布。
從技術繼承性來看,AV1 是一種傳統的基于塊的頻率變換格式,基于 Google 的 VP9,AV1在VP9/HEVC基礎上能夠提高約25%的編碼性能。AV1的位深支持8、10和12,色度采樣支持40、40、、42和44。
AV1的優勢在于免版稅,但也存在復雜度偏高,編碼效率低,硬件支持少的缺點。歷史上VP8、VP9的推廣并不算成功,但由于谷歌對AV1在自有生態的積極推進和開放聯合的態度,應用前景比較樂觀,如Netflix、Youtube、Meta(原Facebook)等公司已經在他們的部分產品中使用了AV1編碼器。
VCC
通用視頻編碼( VVC ),也稱為H.266、ISO/IEC 23090-3、和MPEG-I Part 3。是在H.265/HEVC基礎上開發的視頻編解碼格式。它還是由ITU-T 視頻編碼專家組(VCEG)和ISO/IEC JTC 1運動圖像專家組(MPEG)聯合成立的視頻編碼聯合協作小組 (JCT-VC) 標準化的,在2020年7月份首次發布。現在已經演進到2.0版本了。
它支持從極低分辨率到4K和16K以及 360° 視頻的各種分辨率。VVC 支持YCbCr 44、42 和 40,每個分量 8-10 位,BT.2100寬色域和超過 16 檔的高動態范圍 (HDR) (峰值亮度1000、4000 和 10000尼特)、輔助通道(用于深度、透明度等)、從 0 到 120 Hz 及更高的可變幀率和分數幀率、時間(幀率)、空間(分辨率)、SNR、色域和動態范圍的可縮放視頻編碼差異、立體/多視圖編碼、全景格式和靜態圖片編碼。據說其壓縮視頻的效率比 HEVC 高 40%,但應用尚未普及。VVC盡管很強大,但還是收取專利許可費的。
AVS中國AVS標準歷經20年的發展,已經形成AVS,AVS2和AVS3共3代標準,標準先進性和產業化水平也在逐步提升。AVS(AVS+)用于高清,AVS2對標H.265/HEVC,是國內4K信號衛星傳輸、數字機頂盒的必備格式,并發表作為 IEEE 國際標準 IEEE 1857.4。經測試,AVS2的編碼效率是AVS+的兩倍多,壓縮率超過國際標準HEVC(H.265)。與第一代AVS標準相比,第二代可以節省一半的傳輸帶寬。AV3是面向8K、VR和流媒體的最新編碼標準,其編碼性能比AVS2提升約30%。2020年春晚的8K AVS3春晚直播系統,通過8K機位進行獨立信號采集制作,采用國產8K AVS3編碼器壓縮成120Mb碼流,統一傳輸到全國11個省市戶外大屏進行同步播出。2004年,AVS成立了管理和授權專利的專利池的委員會。第一代AVS標準的使用費僅為1元/終端。該計劃僅對專利池對終端產品(如電視)收取少量使用費,不包括內容提供商和運營商。為擴大AVS的產業生態,TCL、創維、華為、海爾、海信、浪潮、長虹等幾家大廠在2005年5月成立AVS產業聯盟,制定和推廣AVS標準。AVS系列標準作為國內主導的編解碼標準,在技術先進性、專利收費等方面應對當前復雜國際形勢具有重要意義。
高清視頻編解碼未來發展趨勢在高清視頻編解碼研究領域,壓縮效率和內容品質之間一直存在著一定的矛盾。包括目前最新的H.266/VVC和制定中的EVC等標準,都是基于搜索、變換、熵編碼的傳統編碼框架,編碼復雜度提升和質量收益比越來越小,隨著算法的不斷優化和硬件設備的提升,現有的編解碼算法已經達到了一定的局限性。要在保持內容品質的前提下提升壓縮比,需要尋找新的解決方案。而各種視頻應用如VR、云游戲對高幀率和高分辨率依然有提升的需求,需要在技術上有更大的突破。而且再創造新的高清視頻編解碼格式,未必是理想的選擇方向。因為新的編解碼標準通常需要產業和生態的完善支持才能有生命力,而編解碼標準的多樣化會加速生態碎片化,導致建立生態的難度越來越大。
一種可能的方法是深度結合人工智能技術和視頻編解碼壓縮算法。也稱為智能編解碼技術。這種技術通過端到端基于神經網絡的智能編解碼,可以通過學習視頻的內容特征和規律,自動尋找最優的編碼方式,從而實現更高的壓縮比。例如,可以利用深度學習技術對視頻進行超分辨率重建,從而減少視頻中的冗余信息,提高壓縮比。此外,人工智能還可以通過對視頻內容的理解,對不同區域進行有針對性的編碼,進一步提高壓縮比。具體采用技術包括:像素概率重建、光流估計、感知編碼、語義編碼等多種方法,來實現超低碼率的編解碼。具體來說:
像素概率重建:通過學習視頻的內容特征和規律,神經網絡可以根據已知的像素值來預測未知像素值的概率分布。這種方法可以有效地減少視頻中的冗余信息,從而實現更高效的編碼。
光流估計:通過對視頻中的像素運動進行分析,神經網絡可以預測下一幀視頻的像素值。這種方法可以減少視頻中的冗余信息,從而實現更高效的編碼。
感知編碼:基于人眼對圖像的感知,神經網絡可以將視頻中的重要信息進行高效編碼,而將不重要的信息進行壓縮。這種方法可以實現更好的視頻質量和更高的編碼效率。
語義編碼:基于對視頻內容的理解,神經網絡可以將視頻中的相關信息進行高效編碼。這種方法可以減少視頻中的冗余信息,并提高視頻的壓縮比。
總之,智能編解碼技術是當前研究的熱點之一,通過采用端到端基于神經網絡的智能編解碼技術,可以實現更高效的視頻編解碼和更好的視頻質量。該方向主要處于學術上的探索階段,但隨著算力的提升和人工智能技術的發展,智能編解碼技術有望成為未來的發展方向,在各種應用領域中得到廣泛應用。已經有很多廠家在此方向進行嘗試。通常在編碼預處理(降噪、場景檢測等)、ROI感興趣區域編碼、碼率自適應算法、編碼工具選擇等方面都能進一步提高現有編解碼器的性能且保持兼容性,有利于更好利用現有數量龐大的終端設備。
從上所述,我們必須認清現實:多種格式并存可能成為編解碼技術常態。由1到2個編解碼格式覆蓋所有行業的情況已經過去,現在的編解碼標準依然具有生命力和提升價值,國產化標準也具備了相當的競爭力。很難預計新格式中誰能成為超高清發布域的主導格式,多格式支持很可能成為一種常態。相信,隨著硬件設備的不斷升級和人工智能算法帶來的不斷優化,即便不出現新的高清視頻編解碼格式,未來的高清視頻編解碼壓縮技術還是能實現更高的壓縮比和更好的內容品質。
今天,我們就先聊到這里,下一期,我們再展開談一下超高清視頻的音頻技術。
-
開源技術
+關注
關注
0文章
389瀏覽量
7992 -
OpenHarmony
+關注
關注
25文章
3747瀏覽量
16586
原文標題:河套IT TALK 65:(原創)讓人眼花繚亂的超高清視頻編解碼格式
文章出處:【微信號:開源技術服務中心,微信公眾號:共熵服務中心】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論