衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

盤點AVS編碼標準的技術現狀與媒體編碼的未來

BYXG_shengwang ? 來源:未知 ? 作者:胡薇 ? 2018-10-24 17:17 ? 次閱讀

本文整理了北京大學教授馬思偉在 RTC 2018 實時互聯網大會上的分享,從技術、編碼與傳輸角度,分享了媒體編碼的現狀與未來,以及 AVS 編碼標準的技術現狀。

我的演講主題是《新媒體編碼時代》。這里的“新”有兩個含義,第一是指新時代,技術與應用場景出現創新;第二是指媒體“新”,需要編碼的材料數據改變了。

我在 RTC 2017 曾講過《視頻編碼未來簡史》。當時叫視頻編碼新時代(如上圖圖解),革命之一是采集革命,采集的數據發生了變化,視頻從標清向高清、超高清方向發展。還有其它的一些數據,包括光場、點云、神經脈沖。理論也有很多,包括傳統的奈奎斯特采樣、壓縮感知。

革命之二是計算革命,編碼計算提升了很多,有 CPUGPU、NPU,計算能力的提升使得原先因太過復雜而無法使用的算法變得可用了,提高了編碼效率。

第三個是認知革命,數據處理有了新的方法,處理能力更強了,業界談的比較多的方法就是深度學習

基于這三個革命,編碼在朝智能編碼的方向發展。其實,智能編碼并不是新概念,80年代后期到90年代中期,業界一直在講智能編碼。不過,到現在為止智能編碼還始終處于第二代。

今天,我從三方面講:新媒體,我們看到新的數據類型要編碼;新技術,技術從編碼、傳輸、跨媒體智能講,我們朝智能方向發展了;新應用,一般是大家說的 4K、8K、VR 這些應用。

1

新媒體編碼時代:新媒體

首先講新媒體。很多人介紹自己專業的時候通常說我是做數字媒體技術的,或多媒體技術的。我們要把媒體和技術分開來看,所謂的技術是計算機對媒體的處理技術。在以前“通信基本靠吼,交通基本靠走”的年代,沒有媒體,后來出現了文字,再后來,聲音、視頻、圖像可以保存,隨后催生了新的產業。接著出現了 3D、AR、VR,最后到智能媒體。總的來說,技術催生新媒體的誕生,這是關于媒體的介紹。現在提的比較多的凡是包含三維信息比如光場、點云的媒體都統稱為新媒體、三維媒體,這些不是新名詞,只是現在我們強調的越來越多。

關于沉浸媒體,在今年的 ACM Multimedia Systems 大會上,Philip Chou 提出,“Holograms are the Next Video”。在他看來,全息是下一代視頻。上面有兩個圖,1977年的星球大戰電影里,出現了光場投影,是那時候我們最初對三維沉浸媒體的想象。右圖則是2018年的想象。我們已經想象了40多年。Philip Chou 在會上有兩句話我印象很深刻,一句話是“Hologram compression today is like video compression in 1988”。王田博士也講到,今天的點云編碼水平,相當于 30 年前視頻編碼的水平。1988 年時 MPEG 剛剛成立,當時只有 JPEG。MPEG1-VCD 是在 1992 年才出現的。另一句話是關于流媒體的,“Hologram streaming today is like video treaming in 1997”。1997 年,國際會議在討論流媒體技術。我想,當初討論流媒體技術的人看到今天互聯網流媒體的發展,應該是感到很震驚的。還有一句話,“如果你看到了視頻的發展趨勢,那么你一定會同樣看到全息的趨勢。”所以,沉浸媒體是未來的趨勢。

關于沉浸媒體提供的感覺,主要有三類:視覺、聽覺、交互。視覺要提供更高分辨率,分辨率上去之后才更清楚、更清晰。聽覺方面,要高質量、三維全景聲,感覺好比演唱會、演奏會。交互方面,講求低延時、交互自然。

沉浸式媒體的系統是比較復雜的,從前端采集到中間編碼傳輸到后端顯示時間,每個模塊都是相互關系很強的,每個模塊都得做好才能呈現好的效果。

相關的組織都在做很多的研究,大概可以分成上圖這樣幾個層次,第一個層次是關于最基本的數據的表示,看到的 JEPG 圖像、MPEG 視頻、IEEE、AVS;中間層是關于應用,比如 VR-IF,3GPP 等國際組織都在演講。上層是體驗,用戶端體驗做不好用戶肯定不接受,包括 ITU-T、VQEG、QUALINET 等組織。

我們今天關心的主要是最底層的編碼技術表示。今天另一場演講中,王田老師提到了沉浸式媒體,這是 MPEG 目前做的工作標準。這些技術的應用從早先 MPEG1、2,后來到了 MPEG4,H.265 等等。

我們今天主要說的是 MPEG-I,沉浸式媒體。上圖是 MPEG-I 的發展路線圖,只包含視覺相關的,不包含音頻的內容。其中之一是關于 New Video Codec,還有點云,從靜態對象到動態對象,以及光場,包括相機陣列等。

我們熟悉的是手機數碼相機上都在用的 JPG。但實際上 JPEG 做了很多,其中一個是 XL,新一代圖像壓縮;另一個是 PLENO,光場圖像壓縮。

AVS 一直都在做高效視頻編碼,做的是面向廣播的編碼。從 2002 年開始,至今已經 16 年了。2006 年成為國家標準,進展比較快,2012 年能 AVS 成為廣電行標,2016 年 AVS2 成為廣電行標,也是國家標準。目前在4K的超清廣播應用比較多,今年 10 月做試運行,明年北京冬奧會會有 4K 的超清廣播。對于 VR,AVS 有一個 HV 的工作組,有專門面向 VR 的HV1857.9視頻標準。

先普及一下沉浸式視頻的多維度屬性。包括分辨率,從標清到高清到超高清,有更高的幀率、更高的采樣精度,更多的模型數據,色域更豐富。

全景視頻方面,視場角中的 1° 能看到 60 個像素就可以達到視網膜級別。如果是 4K ,視角是 36°,平均下來每度 100 多個像素。有時候說看 4K 就夠了,不需要 8K 了,依據是從這兒來的。但實際上,8K 之后視角變得更大,也需要更高的像素。如果以這個算目前的 4K 全景,平均下來 1° 只有 11 個像素,離 4K 高清差的很遠。為什么 4K 全景質量差?因為本身信號提供的就不夠。如果要做全景視頻,按照前面的分辨率算的話,像素值至少要到 22Kx11K,完全全景的話要 24Kx12K。計算下來數據量達到 4Gbps,只能等 5G 技術的到來。

還有其他媒體,點云、網格、光場、深度之間都可以轉換處理,不止體現在數據格式上轉換處理,后面編碼的時候也可以做相應的融合。

剛才看到的都是比較傳統的相機采集的數據進行編碼,現在已經出現了另外一種形式的采集,是在仿生的采集(如上圖)。原理是這樣的。首先,視頻采集的數據量很大,尤其是運動速度很快的時候,普通的相機采集的話都會出現模糊。第二,我們采集完這些視頻再做處理,做特征的提取,進行對象的分析識別。這個處理過程與人的視覺識別處理是相差很遠的。第一個問題,人眼是每秒 30 幀嗎?肯定不是,因為人眼的獲取原理本身就和傳統相機不一樣。那么仿生采集指的就是后端傳輸的是神經脈沖信號,當環境中要測那個點發生變化時才傳輸信號,這個原理與普通的相機采集不一樣。但是傳輸神經脈沖信號后如何進行編碼,到現在也沒有完全解決。我們可以看下面這個視頻,它直觀解釋了傳統相機采集與仿生采集的區別。

2

新媒體編碼時代:新技術

現在已經進入第三代標準時期。MPEGY 有 VVC(VersatileVideoCoding),俗稱是萬能的。AV1、AVS3,都是第三代標準。

視頻編碼做了這么多代標準,做編碼的人會問編碼效率做了這么多優化,繼續做下去有沒有意義?

有一個經濟學的悖論:提升資源消耗效率,結果消耗的資源更多。比如,要提高煤炭的燃燒效率,后來煤炭的燃燒效率提上去了,煤燒得更多了。原理是效率支撐了更多的需求,從而帶來了更多資源的消耗。帶寬傳送也是一樣,如果我們提升帶寬,進一步提升壓縮效率,全景視頻、點云等新的應用就會跟著來,然后帶寬消耗還會更高。從這個角度來看,需要更高效的壓縮技術。

再看編碼的具體技術,下圖是我們熟悉的框架,編碼所做的工作非常精細、瑣碎。整個工程就像手表里一個個連接的小齒輪、大齒輪。我們的工作就是刪掉其中一個齒輪或者把幾個齒輪并成一個齒輪,并讓表跑得更準,更省電。

在AVS3 的時間規劃上,預計明年 8 月份會發布第一版,第一版是復雜度和效率做的比較平衡的一版。2021 年會發布第二版,最終目標是面向8K、VR、流媒體等應用,編碼效率比 AVS2 再高一倍。AVS3 的特征可以這從兩方面看,傳統技術 AVS 在做很多研究,包括塊劃分、運動預測、變換等;智能方面也有研究,,用神經網絡做變化預測濾波,編碼與傳輸的聯合。

早先我們一直做的是信源信道聯合編碼。我們可以靠一些傳輸技術來折中編碼效率,不用很復雜的編碼方法就達到編碼效率的提升,比如,媒體端 CDN 中存了很多視頻流,不同流之間存在關聯,一句話解釋就是類似于 P2P 傳輸式,我可以在傳輸中利用高層的傳輸支持達到相關內容的更高效的預測編碼。利用這種技術可以提升 30% 以上的壓縮效率。

國際標準方面,2015年10月份已經開始圍繞新一代 JVET VVC 標準進行討論,現在已經三年了。技術進展很快,編碼效率相比 H.265 提升 40% 以上。今年4月份在圣地亞哥開的一次會議上,有一個環節:響應提案征集,SDR 有 22 項提案,HDR 12 項,360 全景 12 項。

下圖那次會提交的 SDR 提案征集。中國從 1996 年開始參加 MPEG,前期參與的時候主要是大學和研究所,沒有中國的公司。但是近年,中國的公司,比如華為、海康威視、騰訊、大疆、頭條等都開始積極參與國際標準的制定,這是很好的現象。同時說明中國近十年二十年來培養了不少人才,這是我們學校的貢獻。也歡迎更多的公司可以參與國際標準,也可以參與 AVS 標準的制定。AVS 和 MPEG China 是一體的,加入 AVS 就相當于加入 MPEG China。

再看技術情況,新特色是體現在從信號處理到深度學習。這些提案里,有5個都用到了深度學習的技術,其中有關于預測的,也有關于濾波的。我會重點講一下預測。

神經網絡和編碼之間的聯系在哪兒呢?可以用一個比較簡單的圖來解釋。下圖是傳統的變換,分解成變換系數,后來做量化、反量化,量化反量化之后帶來失真。失真之后如何做一個最優的量化,使得量化的誤差最小?最小誤差范圍表示成二進制的形式,S1、S2 每個數要么是 0 要么是 1。量化決策的過程,實際上是,選擇 0 或者選擇 1 使得整個誤差最小,這就是一個優化的問題。優化的問題就是神經網絡最擅長的工作,這個工作就可以交給神經網絡,幫你選擇是 0 還是 1,這是變換和神經網絡的相通之處。

原來做幀的預測,選周圍像素,找一個插值濾波器,使得插值之后要逼近預測的值,使得誤差最小。如果用神經網絡做的話,把周圍像素傳過去,神經網絡幫我找加權、找偏移量。計算完之后失真最小,那么網絡就訓練好了。以后做預測的時候,把數據送給它就自動處理,像黑盒一樣。這就是基于神經網絡的預測。

目前用神經網絡去做變換、預測、濾波的已經有很多了,每個模塊都很多。但如果只做這些的話,還是像玩票一樣。畢竟神經網絡在模式識別方面應用得很好,到了編碼這邊做了很多,但是還沒有打敗傳統編碼,還是基于信號處理這套。

現在有了新的概念,Towards Conceptual Compression。在下圖中,最底部的一行原始圖像,最頂部模糊的編碼的。從上面的編碼,一步步推理迭代,能夠生成底下的原始圖像,這是用神經網絡來做的。我認為可以叫做概念(意象)壓縮。它強調的是,人的腦子里對一個圖像有個模糊的印象,但是恰恰靠這個模糊的印象就能夠做判定。這個概念正在進行中。

這是另外一個工作,剛才是用神經網絡做表示、做生成,現在可以用神經網絡在壓縮層次上提供對這個內容分析理解的支持。傳統基于信號處理的壓縮,如果要進行分析會很困難。如果是基于神經網絡的話,由于是基于特征的表示,對于媒體的分析理解會更加智能。

再看一看媒體分析,從多媒體到跨媒體。左邊從視頻到文字,給定視頻后可以對應生成文字。右邊反過來再從文字生成視頻,從文字到視頻比較有限制,限制于數據集,靠文字描述生成視頻出來。這種技術再結合前邊基于神經網絡的壓縮,智能壓縮前景無限,這種技術對媒體的分析和理解肯定比傳統編碼更優越。

接下來的內容是關于新媒體編碼。關于光場,目前光場有兩類,一類是基于相機陣列,還有用一些小凸透鏡,相當于集中成像。對于光場,新類型的媒體可以用現有的框架去進行編碼。

對于點云,雖然我們感覺它是新數據,其實也有比較好的編碼處理方法。原來圖像是二維的,分成一個塊一個塊處理。到了點云之后是三維的,也很簡單,把它分成三維的塊,原來是平面劃分,現在改成立體劃分,劃分完之后這些數據可以進行變換、預測、處理。和傳統編碼也可以做一個很好的結合,目前這塊都是處于比較初步的階段,還需要繼續研究。

以上是點云和光場與傳統的編碼框架之間的結合。還有一部分是關于光場編碼和點云編碼,光場編碼處理也可以用點云的編碼進行編碼框架表示。基本思想是小凸透鏡成像,從每個角度情趣看這個圖像,就可以看成一個球的圖像。把球的圖像進行分解,有一些系數,系數類似于點云的屬性系數。

關于傳輸,編碼和傳輸都有很大的影響。傳輸有些是我們比較熟悉,比如 HLS、DASH。后端基于 Tile,把內容劃分成 Tile,根據帶寬情況,選擇傳輸相應質量的內容。這個工作對于全景視頻傳輸很有用處,因為全景視頻某些時候只是看某些角度,不是看整個內容,所以可以基于 Tile 的傳輸降低整個傳輸的工作量,還能提升圖像的質量。

視點依賴的流媒體傳輸就是指全景傳輸。那么,我們就可以利用神經網絡,提前預測人看哪塊內容,提前把信號內容發送過去以獲得更好的體驗質量。可以基于觀者本人,也可以基于其他觀眾的注意來預測。

神經網絡智能不止是在編碼,在傳輸上也有很多用處。再看點云的傳輸,也是一樣的,點云數量很大,可以考神經網絡來幫忙,比如點云傳輸劃分成三維的Tile,你看哪塊我給你傳哪塊,來降低傳輸工作量。

3

新媒體編碼時代:新應用

新應用,有線上抓娃娃,連抓娃娃這種應用都可以搞這種火,我相信新媒體應用可以搞得更火。

還有超高清,目前看到的有 4K、8K,也有人問我們需不需要 8K。我在八年前第一次看見 8K 的時就未曾懷疑過,一定有人需要。別說 8K,16K、24K 也有其必要性。對于全景視頻來講,我們還是需要更高的質量、更好的傳輸支持才會有更好的節目、更好的體驗。

5G 與 VR,對于全景傳輸、動態點云的傳輸都可以提供更好的支持。

智能媒體的制作,紐約大學的研究人員 Ross Goodwin 訓練了一個神經網絡,給它輸入幾部電影它自己就可以寫出劇本來,然后 9 分鐘的電影就排出來了。也許未來我們需要只明星的臉,不需要明星來演。

最后總結一下,The best is yet to come,最好的 TA 會來臨。我們要做的事情就是擁抱新技術,攜手新媒體,研發新應用,開創新時代,我的報告就是這些,謝謝大家。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼
    +關注

    關注

    6

    文章

    957

    瀏覽量

    54951
  • AVS
    AVS
    +關注

    關注

    0

    文章

    55

    瀏覽量

    23228

原文標題:新媒體編碼時代的技術:編碼與傳輸

文章出處:【微信號:shengwang-agora,微信公眾號:聲網Agora】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    信道編碼和信源編碼的區別

    信道編碼和信源編碼是數字通信系統中兩個至關重要的環節,它們各自承擔著不同的功能和角色。
    的頭像 發表于 01-29 16:29 ?144次閱讀

    信道編碼與解碼技術解析

    在現代通信系統中,數據傳輸面臨著多種挑戰,包括噪聲干擾、信號衰減、硬件故障等。為了提高數據傳輸的可靠性,信道編碼(Channel Coding)和解碼(Decoding)技術應運而生。這些技術通過在
    的頭像 發表于 01-22 15:48 ?138次閱讀

    伺服電機編碼器故障及維修

    伺服電機編碼器故障及維修,伺服電機編碼器4大常見故障,編碼器信號丟失或不穩定,編碼器零點偏移,編碼器過熱,
    的頭像 發表于 01-21 14:49 ?322次閱讀
    伺服電機<b class='flag-5'>編碼</b>器故障及維修

    SMT元器件的編碼與識別

    隨著電子技術的快速發展,SMT因其高密度、高性能、低成本等優勢在電子制造領域占據了主導地位。在SMT生產過程中,元器件的正確編碼與識別對于保證生產效率和產品質量至關重要。 1. SMT元器件編碼規則
    的頭像 發表于 01-10 18:01 ?604次閱讀

    bcd編碼的優缺點 bcd編碼的常見錯誤

    BCD(Binary-Coded Decimal)編碼是一種二進制編碼方式,用于將十進制數(0-9)直接轉換為二進制形式。這種編碼方式在數字系統中非常常見,尤其是在需要處理數字數據的硬件和軟件中
    的頭像 發表于 12-20 17:17 ?581次閱讀

    編碼器在機器人技術中的應用 編碼器在傳感器系統中的作用

    編碼器在機器人技術中扮演著至關重要的角色,特別是在傳感器系統中,其作用不可忽視。以下是對編碼器在機器人技術中的應用以及其在傳感器系統中作用的介紹: 一、
    的頭像 發表于 11-24 10:02 ?768次閱讀

    編碼器種類大觀:探索技術前沿與應用創新

    在工業自動化、機器人技術、航空航天以及眾多精密制造領域,編碼器作為位置、速度或方向反饋的關鍵組件,扮演著舉足輕重的角色。隨著技術的不斷進步,編碼器的種類日益豐富,從基礎的旋轉
    的頭像 發表于 11-21 08:49 ?724次閱讀

    編碼器類型詳解:探索不同編碼技術的奧秘

    編碼器類型詳解:探索不同編碼技術的奧秘 在自動化、機器控制和數據處理等領域,編碼器作為關鍵的傳感器組件,扮演著至關重要的角色。它們通過將物理位置、速度或方向轉換為電信號,為各種設備提供
    的頭像 發表于 11-19 08:58 ?1017次閱讀
    <b class='flag-5'>編碼</b>器類型詳解:探索不同<b class='flag-5'>編碼</b><b class='flag-5'>技術</b>的奧秘

    如何使用ASCII碼進行編碼

    ASCII碼(American Standard Code for Information Interchange,美國信息交換標準代碼)是一種字符編碼標準,用于文本電子交換。它主要包括128個字符
    的頭像 發表于 11-10 09:37 ?830次閱讀

    二進制編碼器與絕對編碼器的區別

    編碼器是工業自動化和機器人技術中不可或缺的組件,用于將機械位置或運動轉換為電信號。二進制編碼器和絕對編碼器是兩種常見的編碼器類型,它們各自有
    的頭像 發表于 11-06 09:54 ?652次閱讀

    MSP430? MCU的軟件編碼技術

    電子發燒友網站提供《MSP430? MCU的軟件編碼技術.pdf》資料免費下載
    發表于 10-22 09:43 ?0次下載
    MSP430? MCU的軟件<b class='flag-5'>編碼</b><b class='flag-5'>技術</b>

    磁電式編碼器好還是光電式編碼

    夠提供非常準確的位置反饋。這使得它在需要高精度和分辨率的應用中表現尤為出色。 技術成熟 :光電式編碼器在市場上已經存在多年,技術相對成熟,應用廣泛。因此,用戶更容易找到適合其應用需求的產品,并且
    的頭像 發表于 10-12 10:01 ?713次閱讀

    磁電編碼器和光電編碼器的區別

    磁電編碼器和光電編碼器是兩種不同類型的編碼器,它們在原理、結構、性能和應用領域上都有所不同。 磁電編碼器和光電編碼器的區別 1. 引言
    的頭像 發表于 10-12 09:54 ?1628次閱讀

    編碼器分辨率是什么意思 編碼器分辨率和脈沖數的關系

    按照編碼器支持的分辨率可以把編碼器分成標清編碼器、高清編碼器、全高清編碼器,分辨率越高幀率越高視頻就越清楚。 1.
    的頭像 發表于 02-21 18:07 ?4540次閱讀
    <b class='flag-5'>編碼</b>器分辨率是什么意思 <b class='flag-5'>編碼</b>器分辨率和脈沖數的關系

    高清視頻編碼器與流媒體平臺的完美結合

    隨著數字化時代的快速推進,高清視頻已經成為我們日常生活中不可或缺的一部分。在這一背景下,高清視頻編碼器與流媒體平臺的結合變得尤為重要。兩者之間的完美結合不僅為用戶提供了高質量的視頻體驗,還推動了視頻
    的頭像 發表于 02-20 15:14 ?514次閱讀
    高清視頻<b class='flag-5'>編碼</b>器與流<b class='flag-5'>媒體</b>平臺的完美結合
    百家乐筹码真伪| 百家乐包台| 澳门玩百家乐的玩法技巧和规则 | 金海岸百家乐娱乐城| 大发888娱乐城大发888大发网| 澳门葡京赌场出台女| 百家乐官网谁能看准牌| 真人百家乐怎么对冲| 大发888官方 hplsj| 百家乐官网发牌器8副| 24楼层风水| 百家乐又称什么| 百家乐官网模拟投注器| 哪个百家乐最好| 百家乐园太阳| 澳门百家乐官网心德| 百家乐游戏机子| 澳门顶级赌场手机在线链接| 百家乐官网偷码| 百家乐赌场策略论坛| 会宁县| 赌百家乐官网怎样能赢| 百家乐分路单| 赌博粉| 百家乐官网试玩| 大发888真人网址的微博| 真钱百家乐官网公司哪个好| 百家乐高手和勒威| 冠通网络棋牌世界| 深圳百家乐官网的玩法技巧和规则 | 斗牛棋牌游戏| 个人百家乐官网策略| 最好百家乐的玩法技巧和规则 | 嘉禾百家乐官网的玩法技巧和规则 | 互联网百家乐官网的玩法技巧和规则| 百家乐游戏筹码| 最好的百家乐官网博彩公司| 皇冠百家乐的玩法技巧和规则| 百家乐官网视频官方下载| 百家乐反缆公式| VIP百家乐官网-挤牌卡安桌板|