衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一款比特率極低的高質量語音編解碼器

Tensorflowers ? 來源:TensorFlow ? 作者:TensorFlow ? 2021-03-30 14:03 ? 次閱讀

通過語音和視頻通話與他人在線聯系逐漸成為日常生活的一部分,這得益于 WebRTC 等實時通信框架,而后者依靠高效的壓縮技術和編解碼器,解碼或編碼傳輸和存儲的信號。數十年來,編解碼器一直是媒體應用的重要組成部分,可使需要占用大量帶寬的應用高效傳輸數據,支持用戶隨時隨地進行高質量通信。

因此,在開發視頻和音頻編解碼器時,一項長期目標就是提高信號質量,減少數據使用,以及最大程度降低實時通信延遲。雖然與音頻相比,視頻貌似會占用更多帶寬,但現代視頻編解碼器能夠實現比較低的比特率,甚至可能低于目前某些高質量語音編解碼器所能達到的值。將低比特率視頻和語音編解碼器相結合,即使在低帶寬網絡中也能實現高質量的視頻通話體驗。但是根據過往經驗,音頻編解碼器的比特率越低,語音信號的清晰度就越差,聲音也越像機器人。此外,盡管部分人可以訪問穩定的高質量、高速網絡,但這種網絡連接水平并不普遍,即便在網絡良好的地區,有時也會遇到質量差、帶寬低和網絡擁堵的情況。

為解決這一問題,我們構建了 Lyra。這是一款比特率極低的高質量語音編解碼器,即使在最慢的網絡上也可以實現語音通信。為此,我們采用傳統編解碼器技術,同時利用機器學習 (ML) 的優勢,使用基于數千小時數據進行訓練的模型,創造出一種全新的語音信號壓縮與傳輸方法。

Lyra 概覽

Lyra 編解碼器的基礎架構非常簡單。每隔 40 毫秒,該編解碼器都會從語音中提取特征或獨特的語音屬性,將其壓縮后傳輸。這些特征本身為對數梅爾聲譜圖,是一系列代表不同頻段語音能量的數字,因其根據人類的聽覺反應建模,具有感知相關性,所以一直以來得以應用于相關領域。在另一端,生成模型使用這些特征重建語音信號。就這一點來說,Lyra 與其他傳統參數編解碼器非常相似,如 MELP。

但是,傳統參數編解碼器只是簡單地從語音中提取關鍵參數,然后在接收端用參數重建信號,雖然可以實現低比特率,但聲音往往聽起來像機器人一樣,并不自然。這些缺點促使相關人員開發新一代高質量音頻生成模型,這些模型不僅能夠區分信號,還可以生成全新的信號,為這一領域帶來了巨大變革。DeepMind WaveNet 為首個生成模型,為之后的模型鋪平了道路。此外,WaveNetEQ,即目前 Duo 中使用的基于生成模型的丟包隱藏系統,就是將此技術用于真實場景的成果。

Lyra 壓縮的全新方法

以這些模型為基準,我們開發了一個全新的模型,能夠使用少量數據重建語音。Lyra 利用這些強大的新型自然語音生成模型,確保將參數編解碼器的比特率維持在較低水平,同時實現較高質量,達到與當今大多數直播和通信平臺所用頂尖波形編解碼器相當的表現。波形編解碼器的缺點在于,要達到這種高質量水平,必需逐一壓縮和發送信號樣本,這需要更高的比特率,并且在大多數情況下,并不是實現自然語音的必要條件。

生成模型的一個問題在于其計算復雜度。Lyra 使用成本更低的遞歸生成模型,即 WaveRNN 變體,從而避免了這一問題。該模型以較低的比特率運行,但可并行生成頻率范圍不同的多個信號,然后以所需采樣率將其組合為單個輸出信號。得益于這一設計,Lyra 不僅可以在云服務器上運行,還可以在中檔手機設備上實時運行(處理延遲為 90 毫秒,與其他傳統語音編解碼器相當)。與 WaveNet 類似,此生成模型基于數千小時的語音數據訓練,可準確重建輸入的音頻。

與現有編解碼器對比

自 Lyra 問世以來,我們一直致力于以遠低于現有編解碼器的比特率實現最高的音頻質量。目前,免版稅的開源編解碼器 Opus 是 WebRTC 型 VOIP 應用中使用最廣泛的編解碼器,在音頻為 32 Kbps 時,通常可以實現與原始語音幾無差別的語音質量。然而,盡管 Opus 可以在帶寬受限的環境中運行,且比特率最低可達 6 Kbps,但聲音質量會明顯下降。Speex、MELP、AMR 等其他編解碼器雖然也能夠實現與 Lyra 相當的比特率,但聲音皆會失真,聽起來像機器人一樣。

根據目前的設計,Lyra 會以 3 Kbps 的比特率運行。聽音測試表明,Lyra 在該比特率下的性能優于其他所有編解碼器,并且與 Opus 在 8 Kbps 比特率下的表現相當,因此可節省 60% 以上的帶寬。在帶寬條件不足以滿足較高比特率,且現有低比特率編解碼器無法實現所需質量時,可以使用 Lyra。

確保公平

與所有基于 ML 的系統一樣,必須對模型進行訓練,確保其滿足所有人的需求。我們利用開源音頻庫對 Lyra 進行訓練,音頻數據長達數千個小時,涵蓋 70 余種語言,然后與專家和眾包聽眾一同驗證音頻質量。

我們設計 Lyra 的一個目標在于確保人人都能獲得高質量的音頻體驗。用于訓練 Lyra 的數據集范圍廣泛,涵蓋多種語言,可確保編解碼器能夠穩健應對可能遇到的任何情況。

社會影響和我們未來的發展方向

無論從短期還是長期來看,Lyra 等技術都具有重要而廣泛的影響。有了 Lyra,數十億新興市場的用戶就能使用高效的低比特率編解碼器,獲得遠高于以往的音頻質量。此外,Lyra 也可用于云環境,幫助使用不同網絡和設備的用戶順暢地聊天。將 Lyra 與 AV1 等全新視頻壓縮技術相結合,可為較差網絡環境中的視頻聊天提供支持。用戶即使通過調制解調器撥號上網,網速只有 56 Kbps,也可以進行視頻聊天。

Duo 已使用 ML 來減少音頻中斷,目前正推出 Lyra,以求在連接帶寬極低時,提高語音通話的質量和可靠性。我們將繼續優化 Lyra 的性能和質量,以盡可能地提高技術的可用性,同時還會開展 GPU 加速和 TPU 加速的相關研究。我們還將著手研究如何基于這些技術開發比特率較低的通用音頻編解碼器,即音樂和其他非語音用例。

原文標題:推出 Lyra:用于語音壓縮的新型極低比特率編解碼器

文章出處:【微信公眾號:TensorFlow】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3669

    瀏覽量

    135258
  • 機器學習
    +關注

    關注

    66

    文章

    8441

    瀏覽量

    133094

原文標題:推出 Lyra:用于語音壓縮的新型極低比特率編解碼器

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    TLV320AIC28音頻編解碼器評估模塊

    電子發燒友網站提供《TLV320AIC28音頻編解碼器評估模塊.pdf》資料免費下載
    發表于 12-20 16:02 ?0次下載
    TLV320AIC28音頻<b class='flag-5'>編解碼器</b>評估模塊

    TAS25xx編解碼器控制EVM手冊

    電子發燒友網站提供《TAS25xx編解碼器控制EVM手冊.pdf》資料免費下載
    發表于 12-10 14:14 ?0次下載
    TAS25xx<b class='flag-5'>編解碼器</b>控制EVM手冊

    用于便攜式數字音頻應用的低功率、高質量的立體聲編解碼器

    Codec芯片 - CJC8974A是一款低功率、高質量的立體聲編解碼器,設計用于便攜式數字音頻應用,以及種單聲道橋接音頻功率放大器,在由5V電源供電時,能夠將3W的連續平均功率傳輸
    的頭像 發表于 12-05 09:21 ?221次閱讀
    用于便攜式數字音頻應用的低功率、<b class='flag-5'>高質量</b>的立體聲<b class='flag-5'>編解碼器</b>

    配置I2S以從編解碼器設備生成BCLK

    電子發燒友網站提供《配置I2S以從編解碼器設備生成BCLK.pdf》資料免費下載
    發表于 10-21 10:30 ?0次下載
    配置I2S以從<b class='flag-5'>編解碼器</b>設備生成BCLK

    Linux上的編解碼器移植TMS320DM365預覽版

    電子發燒友網站提供《Linux上的編解碼器移植TMS320DM365預覽版.pdf》資料免費下載
    發表于 10-14 10:53 ?0次下載
    Linux上的<b class='flag-5'>編解碼器</b>移植TMS320DM365預覽版

    TMS320DM365中的智能編解碼器功能

    電子發燒友網站提供《TMS320DM365中的智能編解碼器功能.pdf》資料免費下載
    發表于 10-14 10:24 ?0次下載
    TMS320DM365中的智能<b class='flag-5'>編解碼器</b>功能

    音頻編解碼器和ADC中有哪些常見噪聲問題,如何幫助避免這些問題?

    音頻編解碼器和 ADC 中有哪些常見噪聲問題,如何幫助避免這些問題?
    發表于 10-10 08:09

    音頻編解碼器中的常見噪聲問題

    電子發燒友網站提供《音頻編解碼器中的常見噪聲問題.pdf》資料免費下載
    發表于 10-09 10:19 ?0次下載
    音頻<b class='flag-5'>編解碼器</b>中的常見噪聲問題

    一款低功率、高質量的單聲道音頻編解碼器 - CJC8911

    CJC8911是個低功率,高質量的單聲道編解碼器,設計用于便攜式數字音頻應用程序。該設備集成了完整的接口到個出線端口的接口。片上數字信號處理執行圖形均衡器,三維聲音增強和麥克風或線
    的頭像 發表于 08-08 09:39 ?559次閱讀
    <b class='flag-5'>一款</b>低功率、<b class='flag-5'>高質量</b>的單聲道音頻<b class='flag-5'>編解碼器</b> - CJC8911

    帶你探索HiFi智能編解碼器的奇妙世界

    HiFi智能編解碼器就像是音頻世界的魔法師,它讓我們能聽到最真實、最動人的聲音。無論是家庭音響、智能音箱,還是無線耳機和專業設備,這個小小的設備都能帶來巨大的音質提升。讓我們同期待,未來HiFi智能編解碼器為我們帶來的更多驚喜
    的頭像 發表于 07-18 17:20 ?942次閱讀
    帶你探索HiFi智能<b class='flag-5'>編解碼器</b>的奇妙世界

    TVP5146高質量、單芯片數字視頻解碼器數據表

    電子發燒友網站提供《TVP5146高質量、單芯片數字視頻解碼器數據表.pdf》資料免費下載
    發表于 07-04 10:00 ?1次下載
    TVP5146<b class='flag-5'>高質量</b>、單芯片數字視頻<b class='flag-5'>解碼器</b>數據表

    【RTC程序設計:實時音視頻權威指南】音視頻的編解碼壓縮技術

    至關重要的作用,編解碼器的主要目標是通過去除冗余信息和壓縮視頻數據來減少文件的大小,同時還要保持高質量的視頻圖像編碼負責壓縮解碼器則負責還原,編解
    發表于 04-28 21:04

    國產可編程振蕩在視頻編解碼器中的應用,兼容SiTime

    國產可編程振蕩在視頻編解碼器中的應用,兼容SiTime
    的頭像 發表于 04-17 09:39 ?2358次閱讀
    國產可編程振蕩<b class='flag-5'>器</b>在視頻<b class='flag-5'>編解碼器</b>中的應用,兼容SiTime

    集成電源管理和音頻編解碼器TPS65950數據表

    電子發燒友網站提供《集成電源管理和音頻編解碼器TPS65950數據表.pdf》資料免費下載
    發表于 03-06 11:15 ?0次下載
    集成電源管理和音頻<b class='flag-5'>編解碼器</b>TPS65950數據表

    高性能立體聲編解碼器DA7400 數據表

    電子發燒友網站提供《高性能立體聲編解碼器DA7400 數據表.pdf》資料免費下載
    發表于 02-20 10:11 ?1次下載
    高性能立體聲<b class='flag-5'>編解碼器</b>DA7400 數據表
    大发888在线娱乐加盟合作| 迷你百家乐官网的玩法技巧和规则 | 百家乐官网网络游戏平台| 缅甸百家乐赌博有假吗| 优博最新网址| 旺财转运24妙法| TT娱乐城娱乐,| 网上百家乐公式| k7娱乐城开户| 百家乐最佳投注法下载| 武穴市| 百家乐赌场论坛| 海立方百家乐官网海立方| 利都百家乐国际娱乐场开户注册 | 百家乐官网博赌场娱乐网规则| 大发888娱乐代理| 678百家乐官网博彩赌场娱乐网规则 | 棋牌新闻| 博网百家乐现金网| 楚雄市| 百家乐下| 百家乐官网赌场论坛博客| 水果机8键遥控器| 百家乐官网娱乐场真人娱乐场| 大发888大发娱乐场| LV百家乐官网赢钱LV| 至尊国际娱乐| 百家乐六亿财富| 百家乐官网的桌布| 大发888游戏优惠| 百家乐光纤洗牌机如何做弊| 黄金城娱乐场| 百家乐如何切牌好| 菲律宾百家乐官网娱乐| 大发线上娱乐| 百家乐存1000送| 没费用百家乐官网分析器| 澳门赌博| 百家乐国际赌场娱乐网规则| 百家乐官网说明| 太子娛樂城网址|