衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Facebook發布全卷積神經網絡語音識別模型,開源語音處理深度學習工具包

nlfO_thejiangme ? 來源:lq ? 2018-12-26 09:02 ? 次閱讀

語音識別領域先進的神經網絡一般使用rnn來構建聲學或者語言模型,并基于特征抽取的方式來進行抽取梅爾濾波器特征或者倒譜系數。但在最近的研究工作中,Facebook的研究人員提出了完全基于卷積神經網絡的全卷積語音識別模型,充分利用了在聲學模型和語言模型方面的最新進展。這一全卷積神經網絡通過端到端的訓練可以直接從原始波形預測出語言字符,移除了特征抽取的過程。同時利用一個外部的卷積語言模型來進行單詞解碼。這一模型在多個數據集上都取得了優異的表現。

模型

整個模型由四部分組成,分別是卷積前端、聲學模型、語言模型和集束搜索的解碼器(Beam-search)組成,如下圖所示。

在可學習的前端中,原始音頻首先輸入到一個寬度為2的卷積中,用于模仿梅爾濾波器特征中的前處理步驟。隨后應用了寬度為25ms的k復卷積濾波器。隨后利用平方取絕對值并通過低通濾波器,其寬度為25ms步長為10ms。最后利用對數壓縮,并對每個通道進行了均方歸一化。緊隨其后的是聲學模型,包含了線性門的卷積神經網絡,同時使用了dropout來實現正則化。這一模型的目的在于直接預測出字母。在隨后的語言模型中,研究人員利用了GCNN-14B,其中包含了14個卷積殘差模塊和逐漸增長的通道數,并利用了線性門控單元作為激活函數。語言模型的主要目的在于為備選的句子輸出打分,這一模型允許更大的上下文。最后,基于集束搜索的解碼器用于生成最合適的句子輸出。

其工作的過程在于最大化上面的表達式。

工具

這一模型的實現使用了Facebook最新開源的兩個工具:其中使用了wav2letter建立聲學模型,fairseq建立了語言模型。

fairseq 原理圖

同時推出的升級版深度學習自動語音識別工具框架wav2letter++,在之前wav2letter的基礎上進行和很多的改進和優化。

wav2letter++ 工具包架構

這一版的工具箱由C++實現,并利用了ArrayFire張量庫來提高了運算效率。研究團隊表示,在某些情況下wav2letter++在訓練端到端的語音識別神經網絡時將提速2倍。

wav2letter++ 與其他語言工具的性能比較

端到端的語音識別使得其在多語言上的大規模應用變得可行。同時直接從原始音頻上進行學習可以充分發揮高質量音頻的效果。端到端的算法加上高效的工具框架,將有效促進這一領域的研究,希望全卷積神經網絡的語音識別和wav2letter工具為小伙伴們的研究帶來新的幫助。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4781

    瀏覽量

    101178
  • Facebook
    +關注

    關注

    3

    文章

    1429

    瀏覽量

    55002
  • 深度學習
    +關注

    關注

    73

    文章

    5516

    瀏覽量

    121556

原文標題:新模型、新工具,Facebook在語音識別領域的新動作!

文章出處:【微信號:thejiangmen,微信公眾號:將門創投】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    卷積神經網絡的實現工具與框架

    卷積神經網絡因其在圖像和視頻處理任務中的卓越性能而廣受歡迎。隨著深度學習技術的快速發展,多種實現工具
    的頭像 發表于 11-15 15:20 ?328次閱讀

    深度學習中的卷積神經網絡模型

    深度學習近年來在多個領域取得了顯著的進展,尤其是在圖像識別語音識別和自然語言處理等方面。
    的頭像 發表于 11-15 14:52 ?402次閱讀

    卷積神經網絡共包括哪些層級

    卷積神經網絡(Convolutional Neural Network, CNN)是一種深度學習模型,廣泛應用于圖像
    的頭像 發表于 07-11 15:58 ?1502次閱讀

    pytorch中有神經網絡模型

    處理語音識別等領域取得了顯著的成果。PyTorch是一個開源深度學習框架,由
    的頭像 發表于 07-11 09:59 ?815次閱讀

    卷積神經網絡的基本結構和工作原理

    卷積神經網絡(Convolutional Neural Networks,簡稱CNN)是一種深度學習模型,廣泛應用于圖像
    的頭像 發表于 07-03 09:38 ?923次閱讀

    卷積神經網絡激活函數的作用

    卷積神經網絡(Convolutional Neural Networks, CNNs)是深度學習中一種重要的神經網絡結構,廣泛應用于圖像
    的頭像 發表于 07-03 09:18 ?1235次閱讀

    卷積神經網絡訓練的是什么

    卷積神經網絡(Convolutional Neural Networks,簡稱CNN)是一種深度學習模型,廣泛應用于圖像
    的頭像 發表于 07-03 09:15 ?521次閱讀

    深度學習卷積神經網絡的應用

    隨著人工智能技術的飛速發展,深度學習卷積神經網絡(Convolutional Neural Network, CNN)作為其中的重要分支,已經在多個領域取得了顯著的應用成果。從圖像
    的頭像 發表于 07-02 18:19 ?1054次閱讀

    卷積神經網絡的原理與實現

    1.卷積神經網絡(Convolutional Neural Networks,簡稱CNN)是一種深度學習模型,廣泛應用于圖像
    的頭像 發表于 07-02 16:47 ?728次閱讀

    卷積神經網絡的基本原理和應用范圍

    卷積神經網絡(Convolutional Neural Network,簡稱CNN)是一種深度學習模型,廣泛應用于圖像
    的頭像 發表于 07-02 15:30 ?1406次閱讀

    卷積神經網絡的基本結構及其功能

    卷積神經網絡(Convolutional Neural Network,簡稱CNN)是一種深度學習模型,廣泛應用于圖像
    的頭像 發表于 07-02 14:45 ?2567次閱讀

    卷積神經網絡的原理是什么

    卷積神經網絡(Convolutional Neural Network,簡稱CNN)是一種深度學習模型,廣泛應用于圖像
    的頭像 發表于 07-02 14:44 ?810次閱讀

    深度神經網絡模型有哪些

    深度神經網絡(Deep Neural Networks,DNNs)是一類具有多個隱藏層的神經網絡,它們在許多領域取得了顯著的成功,如計算機視覺、自然語言處理
    的頭像 發表于 07-02 10:00 ?1644次閱讀

    卷積神經網絡語音識別中的應用

    (Convolutional Neural Networks, CNN)憑借其強大的特征提取和學習能力,為語音識別領域帶來了革命性的進步。本文將從卷積
    的頭像 發表于 07-01 16:01 ?986次閱讀

    卷積神經網絡的基本結構

    隨著大數據和計算機硬件技術的飛速發展,深度學習已成為人工智能領域的重要分支,而卷積神經網絡(Convolutional Neural Network,簡稱CNN)作為
    的頭像 發表于 07-01 15:58 ?586次閱讀
    单机百家乐破解方法| 做生意的门的方向| 长方形百家乐官网筹码| 澳门百家乐官网官网www.bjbj100.com| 百家乐官网投注技巧建议| 百家乐官网视频聊天游戏| 百家乐官网有多少网址| 澳门百家乐官网常赢打法| 伯爵百家乐官网娱乐平台| 奥斯卡百家乐官网的玩法技巧和规则 | 太原百家乐的玩法技巧和规则| 汇丰百家乐娱乐城| 大发888下载不了| 千亿娱乐城注册| 泰安市| 百家乐官网专用台布| 凯斯百家乐官网的玩法技巧和规则| 真人百家乐是骗局| 玩百家乐免费| 大发888登录| 嘉黎县| 百家乐官网的注码技巧| 金殿百家乐官网的玩法技巧和规则 | 百家乐官网怎样玩才能赢| 百家乐官网网络娱乐场开户注册| 百家乐官网桌布无纺布| 飞天百家乐官网的玩法技巧和规则 | 大发体育| 澳门百家乐官网玩| 网上百家乐追杀| 华盛顿百家乐的玩法技巧和规则 | 百家乐官网赌博在线娱乐| 在线百家乐有些一| 百家乐怎么玩会| 赌场少女| 百家乐官网翻牌规则| 百家乐赌博故事| 大发888开户| 玩百家乐官网保时捷娱乐城| 足球百家乐官网系统| 路虎百家乐的玩法技巧和规则|