大都会娱乐场官网游戏平台,新世纪娱乐城注册送彩金,网页赌博游戏送注册金(中国)·官方网站

作為國(guó)內(nèi)智能語(yǔ)音與人工智能產(chǎn)業(yè)領(lǐng)導(dǎo)者，科大訊飛在北京國(guó)家會(huì)議中心召開了以“AI復(fù)始，萬(wàn)物更新”為主題的2015年年度發(fā)布會(huì)。在發(fā)布會(huì)上，科大訊飛介紹了訊飛超腦計(jì)劃的最新進(jìn)展，并發(fā)布了數(shù)款讓人印象深刻的創(chuàng)新型產(chǎn)品。特別值得一提的是，在發(fā)布會(huì)現(xiàn)場(chǎng)，科大訊飛全球首次將演講人的演講，同步轉(zhuǎn)寫成文字在大屏幕顯示，敢于接受現(xiàn)場(chǎng)數(shù)千參會(huì)者和數(shù)千萬(wàn)觀看視頻直播觀眾的檢驗(yàn)，系統(tǒng)的轉(zhuǎn)寫效果之好讓大家直呼驚艷。此次發(fā)布會(huì)轉(zhuǎn)寫系統(tǒng)就是依托于訊飛全球領(lǐng)先的中文語(yǔ)音識(shí)別系統(tǒng)。今天，我們就為大家從技術(shù)上揭秘科大訊飛的新一代語(yǔ)音識(shí)別系統(tǒng)。

劉慶峰董事長(zhǎng)現(xiàn)場(chǎng)演講內(nèi)容同步轉(zhuǎn)寫成文字顯示在屏幕上

眾所周知，自2011年微軟研究院首次利用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)在大規(guī)模語(yǔ)音識(shí)別任務(wù)上獲得顯著效果提升以來(lái)，DNN在語(yǔ)音識(shí)別領(lǐng)域受到越來(lái)越多的關(guān)注，目前已經(jīng)成為主流語(yǔ)音識(shí)別系統(tǒng)的標(biāo)配。然而，更深入的研究成果表明，DNN結(jié)構(gòu)雖然具有很強(qiáng)的分類能力，但是其針對(duì)上下文時(shí)序信息的捕捉能力是較弱的，因此并不適合處理具有長(zhǎng)時(shí)相關(guān)性的時(shí)序信號(hào)。而語(yǔ)音是一種各幀之間具有很強(qiáng)相關(guān)性的復(fù)雜時(shí)變信號(hào)，這種相關(guān)性主要體現(xiàn)在說(shuō)話時(shí)的協(xié)同發(fā)音現(xiàn)象上，往往前后好幾個(gè)字對(duì)我們正要說(shuō)的字都有影響，也就是語(yǔ)音的各幀之間具有長(zhǎng)時(shí)相關(guān)性。

關(guān)于科大訊飛對(duì)新一代語(yǔ)音識(shí)別系統(tǒng)技術(shù)原理的分析和介紹

圖1：DNN和RNN示意圖

相比前饋型神經(jīng)網(wǎng)絡(luò)DNN，循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)在隱層上增加了一個(gè)反饋連接，也就是說(shuō)，RNN隱層當(dāng)前時(shí)刻的輸入有一部分是前一時(shí)刻的隱層輸出，這使得RNN可以通過(guò)循環(huán)反饋連接看到前面所有時(shí)刻的信息，這賦予了RNN記憶功能，如圖1所示。這些特點(diǎn)使得RNN非常適合用于對(duì)時(shí)序信號(hào)的建模，在語(yǔ)音識(shí)別領(lǐng)域，RNN是一個(gè)近年來(lái)替換DNN的新的深度學(xué)習(xí)框架，而長(zhǎng)短時(shí)記憶模塊(Long-Short Term Memory, LSTM)的引入解決了傳統(tǒng)簡(jiǎn)單RNN梯度消失等問(wèn)題，使得RNN框架可以在語(yǔ)音識(shí)別領(lǐng)域?qū)嵱没@得了超越DNN的效果，目前已經(jīng)在業(yè)界一些比較先進(jìn)的語(yǔ)音系統(tǒng)中使用。

除此之外，研究人員還在RNN的基礎(chǔ)上做了進(jìn)一步改進(jìn)工作，圖2是當(dāng)前語(yǔ)音識(shí)別中的主流RNN聲學(xué)模型框架，主要還包含兩部分：深層雙向LSTM RNN和CTC(Connectionist Temporal Classification)輸出層。其中雙向RNN對(duì)當(dāng)前語(yǔ)音幀進(jìn)行判斷時(shí)，不僅可以利用歷史的語(yǔ)音信息，還可以利用未來(lái)的語(yǔ)音信息，可以進(jìn)行更加準(zhǔn)確的決策；CTC使得訓(xùn)練過(guò)程無(wú)需幀級(jí)別的標(biāo)注，實(shí)現(xiàn)有效的“端對(duì)端”訓(xùn)練。

關(guān)于科大訊飛對(duì)新一代語(yǔ)音識(shí)別系統(tǒng)技術(shù)原理的分析和介紹

圖2：基于LSTM RNN的主流聲學(xué)模型框架

目前，國(guó)際國(guó)內(nèi)已經(jīng)有不少學(xué)術(shù)或工業(yè)機(jī)構(gòu)掌握了RNN模型，并在上述某個(gè)或多個(gè)技術(shù)點(diǎn)進(jìn)行研究。然而，上述各個(gè)技術(shù)點(diǎn)單獨(dú)研究時(shí)一般可以獲得較好的結(jié)果，但是如果想將這些技術(shù)點(diǎn)融合在一起的時(shí)候，則會(huì)碰到一些問(wèn)題。例如，多個(gè)技術(shù)結(jié)合在一起的提升幅度會(huì)比各個(gè)技術(shù)點(diǎn)幅度的疊加要小。又例如，傳統(tǒng)的雙向RNN方案，理論上需要看到語(yǔ)音的結(jié)束（即所有的未來(lái)信息），才能成功的應(yīng)用未來(lái)信息來(lái)獲得提升，因此只適合處理離線任務(wù)，而對(duì)于要求即時(shí)響應(yīng)的在線任務(wù)（例如語(yǔ)音輸入法）則往往會(huì)帶來(lái)3-5s的硬延遲，這對(duì)于在線任務(wù)是不可接受的。再者，RNN對(duì)上下文相關(guān)性的擬合較強(qiáng)，相對(duì)于DNN更容易陷入過(guò)擬合的問(wèn)題，容易因?yàn)橛?xùn)練數(shù)據(jù)的局部不魯棒現(xiàn)象而帶來(lái)額外的異常識(shí)別錯(cuò)誤。最后，由于RNN具有比DNN更加復(fù)雜的結(jié)構(gòu)，給海量數(shù)據(jù)下的RNN模型訓(xùn)練帶來(lái)了更大的挑戰(zhàn)。

鑒于上述問(wèn)題，科大訊飛發(fā)明了一種名為前饋型序列記憶網(wǎng)絡(luò)FSMN(Feed-forward Sequential Memory Network)的新框架。在這個(gè)框架中，可以把上述幾點(diǎn)很好的融合，同時(shí)各個(gè)技術(shù)點(diǎn)對(duì)效果的提升可以獲得疊加。值得一提的是，我們?cè)谶@個(gè)系統(tǒng)中創(chuàng)造性提出的FSMN結(jié)構(gòu)，采用非循環(huán)的前饋結(jié)構(gòu)，在只需要180ms延遲下，就達(dá)到了和雙向LSTM RNN相當(dāng)?shù)男Ч?。下面讓我們?lái)具體看下它的構(gòu)成。

關(guān)于科大訊飛對(duì)新一代語(yǔ)音識(shí)別系統(tǒng)技術(shù)原理的分析和介紹

圖3：FSMN結(jié)構(gòu)示意圖

關(guān)于科大訊飛對(duì)新一代語(yǔ)音識(shí)別系統(tǒng)技術(shù)原理的分析和介紹

圖4：FSMN中隱層記憶塊的時(shí)序展開示意圖（左右各看一幀）

圖3即為FSMN的結(jié)構(gòu)示意圖，相比傳統(tǒng)的DNN，我們?cè)陔[層旁增加了一個(gè)稱為“記憶塊”的模塊，用于存儲(chǔ)對(duì)判斷當(dāng)前語(yǔ)音幀有用的歷史信息和未來(lái)信息。圖4畫出了雙向FSMN中記憶塊左右各記憶一幀語(yǔ)音信息（在實(shí)際任務(wù)中，可根據(jù)任務(wù)需要，人工調(diào)整所需記憶的歷史和未來(lái)信息長(zhǎng)度）的時(shí)序展開結(jié)構(gòu)。

從圖中我們可以看出，不同于傳統(tǒng)的基于循環(huán)反饋的RNN，F(xiàn)SMN記憶塊的記憶功能是使用前饋結(jié)構(gòu)實(shí)現(xiàn)的。這種前饋結(jié)構(gòu)有兩大好處：首先，雙向FSMN對(duì)未來(lái)信息進(jìn)行記憶時(shí)，沒(méi)有傳統(tǒng)雙向RNN必須等待語(yǔ)音輸入結(jié)束才能對(duì)當(dāng)前語(yǔ)音幀進(jìn)行判斷的限制，它只需要等待有限長(zhǎng)度的未來(lái)語(yǔ)音幀即可，正如前文所說(shuō)的，我們的雙向FSMN在將延遲控制在180ms的情況下就可獲得媲美雙向RNN的效果；其次，如前所述，傳統(tǒng)的簡(jiǎn)單RNN因?yàn)橛?xùn)練過(guò)程中的梯度是按時(shí)間逐次往前傳播的，因此會(huì)出現(xiàn)指數(shù)衰減的梯度消失現(xiàn)象，這導(dǎo)致理論上具有無(wú)限長(zhǎng)記憶的RNN實(shí)際上能記住的信息很有限，然而FSMN這種基于前饋時(shí)序展開結(jié)構(gòu)的記憶網(wǎng)絡(luò)，在訓(xùn)練過(guò)程中梯度沿著圖4中記憶塊與隱層的連接權(quán)重往回傳給各個(gè)時(shí)刻即可，這些連接權(quán)重決定了不同時(shí)刻輸入對(duì)判斷當(dāng)前語(yǔ)音幀的影響，而且這種梯度傳播在任何時(shí)刻的衰減都是常數(shù)的，也是可訓(xùn)練的，因此FSMN用一種更為簡(jiǎn)單的方式解決了RNN中的梯度消失問(wèn)題，使得其具有類似LSTM的長(zhǎng)時(shí)記憶能力。

另外，在模型訓(xùn)練效率和穩(wěn)定性方面，由于FSMN完全基于前饋神經(jīng)網(wǎng)絡(luò)，所以不存在RNN訓(xùn)練中因mini-batch中句子長(zhǎng)短不一需要補(bǔ)零而導(dǎo)致浪費(fèi)運(yùn)算的情況，前饋結(jié)構(gòu)也使得它的并行度更高，可最大化利用GPU計(jì)算能力。從最終訓(xùn)練收斂的雙向FSMN模型記憶塊中各時(shí)刻的加權(quán)系數(shù)分布我們觀察到，權(quán)重值基本上在當(dāng)前時(shí)刻最大，往左右兩邊逐漸衰減，這也符合預(yù)期。進(jìn)一步，F(xiàn)SMN可和CTC準(zhǔn)則結(jié)合，實(shí)現(xiàn)語(yǔ)音識(shí)別中的“端到端”建模。

最后，和其他多個(gè)技術(shù)點(diǎn)結(jié)合后，訊飛基于FSMN的語(yǔ)音識(shí)別框架可獲得相比業(yè)界最好的語(yǔ)音識(shí)別系統(tǒng)40%的性能提升，同時(shí)結(jié)合我們的多GPU并行加速技術(shù)，訓(xùn)練效率可達(dá)到一萬(wàn)小時(shí)訓(xùn)練數(shù)據(jù)一天可訓(xùn)練收斂。后續(xù)基于FSMN框架，我們還將展開更多相關(guān)的研究工作，例如：DNN和記憶塊更深層次的組合方式，增加記憶塊部分復(fù)雜度強(qiáng)化記憶功能，F(xiàn)SMN結(jié)構(gòu)和CNN等其他結(jié)構(gòu)的更深度融合等。在這些核心技術(shù)持續(xù)進(jìn)步的基礎(chǔ)上，科大訊飛的語(yǔ)音識(shí)別系統(tǒng)將不斷挑戰(zhàn)新的高峰！

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

語(yǔ)音識(shí)別

語(yǔ)音識(shí)別

+關(guān)注

關(guān)注
38

文章
1742

瀏覽量
112927
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5515

瀏覽量
121552

評(píng)論

相關(guān)推薦

科大訊飛發(fā)布星火深度推理模型X1

今天，科大訊飛正式發(fā)布星火深度推理模型X1，星火4.0 Turbo底座全面升級(jí)，首發(fā)星火語(yǔ)音同傳大模型。

發(fā)表于 01-15 15:54 ?257次閱讀

科大訊飛即將發(fā)布訊飛星火深度推理模型X1

，標(biāo)志著科大訊飛在AI技術(shù)領(lǐng)域的又一次重大突破。訊飛星火深度推理模型X1將為

發(fā)表于 01-08 10:30 ?335次閱讀

科大訊飛為華為Mate70提供技術(shù)支持

簽約標(biāo)志著雙方將在技術(shù)創(chuàng)新、產(chǎn)業(yè)應(yīng)用以及商業(yè)合作等多個(gè)領(lǐng)域展開全方位、深層次的合作，共同致力于構(gòu)建更加完善的人工智能產(chǎn)業(yè)生態(tài)。值得一提的是，在華為最新發(fā)布的Mate70智能手機(jī)中，科大訊

發(fā)表于 12-19 11:03 ?822次閱讀

科大訊飛發(fā)布訊飛星火4.0 Turbo大模型及星火多語(yǔ)言大模型

近日，科大訊飛正式推出了其最新研發(fā)成果——訊飛星火4.0 Turbo大模型。這一發(fā)布不僅標(biāo)志著

發(fā)表于 10-24 13:58 ?472次閱讀

科大訊飛發(fā)布訊飛星火4.0 Turbo:七大能力超GPT-4 Turbo

10月24日，在科大訊飛全球1024開發(fā)者節(jié)上，科大訊飛董事長(zhǎng)劉慶峰正式發(fā)布了

發(fā)表于 10-24 11:39 ?557次閱讀

科大訊飛AI總部園區(qū)正式啟用

近日，安徽省科技創(chuàng)新領(lǐng)域迎來(lái)又一重大里程碑，科大訊飛AI總部園區(qū)（訊飛小鎮(zhèn)）正式宣告啟用，標(biāo)志著

發(fā)表于 09-03 16:06 ?705次閱讀

科大訊飛發(fā)布星火極速超擬人交互,重塑智能對(duì)話新體驗(yàn)

8月19日，科大訊飛震撼宣布了一項(xiàng)關(guān)于其明星產(chǎn)品——星火語(yǔ)音大模型的重大革新，即將推出的“星火極

發(fā)表于 08-20 16:46 ?397次閱讀

科大訊飛發(fā)布智能辦公本Air 2

近日，科大訊飛隆重舉辦了智能辦公本新品發(fā)布會(huì)，正式推出了集前沿科技與高效辦公于一體的訊飛智能辦公

發(fā)表于 08-08 10:43 ?698次閱讀

科大訊飛AI學(xué)習(xí)機(jī)暑期重磅升級(jí)

等獎(jiǎng)。得益于這些大獎(jiǎng)AI技術(shù)的支撐，科大訊飛AI學(xué)習(xí)機(jī)自2019年問(wèn)世以來(lái)，即持續(xù)引領(lǐng)行業(yè)發(fā)展，開創(chuàng)了個(gè)性化精準(zhǔn)學(xué)這一革命性學(xué)習(xí)方式。 ?

發(fā)表于 07-08 09:38 ?799次閱讀

科大訊飛發(fā)布訊飛星火大模型V4.0

在科技創(chuàng)新的浪潮中，科大訊飛再度引領(lǐng)潮流，于北京隆重發(fā)布了訊飛星火大模型V4.0及其在多領(lǐng)域的人工智能應(yīng)用。此次更新不僅標(biāo)志著

發(fā)表于 07-01 10:33 ?941次閱讀

車載語(yǔ)音識(shí)別系統(tǒng)語(yǔ)音數(shù)據(jù)采集標(biāo)注案例

車載語(yǔ)音識(shí)別系統(tǒng)是指利用機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)的一種自然語(yǔ)言處理技術(shù)，載語(yǔ)音識(shí)別系統(tǒng)通過(guò)辨別聲音的語(yǔ)調(diào)

發(fā)表于 06-19 15:52 ?409次閱讀

車載語(yǔ)音識(shí)別系統(tǒng)語(yǔ)音數(shù)據(jù)采集標(biāo)注案例

車載語(yǔ)音識(shí)別系統(tǒng)是指利用機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)的一種自然語(yǔ)言處理技術(shù)，載語(yǔ)音識(shí)別系統(tǒng)通過(guò)辨別聲音的語(yǔ)調(diào)

發(fā)表于 06-19 15:49 ?573次閱讀

科大訊飛星火大模型新添功能，語(yǔ)音臺(tái)歷即將面世

　4月26日，科大訊飛宣布訊飛星火大模型V3.5春季更新，新增功能包括：支持長(zhǎng)文本、長(zhǎng)圖文、長(zhǎng)語(yǔ)音

發(fā)表于 04-28 11:30 ?565次閱讀

科大訊飛創(chuàng)新推出長(zhǎng)文本、長(zhǎng)圖文、長(zhǎng)語(yǔ)音大模型，解決落地難題

近期，科大訊飛推出了首個(gè)支持長(zhǎng)文本、長(zhǎng)圖及語(yǔ)音大數(shù)據(jù)處理的大模型，該系統(tǒng)融合了多元化數(shù)據(jù)源，包括海量文字、圖片以及會(huì)議音頻等，能為各行業(yè)場(chǎng)景

發(fā)表于 04-28 09:32 ?411次閱讀

科大訊飛華中總部已封頂年內(nèi)交付使用

科大訊飛華中總部已封頂年內(nèi)交付使用科大訊飛華中總部位于武漢經(jīng)開區(qū)車谷資本島，投資額50億；計(jì)

發(fā)表于 04-16 14:49 ?1639次閱讀

衡阳派盒市场营销有限公司

搜索歷史

關(guān)于科大訊飛對(duì)新一代語(yǔ)音識(shí)別系統(tǒng)技術(shù)原理的分析和介紹

評(píng)論

科大訊飛發(fā)布星火深度推理模型X1

科大訊飛即將發(fā)布訊飛星火深度推理模型X1

科大訊飛為華為Mate70提供技術(shù)支持

科大訊飛發(fā)布訊飛星火4.0 Turbo大模型及星火多語(yǔ)言大模型

科大訊飛發(fā)布訊飛星火4.0 Turbo:七大能力超GPT-4 Turbo

科大訊飛AI總部園區(qū)正式啟用

科大訊飛發(fā)布星火極速超擬人交互,重塑智能對(duì)話新體驗(yàn)

科大訊飛發(fā)布智能辦公本Air 2

科大訊飛AI學(xué)習(xí)機(jī)暑期重磅升級(jí)

科大訊飛發(fā)布訊飛星火大模型V4.0

車載語(yǔ)音識(shí)別系統(tǒng)語(yǔ)音數(shù)據(jù)采集標(biāo)注案例

車載語(yǔ)音識(shí)別系統(tǒng)語(yǔ)音數(shù)據(jù)采集標(biāo)注案例

科大訊飛星火大模型新添功能，語(yǔ)音臺(tái)歷即將面世

科大訊飛創(chuàng)新推出長(zhǎng)文本、長(zhǎng)圖文、長(zhǎng)語(yǔ)音大模型，解決落地難題

科大訊飛華中總部已封頂年內(nèi)交付使用