衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

科大訊飛獲國(guó)際多通道語(yǔ)音分離與識(shí)別大賽CHiME-7冠軍

科大訊飛 ? 來(lái)源:科大訊飛 ? 2023-08-28 16:59 ? 次閱讀

前方有好消息傳來(lái)

時(shí)隔3年后,國(guó)際多通道語(yǔ)音分離和識(shí)別大賽CHiME-7再次“上線”。當(dāng)?shù)貢r(shí)間8月25日,CHiME-7 Workshop在Meta公司都柏林研發(fā)中心舉行,官方組委會(huì)現(xiàn)場(chǎng)公布了大賽成績(jī):

科大訊飛聯(lián)合中科大語(yǔ)音及語(yǔ)言信息處理國(guó)家工程研究中心(NERC-SLIP)、國(guó)家智能語(yǔ)音創(chuàng)新中心,在參與的多設(shè)備多場(chǎng)景遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別任務(wù)(DASR)中獲得全部?jī)蓚€(gè)賽道的第一名

繼2016年以來(lái)參與CHiME-4、CHiME-5、CHiME-6三屆比賽并奪冠后,訊飛聯(lián)合團(tuán)隊(duì)堅(jiān)持技術(shù)創(chuàng)新,此次在參與任務(wù)主賽道中語(yǔ)音識(shí)別錯(cuò)誤率21%,相比賽事官方給出的基線系統(tǒng),相對(duì)降低了60%以上。連續(xù)四屆拿下冠軍、領(lǐng)跑國(guó)際競(jìng)爭(zhēng)對(duì)手的同時(shí),科大訊飛在核心源頭技術(shù)上也實(shí)現(xiàn)了自我突破。

語(yǔ)音識(shí)別任務(wù)難度加碼!“群雄逐鹿”再領(lǐng)頭

作為有“最難語(yǔ)音識(shí)別任務(wù)”之稱的語(yǔ)音領(lǐng)域權(quán)威賽事,CHiME(Computational Hearing in Multisource Environments)系列比賽發(fā)起于2011年,致力于集聚學(xué)術(shù)界和工業(yè)界優(yōu)秀的學(xué)術(shù)力量,持續(xù)突破語(yǔ)音識(shí)別技術(shù)水平,不斷在更高噪聲、更高混響、更高對(duì)話復(fù)雜度的場(chǎng)景下提出具有創(chuàng)新性的解決方案,解決著名的“雞尾酒會(huì)問(wèn)題”,難點(diǎn)在于怎樣在充滿噪聲的雞尾酒會(huì),分辨并聽(tīng)清多人同時(shí)交談的聲音。

參與CHiME-7的團(tuán)隊(duì)高手如云,如中科院聲學(xué)所、西北工業(yè)大學(xué)、劍橋大學(xué)、帕德博恩大學(xué)、捷克布爾諾理工大學(xué)、日本電信NTT、英偉達(dá)、俄羅斯STC等國(guó)內(nèi)外知名研究機(jī)構(gòu)、高校和企業(yè)。

本次CHiME-7中的語(yǔ)音識(shí)別任務(wù)由馬爾凱理工大學(xué)、卡內(nèi)基梅隆大學(xué)、約翰霍普金斯大學(xué)、東京都立大學(xué)的學(xué)者們共同組織,稱為“多設(shè)備多場(chǎng)景遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別任務(wù)(DASR)”

在CHiME-6的基礎(chǔ)上,CHiME-7進(jìn)一步提升了難度,不僅在對(duì)話場(chǎng)景、麥克風(fēng)設(shè)備類型上進(jìn)行了擴(kuò)充,同時(shí)要求參賽者只能使用統(tǒng)一的一套算法系統(tǒng)進(jìn)行測(cè)試,這對(duì)語(yǔ)音識(shí)別系統(tǒng)的魯棒性提出了極高的要求。具體如下

在考察場(chǎng)景中,擴(kuò)大了CHiME-6測(cè)試集范圍,同時(shí)新增加了兩個(gè)數(shù)據(jù)集DiPCo和Mixer 6;

三個(gè)數(shù)據(jù)集分別使用不同的麥克風(fēng)設(shè)備,包含線性陣列、環(huán)形陣列、分布式麥克風(fēng)等;

數(shù)據(jù)集中多人對(duì)話場(chǎng)景更加豐富,除朋友聚會(huì)之外還新增了采訪、打電話等場(chǎng)景。

wKgaomTsYh6ABxS9AASAYJ0ziIA956.jpg

CHiME-7官方給出的任務(wù)圖例

該任務(wù)分為主賽道(Main Track,默認(rèn)提交)子賽道(Sub Track,自由提交),具有很高的挑戰(zhàn)性,也與真實(shí)復(fù)雜場(chǎng)景中的語(yǔ)音識(shí)別要求更為貼近:

主賽道需要首先要完成遠(yuǎn)場(chǎng)數(shù)據(jù)下的說(shuō)話人角色分離任務(wù),即從連續(xù)的多人說(shuō)話語(yǔ)音中切分出不同說(shuō)話人片段、判斷出每個(gè)片段是哪個(gè)說(shuō)話人,然后再進(jìn)行語(yǔ)音識(shí)別;

子賽道中說(shuō)話人角色分離的信息是人工標(biāo)注的,參賽者可以直接使用,在人工分離邊界的基礎(chǔ)上直接進(jìn)行語(yǔ)音識(shí)別。

此次比賽核心考察指標(biāo)為DA-WER(Diarization Attributed WER),即綜合考察系統(tǒng)對(duì)多個(gè)說(shuō)話人的角色分離效果,以及語(yǔ)音識(shí)別效果。

科大訊飛聯(lián)合團(tuán)隊(duì)參加了所有兩個(gè)賽道,在主賽道和子賽道分別以21%和16%語(yǔ)音識(shí)別錯(cuò)誤率拿下雙冠,將真實(shí)說(shuō)話人角色分離情況下的語(yǔ)音識(shí)別錯(cuò)誤率與使用人工標(biāo)注間的差別控制在5%,這也標(biāo)志著在實(shí)際環(huán)境中的應(yīng)用效果將得到進(jìn)一步提升。

wKgaomTsYh6ASKfiAAP-hQwAQOI441.jpg

主賽道語(yǔ)音識(shí)別成績(jī),排名指標(biāo)DA-WER取自三個(gè)數(shù)據(jù)集上的平均值,值越低成績(jī)?cè)胶?/p>

wKgaomTsYh6APJcBAAQn_6hEg1w681.jpg

主賽道說(shuō)話人角色分離成績(jī),排名指標(biāo)DER代表說(shuō)話人角色分離錯(cuò)誤率,值越低成績(jī)?cè)胶?/p>

wKgZomTsYh6Af7jrAAO9qc6Mooo740.jpg

子賽道語(yǔ)音識(shí)別成績(jī),排名指標(biāo)DA-WER取自三個(gè)數(shù)據(jù)集上的平均值,值越低成績(jī)?cè)胶?/p>

面對(duì)挑戰(zhàn),我們的“新招數(shù)”有哪些?

如何突破語(yǔ)音交疊、遠(yuǎn)場(chǎng)混響與噪聲干擾、隨意的對(duì)話風(fēng)格等重重難關(guān),在更復(fù)雜的語(yǔ)音素材里精準(zhǔn)實(shí)現(xiàn)說(shuō)話人角色分離和語(yǔ)音識(shí)別?

基于長(zhǎng)期技術(shù)積累,以及訊飛語(yǔ)音識(shí)別技術(shù)在落地應(yīng)用中的實(shí)踐和反饋,聯(lián)合團(tuán)隊(duì)創(chuàng)新并使用了多種技術(shù)方法。

基于記憶模塊的多說(shuō)話人特征神經(jīng)網(wǎng)絡(luò)說(shuō)話人角色分離算法 (Neural Speaker Diarization Using Memory-Aware Multi-Speaker Embedding , NSD-MA-MSE)

該方法旨在解決高噪聲、高混響、高說(shuō)話人重疊段場(chǎng)景的說(shuō)話人角色分離問(wèn)題。基于對(duì)大規(guī)模的說(shuō)話人聚類得到的類中心向量,團(tuán)隊(duì)設(shè)計(jì)了一種記憶模塊,可以利用該模塊與當(dāng)前目標(biāo)人片段,通過(guò)注意力機(jī)制計(jì)算來(lái)得到更加精確的目標(biāo)說(shuō)話人特征。整體上,團(tuán)隊(duì)采用序列到序列的方式來(lái)預(yù)測(cè)多個(gè)說(shuō)話人的輸出幀級(jí)語(yǔ)音/非語(yǔ)音概率。該模型極大降低了說(shuō)話人角色分離錯(cuò)誤率,有效地幫助了后續(xù)的分離和識(shí)別模塊。

陣列魯棒的通道挑選算法(Array-Robust Channel Selection)

該算法基于波束語(yǔ)音信噪比挑選準(zhǔn)則,即使對(duì)于不同的陣列分布場(chǎng)景,也能夠自動(dòng)挑選出有效通道,從而減少下游任務(wù)無(wú)效噪聲和語(yǔ)音干擾。同時(shí),團(tuán)隊(duì)提出了一種空間-說(shuō)話人同步感知的迭代說(shuō)話人角色分離算法(Spatial-and-Speaker-Aware Iterative Diariazation Algorithm,SSA-IDA),通過(guò)結(jié)合陣列空間建模和機(jī)器學(xué)習(xí)長(zhǎng)時(shí)建模的優(yōu)勢(shì),迭代修正說(shuō)話人角色分離系統(tǒng)中聲學(xué)特性相似的說(shuō)話人錯(cuò)分情況,從而更加精確捕捉目標(biāo)說(shuō)話人的信息。

該算法不僅有效的降低了環(huán)境干擾噪聲,而且可以進(jìn)一步消除干擾說(shuō)話人的語(yǔ)音,從而大幅降低下游語(yǔ)音識(shí)別任務(wù)的難度。

場(chǎng)景自適應(yīng)自監(jiān)督表征學(xué)習(xí)方案(Scene Adaptive Self-Supervised Learning Method)

該方案用于匹配復(fù)雜場(chǎng)景的語(yǔ)音識(shí)別,將經(jīng)過(guò)前端處理后的音頻作為自監(jiān)督模型的輸入,并提取高層次表征作為指導(dǎo)標(biāo)簽,實(shí)現(xiàn)了對(duì)特定場(chǎng)景的快速自適應(yīng)匹配;同時(shí),結(jié)合層級(jí)漸進(jìn)式學(xué)習(xí)和一致性正則約束,進(jìn)一步提高了預(yù)訓(xùn)練模型對(duì)下游語(yǔ)音識(shí)別任務(wù)的魯棒性。利用預(yù)訓(xùn)練模型的層級(jí)信息進(jìn)行融合,實(shí)現(xiàn)了語(yǔ)音識(shí)別在復(fù)雜場(chǎng)景的效果提升。

望過(guò)去、向未來(lái):更好的AI離不開更好的語(yǔ)音識(shí)別

連續(xù)四屆獲得CHiME冠軍背后,是科大訊飛在語(yǔ)音識(shí)別技術(shù)和應(yīng)用上踏過(guò)的漫長(zhǎng)之路

從2010年國(guó)內(nèi)首批開展深度神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別研究,到全球首個(gè)中文語(yǔ)音識(shí)別深度神經(jīng)網(wǎng)絡(luò)(DNN)上線、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)語(yǔ)音識(shí)別全面升級(jí)、全球首創(chuàng)基于全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN)的語(yǔ)音識(shí)別,近幾年持續(xù)探索無(wú)監(jiān)督預(yù)訓(xùn)練、多模態(tài)在語(yǔ)音識(shí)別上的應(yīng)用;

從2010年推出語(yǔ)音輸入的訊飛輸入法上線、訊飛語(yǔ)音云發(fā)布,到落地教育、醫(yī)療、城市、工業(yè)、金融、汽車等各行各業(yè),還有面向你我生活學(xué)習(xí)工作的訊飛翻譯機(jī)、智能辦公本、AI學(xué)習(xí)機(jī)、訊飛聽(tīng)見(jiàn)、錄音筆、智能耳機(jī)……

不論是大型國(guó)際會(huì)議、全球賽事,還是身邊的一通電話、一次詢問(wèn),在繁雜的聲音世界里,是持續(xù)進(jìn)化的語(yǔ)音識(shí)別技術(shù)讓機(jī)器更了解我們所言所語(yǔ)。

面向未來(lái),科大訊飛在CHiME-7中的技術(shù)成果鏈接著更多的應(yīng)用可能

立志于讓機(jī)器人走進(jìn)每個(gè)家庭的“訊飛超腦2030”計(jì)劃里,似乎可以看到未來(lái)人和機(jī)器自然交互的新場(chǎng)景。CHiME-7中的技術(shù)成果能夠讓機(jī)器人面向每個(gè)家庭成員實(shí)現(xiàn)更精準(zhǔn)的語(yǔ)音識(shí)別,再加上多模感知、多維表達(dá)、認(rèn)知智能和AI運(yùn)動(dòng)智能算法等有機(jī)結(jié)合,實(shí)現(xiàn)系統(tǒng)性創(chuàng)新——家庭陪伴機(jī)器人不僅能夠聽(tīng)清、聽(tīng)懂每位家庭成員的需求,還能真正做到情感陪伴與日常生活照顧……

**智能語(yǔ)音是萬(wàn)物互聯(lián)機(jī)器溝通的入口,也是人工智能賦能千行萬(wàn)業(yè)、浸潤(rùn)千家萬(wàn)戶的秘鑰;**智能語(yǔ)音是我們的初心,是載譽(yù)的過(guò)往和現(xiàn)在,也是燦爛的將來(lái)。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:四連冠!科大訊飛獲國(guó)際多通道語(yǔ)音分離與識(shí)別大賽CHiME-7冠軍

文章出處:【微信號(hào):iFLYTEK1999,微信公眾號(hào):科大訊飛】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    科大申請(qǐng)注冊(cè)“煙火大模型”等商標(biāo)

    近日,根據(jù)天眼查知識(shí)產(chǎn)權(quán)信息顯示,科大股份有限公司在商標(biāo)注冊(cè)方面有了新的動(dòng)作。該公司近期申請(qǐng)注冊(cè)了多枚商標(biāo),其中包括“煙火大模型”“火炬大模型”和“星光大模型”等,這些商標(biāo)的國(guó)際
    的頭像 發(fā)表于 01-20 10:48 ?225次閱讀

    科大發(fā)布星火深度推理模型X1

    今天,科大正式發(fā)布星火深度推理模型X1,星火4.0 Turbo底座全面升級(jí),首發(fā)星火語(yǔ)音同傳大模型。
    的頭像 發(fā)表于 01-15 15:54 ?260次閱讀

    科大即將發(fā)布星火深度推理模型X1

    近日,科大飛在1月7日成功舉辦的辦公智能體產(chǎn)品升級(jí)發(fā)布會(huì)上,宣布了一項(xiàng)令人振奮的新進(jìn)展。據(jù)科大
    的頭像 發(fā)表于 01-08 10:30 ?335次閱讀

    科大辦公智能體產(chǎn)品升級(jí)發(fā)布

    近日,科大辦公智能體產(chǎn)品升級(jí)發(fā)布會(huì),在北京中關(guān)村國(guó)際會(huì)議中心如期舉辦。圍繞智慧辦公新范式,多款辦公智能體同時(shí)升級(jí)發(fā)布,賦能專業(yè)用戶創(chuàng)新效能。“知識(shí)中臺(tái)、AI搜索、星火人設(shè)、虛擬數(shù)字
    的頭像 發(fā)表于 01-08 09:55 ?234次閱讀

    科大發(fā)布星火4.0 Turbo大模型及星火多語(yǔ)言大模型

    近日,科大正式推出了其最新研發(fā)成果——星火4.0 Turbo大模型。這一發(fā)布不僅標(biāo)志著科大
    的頭像 發(fā)表于 10-24 13:58 ?474次閱讀

    科大發(fā)布星火4.0 Turbo:七大能力超GPT-4 Turbo

    10月24日,在科大全球1024開發(fā)者節(jié)上,科大董事長(zhǎng)劉慶峰正式發(fā)布了
    的頭像 發(fā)表于 10-24 11:39 ?558次閱讀

    科大將首發(fā)模態(tài)視覺(jué)交互及超擬人虛擬人交互

    近日,科大傳來(lái)喜訊,第七屆世界聲博會(huì)暨2024科大全球1024開發(fā)者節(jié)將于10月24日至
    的頭像 發(fā)表于 10-11 16:48 ?405次閱讀

    科大AI總部園區(qū)正式啟用

    近日,安徽省科技創(chuàng)新領(lǐng)域迎來(lái)又一重大里程碑,科大AI總部園區(qū)(小鎮(zhèn))正式宣告啟用,標(biāo)志著這一集前沿科技、創(chuàng)新研發(fā)與高端人才于一體的智
    的頭像 發(fā)表于 09-03 16:06 ?705次閱讀

    科大發(fā)布智能辦公本Air 2

    近日,科大隆重舉辦了智能辦公本新品發(fā)布會(huì),正式推出了集前沿科技與高效辦公于一體的智能辦公本Air 2系列。此次發(fā)布,不僅彰顯了
    的頭像 發(fā)表于 08-08 10:43 ?698次閱讀

    科大飛在香港設(shè)立國(guó)際總部,加速全球化布局

    近日,中國(guó)領(lǐng)先的人工智能企業(yè)科大及其醫(yī)療子公司醫(yī)療宣布,正式落戶香港數(shù)碼港,并在此設(shè)立國(guó)際
    的頭像 發(fā)表于 07-22 15:26 ?473次閱讀

    科大AI學(xué)習(xí)機(jī)暑期重磅升級(jí)

    大模型等AI技術(shù)的迅猛發(fā)展,正深刻改變著整個(gè)教育領(lǐng)域,傳統(tǒng)的教與學(xué)迎來(lái)全面革新。作為國(guó)內(nèi)人工智能教育的先行者,科大飛過(guò)去25年間屢人工智能國(guó)際
    的頭像 發(fā)表于 07-08 09:38 ?799次閱讀

    科大發(fā)布星火大模型V4.0

    在科技創(chuàng)新的浪潮中,科大再度引領(lǐng)潮流,于北京隆重發(fā)布了星火大模型V4.0及其在領(lǐng)域的人
    的頭像 發(fā)表于 07-01 10:33 ?941次閱讀

    科大星火大模型新添功能,語(yǔ)音臺(tái)歷即將面世

     4月26日,科大宣布星火大模型V3.5春季更新,新增功能包括:支持長(zhǎng)文本、長(zhǎng)圖文、長(zhǎng)語(yǔ)音
    的頭像 發(fā)表于 04-28 11:30 ?565次閱讀

    科大創(chuàng)新推出長(zhǎng)文本、長(zhǎng)圖文、長(zhǎng)語(yǔ)音大模型,解決落地難題

    近期,科大推出了首個(gè)支持長(zhǎng)文本、長(zhǎng)圖及語(yǔ)音大數(shù)據(jù)處理的大模型,該系統(tǒng)融合了多元化數(shù)據(jù)源,包括海量文字、圖片以及會(huì)議音頻等,能為各行業(yè)場(chǎng)景提供專業(yè)化、精準(zhǔn)化的答案。
    的頭像 發(fā)表于 04-28 09:32 ?412次閱讀

    科大華中總部已封頂 年內(nèi)交付使用

    科大華中總部已封頂 年內(nèi)交付使用 科大華中總部位于武漢經(jīng)開區(qū)車谷資本島,投資額50億;計(jì)
    的頭像 發(fā)表于 04-16 14:49 ?1640次閱讀
    百家乐官网破解秘| 海安县| 大发888娱乐城怎么样| 作弊百家乐赌具| 鑫鑫百家乐的玩法技巧和规则| 百家乐园鼎丰娱乐城| 大发888娱乐城游戏下载| 齐博线上娱乐| 清涧县| 有破解百家乐官网仪器| 百家乐官网翻天超清| 永利高百家乐进不去| 百家乐官网15人桌子| 百家乐官网高返水| 百家乐发牌铲| 沙龙百家乐娱乐城| 大发888游戏技巧| 金宝网| 百家乐官网客户端LV| 下载百家乐官网的玩法技巧和规则| 百家乐平投注法| 百家乐一年诈骗多少钱| 金利娱乐城代理| 百家乐官网电投| 百家乐赌博现金网| 申博太阳城娱乐| 盈乐博| 百家乐官网网站建设| 百家乐游戏排行榜| 百家乐博弈指| 大亨百家乐官网游戏| 网上百家乐官网博彩正网| 百家乐娱乐城公司| 威尼斯人娱乐城备用地址| 皇冠网hg3155| 电脑打百家乐官网怎么赢| 百家乐做庄家必赢诀窍| 大发888体育在线投注平台| 百家乐官网去澳门| 正品百家乐地址| 百家乐官网视频软件|