衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

智能語音前沿技術——發音檢錯糾錯和語音轉換

h1654155972.5709 ? 來源:未知 ? 作者:鄧佳佳 ? 2018-03-22 15:38 ? 次閱讀

近年來,人工智能在國內外掀起了新一輪技術創新的浪潮,人工智能正在成為產業革命的新風口。據BBC預測,到2020年,全球人工智能市場規??蛇_到1190億元。艾瑞咨詢預測,到2020年,中國人工智能市場規模約91億元。

目前,政策、經濟、人才、技術各方面都為人工智能提供了很好的條件:

(1) 政策:人工智能進入國家戰略層面。國務院在《關于積極推進“互聯網+”行動的指導意見》中將人工智能推上國家戰略層面。在國家“十三五”規劃的“科技創新-2030項目”中,智能制造和機器人被列為重大發展工程。2016年,為加快人工智能產業發展,國家發展改革委、科技部、工業信息化部、中央網信辦制定了《“互聯網+”人工智能三年行動實施方案》。2016年科大訊飛、華為等行業知名企業,在深圳共同發布中國《人工智能深圳宣言》,積極探索政、產、學、研、用合作機制,推動人工智能產業的協同發展。2017年十二屆全國人大會議中,國務院******提出,要推動內地與港澳深化合作,研究制定“粵港澳大灣區”城市群發展規劃,提升在國家經濟發展和對外開放中的地位與功能。

(2)經濟:互聯網經濟高速發展,據艾瑞咨詢估計,2015年中國網絡經濟增長約33%,市場規模超過千億,并有持續增長趨勢。2014年開始,投資機構在人工智能領域投資金額,數量均大幅度增加。據咨詢公司Venture Scanner統計,2016年全球人工智能公司已突破1000家,融資高達48億美元。

(3) 人才:在中國科研投入占全球的20%,僅次于美國,信息技術互聯網領域是國家的重點投入對象,近五年,科研人員保持20%的持續增長,為人工智能的發展提供了充足的人才支撐。

(4)技術:目前我國已在計算機視覺,智能語音等領域實現了技術突破,處于國際領先水平。國內具有代表性的公司或機構包括:百度,阿里巴巴,騰訊,科大訊飛,曠視科技,商湯科技等。

在人工智能技術中,智能語音技術是一個重要的分支,是人機交互過程中不可或缺的部分。語音技術包含:語音識別、語音合成、聲紋識別、語音評測、語音轉換等,其中發音檢錯糾錯和語音轉換技術近期有了新的突破。

發音檢錯糾錯

英語是當今世界上最為通用的語言,其重要性已為所有人深刻領會。由于英語的強勢地位,目前被超過100個國家作為外語教學的第一外語。據EF英孚教育發布的《2015年英語熟練度指標報告》顯示,中國人每年花費千億元用于英語培訓,但實際效果依然不佳,在全球70個國家和地區中,中國大陸排名47位。雖然英語水平仍處于低熟練程度,但近年來呈現明顯增長趨勢。據中國社會調查所公布的中國居民消費調查報告統計,中國已成為全球英語培訓領域增長速度最快的市場,年增長率高達12%。在如此廣闊的英語培訓市場下,線下英語培訓面臨著師資數量短缺,教師口語水平參差不齊、“添鴨式”與“應試式”教學以及無法有效改善口語聽力水平等存在諸多矛盾。

另外,中文拼音與英語音標發音方法和位置有所區別,但許多中國學生在剛接觸英語時習慣用熟悉的中文拼音來標注、記憶英語單詞的發音。久而久之,養成了不良的發音習慣,同時還由于中國學生普遍靦腆,上課口語訓練時間不足,課后口語練習得不到反饋,以及大部分英語老師的發音不標準等因素造成了中國學生的發音不標準。由于發音一直是中國學生學習英語時一個難關,有許多人愿意為了糾正發音,支付高昂的學費,請外教糾正自己的發音。隨著移動在線語言學習的興起,催生了AI語音評測,促進了AI糾音技術的發展。

雖然目前市場上有許多在線的英語學習軟件,但大多數都只是簡單地播放音視頻學習資料,學生跟讀,系統播放錄音。只有為數不多的軟件,具備打分評測的功能,而評測的準確性,一直為學生所詬病。因此,市場迫切需要能提供高可靠的打分評測技術。

圖1 目前市面相關產品

另外,除了提供高可靠的打分評測技術,學生也迫切需要具體的發音診斷的反饋建議。因為單純的打分評測技術,只能夠指出學生的發音不夠好,但學生并不理解自己的發音錯誤在哪里,及應該如何改進發音。比如把讀錯的單詞標紅出來,需反復對比原聲才能分析出錯誤的細節,這在明顯讀錯的情況下還好實現,如:steak/steik/,讀錯為/sti:k/。

但以下情況就非常困難了,特別是學習者不熟悉英語的拼讀發音規則,語法的條件下。

(1)如records/'rek??dz/,讀錯為/'rek??ds/。

(2)如the apple /ei/,讀錯為/e?/(the在輔音前發/e?/,元音前發/ei/)。

(3)長短音如book/b?k/,讀錯為/bu?k/;Lily/'l?li:/,讀錯為/'li:li:/。

如果學習者在反復練習過程中不能及時發現具體的錯誤細節,會降低學習效率和興趣,甚至反復錯誤發音,產生錯誤的肌肉記憶。這個問題,在學術研究上被稱為“錯誤發音檢測及診斷”。為了解決這個問題,在過去的十多年中,世界上的許多頂級科研機構都投入了大量的人力物力,其中最具影響力的包括香港中文大學,清華大學,臺灣大學,美國麻省理工大學,新加坡資訊通信研究院,微軟亞洲研究院,IBM等等。

圖2多任務學習的聲學音素模型

“錯誤發音檢測及診斷”的難點在于它們不同于一般的語音識別技術,對于訓練模型和訓練數據有著更嚴格的要求,并且不同母語的人群在學習英語的過程中易出現的錯誤也不同。因此要收集大量以中文為母語的人群的英文錄音,并邀請專業人士對數據進行了人工標注。隨著深度學習的發展,和多年的技術積累,聲希科技李坤博士等人實現了此領域的重大突破,利用深度神經網絡對聲學特征和標準發音進行預測,輸出后驗概率(如圖2所示)。不僅實現了對錯誤發音的檢錯和診斷,還能對重音,語調,流利度等實現評測(如圖3所示)。

圖3 發音,重音,音調檢錯糾錯技術展示

語音評測技術的突破讓AI系統成為私人發音老師成為可能。當系統知道學生具體的錯誤后,就能自動匹配相應的教學內容和練習題目,實現更精準的自適應推薦。如果新技術能得到普及,那將大大改善中國學生的發音現狀,特別是解決農村鄉鎮地區的教育資源和語言環境問題。

另外,隨著中國在國際上地位的提升,特別是一帶一路的推動,愈來愈多外國人開始學習漢語,資料顯示全球學習漢語的外國人已經超過1億。而中文發音是中文學習中的重大難題,發音評測的新技術能針對外國中文學習者的發音錯誤的特點,利用可靠的發音自動評測方法及時、準確地糾正發音錯誤,可以大大提高中文輔助語音教學系統的教學效果。

語音轉換

隨著語音信號處理技術(包括語音識別和語音合成)的發展,在人機交互中語音已成為最自然最方便交互方式之一。語音不僅可以傳遞信息,也可以傳遞情感、態度和說話人的個人特征。其中,說話人的個人特征在我們日常交流中扮演重要角色,它允許我們在電話、廣播節目、電影等媒體中區分說話人。除此之外,智能語音助手變得越來越流行,比如 Apple Siri、Microsoft Cortana、Amazon Alexa。大多數人對語音助手的音色有很強的偏好,因此生成具有特別音色的語音在人機交互領域非常重要。

圖4 語音轉換示意圖

上述場景可歸結為語音轉換(VoiceConversion)問題,目標在于修改非目標說話人Non-target(NT)Speaker的語音音色,使其聽起來像是目標說話人Target(T)Speaker的語音,但同時保持說話的內容T- Content不變(如圖4所示)。

深度學習是人工智能領域劃時代的革命技術,隨著深度學習的應用,合成語音和轉換語音的自然度和流暢度都有很大的提升。在語音合成領域,Google Deepmind 在2016年提出的Wavenet模型將自然度提高了50%。2017年Yoshua Bengio等提出端對端合成模型,使得模型可以從文本直接生成語音而不需要前端預處理。在國內,康世胤等在2013年將深度信念網絡(Deep Belief Networks)用于語音合成,為學界業界最早之一。2017年,百度研究院提出Deep Voice模型改進了語音合成速度,實驗證明該模型可以用于實時語音合成。

語音轉換技術的最早嘗試在1988年由Abe等學者完成。在1988年到2013年期間,大部分算法基于Codebook Mapping、Frequency Warping、Unit Selection、Gaussian Mixture Models。2013年開始,深度學習被應用到語音轉換中,Nakashika等將深度神經網絡(Deep Neural Networks)用于在高維空間中,將非目標說話人語音映射到目標說話人語音。雖然語音轉換技術較以前有很大提升,但是語音自然度和音色相似度方面仍有很大的改善空間,另外在實用適用性方面不夠完善比如只能支持特定人到特定目標人的轉換(一轉一),以及需要嚴苛的數據條件,需要目標人上千句的語音數據。

圖5 深度循環神經網絡(DBLSTM-RNNs)示意圖

在2015年,聲希科技聯合創始人孫立發博士團隊等利用深度循環神經網絡(DBLSTM-RNNs)來改進轉換語音的自然度和流暢度(如圖5所示),傳統的深度神經網絡DNN只能映射單一幀到單一幀之間的關系忽略了語音連續信號幀之間的相關性,DBLSTM-RNNs很好的解決了這個問題從而可以提升自然度和流程度。

圖6 非平行語句多對一語音轉換框架圖

在2016年,孫立發博士等利用從語音識別模型提取到的后驗概率來映射非目標說話人和目標說話人(如圖6所示),可以實現多對一的轉換并且降低了對訓練數據的要求,大大提高了語音轉換技術的實用性。語音轉換具有廣泛的應用:

(1)個性化語音合成。將語音轉換技術與現有的語音合成系統結合,生成用戶想要的音色。

(2)計算機輔助語言學習中的個性化語音反饋。目前語言學習者在學習的過程中參照的標準發音是統一的錄音,語音轉換系統可以合成出具有用戶自己音色的標準發音,幫助用戶進行跟讀對比。

(3)機器翻譯。機器翻譯技術可以將一句語音從一種語言翻譯到另外一種語言,而語音轉換技術可以輔助機器翻譯,讓翻譯后的語音仍然保持說話人的音色。

(4)語言障礙患者的個性化輔助。語言障礙為中風、帕金森等疾病的常見后遺癥。語言障礙會影響患者的日常交流和個性化和情感表達。語音轉換技術加上語音合成技術可以輔助患者進行正常的語音溝通,并且找回自己聲音的音色。

(5)娛樂領域。潛在應用包括電影電視配音,游戲配音,導航配音等。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1796

    文章

    47683

    瀏覽量

    240302
  • 智能語音
    +關注

    關注

    10

    文章

    789

    瀏覽量

    48904

原文標題:智能語音前沿技術——發音檢錯糾錯和語音轉換

文章出處:【微信號:SRA2009,微信公眾號:深圳市機器人協會】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    HarmonyOS NEXT 應用開發練習:AI智能語音播報

    (Text-To-Speech,文本轉語音技術將文本轉換語音進行播報。 當然除了基本的文本輸入和播報功能外,我們還增加了語音識別的功能,
    發表于 01-06 15:33

    基于智能語音交互的智能呼叫中心工作機制

    作為實現智能呼叫中心的關鍵技術之一的智能語音交互技術,它通過集成自然語言處理(NLP)、語音識別
    的頭像 發表于 12-03 16:44 ?381次閱讀
    基于<b class='flag-5'>智能</b><b class='flag-5'>語音</b>交互的<b class='flag-5'>智能</b>呼叫中心工作機制

    智能語音的驅動力:揭秘8腳語音芯片在智能設備中的非凡角色

    語音技術滲透生活,8腳語音芯片以微縮體積、低功耗、卓越性能成智能設備語音功能核心,集成識別、合成、壓縮解碼等功能,實現精準
    的頭像 發表于 12-02 14:23 ?212次閱讀

    語音識別與自然語言處理的關系

    在人工智能的快速發展中,語音識別和自然語言處理(NLP)成為了兩個重要的技術支柱。語音識別技術使得機器能夠理解人類的
    的頭像 發表于 11-26 09:21 ?585次閱讀

    語音識別技術的應用與發展

    體驗。 語音識別技術的原理 語音識別技術的核心在于將聲波信號轉換為可理解的文本信息。這一過程通常包括以下幾個步驟: 聲學模型 :用于識別
    的頭像 發表于 11-26 09:20 ?744次閱讀

    ASR語音識別技術應用

    ASR(Automatic Speech Recognition)語音識別技術,是計算機科學與人工智能領域的重要突破,能將人類語音轉換為文本
    的頭像 發表于 11-18 15:12 ?1030次閱讀

    智能工業檢測:??低旽K-100C網絡控制板的前沿技術

    智能工業檢測:海康威視HK-100C網絡控制板的前沿技術
    的頭像 發表于 10-15 14:20 ?350次閱讀

    TMS320C64x+和TMS320C674x的檢錯糾錯機制

    電子發燒友網站提供《TMS320C64x+和TMS320C674x的檢錯糾錯機制.pdf》資料免費下載
    發表于 10-12 11:27 ?0次下載
    TMS320C64x+和TMS320C674x的<b class='flag-5'>檢錯</b><b class='flag-5'>糾錯</b>機制

    智能設備中的語音是如何寫入語音芯片的

    語音寫入語音芯片需經語音文件準備、格式轉換、燒錄過程、燒錄方式選擇和調試測試。雖非直接通過電腦寫入,但電腦在其中扮演重要角色。
    的頭像 發表于 07-10 11:45 ?763次閱讀

    啟英泰倫引領智能語音技術革新,閃耀2024上海MWC展會

    )”為主題,將聚焦“超越5G”、“人工智能經濟”、“數智制造”三大子主題。啟英泰倫將攜其領先的智能語音芯片及語音解決方案閃耀登場,向全球展示其前沿技
    的頭像 發表于 06-26 08:15 ?594次閱讀
    啟英泰倫引領<b class='flag-5'>智能</b><b class='flag-5'>語音</b><b class='flag-5'>技術</b>革新,閃耀2024上海MWC展會

    智能語音交互技術如何助力設備實現人機自然對話

    智能語音交互技術是指通過語音識別、語音合成和自然語言理解等技術,實現人與機器之間自然語言的交流和
    的頭像 發表于 05-23 15:14 ?430次閱讀

    車內語音識別技術智能駕駛中的應用與前景

    一、引言 隨著智能駕駛技術的快速發展,車內語音識別技術逐漸成為智能駕駛領域的研究熱點。語音識別
    的頭像 發表于 02-19 11:46 ?928次閱讀

    車內語音識別技術智能駕駛的核心要素

    一、引言 隨著科技的飛速發展,智能駕駛已經成為未來出行的趨勢。作為智能駕駛的關鍵技術之一,車內語音識別技術發揮著越來越重要的作用。它不僅提升
    的頭像 發表于 02-19 11:42 ?862次閱讀

    車內語音識別技術智能駕駛的革新之源

    一、引言 隨著科技的飛速發展,智能駕駛已經成為現代交通領域的熱門話題。作為智能駕駛的關鍵技術之一,車內語音識別技術正在改變我們對駕駛的認知。
    的頭像 發表于 02-19 10:10 ?519次閱讀

    車內語音識別技術:重塑智能駕駛的未來

    一、引言 隨著科技的飛速發展,智能駕駛已經成為未來交通的必然趨勢。作為智能駕駛的關鍵技術之一,車內語音識別技術正逐漸成為研究的熱點。它不僅提
    的頭像 發表于 02-19 10:09 ?734次閱讀
    进贤县| 联合百家乐的玩法技巧和规则 | 大发888怎么下载| 皇冠网赌球| 百家乐娱乐网官网网| 百家乐官网桌14人| 威尼斯人娱乐城易博lm0| 济州岛百家乐官网的玩法技巧和规则 | 大发888中文版| 大连百家乐官网食品| 双城市| 威尼斯人娱乐场55556| 鑫鼎百家乐官网的玩法技巧和规则| 网上真钱赌博| 真博百家乐的玩法技巧和规则 | 东城区| 威尼斯人娱乐场骗人| 缅甸百家乐网站| 真人百家乐官网海立方| 大发888体育网| 网上百家乐洗码技巧| 百家乐官网赌博千术| 大发888投注| 网上百家乐娱乐网| 状元百家乐官网的玩法技巧和规则| 平顶山市| 大发888赌博| 澳门百家乐哪家信誉最好| 沙龙百家乐官网娱乐场| 八大胜娱乐城| 威尼斯人娱乐官方| 百家乐高手技巧| 网上百家乐官网娱乐场开户注册 | 百家乐官网视频赌博| 真钱棋牌游戏| 大发888棋牌游戏| 百家乐翻天腾讯视频| e世博百家乐官网娱乐场| 新利国际娱乐| 大发888最新网站| 百家乐博弈指数|