自互聯(lián)網(wǎng)誕生以來,人與機(jī)器的信息交互方式就在不斷演進(jìn)和發(fā)展。從早期單一的鼠標(biāo)、鍵盤操作方式,再到如今以智能手機(jī)為代表的觸控交互。我們急切地想知道:下一代的人機(jī)交互方式是什么?
智能語音,賦予了機(jī)器可以像人類一樣“講話”并與人類“對話”的能力,也讓不少人看到了語音技術(shù)的巨大潛力。追溯起來,有關(guān)語音技術(shù)真正意義上的研究可以追溯到 1876 年貝爾電話的發(fā)明。
從 2009 年開始,借助機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究的發(fā)展及大數(shù)據(jù)語料的積累,以語音識別為突出代表的語音技術(shù)得到了突飛猛進(jìn)的發(fā)展。如將深度學(xué)習(xí)引入語音識別聲學(xué)模型訓(xùn)練,使用基于 RBM 預(yù)訓(xùn)練的多層神經(jīng)網(wǎng)絡(luò),以提高聲學(xué)模型的準(zhǔn)確性,包括蘋果公司的 Siri、谷歌公司的 Google Assistant 的面世曾一時(shí)引起了不小轟動。2015 年,亞馬遜 Amazon Echo 的誕生正式開啟了智能語音技術(shù)的競爭局面。從智能音箱到主打語音交互的智能設(shè)備,國內(nèi)外巨頭們不惜輪番價(jià)格戰(zhàn)。
截止到目前,國內(nèi)外的戰(zhàn)場上有阿里、騰訊、百度,也有谷歌、微軟、亞馬遜、Facebook,它們的介入導(dǎo)致不少創(chuàng)新公司展開了激烈競爭,也對未來十年產(chǎn)生了極其重要的影響。
在眾多語音技術(shù)中,語音識別、語音合成、聲紋識別、語音喚醒、端信號處理等語音技術(shù)伴隨著算法統(tǒng)計(jì)模型的迭代有了新的重大創(chuàng)新,也成為當(dāng)前最具有挑戰(zhàn)性和應(yīng)用場景的技術(shù)。
以聲紋識別為例,即通過對一種或多種語音信號的特征分析來判斷說話人身份的技術(shù)。由于任何兩個(gè)人的聲紋圖譜都有所差異,所以聲紋同樣具有如指紋生物特征一樣的唯一性。聲音不涉及隱私問題,麥克風(fēng)和傳感器等相關(guān)設(shè)備成本低廉,傳輸帶寬窄,而語音又是一個(gè)形簡意豐的信號,口音、語種、情感等各種信息通過一段聲音便傳輸了出來。
清華大學(xué)語音和語言技術(shù)中心主任、得意音通董事長鄭方博士接受 CSDN 采訪時(shí)表示:“目前在聲紋識別這個(gè)領(lǐng)域,不同技術(shù)或產(chǎn)品提供商參差不齊、差異很大;與此同時(shí),聲紋識別不再是單一強(qiáng)調(diào)準(zhǔn)確性,而是變得更為成熟、完備和可用?!?/p>
不過相對來講,聲紋識別仍是一個(gè)應(yīng)用相對較窄的領(lǐng)域。就目前來看,語音識別、語音合成的應(yīng)用更為廣泛。
例如在年初舉辦的Google I/O 大會上,機(jī)器語音助手的一聲“嗯哼”震驚了全場,然后微軟小冰為知乎寫歌又刷了一波屏。我們才意識到,AI 語音正悄然從原來的“機(jī)械式語音”變成了“像人類一樣說話”的自然語言。
語音產(chǎn)業(yè)雖然可以由概念觸發(fā),但最終仍由技術(shù)驅(qū)動,打磨好技術(shù)和產(chǎn)品仍是第一要務(wù)。
出門問問 CTO 雷欣曾表示,“從技術(shù)上來講,機(jī)器學(xué)習(xí)、人工智能跟其他功能性的東西不太一樣,它非常強(qiáng)調(diào)學(xué)習(xí)的過程,訓(xùn)練跟實(shí)際使用場景越匹配越好,做得越通用,就代表在某一個(gè)垂直領(lǐng)域做不到最優(yōu)?!?/p>
那么,隨著語音市場需求的爆發(fā),如何更好地通過智能技術(shù)解決聲學(xué)、語音、語義等各方面的問題,對于任何一位語音技術(shù)相關(guān)領(lǐng)域的工程師而言,將是未來長期時(shí)間內(nèi)必然面臨的挑戰(zhàn)。
現(xiàn)在,CSDN 就為大家提供了這樣一個(gè)機(jī)會,讓你能夠聆聽頭部 AI 公司的最新技術(shù)實(shí)踐,并有機(jī)會與這些公司的資深技術(shù)人員面對面交流。
2018 年 11 月 8-9 日,由中國 IT 社區(qū) CSDN 與硅谷 AI 社區(qū) AICamp 聯(lián)合出品的 2018 AI 開發(fā)者大會(AI NEXTCon)將于北京召開。
本次大會設(shè)有“語音技術(shù)專場”,我們很榮幸邀請到在研究和工業(yè)界都極富盛名的一線技術(shù)專家們:清華大學(xué)語音和語言技術(shù)中心主任、得意音通董事長 鄭方,聲智科技創(chuàng)始人、董事長兼 CEO 陳孝良,出門問問 CTO 雷欣、云知聲董事長、CTO梁家恩,以及標(biāo)貝科技聯(lián)合創(chuàng)始人&CTO 李秀林。
下面重磅介紹語音技術(shù)專題的講師團(tuán)和他們的議題概要:
陳孝良:聲智科技創(chuàng)始人、董事長兼 CEO
演講議題:遠(yuǎn)場語音交互技術(shù)與實(shí)踐
陳孝良,2017年度中關(guān)村高端領(lǐng)軍人才,計(jì)算機(jī)學(xué)會語音對話與聽覺專業(yè)組常務(wù)委員,中國聲學(xué)學(xué)會聲頻工程分會委員,中國人工智能和大數(shù)據(jù)專家委員,美國 AES/JASA會員。先后于北京航空航天大學(xué)和中國科學(xué)院大學(xué)(聲學(xué)研究所)獲得管理學(xué)學(xué)士和工學(xué)博士學(xué)位。
曾任職于金山軟件股份有限公司和中國科學(xué)院聲學(xué)研究所,歷任初級工程師、助理研究員、副研究員,兼任首屆信息化辦公室主任和中國科學(xué)院上海高等研究院客座副教授,主要參與海軍某重大型號艦艇、863、973、國家自然科學(xué)基金、中科院戰(zhàn)略先導(dǎo)等國家重要項(xiàng)目,共發(fā)表文章36篇,申請專利 35項(xiàng)。
鄭方:清華大學(xué)語音和語言技術(shù)中心主任、得意音通董事長
演講議題:聲紋識別技術(shù)及其應(yīng)用現(xiàn)狀
鄭方,博士、教授、博士生導(dǎo)師,清華大學(xué)語音和語言技術(shù)中心主任;北京得意音通技術(shù)有限責(zé)任公司董事長;亞太區(qū)信號與信息處理聯(lián)合會副主席、中國中文信息學(xué)會語音專委會主任、中國計(jì)算機(jī)學(xué)會語音對話與聽覺專業(yè)組副主任。
鄭方博士從事語音語言處理和生物特征識別的研發(fā)近 30 年,是全國安防標(biāo)委會人體生物特征識別應(yīng)用分委會副主任委員、中文語音交互技術(shù)標(biāo)準(zhǔn)工作組聲紋識別專題組組長、全國信標(biāo)委生物特征識別分委會委員等,是許多國家和行業(yè)標(biāo)準(zhǔn)的起草者。
梁家恩:云知聲董事長、CTO
演講議題:AIoT 智能交互技術(shù)與應(yīng)用
梁家恩博士畢業(yè)于中國科技大學(xué),獲中國科學(xué)院識別與智能系統(tǒng)專業(yè)博士學(xué)位,畢業(yè)后留校負(fù)責(zé)語音識別核心技術(shù)研發(fā)及其產(chǎn)業(yè)化,在國家863語音識別核心技術(shù)評測中多次獲第一名,在廣電、安全、教育等領(lǐng)域?qū)崿F(xiàn)產(chǎn)業(yè)化應(yīng)用。
2012 年,由梁家恩博士主導(dǎo)創(chuàng)立人工智能公司云知聲,并率先在國內(nèi)實(shí)現(xiàn)深度學(xué)習(xí)和5米遠(yuǎn)講識別技術(shù)的產(chǎn)業(yè)化,在業(yè)內(nèi)首次提出的“云端芯”一體化解決方案已經(jīng)在家居、車載、醫(yī)療、教育等領(lǐng)域規(guī)?;涞?。在他和團(tuán)隊(duì)的共同努力下,云知聲先后被福布斯評為“中國成長最快科技企業(yè)”、科技部評為“中國獨(dú)角獸企業(yè)”。2013 年底,梁家恩博士出任云知聲 CTO,負(fù)責(zé)技術(shù)領(lǐng)域。
李秀林:標(biāo)貝科技聯(lián)合創(chuàng)始人&CTO
演講議題:標(biāo)貝科技的語音超市實(shí)踐——助力智能產(chǎn)品人性化
李秀林,中國科學(xué)院博士,15 年語音相關(guān)技術(shù)研發(fā)和學(xué)術(shù)研究,申請專利三十余項(xiàng),在國內(nèi)外語音界有很高的知名度;曾帶領(lǐng)團(tuán)隊(duì)獲得百度百萬美元大獎。2006 年— 2013 年,松下研發(fā)中心高級研發(fā)經(jīng)理;2013 年— 2016 年,百度語音合成技術(shù)負(fù)責(zé)人;2016 年—2018 年,滴滴研究院語音團(tuán)隊(duì)負(fù)責(zé)人&首席算法工程師;2018年3月份加盟標(biāo)貝科技,作為聯(lián)合創(chuàng)始人兼 CTO。
雷欣:出門問問(Mobvoi)CTO
演講議題:語音交互的軟硬結(jié)合
雷欣,人工智能專家,在人工智能尤其是語音識別領(lǐng)域至今已有十多年研究及從業(yè)經(jīng)驗(yàn)。2006 年,雷欣獲得美國華盛頓大學(xué)電子工程博士后,加入了微軟總部任軟件設(shè)計(jì)工程師及 Speech Scientist,負(fù)責(zé)開發(fā)微軟語音識別引擎內(nèi)的說話人自適應(yīng)模塊;后加入斯坦福研究所(SRI)任研究工程師,領(lǐng)導(dǎo)開發(fā)了SRI 2008 年大規(guī)模中文語音識別系統(tǒng);隨后進(jìn)入 Google 研究院任 Staff Research Scientist,領(lǐng)導(dǎo)開發(fā) Google 基于深度神經(jīng)網(wǎng)絡(luò)的離線語音識別系統(tǒng)。
目前,雷欣所帶領(lǐng)的出門問問 AI 團(tuán)隊(duì),正進(jìn)行人工智能落地在生活場景(可穿戴、車載、家居)上的研究開發(fā)。
除了語音技術(shù)專題之外,我們還為大家準(zhǔn)備了“自然語言處理”、“機(jī)器學(xué)習(xí)工具”、“數(shù)據(jù)分析”、“機(jī)器學(xué)習(xí)”、“計(jì)算機(jī)視覺”、“知識圖譜”等技術(shù)專題,以及“智慧金融”、“智能駕駛”、“智慧醫(yī)療”等行業(yè)峰會。大會完整日程以及嘉賓議題請查看下方海報(bào)。
-
人機(jī)交互
+關(guān)注
關(guān)注
12文章
1217瀏覽量
55533 -
智能手機(jī)
+關(guān)注
關(guān)注
66文章
18550瀏覽量
181057 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8438瀏覽量
133087
原文標(biāo)題:解放雙手,人機(jī)交互真的只需要一張嘴嗎?
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論