一、語音識別技術介紹
語音識別技術,也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同,后者嘗試識別或確認發(fā)出語音的說話人而非其中所包含的詞匯內容。
二、語音識別的基本原理
系統(tǒng)本質上是一種模式識別系統(tǒng),包括特征提取、模式匹配、參考模式庫等三個基本單元,它的基本結構如下圖所示:
未知語音經(jīng)過話筒變換成電信號后加在識別系統(tǒng)的輸入端,首先經(jīng)過預處理,再根據(jù)人的語音特點建立語音模型,對輸入的語音信號進行分析,并抽取所需的特征,在此基礎上建立語音識別所需的模板。而計算機在識別過程中要根據(jù)語音識別的模型,將計算機中存放的語音模板與輸入的語音信號的特征進行比較,根據(jù)一定的搜索和匹配策略,找出一系列最優(yōu)的與輸入語音匹配的模板。然后根據(jù)此模板的定義,通過查表就可以給出計算機的識別結果。顯然,這種最優(yōu)的結果與特征的選擇、語音模型的好壞、模板是否準確都有直接的關系。
三、語音識別系統(tǒng)的分類
系統(tǒng)可以根據(jù)對輸入語音的限制加以分類。如果從說話者與識別系統(tǒng)的相關性考慮,可以將識別系統(tǒng)分為三類:(1)特定人語音識別系統(tǒng)。僅考慮對于專人的話音進行識別。(2)非特定人語音系統(tǒng)。識別的語音與人無關,通常要用大量不同人的語音數(shù)據(jù)庫對識別系統(tǒng)進行學習。(3)多人的識別系統(tǒng)。通常能識別一組人的語音,或者成為特定組語音識別系統(tǒng),該系統(tǒng)僅要求對要識別的那組人的語音進行訓練。
如果從說話的方式考慮,也可以將識別系統(tǒng)分為三類:(1)孤立詞語音識別系統(tǒng)。孤立詞識別系統(tǒng)要求輸入每個詞后要停頓。(2)連接詞語音識別系統(tǒng)。連接詞輸入系統(tǒng)要求對每個詞都清楚發(fā)音,一些連音現(xiàn)象開始出現(xiàn)。(3)連續(xù)語音識別系統(tǒng)。連續(xù)語音輸入是自然流利的連續(xù)語音輸入,大量連音和變音會出現(xiàn)。
如果從識別系統(tǒng)的詞匯量大小考慮,也可以將識別系統(tǒng)分為三類:(1)小詞匯量語音識別系統(tǒng)。通常包括幾十個詞的語音識別系統(tǒng)。(2)中等詞匯量的語音識別系統(tǒng)。通常包括幾百個詞到上千個詞的識別系統(tǒng)。(3)大詞匯量語音識別系統(tǒng)。通常包括幾千到幾萬個詞的語音識別系統(tǒng)。隨著計算機與數(shù)字信號處理器運算能力以及識別系統(tǒng)精度的提高,識別系統(tǒng)根據(jù)詞匯量大小進行分類也不斷進行變化。目前是中等詞匯量的識別系統(tǒng),將來可能就是小詞匯量的語音識別系統(tǒng)。這些不同的限制也確定了語音識別系統(tǒng)的困難度。
四、語音識別的應用
可以應用的領域大致分為大五類:
辦公室或商務系統(tǒng)。典型的應用包括:填寫數(shù)據(jù)表格、數(shù)據(jù)庫管理和控制、鍵盤功能增強等等。
制造業(yè):在質量控制中,語音識別系統(tǒng)可以為制造過程提供一種“不用手”、“不用眼”的檢控(部件檢查)。
電信:相當廣泛的一類應用在撥號電話系統(tǒng)上都是可行的,包括話務員協(xié)助服務的自動化、國際國內遠程電子商務、語音呼叫分配、語音撥號、分類訂貨。
醫(yī)療:這方面的主要應用是由聲音來生成和編輯專業(yè)的醫(yī)療報告。
其他:包括由語音控制和操作的游戲和玩具、幫助殘疾人的語音識別系統(tǒng)、車輛行駛中一些非關鍵功能的語音控制,如車載交通路況控制系統(tǒng)、音響系統(tǒng)。
五、國內語音識別技術上市公司匯總
國內語音識別技術上市公司——科大訊飛
(股票代碼:002230)
科大訊飛股份有限公司成立于1999年,是一家專業(yè)從事智能語音及語言技術、人工智能技術研究,軟件及芯片產(chǎn)品開發(fā),語音信息服務及電子政務系統(tǒng)集成的國家級骨干軟件企業(yè)。2008年,科大訊飛在深圳證券交易所掛牌上市,股票代碼:002230。
科大訊飛在智能語音核心技術研究領域,一直秉承“從市場中來、到市場中去”,“用正確的方法、做有用的研究”等核心理念,致力于建立智能語音及語言核心技術和核心技術應用產(chǎn)業(yè)化兩大方面的競爭力。科大訊飛的核心技術主要包括:語音識別技術、語音合成技術、自然語言理解技術、語音評測技術、聲紋語種技術、手寫識別技術等。科大訊飛始終堅持提供國際領先的語音及語言整體解決方案,不斷推出符合國家和社會需求的智能語音及語言技術產(chǎn)品及應用服務。
科大訊飛的主要核心技術介紹如下:
2017年11月22日,匯頂科技(603160)宣布獲得國家集成電路產(chǎn)業(yè)投資基金股份有限公司(以下簡稱大基金)的戰(zhàn)略投資。同時,公司控股股東張帆先生宣布,增持匯頂科技股份。其中,大基金通過協(xié)議轉讓方式受讓匯發(fā)國際持有的匯頂科技22,712,917股股票,受讓匯信投資持有的匯頂科技7,487,083股股票,共計受讓股份30,200,000股,持股比例6.65%;張帆先生通過上海證券交易所交易系統(tǒng)以大宗交易方式增持公司股份4,542,584股,增持比例1%。
全球人機交互及生物識別技術領導者:1)公司實際控制人張帆持持股48.3946%,擁有4家全資子公司匯芯科技、匯頂香港、匯頂美國、金慧通和1家控股子公司易易非凡。2)公司主營業(yè)務電容屏觸控芯片、指紋識別芯片和固定電話芯片,主要客戶為手機、平板電腦等智能終端廠商。4)公司主營業(yè)務始終保持高的產(chǎn)銷率,指紋識別芯片上升到80%多,電容屏觸控芯片、固定電話芯片始終保持在100%左右。
國內語音識別技術上市公司——匯頂科技
(股票代碼:603160)
匯頂科技成立于2002年,作為全球人機交互及生物識別技術領導者,目前已在包括手機、平板電腦和可穿戴產(chǎn)品等在內的智能移動終端領域構筑了領先優(yōu)勢,先后推出全球領先的單層多點觸控芯片、全球首創(chuàng)的觸摸屏近場通信技術Goodix LinkTM、全球首家應用于Android手機正面的按壓式指紋識別芯片、全球首創(chuàng)的Invisible Fingerprint Sensor(IFSTM)、全球首創(chuàng)支持玻璃蓋板的指紋識別芯片、全球首創(chuàng)應用于移動終端的活體指紋檢測技術Live Finger DetectionTM、全球首創(chuàng)的顯示屏內指紋識別技術等。
其中,Live Finger DetectionTM憑借其卓越的創(chuàng)新應用價值斬獲了2017國際消費電子展(CES)全球創(chuàng)新金獎,這是匯頂科技繼2016年憑借IFSTM(觸控與指紋識別一體化技術)和Goodix LinkTM(觸摸屏近場通信技術)兩項技術獲得CES創(chuàng)新大獎后再次得到CES創(chuàng)新獎項,匯頂科技也由此成為首家榮獲CES全球創(chuàng)新金獎的中國IC設計公司。目前,產(chǎn)品和解決方案主要應用于華為、OPPO、vivo、小米、中興、魅族、聯(lián)想、金立、錘子、TCL、Nokia、Dell、HP、LG、ASUS、acer、 TOSHIBA、Panasonic等國際國內知名品牌,服務全球數(shù)億人群。
國內語音識別技術上市公司——漢王科技
(股票代碼:002362)
漢王科技股份有限公司成立于1998年,是全球文字識別技術與智能交互產(chǎn)品引領者,多年來,通過不斷自主創(chuàng)新,在手寫識別、光學字符識別(OCR)、筆跡輸入等領域擁有多項具有自主知識產(chǎn)權的核心技術,綜合技術水平在國內外均處于領先地位,手寫漢字識別獲得國家科技進步一等獎,OCR獲得國家科技進步二等獎。
漢王科技以核心技術為基礎,面向市場需求,已形成了以識別技術為核心的、針對不同細分市場的軟硬件產(chǎn)品系列,既有通用產(chǎn)品,如e典筆、漢王電紙書、漢王筆、文本王、名片通、繪圖板等,也有針對教育、金融等行業(yè)應用的文表識別解決方案;既有手寫手機、OCR等多種技術授權方案,也有輔助方案實施的硬件產(chǎn)品,如證照識別等。
國內語音識別技術上市公司——共達電聲
(股票代碼:002655)
山東共達電聲股份有限公司是專業(yè)的電聲元器件及電聲組件制造商、服務商和電聲技術整體解決方案提供商,是國家級高新技術企業(yè)、中國電子元件百強企業(yè)。
公司始創(chuàng)于2001年,自設立以來,堅持“共融、共創(chuàng)、共享、共達”的企業(yè)核心價值觀,秉承“和諧、超越、高效、求是”的企業(yè)精神,專注于電聲元器件產(chǎn)品的研發(fā)和制造,致力于成為世界一流的電聲技術整體解決方案提供商,主要產(chǎn)品包括微型麥克風、微型揚聲器/受話器及其陣列模組,廣泛應用于移動通訊設備及其周邊產(chǎn)品、筆記本電腦、平板電視、個人數(shù)碼產(chǎn)品、汽車電子等消費類電子產(chǎn)品領域。
國內語音識別技術上市公司——拓爾思
(股票代碼:300229)
拓爾思是一家技術驅動型企業(yè),歷經(jīng)二十余年的深耕和積累,在中文檢索、自然語言處理等領域始終處于行業(yè)前沿,公司2011年在深交所創(chuàng)業(yè)板上市,股票代碼300229,是第一家在A股上市的大數(shù)據(jù)技術企業(yè)。拓爾思以大數(shù)據(jù)+人工智能為發(fā)展戰(zhàn)略,旨在幫助客戶實現(xiàn)從數(shù)據(jù)洞察到智慧決策的飛躍。
拓爾思的核心業(yè)務包括軟件產(chǎn)品研發(fā),行業(yè)應用解決方案和數(shù)據(jù)分析挖掘云服務三大板塊,涉及大數(shù)據(jù)管理、信息安全、互聯(lián)網(wǎng)營銷和人工智能等應用方向。
拓爾思是自主可靠軟件產(chǎn)品領域的領軍企業(yè),TRS中文全文檢索系統(tǒng)、WCM內容管理平臺、CKM中文文本挖掘等軟件均代表了國內相關領域自主創(chuàng)新的最高水平。同時拓爾思不斷拓寬產(chǎn)品線和綜合服務能力,為政府、媒體、安全、金融等多個行業(yè)提供領先的產(chǎn)品、技術和解決方案。為了迎接云計算時代的來臨,公司近年來加快了基于云服務的數(shù)據(jù)分析和知識服務的發(fā)展步伐,旨在實現(xiàn)軟件企業(yè)的戰(zhàn)略轉型和升級。
國內語音識別技術上市公司——精倫電子
(股票代碼:600355)
精倫電子股份有限公司是“武漢·中國光谷”國家級高新技術企業(yè),成立于1994年,于2002年上市,是中國首家以全自然人作為發(fā)起人的上市公司,注冊資本24,604.46萬元,股票代碼:600355。現(xiàn)有精倫工業(yè)園位于武漢總部,占地310畝。
精倫電子致力于各類電子智能終端的研發(fā)、設計與生產(chǎn)。目前公司主營產(chǎn)品包括:電子廣告媒體終端;電子伺服系統(tǒng)終端;二代身份證閱讀終端;電子交易終端;電力終端;家庭媒體娛樂終端;導航定位終端等。涵蓋了:通訊、電力、傳媒、三網(wǎng)融合、工業(yè)縫紉制造、公共安全等多個領域。并提供各類產(chǎn)品的服務平臺、系統(tǒng)及整體設計、運營方案。
精倫電子一直秉承自主知識產(chǎn)權和核心技術為基礎的理念,每年投入銷售利潤的較大部分作為研發(fā)投入,與華中科技大學、上海浦東等地建立合作研發(fā)基地。擁有國家人事部批準的博士后科研工作站,在嵌入式操作系統(tǒng)、嵌入式硬件設計、嵌入式軟件設計、音頻視頻信號處理、智能卡應用技術、大型數(shù)據(jù)庫應用設計、網(wǎng)絡信息安全設計技術等方面形成了自主核心技術體系。承建了多項國家高技術實施項目。公司正在逐步成為業(yè)界領先的智能終端研發(fā)與設計基地。
六、語音識別技術現(xiàn)狀
我國語音識別研究工作起步于五十年代,但近年來發(fā)展很快。研究水平也從實驗室逐步走向實用。從1987年開始執(zhí)行國家863計劃后,國家863智能計算機專家組為語音識別技術研究專門立項,每兩年滾動一次。我國語音識別技術的研究水平已經(jīng)基本上與國外同步,在漢語語音識別技術上還有自己的特點與優(yōu)勢,并達到國際先進水平。中科院自動化所、聲學所、清華大學、北京大學、哈爾濱工業(yè)大學、上海交通大學、中國科技大學、北京郵電大學、華中科技大學等科研機構都有實驗室進行過語音識別方面的研究,其中具有代表性的研究單位為清華大學電子工程系與中科院自動化研究所模式識別國家重點實驗室。
清華大學電子工程系語音技術與專用芯片設計課題組,研發(fā)的非特定人漢語數(shù)碼串連續(xù)語音識別系統(tǒng)的識別精度,達到94.8%(不定長數(shù)字串)和96.8%(定長數(shù)字串)。在有5%的拒識率情況下,系統(tǒng)識別率可以達到96.9%(不定長數(shù)字串)和98.7%(定長數(shù)字串),這是目前國際最好的識別結果之一,其性能已經(jīng)接近實用水平。研發(fā)的5000詞郵包校核非特定人連續(xù)語音識別系統(tǒng)的識別率達到98.73%,前三選識別率達99.96%;并且可以識別普通話與四川話兩種語言,達到實用要求。
中科院自動化所及其所屬模式科技(Pattek)公司2002年發(fā)布了他們共同推出的面向不同計算平臺和應用的“天語”中文語音系列產(chǎn)品——PattekASR,結束了中文語音識別產(chǎn)品自1998年以來一直由國外公司壟斷的歷史。
評論
查看更多