谷歌在其開源博客中宣布開源 Android 語音識(shí)別轉(zhuǎn)錄工具 —— Live Transcribe 的語音引擎(Live Transcribe Speech Engine),它旨在將語音或?qū)υ拰?shí)時(shí)轉(zhuǎn)錄為文字,還能夠?yàn)槁犝先耸刻峁椭?/p>
Live Transcribe 是谷歌于今年 2 月推出的一款 Android 應(yīng)用程序,它的語音識(shí)別由谷歌最先進(jìn)的 Cloud Speech API 提供。但是,依賴于云引入了一些復(fù)雜性,不斷變化的網(wǎng)絡(luò)連接、數(shù)據(jù)成本和延遲的魯棒性等等都帶來一些考驗(yàn)。因此,谷歌把它開源出來, 希望開發(fā)人員在已有的基礎(chǔ)上進(jìn)一步構(gòu)建和開發(fā)。
Cloud Speech API 目前無法支持無限的音頻流,團(tuán)隊(duì)目前采取了一些措施來解決這一難題,例如在達(dá)到超時(shí)之前關(guān)閉并重新啟動(dòng)流式傳輸請(qǐng)求,這將有效減少會(huì)話中丟失的文本量。
無限流媒體音頻帶來了一大挑戰(zhàn)。在許多國(guó)家,網(wǎng)絡(luò)數(shù)據(jù)非常昂貴,并且在互聯(lián)網(wǎng)較差的地方,帶寬可能有限。Live Transcribe Speech Engine 的團(tuán)隊(duì)對(duì)音頻編解碼器進(jìn)行了大量實(shí)驗(yàn),并最終在不影響精度的情況下將數(shù)據(jù)使用量減少了 10 倍。
另外,由于是提供實(shí)時(shí)語音轉(zhuǎn)錄,轉(zhuǎn)錄出來的文本會(huì)隨著語音的輸入不斷發(fā)生變化,降低延遲自然十分必要。該引擎能夠大大降低延遲率,這都要?dú)w功于它的自定義 Opus 編碼器。
此外,值得一提的是,Live Transcribe 支持超過 70 種語言,并能夠根據(jù)語音自動(dòng)識(shí)別語種,其中也包括中文。
-
解碼器
+關(guān)注
關(guān)注
9文章
1148瀏覽量
40936 -
谷歌
+關(guān)注
關(guān)注
27文章
6195瀏覽量
106016 -
語音識(shí)別
+關(guān)注
關(guān)注
38文章
1742瀏覽量
112927
原文標(biāo)題:【業(yè)內(nèi)熱點(diǎn)】谷歌開源實(shí)時(shí)語音轉(zhuǎn)錄引擎 Live Transcribe Speech Engine
文章出處:【微信號(hào):ChinaAET,微信公眾號(hào):電子技術(shù)應(yīng)用ChinaAET】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
語音識(shí)別與自然語言處理的關(guān)系
語音識(shí)別技術(shù)的應(yīng)用與發(fā)展
ASR與傳統(tǒng)語音識(shí)別的區(qū)別
ASR語音識(shí)別技術(shù)應(yīng)用
基于Arm Neoverse N2實(shí)現(xiàn)自動(dòng)語音識(shí)別技術(shù)
![基于Arm Neoverse N2實(shí)現(xiàn)自動(dòng)<b class='flag-5'>語音</b><b class='flag-5'>識(shí)別</b>技術(shù)](https://file1.elecfans.com/web1/M00/F5/23/wKgaoWc2wzyAQ6BVAAARC1Ay5Ak930.jpg)
物聯(lián)網(wǎng)系統(tǒng)智能控制產(chǎn)品的語音識(shí)別方案_離線語音識(shí)別芯片分析
![物聯(lián)網(wǎng)系統(tǒng)智能控制產(chǎn)品的<b class='flag-5'>語音</b><b class='flag-5'>識(shí)別</b>方案_離線<b class='flag-5'>語音</b><b class='flag-5'>識(shí)別</b>芯片分析](https://file1.elecfans.com//web2/M00/08/23/wKgZomb1L8eAY3E-AAIHMoSouLU132.jpg)
![](https://file1.elecfans.com/web2/M00/07/F5/wKgZombz0NyAePP9AATVLpIUJ8g816.jpg)
![](https://file1.elecfans.com/web2/M00/06/33/wKgZombis0CAAM7JAAFmZj5ypF8355.jpg)
唯創(chuàng)知音WT2605C用在離在線語音識(shí)別方案# #語音芯片 #語音識(shí)別 #唯創(chuàng)知音
谷歌推出Gemini Live,開啟AI語音聊天新紀(jì)元
什么是離線語音識(shí)別芯片?與在線語音識(shí)別的區(qū)別
Transformer模型在語音識(shí)別和語音生成中的應(yīng)用優(yōu)勢(shì)
車載語音識(shí)別系統(tǒng)語音數(shù)據(jù)采集標(biāo)注案例
![車載<b class='flag-5'>語音</b><b class='flag-5'>識(shí)別</b>系統(tǒng)<b class='flag-5'>語音</b>數(shù)據(jù)采集標(biāo)注案例](https://file1.elecfans.com/web2/M00/E6/CD/wKgaomZFbauAGHl1AAAzh3hGv1M833.png)
車載語音識(shí)別系統(tǒng)語音數(shù)據(jù)采集標(biāo)注案例
語音識(shí)別的技術(shù)歷程及工作原理
![<b class='flag-5'>語音</b><b class='flag-5'>識(shí)別</b>的技術(shù)歷程及工作原理](https://file1.elecfans.com/web2/M00/C5/72/wKgZomX9SFGADHoiAAIxmVfMrok240.png)
澎湃微離線語音識(shí)別應(yīng)用實(shí)例
![澎湃微離線<b class='flag-5'>語音</b><b class='flag-5'>識(shí)別</b>應(yīng)用實(shí)例](https://file1.elecfans.com/web2/M00/C5/67/wKgaomXz55WAIJKhAAANn8AdsWg350.jpg)
評(píng)論