NVIDIA 發(fā)布了世界級(jí)的語(yǔ)音識(shí)別功能,可為企業(yè)生成高精度的轉(zhuǎn)錄本, NeMo 1.0 包括用于民主化和加速對(duì)話人工智能研究的最新語(yǔ)音和語(yǔ)言模型。
世界級(jí)語(yǔ)音識(shí)別
NVIDIA Riva 世界級(jí)語(yǔ)音識(shí)別是一種現(xiàn)成的語(yǔ)音服務(wù),可以輕松部署在任何云或數(shù)據(jù)中心。企業(yè)可以使用 遷移學(xué)習(xí)工具包 ( TLT )跨各種行業(yè)和用例定制語(yǔ)音服務(wù)。 通過 TLT ,開發(fā)人員可以將定制語(yǔ)音和語(yǔ)言模型的開發(fā)速度提高 10 倍。
語(yǔ)音識(shí)別模型是高度精確的,并在電信、金融、醫(yī)療保健、教育以及各種專有和開源數(shù)據(jù)集的領(lǐng)域無關(guān)詞匯上進(jìn)行訓(xùn)練。此外,它還接受了噪聲數(shù)據(jù)、多種采樣率(包括呼叫中心 8khz )、各種口音和對(duì)話的訓(xùn)練,所有這些都有助于提高模型的準(zhǔn)確性。
使用 Riva 語(yǔ)音服務(wù),您可以在 10 毫秒內(nèi)生成一個(gè)轉(zhuǎn)錄。它在多個(gè)專有數(shù)據(jù)集上進(jìn)行評(píng)估,準(zhǔn)確率超過 90% ,并且可以適應(yīng)各種各樣的用例和領(lǐng)域。它可以在幾個(gè)應(yīng)用程序中使用,例如在呼叫中心、視頻會(huì)議和虛擬助理中轉(zhuǎn)錄音頻。
T-Mobile 是美國(guó)最大的電信運(yùn)營(yíng)商之一,它利用 Riva 提供卓越的客戶服務(wù)。
T-Mobile 負(fù)責(zé)產(chǎn)品和技術(shù)的副總裁 Matthew Davis 說:“借助 NVIDIA Riva 服務(wù),利用 T-Mobile 數(shù)據(jù)進(jìn)行微調(diào),我們正在構(gòu)建產(chǎn)品,以幫助我們實(shí)時(shí)解決客戶問題。”。
“在評(píng)估了幾種自動(dòng)語(yǔ)音識(shí)別解決方案后, T-Mobile 發(fā)現(xiàn) Riva 能夠以極低的延遲提供高質(zhì)量的模型,實(shí)現(xiàn)客戶喜愛的體驗(yàn)。”
您可以從 NGC 目錄 下載 Riva 語(yǔ)音服務(wù),現(xiàn)在就開始構(gòu)建自己的轉(zhuǎn)錄應(yīng)用程序。
NeMo 1.0 版本
NVIDIA NeMo 是一個(gè)開源工具包,供研究人員開發(fā)最先進(jìn)的( SOTA )會(huì)話人工智能模型。它包括自動(dòng)語(yǔ)音識(shí)別( ASR )、自然語(yǔ)言處理( NLP )和文本到語(yǔ)音( TTS )的集合,使研究人員能夠快速試驗(yàn)新的 SOTA 神經(jīng)網(wǎng)絡(luò),以便創(chuàng)建新的模型或在現(xiàn)有模型的基礎(chǔ)上進(jìn)行構(gòu)建。
PyTorch 與 NeMo 、 PyTorch Lightning 和 Hydra 框架緊密耦合。這些集成使研究人員能夠結(jié)合 PyTorch 和 PyTorch 閃電模塊開發(fā)和使用 NeMo 模型和模塊。此外,借助 Hydra 框架和 NeMo ,研究人員可以輕松定制復(fù)雜的會(huì)話人工智能模型。
此版本的亮點(diǎn)包括:
增加了對(duì)多種語(yǔ)言的語(yǔ)音識(shí)別支持,以及新的 CitriNet 和 Conformer CTC ASR 模型
從英語(yǔ)到西班牙語(yǔ)、俄語(yǔ)、普通話、德語(yǔ)和法語(yǔ)的五種語(yǔ)言支持雙向神經(jīng)機(jī)器翻譯模型
新的語(yǔ)音合成模型,如 Fastpitch 、 Talknet 、 Fastspeech2 ,以及端到端模型,如 Fastpitch + HiFiGAN 和 Fastspeech2 + HiFiGAN
用于自動(dòng)執(zhí)行 反文本規(guī)范化和反規(guī)范化 以及 基于 CTC 分割的數(shù)據(jù)集生成 和 探索 語(yǔ)音數(shù)據(jù)集的功能
此外,大多數(shù) NeMo 模型可以導(dǎo)出到 NVIDIA Riva ,用于產(chǎn)品部署和高性能推斷。
關(guān)于作者
About Sirisha Rella是 NVIDIA 的技術(shù)產(chǎn)品營(yíng)銷經(jīng)理,專注于計(jì)算機(jī)視覺、語(yǔ)音和基于語(yǔ)言的深度學(xué)習(xí)應(yīng)用。 Sirisha 獲得了密蘇里大學(xué)堪薩斯城分校的計(jì)算機(jī)科學(xué)碩士學(xué)位,是國(guó)家科學(xué)基金會(huì)大學(xué)習(xí)中心的研究生助理。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5076瀏覽量
103728 -
語(yǔ)音識(shí)別
+關(guān)注
關(guān)注
38文章
1742瀏覽量
112927
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論