衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌的智能助理Google Assistant 開啟了多語言支持

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-09-02 09:23 ? 次閱讀

從今天開始,谷歌的智能助理可以同時說兩種語言了!這意味著雙語家庭可以用任何一種語言進行查詢,而無需每次都更改設置。聽起來簡單,實現這一功能所需的技術可不簡單,谷歌的口語識別LangID技術已經開發了5年!

使用 Google Assistant 的 Google Home Mini

多語家庭正變得越來越普遍,有一些研究發現多語人口已經超過單語人口,而且這個數字還將繼續增長。隨著多語用戶數量的不斷增加,開發能夠同時支持多種語言的產品比以往任何時候都更加重要。

今天,谷歌的智能助理Google Assistant開啟了多語言支持,允許用戶同時使用兩種不同的語言進行查詢,而無需返回語言設置。一旦用戶選擇了兩種支持的語言(目前支持的語言包括英語、西班牙語、法語、德語、意大利語和日語),他們就可以使用其中任一種語言與Google Assistant進行對話,智能助理也會以同一種語言做出回復。

在此之前,用戶必須為智能助理選擇一種語言設置,每次想要使用另一種語言時都必須更改設置。但現在,對于多語家庭來說,與谷歌助理交流的體驗變得更加簡單方便了。

Google Assistant現在能夠識別語言、解釋查詢并使用正確的語言提供回復,而無需用戶手動設置設置。

然而,實現這一功能并非易事。事實上,研究人員努力了多年,解決了許多具有挑戰性的問題。最后,我們將問題分解為三個獨立的部分:識別多種語言,理解多種語言,以及為Google Assistant用戶優化多語言識別。

識別多種語言

人類是有能力識別出別人在說另一種語言的,即使他們自己不會說這種語言,只需要注意語音的聲學特征(語調、音域等等)。但是,即使借助于全自動語音識別系統,定義一個自動口語語言識別的計算框架也是很有挑戰性的。

研究者通常認為,口語識別比基于文本的語言識別更具挑戰性,對于文本語言識別來說,相對簡單的基于字典的技術已經可以做得很好。口語詞匯的時間/頻率模式很難比較,口語詞匯很難劃界,因為口語可以毫無停頓地以不同的節奏說話,而且麥克風可能會記錄除了語音之外的背景噪音。

在2013年,谷歌開始使用深度神經網絡開發口語識別(LangID)技術。今天,谷歌最先進的LangID模型已經可以使用遞歸神經網絡區分超過2000種可供選擇的語言對。遞歸神經網絡特別適用于序列建模問題,例如語音識別、語音檢測、說話人識別等。研究人員遇到的挑戰之一是使用更大的音頻集——獲取能夠自動理解多種語言的模型,并達到允許這些模型正常工作的質量標準。

理解多種語言

要同時理解一種以上的語言,需要并行地運行多個進程,每個進程都會產生增量結果,這樣智能助理不僅可以識別查詢所使用的語言,還可以解析查詢以創建可操作的命令。

例如,即使是單語環境,如果用戶要求“設一個下午6點的鬧鈴”,谷歌助理必須理解“設置鬧鈴”意味著打開時鐘app,完成“6pm”的顯式參數,并推斷鬧鐘應該設在今天。為任何一對支持的語言實現這個功能都是一項挑戰,因為智能助理需要執行與單語環境時相同的工作,但現在還必須另外啟用LangID。這不僅是一個語言識別系統,而是相當于兩個單語言識別系統。

更重要的是,Google Assistan以及在用戶查詢中異步引用的其他服務會生成需要在幾毫秒內評估的實時增量結果。這是借助另外一種算法實現的,該算法使用LangID生成的候選語言的概率、我們對轉錄的信心以及用戶的偏好(例如,最喜歡的藝術家)對兩個語音識別系統提供的轉錄假設進行排序。

Google Assistant使用的多語言語音識別系統與標準單語語音識別系統的示意圖。排序算法用于從兩個單語語音識別器中選擇最佳的識別假設,利用了用戶的相關信息和增量的langID結果。

當用戶停止說話時,該模型不僅確定了用戶所講的語言,還確定了所講的內容。當然,這個過程需要一個復雜的架構,增加了處理成本,并可能造成不必要的延遲。

優化多語識別模型

為了最大限度地減少這些不良影響,系統決定使用哪種語言的速度越快越好。如果系統在用戶完成查詢之前確定了所使用的語言,那么它將停止通過losing recognizer運行用戶的語音,并丟棄losing hypothesis,從而降低處理成本,減少任何潛在的延遲。

考慮到這一點,我們嘗試了優化系統的幾種方法。

我們考慮的一個用例是,人們通常在一個完整查詢過程中使用相同的語言(這個語言通常也是用戶希望智能助理回復使用的語言),除了詢問某個東西用不同語言怎樣說之外。這意味著,在大多數情況下,關注查詢的開頭部分就可以讓智能助理對所使用的語言進行初步猜測,甚至在包含不同語言實體的句子中也是如此。

有了這種早期識別,我們就可以像處理單語查詢那樣,通過切換到單語語音識別器來簡化任務。然而,快速決定如何以及何時切換到一個單語言,在最后會需要一個技術轉折:具體來說,我們使用隨機森林(random forest)方法,結合多個上下文信號,例如正在使用的設備類型、發現的語音假設的數量、多久收到類似的假設、各個語音識別器的不確定性、以及每種語言的使用頻率等。

另外一種簡化和改進系統質量的方法是限制用戶可以選擇的候選語言列表。用戶可以谷歌智能助理設備目前支持的六種語言中選擇兩種語言,這已經能夠支持大多數多語使用者。

不過,隨著LangID技術的不斷改進,谷歌希望接下來能夠解決三語支持的問題,這將進一步提升多語用戶群的體驗。而且,谷歌負責產品的副總裁 Nick Fox 此前表示,接下來的幾個月里 Google Assistant 將增加支持丹麥語、荷蘭語、印地語、印度尼西亞語、挪威語、瑞典語和泰語。到今年年底,谷歌助理將支持超過 30 種語言,覆蓋 Android 手機使用語言的 95%。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6196

    瀏覽量

    106017
  • 神經網絡
    +關注

    關注

    42

    文章

    4781

    瀏覽量

    101176

原文標題:谷歌雙語助理來了!中英夾雜也不怕,遞歸神經網絡和隨機森林顯神威

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    微軟Copilot Voice升級,積極拓展多語言支持

    近日,據報道,微軟近期在人工智能領域取得了新的進展,正積極拓展其Copilot Voice的多語言支持功能。這一舉措標志著微軟在語音識別和自然語言處理技術上又邁出了重要一步。 此次Copilot
    的頭像 發表于 02-06 14:10 ?47次閱讀

    Triton編譯器功能介紹 Triton編譯器使用教程

    。以下是 Triton 編譯器的一些功能介紹和使用教程。 Triton 編譯器功能介紹 多語言支持 :Triton 支持多種編程語言,使得開發者可以在同一個編譯器框架下處理不同的語言
    的頭像 發表于 12-24 17:23 ?642次閱讀

    谷歌正式發布Gemini 2.0 性能提升近兩倍

    2.0在關鍵基準測試中相比前代產品Gemini 1.5 Pro的性能提升了近兩倍。該模型支持圖像、視頻和音頻等多種輸入與輸出形式,例如可以實現文本與圖像的混合生成以及自定義的多語言文本轉語音(TTS)內容。 此外,Gemini 2.0還
    的頭像 發表于 12-12 14:22 ?411次閱讀

    Sora的功能優勢及用戶評價

    多語言支持與自然語言處理 Sora支持多種語言,并且具備先進的自然語言處理能力,能夠理解用戶的自然語言
    的頭像 發表于 10-31 14:38 ?450次閱讀

    Llama 3 語言模型應用

    理解復雜的上下文信息,包括對話歷史、用戶偏好和文化差異。這使得它在對話系統和個性化推薦中表現出色。 情感分析 :通過深度學習技術,Llama 3 能夠識別和理解文本中的情感傾向,無論是正面的、負面的還是中性的。 多語言支持 :Llama 3 支持多種
    的頭像 發表于 10-27 14:15 ?365次閱讀

    ChatGPT 的多語言支持特點

    )技術迎來了巨大的挑戰和機遇。ChatGPT,作為一個領先的語言模型,其多語言支持的特點成為了它在眾多應用場景中不可或缺的優勢。 1. 多語言理解能力 ChatGPT 的多語言支持首先
    的頭像 發表于 10-25 17:30 ?904次閱讀

    科大訊飛發布訊飛星火4.0 Turbo大模型及星火多語言大模型

    ,科大訊飛以其一貫的創新精神,開創性地發布星火多語言大模型。這一創新之舉不僅進一步鞏固科大訊飛在中文和英文處理領域的領先地位,更將語言支持
    的頭像 發表于 10-24 13:58 ?474次閱讀

    谷歌全新推出開放式視覺語言模型PaliGemma

    這種熱烈的反響非常鼓舞人心,開發者們打造一系列多樣的項目,例如用于印度語言多語言變體 Navarasa,以及設備端側動作模型 Octopus v2。開發者們展示 Gemma 在打
    的頭像 發表于 10-15 17:37 ?452次閱讀

    普羅格官網煥新,解鎖供應鏈數智化無限可能

    更直觀的業務模塊展示 更豐富的軟件服務提供更專業的行業解決方案更多語言支持更直接的用戶溝通入口......歡迎來到升級后的普羅格官網我們重新認識一下!
    的頭像 發表于 07-23 09:59 ?341次閱讀
    普羅格官網煥新,解鎖供應鏈數智化無限可能

    有效提升智能會議系統語音識別準確性案例分享

    多語言支持的語音識別技術還可以準確識別不同語言和方言,對于夸全球交流的國際會議必不可缺。語音識別準確性對于提升智能會議系統市場核心競爭力的重要性由此可見一斑。
    的頭像 發表于 06-21 11:15 ?404次閱讀
    有效提升<b class='flag-5'>智能</b>會議系統語音識別準確性案例分享

    有效提升智能會議系統語音識別準確性案例分享

    多語言支持的語音識別技術還可以準確識別不同語言和方言,對于夸全球交流的國際會議必不可缺。語音識別準確性對于提升智能會議系統市場核心競爭力的重要性由此可見一斑。
    的頭像 發表于 06-21 11:13 ?584次閱讀
    有效提升<b class='flag-5'>智能</b>會議系統語音識別準確性案例分享

    OpenHarmony開發技術:【國際化】實例

    ArkUI開發框架對多語言支持比較友好,只需要在?`resources`?目錄下創建對應國家的文件夾,名稱對國家簡碼,例如中國為?`zh`?,則在?`resources`?下創建?`zh`?文件夾,然后在?`zh`?文件下創建對應的類別文件,筆者以文本資源
    的頭像 發表于 04-11 09:40 ?450次閱讀
    OpenHarmony開發技術:【國際化】實例

    這個多語言包 怎么搜不到

    大家好,這個多語言包怎么搜不到 seven language lib 誰有離線包不 感謝分享,
    發表于 03-24 10:06

    語言模型(LLMs)如何處理多語言輸入問題

    研究者們提出了一個框架來描述LLMs在處理多語言輸入時的內部處理過程,并探討了模型中是否存在特定于語言的神經元。
    發表于 03-07 14:44 ?698次閱讀
    大<b class='flag-5'>語言</b>模型(LLMs)如何處理<b class='flag-5'>多語言</b>輸入問題

    谷歌模型軟件有哪些功能

    谷歌模型軟件通常指的是谷歌推出的一系列人工智能模型和軟件工具,其中最具代表性的是Google Gemini。Google Gemini是
    的頭像 發表于 03-01 16:20 ?750次閱讀
    百家乐官网网络赌博地址| 线上老虎机| 百家乐官网只打一种牌型| 百家乐会骗人吗| 大发888游戏平台hg dafa888 gw| 真人百家乐官网是啥游戏| 百家乐试玩网站| 大发888注册账号| 百家乐官网技术辅助软件| 百家乐庄闲比| 远安县| 百家乐网址多少| 六合彩网站| 玩百家乐官网请高手指点| 大发888城亚洲游戏| 百家乐官网透视牌靴价格| 百家乐平注常赢玩法技巧| 百家乐官网网络赌博地址| 百家乐三国| 网上百家乐官网作弊不| 百家乐玩法最多的娱乐城| 呼玛县| 百家乐网站制作| 百家乐官网技巧大全| 包赢百家乐的玩法技巧和规则| 百家乐官网代理新闻| 百家乐开户首选| 皇冠百家乐官网皇冠网| 百家乐手机版| 百家乐官网赢钱海立方| 百家乐棋牌游| 百家乐官网六合彩3535| 威尼斯人娱乐平台反| 百家乐官网网络赌场| 大发888网上支付| 新锦江百家乐官网的玩法技巧和规则| 大发888娱乐城3403| 盈得利百家乐官网娱乐城| 在线博彩网| 网上百家乐有人赢过嘛| 太阳百家乐官网3d博彩通|