六合彩开奖结果列表,软件线路检测失败怎么办,赌博输了十多万彻底毁了自己(中国)·官方网站

虛擬助手在用戶發出命令后就會作出語音回復。而生成語音回復的技術被稱為文本轉語音（TTS）。

TTS 應用能夠讓輔助器具使用者訪問更多內容，因此非常實用。最新的 TTS 技術可以從一段幾分鐘的音頻數據中生成合成聲音，非常適合僅留存了有限錄音的失音者。

事實上，TTS 的應用正在因技術進步而不斷增長：

在幾毫秒內運行端到端 TTS 流程，以實現自然互動。
在推斷時自定義 AI 模型和流程，以產生具有表現力的合成語音。
部署在所有云、數據中心、邊緣或嵌入式設備上。

本文將說明語音合成系統如何運作，然后介紹 TTS 技術的常見用途和新用途。

語音合成系統如何工作

顧名思義，文本轉語音或語音合成是將書面文本轉換成自然、類似人類的語音音頻的過程。在端到端 TTS 流程中用于實現這一轉換的關鍵模型和模塊包括：

文本規范化和預處理：將數字和縮略語變成文字。
文本編碼：將文本轉換為輸入到聲譜圖生成器的編碼向量。
聲譜圖生成器：從編碼文本向量中生成聲譜圖。
語音編碼器模型：輸入聲譜圖并生成一個人們可以聽到的合成語音。

一般來說，TTS 是虛擬助手、數字人和服務機器人等應用的最終階段。

常見的 TTS 應用

2021 年 IDC 對話式 AI 采用情況調查共調研了 251 家公司，其中 74.5% 在語音對話式 AI 解決方案中使用 TTS，68.5% 在無障礙解決方案中使用 TTS（圖 1）。

圖 1. IDC 關于常見 TTS 用例的調查

語音合成的功能用途正得到許多行業的認可，人們可能已經看到過以下 TTS 技術用例。

虛擬網紅

虛擬網紅正在改變未來與企業或名人溝通的方式。虛擬網紅也稱為虛擬品牌大使或品牌代言人，它們可以協助公司推廣產品和服務，名人也可以通過它們與粉絲保持全天候的聯系。

在這些用例中 TTS 技術生成了自定義聲音，然后被整合到動畫虛擬網紅或數字大使身上。

文本敘述

文本敘述能夠大聲朗讀所有類型的文本。這項 TTS 功能可用于網站及閱讀類應用，為喜歡音頻類節目的人帶來了福音。有視覺障礙的人也可以使用文字敘述聽到他們喜歡的內容。

TTS 用于在這些應用程序上將文本轉換成語音并朗讀出來。但這項工作并不像表面上那么簡單。為了提升收聽體驗，此類應用的聲音必須抑揚頓挫、富有節奏和表現力。

常見的語音轉文本準確性問題

對于生活在現代社會的人來說，最流行和具有吸引力的媒介莫過于音頻和視頻內容。TTS 技術可以幫助內容創作者為視頻配音或創建播客。

為了獲得更多的受眾，創作者還可以使用 TTS 技術將博客、新聞文章等文本內容轉換成音頻。

TTS 的使用十分靈活，用戶可以在變聲器等應用中改變語音的音調、節奏和音量，使聲音變得更具表現力。

獨特的 TTS 應用

除了這些日常應用外，企業家們正在探索各種新穎的 TTS 應用。下文將介紹開發獨特語音合成技術的公司。

用于智慧醫院的語音通知亭：Artisight

Artisight 是一個應用于醫院的物聯網傳感器網絡，可改善醫院的運營、財務業績和患者體驗。該公司幫助美國許多頂尖醫院提高運營效率，同時通過任務自動化給患者帶來更好的體驗，比如呼叫患者到掛號窗口和化驗等。

醫院可以使用 TTS 技術與患者和訪客分享有關醫院服務、設施位置和一般健康公告的信息。該技術也可以使用多種語言幫助可能不會說醫院當地語言的人。

視頻 1. Artisight “診所協調員”解決方案演示

上面的視頻演示了醫院通知亭的文字轉語音技術如何讀出患者排隊單上的號碼。

挑戰和解決方案

過去，醫院接待人員需要手動登記患者信息并在輪到患者就診時通知他們。這種耗時的登記流程降低了醫院的效率和患者的滿意度。

Artisight 開發的語音簽到、通知亭等智慧醫院解決方案可提升患者的體驗。

Artisight 和 NVIDIA Riva 賦能的通知亭實現了有效、快速的患者登記流程，將等待時間縮短了一半并避免了數據輸入錯誤，最終提高了員工的工作效率和患者的滿意度。

為數字虛擬形象提供類似人類聲音：NVIDIA

TTS 技術使計算機能夠將書面文字轉換成語音，進而讓數字人能夠“開口說話”并以更加自然、有代入感的方式與用戶交流。

為了取得用戶的信任，數字人所說的話必須高度準確，尤其是當它們被用于教育、娛樂或其他互動用途時。使用 TTS 技術生成自然、類似人類的語音可以幫助數字人吸引用戶的注意力和興趣。

正如 NVIDIA Omniverse Avatar Cloud Engine（ACE）演示所示，AI 虛擬形象Toy Jensen 能夠理解黃仁勛的問題并作出自然的回答。Toy Jensen 的聲音使用 NVIDIA Riva 創建。

視頻 2. 用于構建實時、交互式 AI 助手的 NVIDIA Omniverse ACE 平臺

挑戰和解決方案

開發用于數字人的 TTS 可能有一定的難度，尤其是在創造自然、真實的語音方面，并且難度取決于地區和語言。這是因為使用傳統和統計算法創建的 TTS 系統可能導致語音聽起來像是機器人或機械發出的，而用戶對此可能不會“買賬”。

此外，由于 TTS 系統受數據集、所使用的模型和模塊類型等諸多因素影響，因此要為數字人應用創建靈活的自適應語音具有一定的難度。這使開發者難以生成具有細微差別和富有表現力的語音。

最后，數字人需要在不犧牲質量的情況下實時生成大量語音，因此創建高效、可擴展的 TTS 系統至關重要。

NVIDIA 為數字人和虛擬形象生成了自定義語音，比如使用 Riva 生成的 Toy Jensen 和 Violet。Riva 可幫助開發只需短短幾毫秒就能實時運行且精準的 TTS 流程，滿足實現自然語音的必要條件，還可以靈活調整音調、持續時間和音量等，使生成的聲音更具表現力。

開始使用語音合成

用戶現在就可以開始將 TTS 功能集成到應用中，例如閱讀內容或生成數字網紅獨特聲音等。NVIDIA Riva 等 SDK 可以幫助用戶開發出提供高準確度并進行高性能推理的應用。

點擊“閱讀原文”試用 NVIDIA Riva TTS。

掃描下方海報二維碼，觀看 NVIDIA 創始人兼 CEO 黃仁勛在 COMPUTEX 2023 的主題演講直播回放，主題演講中文字幕版已上線，了解 AI、圖形及其他領域的最新進展！

原文標題：了解獨特的文本轉語音應用

文章出處：【微信公眾號：NVIDIA英偉達】歡迎添加關注！文章轉載請注明出處。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

英偉達

英偉達

+關注

關注
22

文章
3847

瀏覽量
91970

原文標題：了解獨特的文本轉語音應用

文章出處：【微信號：NVIDIA_China，微信公眾號：NVIDIA英偉達】歡迎添加關注！文章轉載請注明出處。

HarmonyOS NEXT 應用開發練習：AI智能語音播報

（Text-To-Speech，文本轉語音）技術將文本轉換為語音進行播報。當然除了基本的文本輸入和播報功能外，我們還增加了

發表于 01-06 15:33

ASR語音識別技術應用

ASR（Automatic Speech Recognition）語音識別技術，是計算機科學與人工智能領域的重要突破，能將人類語音轉換為文本，廣泛應用于智能家居、醫療、交通等多個領域。以下是對ASR

發表于 11-18 15:12 ?1024次閱讀

助盲環境感知裝置設計方案

今天為大家帶來的是來自創作者X同學的作品：助盲環境感知裝置. 這個裝置主要利用Grove Vision AI V2-Camera module識別環境中的物體，并利用XIAO ESP32S3和樹莓派進行語音輸出，結合了物體檢測和文本轉語

發表于 11-05 11:42 ?298次閱讀

TMS320C6000 MCBSP轉語音帶音頻處理器(VBAP)接口

電子發燒友網站提供《TMS320C6000 MCBSP轉語音帶音頻處理器(VBAP)接口.pdf》資料免費下載

發表于 10-26 10:17 ?0次下載

WT2605C TTS在線語音合成芯片：賦能多行業領域，引領產品智能化

在當今科技日新月異的時代，語音技術正逐步滲透到我們生活的方方面面，而TTS（Text-To-Speech，文本到語音）技術作為其中的重要一環，更是以其獨特的魅力改變了人機交互的方式。W

發表于 09-12 15:54 ?369次閱讀

收款機TTS語音芯片新方案：WT3000T8，雙語合成流暢，字庫解碼多樣！

一：方案背景概述隨著科技的飛速發展，人工智能和語音識別技術在各個領域都得到了廣泛應用。其中，文本轉語音（TTS）技術以其獨特的優勢，在收款機語音

發表于 07-27 08:38 ?712次閱讀

【算能RADXA微服務器試用體驗】+ GPT語音與視覺交互：4，文字轉語音

文字轉語音使用的技術簡稱為TTS。一般情況下我用的都是在線的EDGE-TTS服務。但非常幸運的是，BM1684X上居然有適配好的本地運行TTS，那自然是要體驗一番。先轉到project文件夾

發表于 07-15 23:18

Jacob：從ElevenLabs解決的行業問題來看，AI創業的思路與互聯網時代并不相同

人聲是最原始、最個性的表達方式之一，為了提高效率，很多時候我們會使用合成語音來代替人聲，涉及到的商業場景有很多，例如虛擬智能助理、客戶呼叫中心、有聲讀物和媒體內容創作。文本轉語音（TTS）是合成

發表于 07-10 08:05 ?232次閱讀

收款機TTS語音芯片新方案：WT3000T8，雙語合成流暢，字庫解碼多樣！

不同播報要求下語音占用大量資源空間的問題。可以實現低成本低功耗的文本轉語音，支持中英文兩種功能，實現播報語音自由配置無需通過升級方式替換語音

發表于 06-26 11:17 ?748次閱讀

訊飛星火長文本功能全新升級

科大訊飛近日宣布，其首個長文本、長圖文、長語音大模型已完成全新升級。這一大模型不僅具備強大的學習能力，可以快速吸收海量文本、圖文資料以及會議錄音等多元化信息，更能在各行業場景中提供精準、專業的回答。

發表于 05-06 11:22 ?597次閱讀

科大訊飛創新推出長文本、長圖文、長語音大模型，解決落地難題

近期，科大訊飛推出了首個支持長文本、長圖及語音大數據處理的大模型，該系統融合了多元化數據源，包括海量文字、圖片以及會議音頻等，能為各行業場景提供專業化、精準化的答案。

發表于 04-28 09:32 ?411次閱讀

WT3000T8-TTS語音合成芯片及應用場景介紹

TTS語音合成芯片是一種能夠將文本信息轉化為自然語音的專用芯片。它通過內置的語音合成算法和音頻處理單元，實現了文本到

發表于 04-18 18:03 ?972次閱讀

玩轉語音合成芯片（TTS芯片），看這一篇就夠了

什么是語音合成芯片：語音合成芯片也稱為TTS芯片，即文字轉語音芯片，是一種能夠將輸入的文字信息轉換為語音輸出的芯片。通過TTS芯片，我們可以將文字信息轉化為自然

發表于 03-19 18:13 ?1532次閱讀

快速全面了解大模型長文本能力

那關于LLM的長文本能力，目前業界通常都是怎么做的？有哪些技術點或者方向？今天我們就來總結一波，供大家快速全面了解。

發表于 02-22 14:04 ?926次閱讀

亞馬遜發布史上最大文本轉語音模型BASE TTS

亞馬遜的人工智能研究團隊近日宣布，他們成功開發出了迄今為止規模最大的文本轉語音模型——BASE TTS。這款新模型擁有高達9.8億個參數，不僅在規模上超越了之前的所有版本，還在能力上實現了質的飛躍。

發表于 02-20 17:04 ?919次閱讀