衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Google研究人員發現黑科技 只聽你想聽的聲音

454398 ? 來源:網絡整理 ? 作者: 工程師1 ? 2018-04-18 00:32 ? 次閱讀

Google 的研究人員創建了一個視聽模型,可以通過算法視頻中的多個聲音分離,得到一個清晰的單個語音。

一位二次元朋友說他有一種能力,就是在 B 站開彈幕看視頻時,想看視頻就看視頻,想看彈幕就看彈幕,兩者可以自動分離,不會互相干擾。類似的,人類在聽覺上也有一種選擇能力,就是人在集中注意力聽某個聲音時,可以自動忽略其他聲音或噪音,感覺像是把要聽的聲音放大了一樣,這種現象叫做雞尾酒會效應。

這種能力對我們來說好像很自然,但對于計算機可是個不小的挑戰。最近,Google 的研究人員創建了一個視聽模型,可以通過算法將視頻中的多個聲音分離,得到一個清晰的單個語音。簡單來說,你可以選擇只聽視頻中某個人講話的聲音,而不用擔心被干擾。

結合視覺聽覺信號,識別并分離音軌

利用這種技術制作的視頻可以將特定人物的聲音增強,把其他無關的聲音去掉。在普通的單音軌視頻中,用戶可以點擊自己想關注的人物,或者算法會結合上下段內容來自動選擇突出誰的聲音。這項技術可以用于增強視頻中的語音,提高視聽效果。

這項技術的原理是結合視頻中的聽覺和視覺信號,以此來識別并分離語音。就像識別唇語的原理一樣,一個人說話時發出的聲音和他嘴部的運動存在某種關聯,所以可以利用這一點,來辨別某段聲音是誰發出的。在視覺信號的幫助下,即使是在多種聲音混雜的環境中,單個聲音的特征也變得更明顯,更重要的是,你還可以在聽到清晰聲音的同時看到人嘴部的運動,更容易接收并理解信息

研究人員用 10 萬個高質量的 YouTube 視頻為樣本,從視頻中提取清晰的演講片段,沒有背景音樂、沒有觀眾鼓掌、沒有噪音,并且視頻中只有一個說話的人。他們共提取出 2000 個小時的訓練數據,用這些干凈的視頻來合成“雞尾酒會”的效果。這樣就可以訓練一個卷積神經網絡模型,將合成的視頻分離出多個單獨的音軌,也就是每個人單獨的聲音。將每一幀中嘴部運動的視覺信息提取出來,然后找到聲譜圖中對應的部分。這樣就可以訓練神經網絡,從聲音混雜的視頻中,根據人的嘴部運動來提取對應的聲音碎片,最后輸出成具有單獨聲音軌道的視頻,每一個人的聲音都可以進行單獨播放。

可以提高語音識別能力

這個黑科技在語音識別中尤其有用,比如 YouTube 自己的自動字幕,如果視頻中有多種聲音混合,字幕就很難準確顯示,而如果這幾種聲音能夠單獨分離播放,對應的字幕也就更準確,用戶也更容易理解。再往遠處想,這項技術可以運用到 Google Glass 這樣的智能眼鏡中,即使是在紛雜世界,你也可以只關注想關注的人,只聽 Ta 的聲音。除此之外,帶視頻能力的智能音箱可能是未來的大趨勢,有了語音分離能力,語音識別的能力也會更精準、更強大。

這種強大的能力也可能帶來隱私問題,比如間諜電影中經常見到的天眼系統,如果再搭配語音分離的能力,豈不是可以做到視聽上的全能?不過想達到那樣的效果,識別能力就要很精準了。在此之前它的應用可能只是 Google 自己的產品,比如增強視頻智能音箱的語音識別能力,還有讓 YouTube 的自動字幕更智能。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Google
    +關注

    關注

    5

    文章

    1772

    瀏覽量

    57806
  • 谷歌
    +關注

    關注

    27

    文章

    6195

    瀏覽量

    106016
收藏 人收藏

    評論

    相關推薦

    研究人員利用激光束開創量子計算新局面

    演示設備 威特沃特斯蘭德大學(Wits)的物理學家利用激光束和日常顯示技術開發出了一種創新的計算系統,標志著在尋求更強大的量子計算解決方案方面取得了重大飛躍。 該大學結構光實驗室的研究人員取得的這一
    的頭像 發表于 12-18 06:24 ?143次閱讀
    <b class='flag-5'>研究人員</b>利用激光束開創量子計算新局面

    NVIDIA AI助力日本制藥公司推進藥物研發

    制藥公司、醫療技術公司和學術研究人員正在開發主權 AI 能力,以驅動藥物發現、加速基因組學和醫療設備。
    的頭像 發表于 11-19 15:40 ?401次閱讀

    使用PPC母版、tas5825mevm-sb進行測試,但是聲音發一聲,或者沒有聲音,為什么?

    使用PPC母版、tas5825mevm-sb進行測試,左通道連接了一個揚聲器,電源是12V,按照官方文檔測試,如下圖。但是聲音發一聲,或者沒有聲音
    發表于 10-12 06:49

    研究人員制造可將短波紅外光的頻率“上轉換”到可見光頻率范圍裝置

    據麥姆斯咨詢報道,近期,印度科學理工學院(IISc)的研究人員制造了一種可將短波紅外光的頻率“上轉換”到可見光頻率范圍的裝置。 光的上轉換具有多種應用,尤其是在國防和光通信領域。首先,印度科學
    的頭像 發表于 06-30 15:45 ?1.2w次閱讀

    研究人員:微生物電池可能會對遠程應用產生巨大影響

    一粒土壤中可以包含宇宙般的微生物群,據估計數量可以多達100億。現在,位于英國巴斯的一組研究人員正在開發原型機技術,以收集一些微生物物種呼出的電子。 這個想法是為了給低產出的傳感器和開關供電,并可
    的頭像 發表于 06-29 17:17 ?1634次閱讀

    使用google-translate和wwe合并后無法使用google-tts怎么解決?

    我打算使用lyrat-mini做一個使用喚醒詞喚醒然后后續通過google-sr和google-tts進行交流的聊天機器人,但是當我合并了adf的例子中的wwe和google-translate之后
    發表于 06-28 06:05

    研究人員利用人工智能提升超透鏡相機的圖像質量

    研究人員利用深度學習技術提高了直接集成在 CMOS 成像芯片上的超透鏡相機(左)的圖像質量。超透鏡利用 1000 納米高的圓柱形氮化硅納米柱陣列(右圖)操縱光線。 研究人員利用深度學習技術提高了超
    的頭像 發表于 06-11 06:34 ?422次閱讀
    <b class='flag-5'>研究人員</b>利用人工智能提升超透鏡相機的圖像質量

    MIT/三星研究人員利用活體拉曼光譜直接觀察葡萄糖指紋圖譜

    MIT/三星研究人員對葡萄糖拉曼光譜進行活體觀測 Direct observation of glucose fingerprint using in vivo Raman spectroscopy
    的頭像 發表于 06-05 06:35 ?405次閱讀
    MIT/三星<b class='flag-5'>研究人員</b>利用活體拉曼光譜直接觀察葡萄糖指紋圖譜

    光子動量的發現揭示了新型硅基光電功能

    來源:半導體芯科技編譯 在加州大學歐文分校化學家的指導下,一組研究人員發現了一種光與物質相互作用的新方式。這一突破有可能提高太陽能發電系統、發光二極管、半導體激光器和其他技術的效率。研究小組
    的頭像 發表于 05-28 10:00 ?378次閱讀
    光子動量的<b class='flag-5'>發現</b>揭示了新型硅基光電功能

    研究人員利用定制光控制二維材料的量子特性

    的發展鋪平了道路。 由美國能源部SLAC國家加速器實驗室和斯坦福大學研究人員領導的研究小組將這種方法應用于一種名為六方氮化硼(hBN)的材料,這種材料由單層原子以蜂窩狀排列而成,其特性使其非常適合量子操縱。在實驗中,科學家們利用一種電
    的頭像 發表于 05-06 06:29 ?289次閱讀
    <b class='flag-5'>研究人員</b>利用定制光控制二維材料的量子特性

    研究人員開發出高性能p型非晶氧化物半導體

    和 107 的開/關電流比,與早期 n 型氧化物薄膜晶體管的關鍵電氣屬性非常相似。此外,薄膜晶體管在長時間偏置應力下表現出顯著的穩定性以及大面積薄膜的均勻性。 圖源:浦項工科大學 研究人員合作開發了碲硒復合氧化物半導體材料。他們成功創造了高性能和高穩定性的p型薄膜晶體管(
    的頭像 發表于 04-30 14:58 ?595次閱讀
    <b class='flag-5'>研究人員</b>開發出高性能p型非晶氧化物半導體

    突破!研究人員首次實現量子互聯網關鍵連接

    行業芯事
    電子發燒友網官方
    發布于 :2024年04月22日 11:11:26

    研究人員發現提高激光加工分辨率的新方法

    通過透明玻璃聚焦定制激光束可以在材料內部形成一個小光斑。東北大學的研究人員研發了一種利用這種小光斑改進激光材料加工、提高加工分辨率的方法。 他們的研究成果發表在《光學通訊》(Optics
    的頭像 發表于 04-18 06:30 ?395次閱讀
    <b class='flag-5'>研究人員</b><b class='flag-5'>發現</b>提高激光加工分辨率的新方法

    谷歌發布最先進的開放模型Gemma

    和 AlphaCode。今天,我們很高興地介紹 Google 的新一代開放模型,以協助開發者和研究人員負責任地構建 AI。
    的頭像 發表于 02-23 10:12 ?668次閱讀
    谷歌發布最先進的開放模型Gemma

    側信道攻擊技術揭示:如何利用微弱聲音提取指紋

    研究人員透露,在測試中,以0.01%的高標準誤認率(FAR)為條件,PrintListener有27.9%的概率成功獲取指紋部分特征,9.3%的概率獲取全部特征。
    的頭像 發表于 02-20 14:14 ?589次閱讀
    亚洲百家乐官网新全讯网| 永利高倒闭| 金盾百家乐官网网址| 大发888官网多少| 真人百家乐官网作| 神木县| 网上百家乐网| 电脑版百家乐官网下注技巧| 大发888易发| 百家乐视频聊天游戏| 百家乐官网一直下注庄家| 圣安娜百家乐代理| 打百家乐官网最好办法| 百家乐出千技巧| 塘沽区| 大发888注册官方网站| 三元玄空24山坐向| 百家乐官网长龙怎么预判| 大发888手机登录平台| 百家乐博彩开户博彩通| 百家乐官网平注法是什么| 顶级赌场手机版官方| 博联百家乐游戏| 百家乐官网平台导航| ewin棋牌官网| 温州市百家乐鞋业有限公司| 皇室百家乐官网的玩法技巧和规则 | 百家乐管家| 百家乐作弊工具| 百家乐官网一柱擎天| 最新博彩论坛| 太阳百家乐游戏| 保单百家乐路单| 时时博百家乐官网娱乐城| 大发888组件下载| 百家乐透视牌靴| 百家乐官网论坛| 百家乐官网论坛代理合作| 988娱乐城| 大发888dafabet| 百家乐赌博博彩赌博网|