Google 的研究人員創建了一個視聽模型,可以通過算法將視頻中的多個聲音分離,得到一個清晰的單個語音。
一位二次元朋友說他有一種能力,就是在 B 站開彈幕看視頻時,想看視頻就看視頻,想看彈幕就看彈幕,兩者可以自動分離,不會互相干擾。類似的,人類在聽覺上也有一種選擇能力,就是人在集中注意力聽某個聲音時,可以自動忽略其他聲音或噪音,感覺像是把要聽的聲音放大了一樣,這種現象叫做雞尾酒會效應。
這種能力對我們來說好像很自然,但對于計算機可是個不小的挑戰。最近,Google 的研究人員創建了一個視聽模型,可以通過算法將視頻中的多個聲音分離,得到一個清晰的單個語音。簡單來說,你可以選擇只聽視頻中某個人講話的聲音,而不用擔心被干擾。
結合視覺聽覺信號,識別并分離音軌
利用這種技術制作的視頻可以將特定人物的聲音增強,把其他無關的聲音去掉。在普通的單音軌視頻中,用戶可以點擊自己想關注的人物,或者算法會結合上下段內容來自動選擇突出誰的聲音。這項技術可以用于增強視頻中的語音,提高視聽效果。
這項技術的原理是結合視頻中的聽覺和視覺信號,以此來識別并分離語音。就像識別唇語的原理一樣,一個人說話時發出的聲音和他嘴部的運動存在某種關聯,所以可以利用這一點,來辨別某段聲音是誰發出的。在視覺信號的幫助下,即使是在多種聲音混雜的環境中,單個聲音的特征也變得更明顯,更重要的是,你還可以在聽到清晰聲音的同時看到人嘴部的運動,更容易接收并理解信息。
研究人員用 10 萬個高質量的 YouTube 視頻為樣本,從視頻中提取清晰的演講片段,沒有背景音樂、沒有觀眾鼓掌、沒有噪音,并且視頻中只有一個說話的人。他們共提取出 2000 個小時的訓練數據,用這些干凈的視頻來合成“雞尾酒會”的效果。這樣就可以訓練一個卷積神經網絡模型,將合成的視頻分離出多個單獨的音軌,也就是每個人單獨的聲音。將每一幀中嘴部運動的視覺信息提取出來,然后找到聲譜圖中對應的部分。這樣就可以訓練神經網絡,從聲音混雜的視頻中,根據人的嘴部運動來提取對應的聲音碎片,最后輸出成具有單獨聲音軌道的視頻,每一個人的聲音都可以進行單獨播放。
可以提高語音識別能力
這個黑科技在語音識別中尤其有用,比如 YouTube 自己的自動字幕,如果視頻中有多種聲音混合,字幕就很難準確顯示,而如果這幾種聲音能夠單獨分離播放,對應的字幕也就更準確,用戶也更容易理解。再往遠處想,這項技術可以運用到 Google Glass 這樣的智能眼鏡中,即使是在紛雜世界,你也可以只關注想關注的人,只聽 Ta 的聲音。除此之外,帶視頻能力的智能音箱可能是未來的大趨勢,有了語音分離能力,語音識別的能力也會更精準、更強大。
這種強大的能力也可能帶來隱私問題,比如間諜電影中經常見到的天眼系統,如果再搭配語音分離的能力,豈不是可以做到視聽上的全能?不過想達到那樣的效果,識別能力就要很精準了。在此之前它的應用可能只是 Google 自己的產品,比如增強視頻智能音箱的語音識別能力,還有讓 YouTube 的自動字幕更智能。
-
Google
+關注
關注
5文章
1772瀏覽量
57806 -
谷歌
+關注
關注
27文章
6195瀏覽量
106016
發布評論請先 登錄
相關推薦
研究人員利用激光束開創量子計算新局面
![<b class='flag-5'>研究人員</b>利用激光束開創量子計算新局面](https://file1.elecfans.com//web3/M00/02/BC/wKgZO2dh-iqAZN84AAEAonPS9wY682.jpg)
使用PPC母版、tas5825mevm-sb進行測試,但是聲音只發一聲,或者沒有聲音,為什么?
研究人員制造可將短波紅外光的頻率“上轉換”到可見光頻率范圍裝置
研究人員:微生物電池可能會對遠程應用產生巨大影響
使用google-translate和wwe合并后無法使用google-tts怎么解決?
研究人員利用人工智能提升超透鏡相機的圖像質量
![<b class='flag-5'>研究人員</b>利用人工智能提升超透鏡相機的圖像質量](https://file1.elecfans.com//web2/M00/EC/96/wKgZomZnf4WANY8LAAOx39ohSPY736.jpg)
MIT/三星研究人員利用活體拉曼光譜直接觀察葡萄糖指紋圖譜
![MIT/三星<b class='flag-5'>研究人員</b>利用活體拉曼光譜直接觀察葡萄糖指紋圖譜](https://file1.elecfans.com//web2/M00/EC/A9/wKgaomZflreADUwuAAE2PX44Emg333.png)
光子動量的發現揭示了新型硅基光電功能
![光子動量的<b class='flag-5'>發現</b>揭示了新型硅基光電功能](https://file1.elecfans.com//web2/M00/E9/9D/wKgZomZUbpiADQOcAAGHUJ0-PwA930.jpg)
研究人員利用定制光控制二維材料的量子特性
![<b class='flag-5'>研究人員</b>利用定制光控制二維材料的量子特性](https://file1.elecfans.com//web2/M00/E1/03/wKgaomY4CGeAHBOkAAdMGHuAaTU789.png)
研究人員開發出高性能p型非晶氧化物半導體
![<b class='flag-5'>研究人員</b>開發出高性能p型非晶氧化物半導體](https://file1.elecfans.com//web2/M00/DE/88/wKgZomYwlp6AFwqTAABbnz5Bt4I701.jpg)
![](https://file1.elecfans.com/web2/M00/D4/85/wKgZomYl1JmAUkJeAAi2lINL8p4745.png)
研究人員發現提高激光加工分辨率的新方法
![<b class='flag-5'>研究人員</b><b class='flag-5'>發現</b>提高激光加工分辨率的新方法](https://file1.elecfans.com//web2/M00/CC/31/wKgZomYgTWuAcGQHAAIBGrGIjdE117.jpg)
評論