衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

研究者提出了一項新的視聽分割任務

電子工程師 ? 來源:量子位 ? 作者:量子位 ? 2022-08-08 16:45 ? 次閱讀

聽到“唔哩——唔哩——”的警笛聲,你可以迅速判斷出聲音來自路過的一輛急救車。

能不能讓AI根據音頻信號得到發聲物完整的、精細化的掩碼圖呢?

來自合肥工業大學、商湯、澳國立、北航、英偉達、港大和上海人工智能實驗室的研究者提出了一項新的視聽分割任務(Audio-Visual Segmentation, AVS)。

視聽分割,就是要分割出發聲物,而后生成發聲物的精細化分割圖。

相應的,研究人員提出了第一個具有像素級標注的視聽數據集AVSBench。

465bf528-16c2-11ed-ba43-dac502259ad0.png

Audio-Visual Segmentation

論文地址:

https://arxiv.org/abs/2207.05042

GitHub地址:

https://github.com/OpenNLPLab/AVSBench

項目主頁:

https://opennlplab.github.io/AVSBench/

新任務、新的數據集,搞算法的又有新坑可以卷了。

467d6fa0-16c2-11ed-ba43-dac502259ad0.png

最新放榜結果,該論文已被ECCV 2022接受。

精準鎖定發聲物

聽覺和視覺是人類感知世界中最重要的兩個傳感器。生活里,聲音信號和視覺信號往往是互補的。

視聽表征學習(audio-visual learning)已經催生了很多有趣的任務,比如視聽通信(AVC)、視聽事件定位(AVEL)、視頻解析(AVVP)、聲源定位(SSL)等。

這里面既有判定音像是否描述同一事件/物體的分類任務,也有以熱力圖可視化大致定位發聲物的任務。

但無論哪一種,離精細化的視聽場景理解都差點意思。

469cc1de-16c2-11ed-ba43-dac502259ad0.png

△AVS 任務與 SSL 任務的比較

視聽分割“迎難而上”,提出要準確分割出視頻幀中正在發聲的物體全貌——

即以音頻為指導信號,確定分割哪個物體,并得到其完整的像素級掩碼圖。

AVSBench 數據集

要怎么研究這個新任務呢?

鑒于當前還沒有視聽分割的開源數據集,研究人員提出AVSBench 數據集,借助它研究了新任務的兩種設置:

1、單聲源(Single-source)下的視聽分割
2、多聲源(Multi-sources)下的視聽分割

數據集中的每個視頻時長5秒。

單聲源子集包含23類,共4932個視頻,包含嬰兒、貓狗、吉他、賽車、除草機等與日常生活息息相關的發聲物。

46b6a4be-16c2-11ed-ba43-dac502259ad0.png

△AVSBench單源子集的數據分布

多聲源子集則包含了424個視頻。

結合難易情況,單聲源子集在半監督條件下進行,多聲源子集則以全監督條件進行。

研究人員對AVSBench里的每個視頻等間隔采樣5幀,然后人工對發聲體進行像素級標注。

對于單聲源子集,僅標注采樣的第一張視頻幀;對于多聲源子集,5幀圖像都被標注——這就是所謂的半監督和全監督。

46c54e24-16c2-11ed-ba43-dac502259ad0.png

△對單聲源子集和多聲源子集進行不同人工標注

這種像素級的標注,避免了將很多非發聲物或背景給包含進來,從而增加了模型驗證的準確性。

一個簡單的baseline方法

有了數據集,研究人員還拋磚引玉,在文中給了個簡單的baseline。

吸收傳統語義分割模型的成功經驗,研究人員提出了一個端到端的視聽分割模型。

46e44a22-16c2-11ed-ba43-dac502259ad0.png

△視聽分割框架圖

這個模型遵循編碼器-解碼器的網絡架構,輸入視頻幀,最終直接輸出分割掩碼。

另外,還有兩個網絡優化目標。

一是計算預測圖和真實標簽的損失。

而針對多聲源情況,研究人員提出了掩碼視聽匹配損失函數,用來約束發聲物和音頻特征在特征空間中保持相似分布。

部分實驗結果

光說不練假把式,研究人員進行了廣泛實驗。

首先,將視聽分割與相關任務的6種方法進行了比較,研究人員選取了聲源定位(SSL)、視頻物體分割(VOS)、顯著性物體檢測(SOD)任務上的各兩個SOTA方法。

實驗結果表明,視聽分割在多個指標下取得了最佳結果。

47032ec4-16c2-11ed-ba43-dac502259ad0.png

△和來自相關任務方法進行視聽分割的對比結果

其次,研究人員進行了一系列消融實驗,驗證出,利用TPAVI模塊,單聲源和多聲源設置下采用兩種backbone的視聽分割模型都能得到更大的提升。

4712b006-16c2-11ed-ba43-dac502259ad0.png

△引入音頻的TPAVI模塊,可以更好地處理物體的形狀細節(左圖),并且有助于分割出正確的發聲物(右圖)

對于新任務的視聽匹配損失函數,實驗還驗證了其有效性。

47260c28-16c2-11ed-ba43-dac502259ad0.png

△視聽匹配損失函數的有效性

One More Thing

文中還提到,AVSBench數據集不僅可以用于所提出的視聽分割模型的訓練、測試,其也可以用于驗證聲源定位模型。

研究人員在項目主頁上表示,正在準備比AVSBench大10倍的AVSBench-v2。

一些視頻的分割demo也上傳在主頁上。感興趣的話可以前往查看~

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器視覺
    +關注

    關注

    162

    文章

    4406

    瀏覽量

    120734
  • AI
    AI
    +關注

    關注

    87

    文章

    31520

    瀏覽量

    270339
  • 數據集
    +關注

    關注

    4

    文章

    1209

    瀏覽量

    24834

原文標題:ECCV 2022 | 視覺新任務!AVS:視聽分割

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    AMS-QMV-H9:九畫面分割與無縫切換的視聽新紀元開創

    樣的背景下,深圳市程達科技有限公司推出了其傾力打造的AMS-QMV-H9畫面分割器與無縫切換器,這款產品以其卓越的性能和豐富的功能,正在引領視聽革命的新紀元。
    的頭像 發表于 12-26 10:41 ?122次閱讀
    AMS-QMV-H9:九畫面<b class='flag-5'>分割</b>與無縫切換的<b class='flag-5'>視聽</b>新紀元開創<b class='flag-5'>者</b>

    AMD獲得一項玻璃基板技術專利

    近日,處理器大廠AMD宣布獲得了一項涵蓋玻璃芯基板技術的專利(專利號“12080632”),這消息標志著AMD在高性能系統級封裝(SiP)領域的研究取得了重要進展。
    的頭像 發表于 12-02 10:33 ?255次閱讀

    蘋果新獲一項投影儀專利

     10月17日資訊,科技博客Patently Apple于10月15日發布報道,指出蘋果公司新獲一項投影儀專利,此專利允許用戶無需佩戴頭顯設備,即可在桌子、墻壁等平面上展示混合增強現實(AR)和虛擬現實(VR)內容。
    的頭像 發表于 10-17 16:01 ?765次閱讀

    智行者——視聽障礙出行輔助AI小車設計

    摘要據統計,我國視障人數達1731萬人,聽力殘疾患者2780萬人。視聽障礙對出行和交流需求迫切,但現有設施和輔具局限性大,使他們面臨出行難題。因此,我們開發了款安全、精準、語音與手部交互的導航避
    的頭像 發表于 07-19 08:11 ?778次閱讀
    智行者——<b class='flag-5'>視聽</b>障礙<b class='flag-5'>者</b>出行輔助AI小車設計

    圖像語義分割的實用性是什么

    圖像語義分割種重要的計算機視覺任務,它旨在將圖像中的每個像素分配到相應的語義類別中。這項技術在許多領域都有廣泛的應用,如自動駕駛、醫學圖像分析、機器人導航等。 、圖像語義
    的頭像 發表于 07-17 09:56 ?536次閱讀

    機器學習中的數據分割方法

    在機器學習中,數據分割一項至關重要的任務,它直接影響到模型的訓練效果、泛化能力以及最終的性能評估。本文將從多個方面詳細探討機器學習中數據分割的方法,包括常見的
    的頭像 發表于 07-10 16:10 ?2131次閱讀

    圖像分割與語義分割中的CNN模型綜述

    圖像分割與語義分割是計算機視覺領域的重要任務,旨在將圖像劃分為多個具有特定語義含義的區域或對象。卷積神經網絡(CNN)作為深度學習的種核心模型,在圖像
    的頭像 發表于 07-09 11:51 ?1158次閱讀

    如何使用freeRTOS在兩個任務之間傳輸任務數據?

    的問題是不知道如何將傳感器的數據從任務傳輸到另任務。 或許這根本就不是個好主意,應該在一項任務
    發表于 07-03 07:55

    如何在PSOC創建項目中確認看門狗定時器已啟用?

    您好,我是 PSOC BLE 部件的新手,只有一項任務,即確認看門狗定時器是否正確啟用并按需要工作。我是 PSOC Creator 的新用戶。如有任何幫助,將不勝感激。如何在 PSOC 創建項目中確認看門狗定時器已啟用?
    發表于 07-02 07:10

    谷歌提出大規模ICL方法

    谷歌DeepMind團隊近日取得了一項突破性的研究成果。他們提出了強化和無監督兩種新型的ICL(In-Context Learning)學習方法,這創新技術能夠在多個領域顯著提升模型
    的頭像 發表于 05-14 14:17 ?402次閱讀

    NVIDIA即將推出一項新的生成式AI專業認證

    NVIDIA 即將推出一項新的生成式 AI 專業認證,助力開發在這重要領域證明自身技術實力。
    的頭像 發表于 03-14 09:43 ?591次閱讀

    長電科技推出了一項革命性的高精度熱阻測試與仿真模擬驗證技術

    在芯片封裝技術日益邁向高密度、高性能的今天,長電科技引領創新,推出了一項革命性的高精度熱阻測試與仿真模擬驗證技術。
    的頭像 發表于 03-08 13:33 ?628次閱讀

    可片上探測和預處理的仿生視聽光電探測器

    perception and preprocessing)的研究論文。該研究提出了仿生“視聽”光電探測器,通過模擬人類感知系統中神經突觸間的“興奮”和“抑制”行為,在傳
    的頭像 發表于 03-06 06:28 ?447次閱讀
    可片上探測和預處理的仿生<b class='flag-5'>視聽</b>光電探測器

    機器視覺缺陷檢測是工業自動化領域的一項關鍵技術

    機器視覺缺陷檢測是工業自動化領域的一項關鍵技術,
    的頭像 發表于 02-22 13:59 ?595次閱讀
    機器視覺缺陷檢測是工業自動化領域的<b class='flag-5'>一項</b>關鍵技術

    2023年度中國半導體十大研究進展出爐,一項傳感器技術入榜(附全名單)

    來源:《半導體學報》? ?2月5日,《半導體學報》發布2023年度“中國半導體十大研究進展”名單,其中,一項傳感技術入選。 ? 由中國科學院上海技術物理研究所紅外科學與技術重點實驗室胡偉達、苗金水
    的頭像 發表于 02-20 08:37 ?937次閱讀
    2023年度中國半導體十大<b class='flag-5'>研究</b>進展出爐,<b class='flag-5'>一項</b>傳感器技術入榜(附全名單)
    澳门百家乐破解| 百家乐官网赌博机怎么玩| 太子娛樂城网址| 大发888手机真钱游戏| 缅甸百家乐官网的玩法技巧和规则 | 大发888真钱娱乐游戏博彩| 百家乐庄闲必胜规| 百家乐游戏机说明书| 百家乐太阳城小郭| 太阳百家乐3d博彩通| 澳门百家乐官网现场游戏| 线上百家乐官网开户| 百家乐官网网上赌有作假吗| 百家乐官网百战百胜| 千亿娱百家乐官网的玩法技巧和规则 | 实战百家乐博彩正网| 百家乐轮盘技巧| 澳门百家乐自杀| 玩百家乐平台| 百家乐国际赌场娱乐网规则| 太阳城橙翠园| 丰合网上娱乐| 乐宝百家乐官网娱乐城| 百家乐官网游乐园 | 百家乐官网赌场破解| 百家乐官网网上漏洞| 百家乐群东方鸿运| 电子百家乐作假| 大发888官网46| 真人网上娱乐城| 百家乐官网赌经| 利都百家乐官网国际赌场娱乐网规则 | 骰子百家乐的玩法技巧和规则| 大发888官网 df888ylcxz46| 赌博堕天录漫画| 肃宁县| 爱婴百家乐官网的玩法技巧和规则 | 玩百家乐官网怎么能赢呢| 玩百家乐有何技巧| 白金娱乐城| 新锦江百家乐官网娱乐场开户注册|