衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何實(shí)現(xiàn)更高效的VLN算法

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:CAAI認(rèn)知系統(tǒng)與信息處理專 ? 作者:CAAI認(rèn)知系統(tǒng)與信息 ? 2022-07-13 14:54 ? 次閱讀

視覺(jué)-語(yǔ)言導(dǎo)航任務(wù)(Vision-Language Navigation, VLN)是指在陌生環(huán)境中,無(wú)人系統(tǒng)依據(jù)語(yǔ)言指示和觀測(cè)圖像之間的跨模態(tài)匹配信息,進(jìn)行自主智能路徑導(dǎo)航的方法。不同于前進(jìn)、后退等簡(jiǎn)單操控指令,VLN采用類似人人交互的語(yǔ)言指示,比如“走出右側(cè)大門,穿過(guò)臥室和客廳,在綠色地毯上的餐桌旁停下”。VLN是一種新型的跨模態(tài)智能人機(jī)交互方法,能夠極大地提升無(wú)人系統(tǒng)的自主能力,能夠?yàn)闊o(wú)人系統(tǒng)走向?qū)嵱锰峁╆P(guān)鍵技術(shù)支撐。

序列到序列(Sequence to Sequence, Seq2Seq)模型是VLN最常見的模型之一。Seq2Seq首先對(duì)語(yǔ)言指令進(jìn)行序列編碼,再根據(jù)逐步觀測(cè)的視覺(jué)圖像,進(jìn)行序列移動(dòng)方向預(yù)測(cè)解碼,從而實(shí)現(xiàn)智能導(dǎo)航。最新的研究表明:在解碼時(shí),利用Beam-Search進(jìn)行多條路徑探索,通過(guò)路徑評(píng)價(jià)函數(shù)獲得最優(yōu)導(dǎo)航路徑,可以獲得更好的導(dǎo)航精度。但現(xiàn)有工作使用的路徑評(píng)價(jià)函數(shù)是由局部方向選擇算子組合構(gòu)建的,在全局多條路徑對(duì)比上能力不足,可能會(huì)出現(xiàn)嚴(yán)重偏差,如圖1。

d1536476-01c9-11ed-ba43-dac502259ad0.png

圖1 VLN分?jǐn)?shù)偏差問(wèn)題示例

為了解決該問(wèn)題,軍事科學(xué)院國(guó)防科技創(chuàng)新研究院智能人機(jī)交互團(tuán)隊(duì)設(shè)計(jì)了新型全局路徑評(píng)估函數(shù),提出了一種全局對(duì)比訓(xùn)練的策略,大幅提升了VLN的導(dǎo)航精度。相關(guān)論文《Vision-Language Navigation with Beam-Constrained Global Normalization》已被國(guó)際知名期刊 IEEE Transactions on Neural Networks and Learning Systems錄用;該論文在提交時(shí),算法性能在公開VLN數(shù)據(jù)集R2R(Room-to-Room)上排名第一。

d16cc222-01c9-11ed-ba43-dac502259ad0.jpg

榜單地址:https://eval.ai/web/challenges/challenge-page/97/leaderboard/270

主要工作與貢獻(xiàn)該論文提出了一種基于全局對(duì)比訓(xùn)練的視覺(jué)-語(yǔ)言導(dǎo)航方法,可以對(duì)候選路徑進(jìn)行跨模態(tài)全局匹配評(píng)估。不同于傳統(tǒng)方法,該論文主要聚集在如何利用正確路徑和錯(cuò)誤路徑進(jìn)行對(duì)比訓(xùn)練,獲得較優(yōu)的全局語(yǔ)言-路徑匹配評(píng)估函數(shù),有效提升VLN的導(dǎo)航精度。論文算法框架可以分為兩個(gè)部分:(1)Baseline:Seq2Seq模型,基于局部訓(xùn)練的序列動(dòng)作預(yù)測(cè),用于訓(xùn)練語(yǔ)言-路徑匹配的局部評(píng)估函數(shù);(2)全局對(duì)比訓(xùn)練模型:基于全局對(duì)比訓(xùn)練的全局評(píng)估函數(shù)。在測(cè)試時(shí),將局部評(píng)估函數(shù)和全局評(píng)估函數(shù)進(jìn)行結(jié)合,實(shí)現(xiàn)高精度的導(dǎo)航路徑預(yù)測(cè),如圖2所示。

d1a03f94-01c9-11ed-ba43-dac502259ad0.png

圖2 基于全局對(duì)比訓(xùn)練的VLN框架

A Baseline 如圖2所示,該論文選擇Seq2Seq模型作為Baseline,首先將語(yǔ)言信息進(jìn)行編碼,再基于視覺(jué)信息進(jìn)行動(dòng)作預(yù)測(cè)解碼。語(yǔ)言編碼:利用LSTM對(duì)輸入的自然語(yǔ)言文本進(jìn)行編碼,獲得文本指令的特征向量。視覺(jué)編碼:利用ResNet-152對(duì)觀測(cè)圖像進(jìn)行特征提取,結(jié)合運(yùn)動(dòng)方向特征進(jìn)行視覺(jué)編碼。動(dòng)作預(yù)測(cè):采用Seq2Seq模型進(jìn)行動(dòng)作解碼,獲得序列導(dǎo)航動(dòng)作。進(jìn)度監(jiān)視器:作為一項(xiàng)必不可少的輔助推理任務(wù),進(jìn)度監(jiān)視器可以提供來(lái)自環(huán)境的額外訓(xùn)練信息。訓(xùn)練:局部對(duì)比訓(xùn)練,只考慮當(dāng)前環(huán)境及下一步動(dòng)作。局部評(píng)估函數(shù):通過(guò)將局部方向選擇概率值累加,獲得整個(gè)路徑與描述語(yǔ)言的匹配度。B 基于Beam-Search的全局對(duì)比訓(xùn)練策略

Baseline將一個(gè)路徑的匹配度計(jì)算分解為單步方向選擇得分累加,由于單步方向得分是單獨(dú)計(jì)算的,沒(méi)有明確涵蓋全局信息,因此將Baseline評(píng)估函數(shù)稱為局部評(píng)估函數(shù)。由于局部評(píng)估函數(shù)沒(méi)有從全局視角考慮路徑和語(yǔ)言的匹配度,所以局部得分累加的方式容易出現(xiàn)匹配錯(cuò)誤,為了緩解這一問(wèn)題,本文提出了明確的全局匹配評(píng)估函數(shù),并設(shè)計(jì)了全局訓(xùn)練策略進(jìn)行優(yōu)化訓(xùn)練,從而獲得高效的全局匹配評(píng)估函數(shù)。

具體來(lái)說(shuō),本文訓(xùn)練了一個(gè)全局評(píng)估子模型,主要用來(lái)進(jìn)行路徑-語(yǔ)言全局匹配評(píng)估,從而使得不同路徑的評(píng)估得分更加具有可比性。

d1b792b6-01c9-11ed-ba43-dac502259ad0.png

圖3 深度多模態(tài)相似性模塊和speaker模塊示意圖

DMSM模塊:計(jì)算語(yǔ)言的整體描述特征與路徑視覺(jué)的整體描述特征之間的距離;距離越近,則路徑和語(yǔ)言越匹配。Speaker模塊:根據(jù)路徑反向生成指令語(yǔ)言的概率,是VLN的逆命題,可以反映全局路徑和語(yǔ)言的匹配度。全局對(duì)比訓(xùn)練:在訓(xùn)練時(shí),利用Beam-Search搜索出多條正確路徑和多條錯(cuò)誤路徑,設(shè)計(jì)對(duì)比損失函數(shù),使得正確路徑得分高于錯(cuò)誤路徑,可以有效地對(duì)全局評(píng)估模塊DMSM和Speaker模塊進(jìn)行訓(xùn)練。全局評(píng)估函數(shù):在測(cè)試時(shí),對(duì)于任意一對(duì)路徑和語(yǔ)言,分別利用DMSM和Speaker模塊對(duì)二者之間的匹配度進(jìn)行計(jì)算,通過(guò)線性疊加,可以獲得該路徑的全局評(píng)估得分。

實(shí)驗(yàn)結(jié)果算法的測(cè)試是在VLN公開數(shù)據(jù)集上進(jìn)行的。本文對(duì)比了多個(gè)現(xiàn)有經(jīng)典VLN算法,實(shí)驗(yàn)結(jié)果表明,本文提出的算法導(dǎo)航精度比Baseline高出13%,顯著度較高;在同期VLN算法的導(dǎo)航精度最高,證明了本文算法的有效性。

d1cca2fa-01c9-11ed-ba43-dac502259ad0.png

總結(jié)與展望本研究提出了一種 VLN 全局對(duì)比訓(xùn)練方法,用于緩解現(xiàn)有局部評(píng)估函數(shù)在全局路徑-語(yǔ)言匹配評(píng)估方面的不足。該方法核心要點(diǎn)是如何從錯(cuò)誤路徑/負(fù)樣本中學(xué)到有用的信息,這是現(xiàn)有其他VLN算法關(guān)注較少的地方,也是本文的落腳點(diǎn),實(shí)驗(yàn)結(jié)果表明了本文方法的有效性。

最近,通過(guò)視覺(jué)-語(yǔ)言跨模態(tài)預(yù)訓(xùn)練模型在VLN中性能表現(xiàn)優(yōu)越,比如VLN BERT,相對(duì)于傳統(tǒng)LSTM模型,預(yù)訓(xùn)練能夠獲得更多的先驗(yàn)知識(shí),能夠?yàn)閂LN提供更魯棒的基礎(chǔ)框架,本文未來(lái)工作將在VLN BERT等預(yù)訓(xùn)練模型的基礎(chǔ)上,進(jìn)一步利用全局對(duì)比訓(xùn)練方法,實(shí)現(xiàn)更高效的VLN算法。

原文標(biāo)題:VLN: 基于全局對(duì)比訓(xùn)練的視覺(jué)-語(yǔ)言導(dǎo)航方法

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 智能導(dǎo)航
    +關(guān)注

    關(guān)注

    0

    文章

    24

    瀏覽量

    9983
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4346

    瀏覽量

    62971
  • 訓(xùn)練模型
    +關(guān)注

    關(guān)注

    1

    文章

    36

    瀏覽量

    3887

原文標(biāo)題:VLN: 基于全局對(duì)比訓(xùn)練的視覺(jué)-語(yǔ)言導(dǎo)航方法

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    解碼TW6501:ONFI 5.0協(xié)議如何令存儲(chǔ)通訊更高效

    解碼TW6501:ONFI 5.0協(xié)議如何令存儲(chǔ)通訊更高效
    的頭像 發(fā)表于 01-21 14:51 ?116次閱讀
    解碼TW6501:ONFI 5.0協(xié)議如何令存儲(chǔ)通訊<b class='flag-5'>更高效</b>

    【「從算法到電路—數(shù)字芯片算法的電路實(shí)現(xiàn)」閱讀體驗(yàn)】+內(nèi)容簡(jiǎn)介

    內(nèi)容簡(jiǎn)介這是一本深入解讀基礎(chǔ)算法及其電路設(shè)計(jì),以打通算法研發(fā)到數(shù)字IC設(shè)計(jì)的實(shí)現(xiàn)屏障,以及指導(dǎo)芯片設(shè)計(jì)工程師從底層掌握復(fù)雜電路設(shè)計(jì)與優(yōu)化方法為目標(biāo)的專業(yè)技術(shù)書。任何芯片(如WiFi芯片、5G芯片
    發(fā)表于 11-21 17:14

    【「從算法到電路—數(shù)字芯片算法的電路實(shí)現(xiàn)」閱讀體驗(yàn)】+一本介紹基礎(chǔ)硬件算法模塊實(shí)現(xiàn)的好書

    作為嵌入式開發(fā)者往往比較關(guān)注硬件和軟件的協(xié)調(diào)。本書介紹了除法器,信號(hào)發(fā)生器,濾波器,分頻器等基本算法的電路實(shí)現(xiàn),雖然都是基礎(chǔ)內(nèi)容,但是也是最常用到的基本模塊,本書的內(nèi)容比較對(duì)本人胃口。 我們先來(lái)
    發(fā)表于 11-20 13:42

    盛顯科技:拼接處理器如何實(shí)現(xiàn)高效數(shù)據(jù)拼接操作?

    推動(dòng)各行各業(yè)數(shù)字化轉(zhuǎn)型與提升用戶體驗(yàn)的關(guān)鍵力量。那么您知道拼接處理器如何實(shí)現(xiàn)高效數(shù)據(jù)拼接操作?下面盛顯科技小編為您介紹: 拼接處理器實(shí)現(xiàn)高效數(shù)據(jù)拼接操作,主要可以通過(guò)以下幾個(gè)方面來(lái)達(dá)成
    的頭像 發(fā)表于 10-23 10:58 ?290次閱讀
    盛顯科技:拼接處理器如何<b class='flag-5'>實(shí)現(xiàn)</b><b class='flag-5'>高效</b>數(shù)據(jù)拼接操作?

    使用qboot時(shí)選擇了壓縮率更高的zip算法,但是發(fā)現(xiàn)編譯報(bào)錯(cuò),為什么?

    在使用qboot時(shí)選擇了壓縮率更高的zip算法,但是發(fā)現(xiàn)編譯報(bào)錯(cuò),如下圖:
    發(fā)表于 09-26 07:22

    C加密算法實(shí)現(xiàn)

    電子發(fā)燒友網(wǎng)站提供《C加密算法實(shí)現(xiàn).pdf》資料免費(fèi)下載
    發(fā)表于 09-20 11:10 ?1次下載
    C加密<b class='flag-5'>算法</b>的<b class='flag-5'>實(shí)現(xiàn)</b>

    智能升級(jí),樓宇自控系統(tǒng)讓辦公更高效

    智能升級(jí),樓宇自控系統(tǒng)讓辦公更高效 在快節(jié)奏的現(xiàn)代都市生活中,辦公效率成為了企業(yè)競(jìng)爭(zhēng)力的關(guān)鍵因素之一。隨著科技的飛速發(fā)展,樓宇自控系統(tǒng)作為智能建筑的核心技術(shù),正逐步滲透到我們的辦公環(huán)境中,以其獨(dú)特
    的頭像 發(fā)表于 09-19 14:12 ?314次閱讀

    GaN如何實(shí)現(xiàn)更高效、更緊湊的電源

    電子發(fā)燒友網(wǎng)站提供《GaN如何實(shí)現(xiàn)更高效、更緊湊的電源.pdf》資料免費(fèi)下載
    發(fā)表于 09-12 10:00 ?0次下載
    GaN如何<b class='flag-5'>實(shí)現(xiàn)</b><b class='flag-5'>更高效</b>、更緊湊的電源

    充電也要算法??jī)?chǔ)能充電芯片中的算法處理器

    或充電設(shè)備中,負(fù)責(zé)實(shí)時(shí)監(jiān)控電池狀態(tài),執(zhí)行充電策略,并調(diào)整充電參數(shù),如電流和電壓。 ? 比如算法處理器可以執(zhí)行復(fù)雜的充電算法,如恒流/恒壓充電、脈沖充電、智能協(xié)商充電等,這些算法能夠根據(jù)電池的狀態(tài)調(diào)整充電參數(shù),
    的頭像 發(fā)表于 07-30 00:07 ?3807次閱讀

    如何使用PyTorch構(gòu)建更高效的人工智能

    術(shù)界和工業(yè)界得到了廣泛應(yīng)用。本文將深入探討如何使用PyTorch構(gòu)建更高效的人工智能系統(tǒng),從框架基礎(chǔ)、模型訓(xùn)練、實(shí)戰(zhàn)應(yīng)用等多個(gè)方面進(jìn)行詳細(xì)解析。
    的頭像 發(fā)表于 07-02 13:12 ?447次閱讀

    STM32如何詮釋電機(jī)控制創(chuàng)新 如何更高效更智能

    為了提高電機(jī)系統(tǒng)的效率,電機(jī)控制技術(shù)大有可為。通過(guò)采用性能更高、集成度更高的半導(dǎo)體器件,功能強(qiáng)大且安全的微控制器,更智能的傳感器,結(jié)合更優(yōu)化的軟件算法,可實(shí)現(xiàn)提升效率、降低損耗的目的。
    發(fā)表于 06-06 10:44 ?852次閱讀
    STM32如何詮釋電機(jī)控制創(chuàng)新 如何<b class='flag-5'>更高效</b>更智能

    笙泉、呈功攜手推出FOC智能型調(diào)機(jī)系統(tǒng),實(shí)現(xiàn)高效開發(fā)馬達(dá)控制產(chǎn)品

    本帖最后由 noctor 于 2024-6-3 14:45 編輯 笙泉、呈功攜手推出FOC智能型調(diào)機(jī)系統(tǒng),實(shí)現(xiàn)高效開發(fā)馬達(dá)控制產(chǎn)品 FOC智能型調(diào)機(jī)系統(tǒng)笙泉科技 近幾年持續(xù)致力于開發(fā)
    發(fā)表于 06-03 11:58

    FPGA能實(shí)現(xiàn)什么樣的算法?

    FPGA功能如此強(qiáng)大,請(qǐng)問(wèn)用FPGA能實(shí)現(xiàn)或者比較適合實(shí)現(xiàn)什么樣的算法?
    發(fā)表于 05-26 20:18

    深圳特信電子|車載車庫(kù)GPS信號(hào)探測(cè)器:讓停車管理更高效智能

    深圳特信電子|車載車庫(kù)GPS信號(hào)探測(cè)器:讓停車管理更高效智能
    的頭像 發(fā)表于 05-23 08:54 ?377次閱讀

    視頻光纖矩陣技術(shù)的發(fā)展趨勢(shì):更快、更穩(wěn)定、更高效

    隨著信息技術(shù)的迅猛發(fā)展,視頻光纖矩陣技術(shù)作為高清視頻傳輸與處理的核心技術(shù),正迎來(lái)其發(fā)展的黃金時(shí)期。未來(lái),視頻光纖矩陣技術(shù)的發(fā)展將呈現(xiàn)出更快、更穩(wěn)定、更高效的趨勢(shì)。 首先,速度的提升是視頻光纖矩陣
    的頭像 發(fā)表于 02-19 14:44 ?391次閱讀
    大发888 迅雷快传| 百家乐洗码软件| 万博网址| 百家乐路单网下载| 百家乐官网数据程序| 百家乐娱乐真人娱乐| 百家乐官网英皇娱乐平台| 立博国际| 线上百家乐开户| 百家乐官网象棋玩法| 大发888线上娱乐百家乐| 百家乐官网套利| 立博百家乐官网游戏| 威尼斯人娱乐城送彩金| 巴厘岛百家乐官网娱乐城| 方山县| KK百家乐娱乐城| 24山向山摆设| 博E百百家乐官网娱乐城| 大发888娱乐真钱游戏 官方| 百家乐扑克桌布| 南京百家乐官网在哪| 瑞博国际娱乐| 百家乐tt赌场娱乐网规则| 加州百家乐官网的玩法技巧和规则| 彭阳县| 澳门百家乐手机软件| 百家乐庄家提成| 澳门百家乐官网在线| 博王娱乐| 威尼斯人娱乐公司| 百家乐玩家技巧分享| 德州扑克网页游戏| 百家乐真人斗地主| 蓝宝石百家乐官网娱乐城| 百家乐官网连输的时候| 棋牌室转让| 蓝盾百家乐赌场娱乐网规则| 赌百家乐心里技巧| 百家乐官网专业赌博| 百家乐官网客户端下载|