據(jù)外媒VentureBeat報道,來自三星、麥吉爾大學和約克大學的研究人員,近日研發(fā)出一個全新的生成式多模態(tài)感知AI框架,能夠根據(jù)物體初始狀態(tài)的視覺和觸覺數(shù)據(jù),來預測出物體的運動趨勢。
據(jù)悉,這是第一個利用視覺和觸覺感知來學習多模態(tài)動力學模型的研究。
運動預測是自動化領(lǐng)域的一大關(guān)鍵技術(shù),通過預判物體和環(huán)境的交互方式,自動化系統(tǒng)得以作出更加智能的決策。該團隊的這項研究,似乎又將這一技術(shù)的應用向前推進了一步。
這篇論文名為《基于多模態(tài)的生成模型指導的直觀物理研究(Learning Intuitive Physics with Multimodal Generative Models)》,已發(fā)表于arXiv平臺。
論文鏈接:
https://arxiv.org/pdf/2101.04454.pdf
一、運動預測有挑戰(zhàn):摩擦力、壓力難確定
假如你要接住一個掉落的物體,你會迅速判斷它的運動走向,然后準確接住它。
但對于一個機器人來說,要準確預測出物體還未發(fā)生的運動趨勢,可不是一件容易的事。
近期,不少運動預測方面的AI研究,都指出了觸覺和視覺之間的協(xié)同作用。
其中,觸覺數(shù)據(jù)可以反映物體和環(huán)境間的作用力、由此產(chǎn)生的物體運動和環(huán)境接觸等關(guān)鍵信息,提供一種展現(xiàn)物體與環(huán)境交互過程的整體視角;視覺數(shù)據(jù)則可以直觀反映了立體形狀、位置等物體屬性。
在本文研究人員看來,視覺、觸覺信號的組合,或有助于推測出物體運動后的最終穩(wěn)定狀態(tài)。
研究人員在論文寫道:“先前的研究表明,由于摩擦力、幾何特性、壓力分布存在不確定性,預測運動對象的軌跡具有挑戰(zhàn)性。”
比如推一個瓶子,如何準確預測這個動作的結(jié)果,接下來這個瓶子是會向前移動,還是會翻倒?
▲《基于多模態(tài)的生成模型指導的直觀物理研究(Learning Intuitive Physics with Multimodal Generative Models)》論文插圖
為了減少這種不確定性,研究團隊設(shè)計并實現(xiàn)了一個由軟硬件組成的高質(zhì)量AI感知系統(tǒng),經(jīng)訓練后,該系統(tǒng)能捕獲到運動軌跡中最關(guān)鍵、最穩(wěn)定的元素,從而準確測量和預測物體落在表面上的最終靜止狀態(tài)。
二、開發(fā)新型視覺觸覺傳感器,打造多模態(tài)感知系統(tǒng)
動態(tài)預測常被表述為一個高分辨率的時間問題,但在此項研究中,研究人員關(guān)注的是物體運動后的最終結(jié)果,而不是預測細粒度的物體運動軌跡。
研究人員認為,關(guān)注未來關(guān)鍵時間的結(jié)果,有助于大大提高模型預測的準確度和可靠性。
該研究團隊開發(fā)了一款名為“透視肌膚(STS,See-Through-Your-Skin)”的新型視覺-觸覺多模態(tài)傳感器,可以同時捕捉物體的視覺和觸覺特征數(shù)據(jù),并重建在1640×1232的高分辨率圖像中。
由于光學觸覺傳感器通常使用不透明和反光的涂料涂層,研究人員開發(fā)了一種具有可控透明度的薄膜,使得傳感器能同時采集關(guān)于物理交互的觸覺信息和傳感器外部世界的視覺信息。
具體而言,研究人員通過改變STS傳感器的內(nèi)部照明條件,來控制傳感器的觸覺和視覺測量的占空比,從而設(shè)置了反光涂料層的透明度。
如上圖左上角所示,利用內(nèi)部照明可將傳感器表面變成透明,從而使得傳感器內(nèi)置攝像頭能直接采集傳感器外部世界的圖像;上圖的左下角顯示,傳感器也可以保持內(nèi)外一致的亮度,通過感知膜形變來采集物理交互觸覺信息。
借助STS傳感器和PyBullet模擬器,研究人員在動態(tài)場景中快速生成大量物體交互的視覺觸覺數(shù)據(jù)集,用于驗證其感知系統(tǒng)的性能。
受多模態(tài)變分自編碼器(MVAE)啟發(fā),研究團隊設(shè)計了一個生成式多模態(tài)感知系統(tǒng),在一個統(tǒng)一的MVAE框架內(nèi)集成了視覺、觸覺和3D Pose反饋。
MVAE可以解讀STS傳感器采集的視覺、觸覺數(shù)據(jù),將所有模態(tài)的物體關(guān)鍵信息映射到一個共享的嵌入空間,用于推斷物體在運動后最終的穩(wěn)定狀態(tài)。
實驗結(jié)果表明,MVAE架構(gòu)可以被訓練用于預測多模態(tài)運動軌跡中最穩(wěn)定和信息最豐富的元素。
三、不懼單一模態(tài)信息缺失,準確預測物體未來狀態(tài)
該研究團隊生成的視覺觸覺數(shù)據(jù)庫主要包含三種動態(tài)模擬場景,分別是物體在平面上自由落體、物體在斜面上下滑、物體在靜止狀態(tài)下收到外力擾動。
下圖顯示了模擬三種動態(tài)場景的示例集,頂部一行顯示3D Pose視圖,中間一行、底部一行分別顯示STS傳感器采集的視覺和觸覺結(jié)果。
研究人員在三種模擬動態(tài)場景和使用STS傳感器的真實實驗場景中,分別驗證了其動力學模型的預測能力。
如下方圖表顯示,在三種模擬場景中的固定步和最終步預測中,相比僅依賴視覺(VAE-visual only)或僅依賴觸覺(VAE-tactile only)的單模態(tài)感知模型,多模態(tài)感知模型(MVAE)在驗證集中的二進制交叉熵誤差(BCE)均值更小,即預測結(jié)果的準確性更高。
研究人員還用基于高時間分辨率的模型進行對比實驗,發(fā)現(xiàn)這一模型在預測物體最終靜止狀態(tài)時,準確性要高于動態(tài)模型。這是由于不確定性和錯誤會隨著時間前向傳播,導致模糊和不精確的預測。
結(jié)果表明,在對中間狀態(tài)不感興趣的動態(tài)場景中,該AI框架能以更高的準確度來預測最終結(jié)果,而無需明確推理中間步驟。
此外,由于該研究方法破譯了觸覺、視覺、物體姿態(tài)之間的映射關(guān)系,因此即便某一模態(tài)信息缺失,比如缺乏觸覺信息時,該框架仍然可以從視覺信息推測出視覺信息,從而預測物體運動后的最終落點。
結(jié)語:制造業(yè)自動化將是運動預測的一大應用場景
該研究團隊的這項新成果能夠基于觸覺、視覺的雙模態(tài)數(shù)據(jù)對物體的運動軌跡進行預判,并推測出物體的最終靜止狀態(tài)。
相較于以往的運動預測技術(shù),該研究團隊實現(xiàn)了觸覺和視覺數(shù)據(jù)的雙向推測,為制造業(yè)的自動化場景提供了更多的可能性。
比如,揀貨機器人能夠更準確地判斷貨物的運動狀態(tài),從而提高拾取精度;貨架機器人能夠提前預判貨物的運動軌跡,從而防止貨物跌落破損,減少損失。
不過,這項成果能夠預測的運動狀態(tài)還相對有限,我們期待研究團隊對復雜的運動模式、多樣的物體形態(tài)進行更多的模擬和技術(shù)攻關(guān)。
責任編輯:PSY
-
AI
+關(guān)注
關(guān)注
87文章
31518瀏覽量
270334 -
自動化
+關(guān)注
關(guān)注
29文章
5622瀏覽量
79663 -
智能感知
+關(guān)注
關(guān)注
2文章
98瀏覽量
17823 -
運動物體
+關(guān)注
關(guān)注
0文章
4瀏覽量
6747
發(fā)布評論請先 登錄
相關(guān)推薦
評論