衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

場景流論文速記—RGBD圖像場景流

電子設計 ? 來源:電子設計 ? 作者:電子設計 ? 2020-12-10 19:28 ? 次閱讀
簡單記一下最近看的六篇場景流論文~其中3篇是關于RGBD圖像的場景流,另外3篇是關于點云的場景流。
來源:https://zhuanlan.zhihu.com/p/85663856
作者:林小北

所謂場景流,就是光流的三維版本,表述了圖像/點云中每個點在前后兩幀的變化情況。目前對場景流的研究還局限在實驗室階段,由于缺乏實際數據(打標成本太高)以及客觀的評價指標,離工程應用還有不小的距離。此外,巨大的計算量也是一個瓶頸。以下論文可以在文末直接下載。

《Deep Rigid Instance Scene Flow》 CVPR 2019

輸入:雙目攝像頭的前后幀左右圖像

核心思想:把場景流分割成多個actor的運動,利用MaskRCNN進行Instance Segmentation,每個Instance的Motion都應該與深度和光流一致。

首先,利用三個預先訓練好的子網絡提取視覺線索:

a. 利用MaskRCNN進行Instance Segmentation
b. 利用PSM-Net計算深度圖(disparity map)
c. 利用PWC-Net計算光流

之后,采用高斯牛頓法最小化下面三個能量函數之和得到3D motion:

a. Photometric Error:前一幀左邊圖像的inlier像素點,與第二幀的投影位置的像素點必須盡量一致
b. Rigid Fitting:估計出的剛體運動必須與觀察到的深度和光流信息一致
c. Flow Consistency:估計出的剛體運動在2d上的投影必須和光流一致

《Learning Rigidity in Dynamic Scenes with a Moving Camera for 3D Motion Field Estimation》 ECCV 2018

輸入:前后幀圖像的RGBD信息

核心思想:把圖像分割為rigid/no-rigid區域,計算rigid區域的ego motion后再結合光流即可得到scene flow。

先利用兩個預先訓練好的子網絡提取特征:

a. 利用PWCNet提取前后兩幀的光流
b. 利用 rigidity-transform network (RTN)預測ego-motion以及rigidity mask

之后,結合光流、rigidity mask對ego motioon進行refine,保證rigity里面的像素點的光流與ego-motion一致。

最后,綜合利用光流、rigidity mask、ego motioon信息即可得到scene flow。

備注:本文的另一個貢獻是提出了一個用于場景流的數據庫REFRESH。在kitti的inference結果如下,不是很好。

《Every Pixel Counts ++: Joint Learning of Geometry and Motion with 3D Holistic Understanding》TPAMI

輸入:單目/雙目攝像頭的前后幀圖像

核心思想:先用三個子網絡估計光流、深度、camera motion,送入holistic 3D motion parser (HMP) 按照幾何關系即可計算出rigid background的motion和moving objects的motion。

三個子網絡先分別進行預訓練,再結合HMP考慮如下loss優化三個子網絡:

a. Rigid-aware structural matching:按照3D motion投影后rigid部分的結構特點應該match
b. Edge-aware local smoothness:投影后的深度和光流的應該保持smoothness
c. Rigid-aware 3D motion consistency:rigid background的moving object motion值應該盡量小
d. Flow motion consistency in occluded regions:occluded regions的光流前后映射應該一致
e. Multi-scale penalization:累加4個尺度的loss

備注:在雙目攝像頭的表現優于單目。通過joint learning,光流、深度、camera motion的表現均有提升。

在Kitti上的表現如下,算是差強人意吧。

本文作者還有一篇工作《Every Pixel Counts: Unsupervised Geometry Learning with Holistic 3D Motion Understanding》,是關于估計ego motion的。

《FlowNet3D: Learning Scene Flow in 3D Point Clouds》 CVPR 2018

輸入:僅使用點云數據

核心思想:采用pointnet++作為基本模塊,提取前后兩幀點云特征并進行融合、上采樣,直接擬合出scene flow

網絡結構如下:

a. 4組set conv layer:pointnet++ 提取點云特征
b. 1組flow embedding layer: 把前后兩幀的點云特征mix,第一幀的取中心點,其臨近點從第二幀取,再提取特征
c. 4組set upconv layer:上采樣,新增點從鄰近點獲取特征

loss為smooth L1 loss

備注:在合成數據集上訓練的模型可以直接在kitti上work,但與圖像場景流的論文不同,沒有把background和moving object做區分,沒有考慮ego motion。

《HPLFlowNet: Hierarchical Permutohedral Lattice FlowNet for Scene Flow Estimation on Large-scale Point Clouds》 CVPR 2019

輸入:僅使用點云數據

核心思想:采用Bilateral Convolutional Layers作為基本模塊,提取前后兩幀點云特征并進行融合、上采樣,直接擬合出scene flow。

備注:與FlowNet3D的整體結構一樣,都是下采樣-融合-上采樣。Bilateral Convolutional Layers能夠快速處理高維稀疏數據,是不同于PointNet的一種濾波操作。

《PointFlowNet: Learning Representations for Rigid Motion Estimation from Point Clouds》 CVPR 2019

輸入:僅使用點云數據

核心思想:利用點云數據提取特征后,分別生成ego motion、scene flow、rigid motion、objection location,再整合結果輸出

細節如下:

a. 采用VolexNet作為feature encoder
b. 把前后兩幀的特征進行concate,接入context encoder
c. 之后,接入三個分支:

i. ego-miotion regressor
ii. sceneflow decoder -> rigid motion decoder(證明了rigid motion decoder 無法使用卷積層,故此處采用了fc)
iii. objection location decoder

d. 把檢測出的object和motion融合得到結果

loss為 Scene Flow Loss + Rigid Motion Loss + Ego-motion Loss + Detection Loss

備注:本文思路與圖像類方法很像,也是考慮各個instance的motion。

總結

  • Deep Rigid Instance Scene Flow:

輸入為雙目圖像,用MaskRCNN把動靜態障礙物分開。三個子網絡分別獨立訓練并計算出Instance Segmentation、深度圖、光流,利用三個子網絡的結果計算motion,進而得到scene flow。

  • Learning Rigidity in Dynamic Scenes with a Moving Camera for 3D Motion Field Estimation:

輸入為RGBD圖像,兩個子網絡分別獨立訓練并算出光流、ego-motion&rigid mask,refine ego motion后算出scene flow。

  • Every Pixel Counts ++:

輸入為單目/雙目攝像頭,先用三個子網絡估計光流、深度、camera motion,再按照幾何關系計算出rigid background的motion和moving objects的motion,之后根據一致性對三個子網絡進行優化。

  • FlowNet3D 以及 HPLFlowNet:

分別對前后兩幀點云下采樣提取特征并進行融合、上采樣,直接擬合出scene flow。

  • PointFlowNet(思路類似Deep Rigid Instance Scene Flow):

采用volexnet提取前后兩幀點云特征并融合,先檢測出object、計算出ego motion、scene flow,再去回歸各個object的motion。

審核編輯:符乾江
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    31536

    瀏覽量

    270353
  • 人工智能
    +關注

    關注

    1796

    文章

    47683

    瀏覽量

    240313
收藏 人收藏

    評論

    相關推薦

    控行業中的恒壓泵和灌流泵的區別

    控恒壓泵和灌流泵的主要區別在于它們的工作原理、應用場景以及流量控制的穩定性和精度?。 一、工作原理? 微控恒壓泵:基于氣體驅動技術,能夠精準輸出恒定壓力的微量流體,實現無脈沖流動。它設計精巧
    的頭像 發表于 02-05 16:03 ?49次閱讀

    華為支付-(可選)特定場景配置操作

    如涉及以下場景,需提前完成相關產品的開通或配置操作。如不涉及,則不需要配置。 場景一:產品開通操作 部分支付場景接入涉及產品開通,未開通產品直接接入,商戶請求華為支付開放的API接口時可能會導致
    發表于 01-21 10:30

    多用示波器的原理和應用場景

    多用示波器是一種功能強大的電子測量儀器,其原理和應用場景如下:一、原理多用示波器主要是利用電子示波管的特性,將人眼無法直接觀測的交變電信號轉換成圖像,顯示在熒光屏上以便測量。具體來說,當被測信號輸入
    發表于 01-09 15:42

    系統放大器的技術原理和應用場景

    系統放大器是一種重要的電子設備,其技術原理和應用場景都具有一定的專業性和廣泛性。以下是對系統放大器的技術原理和應用場景的詳細介紹:一、技術原理系統放大器的工作原理基于電子器件的非線性特性,通過控制
    發表于 11-18 14:46

    HarmonyOS NEXT應用元服務開發控件位置調整場景與重新設置新焦點位置的場景

    一、控件位置調整場景 移動過程中需要實時播報即將移動到的位置,新位置的播報會打斷老位置的播報,放置到確定位置后,需要再播報已經放置的位置信息,盡量保證視障用戶耳朵聽到的信息和我們通過眼睛看到的信息
    發表于 10-25 09:49

    實時示波器的技術原理和應用場景

    波形圖像。在信號處理方面,示波器首先將接收到的被測信號進行放大和濾波等處理,以確保信號的準確性和穩定性。然后,通過A/D轉換技術,將模擬信號轉換為數字信號,以便進行后續的數字處理和顯示。二、應用場景
    發表于 10-23 14:22

    控制和恒壓控制的區別

    在DC-DC電源中,按照電源管理技術,可分為恒壓和恒控制技術,這兩個模型各自有特定的應用場景和工作原理,如何區分這兩個技術之間的區別?下面一起來看看吧!
    的頭像 發表于 10-15 13:45 ?1014次閱讀

    PDMS微控芯片和PMMA微控芯片的區別

    PDMS(聚二甲基硅氧烷)和PMMA(聚甲基丙烯酸甲酯,又稱丙烯酸或有機玻璃)是兩種常見的微控芯片材料,它們各自有不同的特性和應用場景。 材料特性 PDMS: 優點: 高分子材料,具有透明性、彈性
    的頭像 發表于 09-25 16:03 ?610次閱讀

    如何有效解決固耦合問題

    固耦合問題的基本概念 固耦合問題是指在流體和固體相互作用的過程中,流體的運動受到固體邊界的影響,同時固體的變形和應力狀態也受到流體的作用。固耦合問題具有以下特點: 1.1 多學科性:
    的頭像 發表于 08-09 15:16 ?872次閱讀

    LED恒驅動芯片:升壓恒和降壓恒的區別和應用場景

    輸入電壓,使其高于LED正常工作電壓,以實現恒定的LED電流輸出。在升壓恒驅動中,驅動電路將輸入電壓升高至所需電壓,并保持輸出電流恒定。 升壓恒驅動適用于需要將低電壓源提升至較高電壓來驅動LED的場景,例如電池供電的手持設備
    的頭像 發表于 08-09 13:47 ?2452次閱讀

    FPGA與MCU的應用場景

    肯定是不同的。在需要處理多個高速數據場景下,FPGA的多通道IO接口設計能力顯得尤為重要,例如PCIe、DDR還是其他高速通信協議。FPGA可以進行高速數字信號處理,能夠以極高的效率執行數
    發表于 07-29 15:45

    圖像檢測和圖像識別的原理、方法及應用場景

    圖像檢測和圖像識別是計算機視覺領域的兩個重要概念,它們在許多應用場景中發揮著關鍵作用。 1. 定義 1.1 圖像檢測 圖像檢測(Object
    的頭像 發表于 07-16 11:19 ?4920次閱讀

    LT3042使用過程出現過保護,為什么?

    波形如下: 使用LT3042的過程中,因后級負載產生倒灌電流超過LT3042 200mA限制,出現過保護,麻煩問一下該應用場景是否會對LT3042產生影響或者損壞
    發表于 05-31 08:26

    功率電子電路中續和換流的區別

    功率電子電路中續和換流的區別 續和換流是功率電子電路中常用的兩種控制方式,它們具有不同的工作原理和應用場景。 1. 續技術: 續技術
    的頭像 發表于 04-08 17:35 ?1883次閱讀

    NanoEdge AI的技術原理、應用場景及優勢

    能耗并提高數據安全性。本文將對 NanoEdge AI 的技術原理、應用場景以及優勢進行綜述。 1、技術原理 NanoEdge AI 的核心技術包括邊緣計算、神經網絡壓縮和低功耗硬件設計。邊緣計算
    發表于 03-12 08:09
    阴宅24水口| 兴义市| 德州扑克初级教程| 大发888网络赌博害人| 太阳城娱乐小郭| 宁波水果机遥控器| 顶级赌场连环夺宝| 三易博娱乐城| 决胜德州扑克刷金币| 大发888 无法进入网页| 威尼斯人娱乐场安全吗| 沈阳盛京棋牌官网| 德阳市| 百家乐官网园百利宫娱乐城信誉好...| 百家乐官网赌博破解| 喜达百家乐官网的玩法技巧和规则| 疯狂百家乐官网游戏| 赌百家乐怎样能赢| 威尼斯人娱乐网假吗 | 德州百家乐官网扑克桌| 高级百家乐出千工具| 百家乐庄闲出现几| 棋牌娱乐城注册送58| 如何玩百家乐官网扑克| 百家乐官网打劫法| 做生意看风水| 墨尔本百家乐的玩法技巧和规则| 大发888 方管下载| 百家乐官网是咋玩法| 鑫鼎百家乐官网的玩法技巧和规则| 现金网hg8568.com| 百家乐官网最新投注法| 百家乐官网娱乐网会员注册| 哪个百家乐玩法平台信誉好| 大发888娱乐备用网址| 六合彩网站| 什么是百家乐官网平注法| 凯旋门百家乐现金网| 威尼斯人娱乐城澳门赌场| 百家乐官网技巧运气| 赌百家乐官网2号破解|