衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

3D場景感知所需要的技術以及未來發(fā)展的方向

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-08-31 09:59 ? 次閱讀

編者按:本文作者Mihir Garimella和Prathik Naidu是斯坦福大學大二的學生,他們在這篇文章中總結了對3D場景感知所需要的技術以及未來發(fā)展的方向。

假設你要打造一臺自動駕駛汽車,它需要了解周圍情況。你會用什么方法讓車子感知周圍的行人、自行車和其他障礙物呢?也許你會想到用照相機,但是這可能不會很高效:你需要對3D環(huán)境進行拍攝,然后將其壓縮成2D圖像。之后,模型會重建你需要的3D圖像信息(例如車輛距前方行人的距離)。將3D圖像壓縮的過程會丟掉很多重要信息,然而之后想再重新拼湊這些信息是很困難的,即使是最先進的算法也會出錯。

所以,理想情況下你應該可以用3D數據對2D景觀進行優(yōu)化,可以直接用傳感器對前方障礙進行定位,而不是用2D圖像估計行人或其他交通工具與你的距離。但是這時又會有新的問題:我們怎么才能在3D數據中識別目標物體呢?例如行人、自行車、汽車等等。傳統(tǒng)的CNN會直接在2D圖像中辨認不同的物體,然后再在3D中調整。3D感知問題已經研究了很久,這篇文章就是對這一工作進行大致回顧。

特別的,我們將重點關注最近能夠實現(xiàn)3D物體的分類和語義分割的深度學習技術。我們會從捕捉、表示3D數據的常用方法講起,之后會展示三種基本的用于表示3D數據的深度學習方法。最后,我們會思考未來研究的新方向。

如何捕捉并表示3D數據?

很明顯,我們需要能直接在3D數據上操作的計算機視覺方法,但是這里有三大難題:感知、表示、理解3D數據。

感知

捕捉3D數據的過程很復雜,雖然2D相機價格便宜、使用廣泛,但是要進行3D感知還需要特殊的硬件設備。

立體視覺利用多相機在不同方位進行拍攝來計算深度信息

1. 在兩個或兩個以上的位置放置相機,捕捉不同場景下的目標圖像,然后把對應的像素進行匹配,計算不同照片中每個像素的位置有何不同。這也是人類看世界的方法——我們的眼睛捕捉兩個不同的畫面,然后大腦根據左右眼不同角度確定3D場景。立體視覺只需要幾個普通相機,設備很簡單,因此吸引了很多使用者。但是,這種方法在進行精準測量或計算速度時表現(xiàn)得就不那么好了,因為用視覺細節(jié)對圖像之間相對的點進行匹配,不僅需要大量計算力,還會造成很多錯誤。

RGB-D相機可以輸出一個有四個通道的圖像,其中包含了顏色信息和像素深度

2. RGB-D是一種特殊的相機,它不僅能捕捉深度信息(D)還能捕捉圖像顏色(RGB)。而且它還能捕捉到和2D相機一樣的彩色圖像。大多數RGB-D傳感器是通過“結構光”或“飛行時間”進行工作。你可能聽過微軟的Kinect或iPhone X的Face ID傳感器中包含RGB-D相機,它們很強大,因為這些傳感器體積小、成本低、速度快。但是,RGB-D相機經常會在深度輸出上出現(xiàn)很多洞,因為前方背景的障礙物遮擋或者模式識別的故障等問題。

LIDAR運用幾束激光直接感知環(huán)境的幾何結構

3.LIDAR是對目標物體發(fā)射高速激光脈沖,并計算它們返回傳感器的時間,類似RGB-D相機的“飛行時間”技術,但是LIDAR的探測距離可以更長,能捕捉更多點,不容易受其他光源的干擾。目前大多數自動駕駛汽車使用的也是這類傳感器,因為它們精確度高、范圍廣并且穩(wěn)定。但是LIDAR通常體積很大、價格昂貴,許多公司正在開發(fā)更便宜的LIDAR系統(tǒng)。

3D表示

獲取數據后,你需要用合適的方法表示出來。這里有四種主流的表示方法:

從左至右:點云;voxel網格;多邊形網格;多角度表示

1.點云是在3D空間中點的集合,每個點都由一個坐標(xyz)表示,同時會有其他特征(例如RGB顏色)。它們都是捕捉到的LIDAR數據的原始形式,通常在進行下一步處理之前,立體和RGB-D數據會轉化成點云形式。

2.Voxel網格由點云演化而來。Voxel就像3D中的像素,我們可以將voxel網格想象成量化的、固定尺寸的點云。盡管點云可以在空間中的任何位置具有無線數量的點與浮點像素坐標,但是voxel網格是3D網格,其中的每個體素(voxel)都有固定的尺寸和獨立的坐標。

3.多邊形網格是一組有共同頂點的多變形表明組成的一個近似幾何形狀的表面。將點云想象成從連續(xù)集合表面采集的3D點的集合,多邊網格的目的是用一種容易渲染的方法表示出這些表面。雖然最初是為了計算機圖形而創(chuàng)建的,多邊形網格也可以用于3D視覺。從點云中獲取多邊形網格的方法有很多,可以參考Kazhdan等人的Poisson surface reconstruction(地址:http://hhoppe.com/poissonrecon.pdf "Poisson surface reconstruction")。

4.多角度表示是從多個角度捕捉到的、經過渲染的多邊形網格的2D圖像集合。僅從多個相機中捕捉不同圖像和創(chuàng)建多角度的表示之間的區(qū)別在于,多角度需要搭建一個完整的3D模型,并且從多個任意角度進行渲染,以完全傳遞潛在的幾何圖像。與上面其他三種表示不同,多角度表示通常將3D數據轉化成更簡單的形式用于處理可視化。

理解

現(xiàn)在,你已經將3D數據轉化成可讀形式了,你需要創(chuàng)建一個計算機視覺管道理解它。這里的問題是,擴展傳統(tǒng)的深度學習技術到3D數據上會很棘手。

通過多角度輸入學習

多角度表示是最簡單的將2D深度學習應用在3D上。將3D感知問題轉換成2D感知是很聰明的方法,但是它仍然需要你推理目標物體的3D幾何圖形。早期運用這一方法的深度學習研究是Su等人的多角度CNN,這是一種簡介但是高效的網絡結構,可以從多個2D圖像中學習特征描述。運用了這種方法,結果比單獨使用2D圖像要好。將單獨的圖像輸入到經過訓練的VGG網絡中,提取最重要的特征,對這些激活映射進行池化,然后將信息傳遞到其他卷積層中進行特征學習。

不過,多角度圖像表示有一些限制。主要問題是我們并不是真正學習的是3D,一定量的2D角度圖像并不能真正地估計3D結構。所以,一些類似語義分割的任務,尤其是復雜的目標和場景,都會受到特征信息的限制。另外,這種形式的3D數據可視化是不可擴展的,在計算上會受到限制。

用容積表示學習

通過voxel網格學習解決了多角度表示的主要缺點。voxel網格填補了2D和3D表示之間的差距。Maturana和Scherer的VoxNet(地址:https://www.ri.cmu.edu/pubfiles/2015/9/voxnetmaturanaschereriros15.pdf)是最初用深度學習方法在圖像分類上達到較好結果的方法。

VoxNet結構

VoxNet的結構非常簡潔,包括兩個卷積層,一個最大池化層和兩個用于計算輸出分數向量的完全連接層。該網絡結構更簡單,參數也更少,但它是從上百個CNN架構中隨機搜索得到的。

用點云學習

PointNet

由于基于voxel的方法有多種限制,最近一些研究開始直接處理原始的點云。Qi等人于2016年提出的PointNet(地址:arxiv.org/pdf/1612.00593.pdf)是首個處理這種不規(guī)則3D數據的方法。然而,如論文作者所說,點云僅僅是一些用xyz坐標組合起來的3D表示。另外,網絡應該對點云的變化保持穩(wěn)定,例如旋轉、翻轉、縮放等等。

PointNet結構

PointNet++

雖然PointNet能達到較好的效果,但是它的一個重要缺陷是結構無法捕捉近鄰點之內的本地結構。為了解決這個問題,Qi等人在2017年提出了PointNet++(地址:arxiv.org/pdf/1706.02413.pdf),它是PointNet的升級版,它背后的主要原理是一個分級的特征學習層,主要工作過程有三步,首先它會對點進行采樣,用作局部區(qū)域的中心,之后根據這些區(qū)域中近鄰點到中心點的距離分組,然后用mini-PointNet對區(qū)域進行特征編碼。

未來研究新方向

目前對3D數據的處理主要集中在點云表示,除此之外還有一些其他成果。2018年,Wang等人提出的Dynamic Graph CNNs利用基于圖形的深度學習方法提高了在點云中的特征提取。

另一方面,一些研究者設計了新方法處理點云,Su等人的SPLATNet架構就是很典型的例子。作者設計了一種全新架構和卷積操作器,可以直接在點云上進行操作。它的核心思想是將“接受域”的概念轉換成不規(guī)則的點云,即使在稀疏空間中也能看到空間信息。

SPLATNet架構

第三種有前景的研究防線是擴展基礎結構,建造更詳細的網絡用于3D目標檢測。2017年,Qi等人的Frustum Pointns提出了一種新方法,將RGB圖像和點云融合,提高了模型在3D場景中定位的效率。

結語

過去五年,3D深度學習方法從多角度發(fā)展到點云的3D數據表示,各種處理方法層出不窮,這些研究結果都非常有前景,因為它們能夠真實地用3D表現(xiàn)出現(xiàn)實世界。

然而,這些進步僅僅是開始。目前的工作不僅關注如何提高算法的精確度和性能,而且還要保證它們的穩(wěn)定性和可擴展性。雖然現(xiàn)在的大部分研究都是來自自動駕駛的需求,但直接在點云上操作的方法能在3D醫(yī)學成像VR和室內地圖中發(fā)揮很大的作用。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 3D
    3D
    +關注

    關注

    9

    文章

    2910

    瀏覽量

    108006
  • 自動駕駛
    +關注

    關注

    785

    文章

    13931

    瀏覽量

    167007
  • 深度學習
    +關注

    關注

    73

    文章

    5515

    瀏覽量

    121551

原文標題:超越平面像素:3D數據的感知與學習

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    3D打印技術未來十大應用方向

    本文簡述了了未來3D打印技術行業(yè)可能的10大應用方向
    發(fā)表于 10-04 17:20 ?4006次閱讀
    <b class='flag-5'>3D</b>打印<b class='flag-5'>技術</b><b class='flag-5'>未來</b>十大應用<b class='flag-5'>方向</b>

    3d全息聲音技術解析

    ,但與此同時,物體飛行時發(fā)出的聲音卻沒能跟著一起“飛”過來。而3D全息聲音技術要做到的,就是當物體飛到你眼前甚至砸在你臉上時,聲音也同時在最近處響起——就像生活中的真實場景一樣。這是目前世界上最為
    發(fā)表于 04-16 10:39

    如何利用3D打印技術做發(fā)光字

    `3D打印技術運用到廣告標識行業(yè),預示著廣告制作工藝的由復雜到簡易化的發(fā)展方向,只要圖形設計出來,那就可以3D打印出來,這種優(yōu)勢是任何技術
    發(fā)表于 10-14 16:56

    頻譜感知技術研究發(fā)展到了哪一步?未來發(fā)展方向是什么?

    無線網絡中的頻譜使用信息。從無線網絡的功能分層角度看,頻譜感知技術主要涉及物理層和鏈路層,其中物理層主要關注各種具體的本地檢測算法,而鏈路層主要關注用戶間的協(xié)作以及感知機制的控制與優(yōu)
    發(fā)表于 08-02 07:22

    3D傳感器如何為車內安全保駕護航?

    圖像感知技術公司,此前,他們的3D感知技術已經實現(xiàn)了穿透不同材料、感知液體,
    發(fā)表于 07-29 07:38

    3D顯示技術發(fā)展現(xiàn)狀及未來趨勢

    3D行業(yè)的發(fā)展,預計2021年收入將達到250億元。相關報告:華經產業(yè)研究院發(fā)布的《2020-2025年中國裸眼3D顯示器行業(yè)市場前景預測及投資戰(zhàn)略研究報告》四、3D顯示
    發(fā)表于 11-27 16:17

    AR0237IR圖像傳感器推動3D成像技術發(fā)展

    )和Lumentum的VCSEL技術,不同于其他圖像傳感器使用RGB模式生成觀看圖像流并需要另一個IR模塊來檢測運動的生動性。該方案采用深入感知以及反欺詐和
    發(fā)表于 12-16 16:14

    電視才是3D技術未來發(fā)展的核心

    在2012美國廣播電視展覽會(NAB)上,他沒有過多地談論3D電影,而是語出驚人地預測,電視才是3D技術未來發(fā)展的決定因素。
    發(fā)表于 04-23 09:02 ?1312次閱讀

    3d打印的未來發(fā)展方向

    本視頻主要詳細介紹了3d打印的未來發(fā)展方向,分別是打破尺寸限制、360°打印、打印集成、捆綁和通用。
    的頭像 發(fā)表于 03-26 16:31 ?8794次閱讀

    我國3D打印材料產業(yè)未來發(fā)展分析

    。由于3D打印在裝備制造業(yè)中應用較廣,金屬類3D打印材料的需求也變得越來越大,未來我國3D打印材料行業(yè)將逐一解決行業(yè)發(fā)展痛點,不斷向更高質量
    發(fā)表于 05-10 08:52 ?2896次閱讀
    我國<b class='flag-5'>3D</b>打印材料產業(yè)<b class='flag-5'>未來</b><b class='flag-5'>發(fā)展</b>分析

    什么是3D場景式消費,新興技術如何助力發(fā)展

    隨著5G、AI和3D等新興技術發(fā)展3D場景式消費將作為一種全新的購物體驗進入人們的日常生活中,從傳統(tǒng)的實體店到現(xiàn)在的電商平臺,線下體驗線
    的頭像 發(fā)表于 07-08 11:50 ?2792次閱讀

    什么是3D視覺感知底層技術全圖?

    “AIOT時代離不開3D視覺感知底層技術的支撐,但技術越往底層深入,攻堅難度將越呈指數級增長。為此,展開3D視覺
    的頭像 發(fā)表于 06-15 09:58 ?3465次閱讀

    3D成像感知的現(xiàn)狀和未來

    來源:大話成像 Yan Ming,Eric 編輯:感知芯視界 隨著科技的迅猛發(fā)展,我們正逐漸邁向一個數字化、智能化的未來。在這場革命性的變革中,3D成像和傳感
    的頭像 發(fā)表于 08-21 10:07 ?836次閱讀

    如何實現(xiàn)高精度的3D感知

    ? 端到端自動駕駛是自動駕駛技術的重要發(fā)展方向之一。而要實現(xiàn)端到端自動駕駛,離不開高精度3D信息輸入,因此如何實現(xiàn)高精度的3D感知尤為關鍵。
    的頭像 發(fā)表于 10-17 09:53 ?1220次閱讀

    3D HMI應用場景發(fā)展趨勢

    人機交互的革命性趨勢。本文將探討3DHMI設計的概念、優(yōu)勢、應用場景以及未來發(fā)展趨勢。3DHMI
    的頭像 發(fā)表于 02-19 13:27 ?1358次閱讀
    <b class='flag-5'>3D</b> HMI應用<b class='flag-5'>場景</b>和<b class='flag-5'>發(fā)展</b>趨勢
    百家乐网络赌博地址| 百家乐官网论坛百科| 百家乐所有技巧| G3娱乐城| 娱乐城百家乐可以代理吗 | 百家乐官网博欲乐城| 博雅德州扑克网页版| 百家乐榄梯打法| 战神百家乐官网娱乐| 百家乐英皇赌场娱乐网规则| 网上百家乐官网的技巧| 太阳城俱乐部| 骰子百家乐官网的玩法技巧和规则| 总统娱乐城返水| 百家乐六亿财富| MG百家乐官网大转轮| 360棋牌游戏大厅| 赌场百家乐攻略| 视频百家乐官网攻略| 澳门顶级赌场金鹰娱乐| 百家乐在线投注顺势法| 百家乐官网博彩开户博彩通| 大发888手机好玩吗| 网络百家乐模拟投注| 百家乐官网赌场代理合作| 百家娱乐城| 广州百家乐筹码| KTV百家乐官网的玩法技巧和规则| 河东区| 威尼斯人娱乐场 新世纪| 内黄县| 大发888提款| 百家乐赢谷输缩| 百家乐官网博娱乐赌百家乐官网的玩法技巧和规则 | 百家乐玩揽法大全| 立博百家乐官网的玩法技巧和规则| 百家乐官网的代理办法| 优博娱乐城信誉| 网上的百家乐怎么才能| 百家乐最保险的方法| 尊龙百家乐官网娱乐场|