感知是什么?
在自動駕駛賽道中,感知的目的是為了模仿人眼采集相關(guān)信息,為后續(xù)做決策提供必要的信息。根據(jù)所做決策的任務不同,感知可以包括很多子任務:如車道線檢測、3D目標檢測、障礙物檢測、紅綠燈檢測等等;再根據(jù)感知預測出的結(jié)果,完成決策;最后根據(jù)決策結(jié)果執(zhí)行相應的操作(如變道、超車等);
如何進行感知?
由于感知是為了模仿人眼獲取周圍的環(huán)境信息,那就必然需要用到傳感器來完成信息的采集工作;目前在自動駕駛領(lǐng)域中用到的傳感器包括:攝像頭(camera)、激光雷達(lidar)、毫米波雷達(radar)等;
可以看到傳感器的種類眾多且成本參差不齊,所以如何使用這些傳感器進行感知任務,各個自動駕駛廠商都有各自的解決方案;
純視覺的感知方案
目前Tesla是純視覺感知方案的典型代表;
純視覺感知方案的優(yōu)缺點也很明顯:優(yōu)點:價格成本很低;缺點:攝像頭采集到的圖片是2D的,缺少深度信息,深度信息需要靠算法學習得到,缺少魯棒性;
多傳感器融合的感知方案
目前大多數(shù)廠商采用的都是多傳感器融合的解決方案;其優(yōu)缺點是:優(yōu)點:能夠充分利用不同工作原理的傳感器,提升對不同場景下的整體感知精度,也可以在某種傳感器出現(xiàn)失效時,其他傳感器可以作為冗余備份,提高系統(tǒng)的魯棒性;缺點:由于采用多種傳感器價格相比純視覺高很多;
多傳感器融合的感知方案
傳感器后融合
所謂后融合,是指各傳感器針對目標物體單獨進行深度學習模型推理,從而各自輸出帶有傳感器自身屬性的結(jié)果;每種傳感器的識別結(jié)果輸入到融合模塊,融合模塊對各傳感器在不同場景下的識別結(jié)果,設(shè)置不同的置信度,最終根據(jù)融合策略進行決策。
整體流程圖如下:
圖源:https://mp.weixin.qq.com/s/bmy9EsQaLNPQQKt9mPTroA
優(yōu)點:不同的傳感器都獨立進行目標識別,解耦性好,且各傳感器可以互為冗余備份;同時后融合方案便于做標準的模塊化開發(fā),把接口封裝好,提供給主機廠“即插即用”;對于主機廠來說,每種傳感器的識別結(jié)果輸入到融合模塊,融合模塊對各傳感器在不同場景下的識別結(jié)果,設(shè)置不同的置信度,最終根據(jù)融合策略進行決策。
缺點:存在“時間上的感知不連續(xù)”及“空間上的感知碎片化”
空間上的感知碎片化
由于車身四周的lidar、camera角度的安裝問題,多個傳感器實體無法實現(xiàn)空間域內(nèi)的連續(xù)覆蓋和統(tǒng)一識別,導致攝像頭只捕捉到了目標的一小部分,無法根據(jù)殘缺的信息作出正確的檢測結(jié)果,從而使得后續(xù)的融合效果無法保證。
時間上的感知不連續(xù)
攝像頭采集到的結(jié)果是以幀為單位的,常用的感知方法是把連續(xù)單幀的檢測結(jié)果串聯(lián)起來,類似后融合的策略,無法充分利用時序上的有用信息。
傳感器前融合
所謂前融合,是將各個傳感器采集到的數(shù)據(jù)匯總到一起,經(jīng)過數(shù)據(jù)同步后,對這些原始數(shù)據(jù)進行融合。
整體流程圖如下:
圖源:https://mp.weixin.qq.com/s/bmy9EsQaLNPQQKt9mPTroA
優(yōu)點:讓數(shù)據(jù)更早的做融合,使數(shù)據(jù)更有關(guān)聯(lián)性;比如把激光雷達的點云數(shù)據(jù)和攝像頭的像素級數(shù)據(jù)進行融合,數(shù)據(jù)的損失也會比較少。
缺點:由于不同傳感器獲取的數(shù)據(jù)(攝像圖獲取的像素數(shù)據(jù)以及激光雷達獲取的點云數(shù)據(jù)),其坐標系是不同的;視覺數(shù)據(jù)是2D空間,而激光雷達的點云數(shù)據(jù)是3D空間。所以在異構(gòu)數(shù)據(jù)的融合時,有兩種途徑:途徑一:在圖像空間利用點云數(shù)據(jù)提供深度信息;途徑二:在點云空間利用視覺數(shù)據(jù)提供語義特征,進行點云染色或特征渲染;
所以為了保證將不同坐標系下的數(shù)據(jù)(像素數(shù)據(jù)、點云數(shù)據(jù))轉(zhuǎn)換到同一坐標系下進行數(shù)據(jù)融合方便后續(xù)的感知任務,BEV(Bird Eye View)視角下的感知逐漸受到廣泛的關(guān)注。
傳感器中融合
所謂中融合,就是先將各個傳感器采集到的數(shù)據(jù)通過神經(jīng)網(wǎng)絡(luò)提取數(shù)據(jù)的特征,再對神經(jīng)網(wǎng)絡(luò)提取到的多種傳感器特征進行特征級的融合,從而更有可能得到最佳感知結(jié)果。對異構(gòu)數(shù)據(jù)提取到的特征在BEV空間進行特征級的融合,一來數(shù)據(jù)損失少,二來算力消耗也較少(相對于前融合),所以針對BEV視角下的感知任務,采用中融合的策略比較多。
BEV視角下的感知任務范式
- 將攝像頭數(shù)據(jù)(2D圖片)輸入到特征提取網(wǎng)絡(luò)中完成多個攝像頭數(shù)據(jù)的特征提取;
- 將所有攝像頭數(shù)據(jù)提取到的特征通過網(wǎng)絡(luò)學習的方式映射到BEV空間下;
- 在BEV空間下,進行異構(gòu)數(shù)據(jù)的融合,將圖像數(shù)據(jù)在BEV空間下映射的特征與激光雷達點云特征進行融合;(可選,如BEVFormer僅用6個攝像頭構(gòu)建BEV空間特征)
- 進行時序融合,融合前幾個時刻的特征,增強感知能力;(個人認為:引入時序特征后可以在一定程度上解決遮擋問題)
- 根據(jù)獲得到BEV特征,用于下游任務;(車道線檢測、障礙物檢測、3D目標檢測等子任務,相當于整個模型是一個多任務學習模型)
BEV視角下的感知具有的優(yōu)勢
- 跨攝像頭融合和異構(gòu)數(shù)據(jù)融合更容易實現(xiàn)
跨攝像頭融合或者異構(gòu)數(shù)據(jù)進行融合時,由于不同數(shù)據(jù)其表示的坐標系不同,需要用很多后處理規(guī)則去關(guān)聯(lián)不同傳感器的感知結(jié)果,流程非常復雜。在BEV空間內(nèi)做融合后,通過網(wǎng)絡(luò)自主學習映射規(guī)則,產(chǎn)生BEV特征用于感知下游任務,算法實現(xiàn)更加簡單,并且BEV空間內(nèi)視覺感知到的物體大小和朝向也都能直接得到表達。
- 時序融合更容易實現(xiàn)
在構(gòu)建BEV空間時,可以很容易地融合時序信息,使得獲取的BEV特征可以更好地實現(xiàn)下游的一些感知任務,如測速任務。
- 一定程度上緩解感知任務中的遮擋問題
傳統(tǒng)的2D感知任務只能感知看得見的目標,對于遮擋完全無能為力,而在BEV空間內(nèi),可以基于先驗知識或者利用時序融合,對被遮擋的區(qū)域進行預測,從而“腦補”出被遮擋區(qū)域可能存在物體。雖然“腦補”出的物體,有一定“想象”的成分,但這對于下游的規(guī)控模塊仍有很多好處。
- 方便多任務學習
使用傳統(tǒng)方法做感知任務時,需要依次做目標識別、追蹤和運動預測,更像是個“串行系統(tǒng)”,上游的誤差會傳遞到下游從而造成誤差累積;而在BEV空間內(nèi),感知和運動預測在統(tǒng)一空間內(nèi)完成,因而可以通過神經(jīng)網(wǎng)絡(luò)直接做端到端優(yōu)化,“并行”出結(jié)果,這樣既可以避免誤差累積,也大大減少了人工邏輯的作用,讓感知網(wǎng)絡(luò)可以通過數(shù)據(jù)驅(qū)動的方式來自學習,從而更好地實現(xiàn)功能迭代。
-
目標檢測
+關(guān)注
關(guān)注
0文章
211瀏覽量
15664 -
感知系統(tǒng)
+關(guān)注
關(guān)注
1文章
72瀏覽量
15996 -
自動駕駛
+關(guān)注
關(guān)注
785文章
13930瀏覽量
167007
發(fā)布評論請先 登錄
相關(guān)推薦
評論