1. 寫在前面
目標檢測到底是DETR好還是YOLO好?感覺也沒有一個明確的答案,YOLO在不停的平衡精度和效率,DETR也在不停的提高實時性。今天筆者為大家推薦一篇最新的DETR開源工作MS-DETR,通過一對一監(jiān)督和一對多監(jiān)督相結(jié)合的方式,提高DETR的訓(xùn)練效率。
下面一起來閱讀一下這項工作
2. 摘要
DETR通過迭代地生成基于圖像特征的多個候選目標,并為每個真值目標提升一個候選目標,從而實現(xiàn)端到端的目標檢測。原始DETR中采用一對一監(jiān)督的傳統(tǒng)訓(xùn)練過程缺乏對目標檢測候選的直接監(jiān)督。
我們旨在通過一對一監(jiān)督和一對多監(jiān)督相結(jié)合的方式,對候選生成過程進行明確監(jiān)督,從而提高DETR的訓(xùn)練效率。我們的方法,即MS - DETR,簡單,并且對用于推理的主解碼器的對象查詢進行一對多的監(jiān)督。與現(xiàn)有的一對多監(jiān)督的DETR變體(如Group DETR和Hybrid DETR )相比,我們的方法不需要額外的解碼器分支或?qū)ο蟛樵儭T谖覀兊姆椒ㄖ校鹘獯a器的對象查詢直接受益于一對多的監(jiān)督,因此在對象候選預(yù)測方面具有優(yōu)勢。實驗結(jié)果表明,我們的方法優(yōu)于相關(guān)DETR變體,如DN - DETR、Hybrid DETR和Group DETR,與相關(guān)DETR變體的結(jié)合進一步提高了性能。
3. 效果展示
這篇文章的思想就是使用一對一監(jiān)督和一對多監(jiān)督相結(jié)合的混合監(jiān)督。混合監(jiān)督會產(chǎn)生更好的檢測候選。Top:box真值。Middle:與基線匹配的前20個查詢的候選框。Bottom:使用MS - DETR從前20個查詢中選出候選框。可以看出,MS - DETR比基線產(chǎn)生了更好的檢測候選。
4. 具體原理是什么?
混合監(jiān)督會產(chǎn)生比基線更低的一對一損失。x軸對應(yīng)epoch,y軸對應(yīng)一對一監(jiān)督的訓(xùn)練損失。虛線和實線分別對應(yīng)于Deformable DETR基線和MS - DETR的損失曲線。
不同架構(gòu)的差異。( a )原始DETR:采用一對一監(jiān)督的方式對其進行訓(xùn)練。( b ) MS -- DETR:通過混合一對一和一對多監(jiān)督的方式進行訓(xùn)練。這兩種監(jiān)督都施加在初級解碼器上。( c ) DETR組和DN - DETR組。引入了額外的并行譯碼器,并對額外的譯碼器進行一對一的監(jiān)督。DETR和DN - DETR可能會使用更多的額外解碼器。(d) 混合DETR:增加了一個額外的并行譯碼器,并對額外的譯碼器施加一對多的監(jiān)督。
MS-DETR的具體實現(xiàn)。( a )對每個解碼器層的輸出對象查詢進行一對一和一對多的監(jiān)督。( b )對每個稍作修改的解碼器層的輸出對象查詢進行兩次監(jiān)督:首先執(zhí)行交叉注意力,然后執(zhí)行自注意力。( c )和( d )對內(nèi)部對象查詢進行一對多監(jiān)督。cls11和box11是一對一監(jiān)督的class和box預(yù)測子,cls1m和box1m是一對多監(jiān)督的class和box預(yù)測子。
5. 和其他SOTA方法的對比
MS - DETR與一對多( O2M )監(jiān)督的其他方法在不同基線上的比較。MS - DETR一致地改進了各種流行的DETR基線。
與其他方法相結(jié)合的對比, MS - DETR是現(xiàn)有O2M方法的一種補充方法。
6. 總結(jié)
這篇文章在原有一對一監(jiān)督的基礎(chǔ)上增加了一對多的監(jiān)督,用于DETR訓(xùn)練。主要特點是顯式地監(jiān)督了對象查詢。MS-DETR是對相關(guān)方法的補充,這些方法主要是修改交叉注意力結(jié)構(gòu)或使用額外的查詢或額外的解碼器來學(xué)習(xí)解碼器權(quán)重。
審核編輯:黃飛
-
解碼器
+關(guān)注
關(guān)注
9文章
1147瀏覽量
40931 -
目標檢測
+關(guān)注
關(guān)注
0文章
211瀏覽量
15664
原文標題:MS-DETR:全面提升目標檢測的效率和精度!
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論