沙龙百家乐娱乐网,中国竞彩足球即时比分,全讯网新网址(中国)·官方网站

實例分割的任務是將圖像中的像素分組為單個事物的實例，并用類標簽（可計數的對象，如人、動物、汽車等，并為每個對象分配獨特的標識符，如 car_1 和 car_2）來標識這些事物。實例分割作為一項核心的計算機視覺任務，對許多下游應用至關重要，如自動駕駛汽車、機器人、醫學成像和照片編輯。

近年來，深度學習（Deep learning）在使用 Mask R-CNN 之類的架構解決實例分割問題方面取得了重大進展。然而，這些方法依賴于收集大型的標簽實例分割數據集。但不同于收集邊界框標簽的方法，如 Extreme clicking，可以實現每個實例 7 秒的收集速度，收集實例分割標簽（稱為“掩碼”）時，每個實例用時可能需要高達 80 秒，該方式較高的成本，拉高了這項研究的門檻。另一個相關任務——泛型分割，甚至需要更多的標簽數據。

Mask R-CNN

https://arxiv.org/abs/1703.06870

Extreme clicking

https://arxiv.org/abs/1708.02750

高達 80 秒

https://arxiv.org/abs/1405.0312

部分監督的實例分割環境（即只用實例分割掩碼給一小部分類加標簽，其余大部分類只用邊界框來加標簽）這一方法有可能減少對人工創建的掩碼標簽的依賴，從而大大降低開發實例分割模型的門檻。不過，這種部分監督的方法也需要更強的模型泛化形式來處理訓練時沒有遇到過的新類別，例如，只用動物掩碼進行訓練，然后讓模型針對建筑物或植物產生準確的實例分割。此外，還有簡單的方法，例如訓練一個與類無關的 Mask R-CNN，同時忽略任何沒有掩碼標簽的實例的掩碼損失（Loss function），但這些方法效果并不好。例如，在典型的 “VOC/Non-VOC” 基準中，Mask R-CNN 針對 COCO 中 20 個類的子集（稱為“已見類”）進行掩碼訓練，并在其余 60 個類（稱為“未見類”）上進行測試，一個帶有 Resnet-50 主干的典型 Mask R-CNN 在未見類上的掩碼 mAP（即平均精度，數值越高越好）只能達到約 18%，而在全監督時，在同一集合上的掩碼 mAP 則高出很多，超過了 34%。

部分監督的實例分割環境

https://arxiv.org/abs/1711.10370

在即將發布于 ICCV 2021 的“掩碼頭部架構對新類別分割的驚人影響（The surprising impact of mask-head architecture on novel class segmentation）”一文中，我們確定了 Mask R-CNN 在新類別上表現不佳的主要原因，并提出了兩個易于實施的修復方法（訓練協議修復；掩碼頭部架構修復），這兩種方法協同作用，可以縮小與全監督性能之間的差距。

掩碼頭部架構對新類別分割的驚人影響

https://arxiv.org/abs/2104.00613

我們證明了這種方法普遍適用于裁剪-分割模型，即 Mask R-CNN 或類似 Mask R-CNN 的架構：計算整個圖像的特征表征，然后將每個實例的裁剪傳遞給第二階段的掩碼預測網絡（也稱為掩碼頭部網絡）。對發現結果進行整合，我們提出了基于 Mask R-CNN 的模型，該模型的掩碼 mAP 遠高于目前最先進的模型，提升了 4.7%，且無需更復雜的輔助損失函數、離線訓練的先驗因素或先前研究中提出的權重轉移函數。我們還開放了該模型兩個版本的代碼庫，分別稱為 Deep-MAC 和 Deep-MARC，并發布了一個 colab，從而以互動方式生成掩碼，如下面的視頻演示所示。

Deep-MAC

https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/deepmac.md

Deep-MARC

https://github.com/tensorflow/models/tree/master/official/vision/beta/projects/deepmac_maskrcnn

colab

https://github.com/tensorflow/models/blob/master/research/object_detection/colab_tutorials/deepmac_colab.ipynb

模型 DeepMAC 的演示版，即使是訓練時未見過的類，該模型也可以學習預測準確的掩碼，以及給定用戶所指定的邊框。親自在 colab 中試試吧。圖片來源：Chris Briggs、維基百科和 Europeana

部分監督環境中裁剪方法的影響

裁剪是裁剪-分割模型的一個重要步驟，通過裁剪特征圖以及對應每個實例的邊界框的實際掩碼來訓練 Mask R-CNN。將這些裁剪過的特征傳遞給另一個神經網絡（稱為掩碼頭部網絡），該網絡計算出最終的掩碼預測，然后將其與掩碼損失函數中的實際裁剪進行比較。裁剪有兩種選擇：（1）直接對實例的實際邊界框進行裁剪，（2）對模型預測的邊界框（稱為建議）進行裁剪。在測試時始終通過建議來執行裁剪，因為要假設實際邊界框不可用。

“對實際邊界框的裁剪”對比“訓練過程中對模型預測的建議裁剪”。標準 Mask R-CNN 實現使用上述兩種類型的裁剪，但我們已經證明，只對實際邊界框進行裁剪在新類別上表現出顯著的性能優勢

我們考慮了一個類似于 Mask R-CNN 的一般架構系列，與典型的 Mask R-CNN 訓練環境相比，存在一個微小但關鍵的區別：我們在訓練時使用實際邊界框（而不是建議邊界框）裁剪

典型的 Mask R-CNN 實現將兩種類型的裁剪都傳遞給掩碼頭部。然而，在傳統的觀點中，這個選擇是一個不重要的實施細節，因為它在全監督環境中不會對性能產生顯著影響。相反，對于部分監督環境，我們發現裁剪方法起著重要的作用，雖然在訓練過程中，只對實際邊界框進行裁剪不會使全監督環境下的結果發生明顯變化，但在部分監督環境中卻有著驚人的顯著積極影響，在未見類上的表現明顯改善。

利用建議和實際邊界框（默認設置）或只用實際邊界框進行訓練時，Mask R-CNN 在未見類上的性能。只用實際邊界框訓練掩碼頭部時，在未見類上的性能有明顯的提升，mAP 超過 9%。我們報告了 ResNet-101-FPN 主干加持下的性能

ResNet-101-FPN

https://arxiv.org/pdf/1703.06870.pdf

解鎖掩碼頭部的完全泛化潛力

更令人驚訝的是，上述方法引發了一個新現象：在訓練過程中啟用實際裁剪， Mask R-CNN 的掩碼頭部對模型的泛化能力（泛化至未見類）起著異常重要的作用。舉個例子，我們在下圖中比較了幾個模型，對象為停車計時器、手機和披薩（訓練期間未見過的類）。每個模型都已啟用實際邊界框裁剪，但使用的開箱即用掩碼頭部架構不同。

使用四種不同的掩碼頭部架構對未見類進行掩碼預測（從左到右分別是：ResNet-4、ResNet-12、ResNet-20、Hourglass-20，其中數字是指神經網絡的層數）盡管從未見過“停車計時器”、“披薩”或“手機”類中的掩碼，但最右的掩碼頭部架構可以正確分割這些類。我們展示的掩碼頭部架構在掩碼預測方面的性能從左到右依次遞增。此外，這種差異只有在未見類上進行評估時才比較明顯，如果在已見類上進行評估，所有四個架構會表現出類似的性能

ResNet-4

https://arxiv.org/abs/1512.03385

ResNet-12

https://arxiv.org/abs/1512.03385

ResNet-20

https://arxiv.org/abs/1512.03385

Hourglass-20

https://arxiv.org/abs/1603.0693

特別需要注意的是，在全監督環境中，掩碼頭部架構之間在這些方面的差異并不明顯。順便說一下，這可能解釋了為什么先前的實例分割研究幾乎只使用淺層（即低層數）掩碼頭部，因為增加復雜性無法帶來任何優勢。下面我們比較了三種不同的掩碼頭部架構在已見與未見類上的掩碼 mAP。所有這三種模型在已見類的集合上展現了同樣優越的性能，但應用于未見類時，深沙漏型掩碼頭部脫穎而出。我們發現，在所嘗試的架構中，沙漏型掩碼頭部效果是最好的，并且在使用 50 層以上的沙漏型掩碼頭部時獲得了最佳結果。

ResNet-4、Hourglass-10 和 Hourglass-52 掩碼頭部架構在已見類和未見類上的性能。盡管在已見類上的性能幾乎沒有變化，但在未見類上的性能卻有很大差別

沙漏型

https://arxiv.org/abs/1603.06937

最后，我們證明這一發現具有普遍性，適用于各種主干（如 ResNet、SpineNet 和 Hourglass）和檢測器架構，包括基于錨和無錨的檢測器，甚至在根本沒有檢測器的情況下也適用。

基于錨

https://arxiv.org/abs/1506.01497

無錨的檢測器

https://arxiv.org/abs/1904.07850

總結

為了得出最完善的結果，我們整合了上述發現：我們在高分辨率圖像（1280x1280）上利用 SpineNet 主干訓練了一個啟用實際邊界框裁剪且帶有深 Hourglass-52 掩碼頭部的 Mask R-CNN 模型。我們稱此模型為 Deep-MARC （Deep Mask heads Above R-CNN）。在不使用任何離線訓練或其他手動先驗因素的情況下，Deep-MARC 超過了之前最先進的模型，掩碼 mAP 提高了 4.5%（絕對值）以上。為證明這種方法的普遍性，我們還訓練了基于 CenterNet（而非基于 Mask R-CNN）的模型（稱為 Deep-MAC），該模型同樣展現出強大的性能，也超越了之前最先進的水平。

結論

我們開發的實例分割模型能夠泛化到不屬于訓練集的類。這其中要強調兩個關鍵因素的作用，這兩個因素可以應用于任何裁剪-分割模型（如 Mask R-CNN）：（1）訓練過程中的實際邊界框裁剪，（2）強大的掩碼頭部架構。雖然這兩個因素對訓練期間有掩碼的類影響不大，但在訓練期間沒有掩碼的新類別上，采用這兩個因素會帶來明顯的改善。此外，這兩個因素足以在部分監督的 COCO 基準上實現最先進的性能。最后，我們的研究結果具有普遍性，也可能對相關的任務產生影響，如全景分割和姿勢預測。

責任編輯：haq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

模型

模型

+關注

關注
1

文章
3305

瀏覽量
49220
架構

架構

+關注

關注
1

文章
519

瀏覽量
25551
深度學習

深度學習

+關注

關注
73

文章
5513

瀏覽量
121549

原文標題：重新審視模型架構的掩碼頭部，用于新類別實例分割

文章出處：【微信號：tensorflowers，微信公眾號：Tensorflowers】歡迎添加關注！文章轉載請注明出處。

Flexus X 實例 ultralytics 模型 yolov10 深度學習 AI 部署與應用

前言： ???深度學習新紀元，828 B2B 企業節 Flexus X 實例特惠！想要高效訓練 YOLOv10 模型，實現精準圖像識別？Flexus X 以卓越算力，助您輕松駕馭大規模數據集，加速

發表于 12-24 12:24 ?383次閱讀

Flexus X <b class='flag-5'>實例</b> ultralytics 模型 yolov10 <b class='flag-5'>深度</b><b class='flag-5'>學習</b> AI 部署與應用

NPU在深度學習中的應用

隨著人工智能技術的飛速發展，深度學習作為其核心驅動力之一，已經在眾多領域展現出了巨大的潛力和價值。NPU（Neural Processing Unit，神經網絡處理單元）是專門為深度學習

發表于 11-14 15:17 ?887次閱讀

GPU深度學習應用案例

GPU在深度學習中的應用廣泛且重要，以下是一些GPU深度學習應用案例：一、圖像識別圖像識別是深度學習

發表于 10-27 11:13 ?504次閱讀

語義分割25種損失函數綜述和展望

語義圖像分割，即將圖像中的每個像素分類到特定的類別中，是許多視覺理解系統中的重要組成部分。作為評估統計模型性能的主要標準，損失函數對于塑造基于深度學習的

發表于 10-22 08:04 ?793次閱讀

PyTorch深度學習開發環境搭建指南

PyTorch作為一種流行的深度學習框架，其開發環境的搭建對于深度學習研究者和開發者來說至關重要。在Windows操作系統上搭建PyTorc

發表于 07-16 18:29 ?1278次閱讀

深度學習中反卷積的原理和應用

像分割、圖像重建和生成對抗網絡（GANs）等，反卷積展現出了其獨特的優勢和廣泛的應用前景。本文將詳細探討深度學習中的反卷積技術，包括其定義、原理、實現方式、應用場景以及與其他上采樣方法的比較，以期為讀者提供一個全面而深入的理解。

發表于 07-14 10:22 ?2335次閱讀

機器學習中的數據分割方法

在機器學習中，數據分割是一項至關重要的任務，它直接影響到模型的訓練效果、泛化能力以及最終的性能評估。本文將從多個方面詳細探討機器學習中數據分割的方法，包括常見的

發表于 07-10 16:10 ?2129次閱讀

神經網絡如何用無監督算法訓練

神經網絡作為深度學習的重要組成部分，其訓練方式多樣，其中無監督學習是一種重要的訓練策略。無監督學習旨在從未標記的數據中發現數據內在的結構、模

發表于 07-09 18:06 ?896次閱讀

圖像分割與語義分割中的CNN模型綜述

圖像分割與語義分割是計算機視覺領域的重要任務，旨在將圖像劃分為多個具有特定語義含義的區域或對象。卷積神經網絡（CNN）作為深度學習的一種核心模型，在圖像

發表于 07-09 11:51 ?1158次閱讀

深度學習中的無監督學習方法綜述

應用中往往難以實現。因此，無監督學習在深度學習中扮演著越來越重要的角色。本文旨在綜述深度學習中的無監督學

發表于 07-09 10:50 ?943次閱讀

深度學習中的模型權重

在深度學習這一充滿無限可能性的領域中，模型權重（Weights）作為其核心組成部分，扮演著至關重要的角色。它們不僅是模型學習的基石，更是模型智能的源泉。本文將從模型權重的定義、作用、優

發表于 07-04 11:49 ?1961次閱讀

深度學習的基本原理與核心算法

處理、語音識別等領域取得了革命性的突破。本文將詳細闡述深度學習的原理、核心算法以及實現方式，并通過一個具體的代碼實例進行說明。

發表于 07-04 11:44 ?2475次閱讀

機器人視覺技術中圖像分割方法有哪些

和分析。本文將詳細介紹圖像分割的各種方法，包括傳統的圖像處理方法和基于深度學習的方法。閾值分割法閾值分割法是一種基于像素的圖像

發表于 07-04 11:34 ?1155次閱讀

深度解析深度學習下的語義SLAM

隨著深度學習技術的興起，計算機視覺的許多傳統領域都取得了突破性進展，例如目標的檢測、識別和分類等領域。近年來，研究人員開始在視覺SLAM算法中引入深度學習技術，使得

發表于 04-23 17:18 ?1380次閱讀

FPGA在深度學習應用中或將取代GPU

硬件公司供貨的不斷增加，GPU 在深度學習中的市場需求還催生了大量公共云服務，這些服務為深度學習項目提供強大的 GPU 虛擬機。但是顯卡也受硬件和

發表于 03-21 15:19

衡阳派盒市场营销有限公司

搜索歷史

深度學習部分監督的實例分割環境

評論

Flexus X 實例 ultralytics 模型 yolov10 深度學習 AI 部署與應用

NPU在深度學習中的應用

GPU深度學習應用案例

語義分割25種損失函數綜述和展望

PyTorch深度學習開發環境搭建指南

深度學習中反卷積的原理和應用

機器學習中的數據分割方法

神經網絡如何用無監督算法訓練

圖像分割與語義分割中的CNN模型綜述

深度學習中的無監督學習方法綜述

深度學習中的模型權重

深度學習的基本原理與核心算法

機器人視覺技術中圖像分割方法有哪些

深度解析深度學習下的語義SLAM

FPGA在深度學習應用中或將取代GPU