炸金花抽老千,淘宝赌球平,棋牌隐形眼镜(中国)·官方网站

2. 介紹

CLIP是近年來在多模態方面的經典之作，得益于大量的數據和算力對模型進行預訓練，模型的Zero-shot性能非常可觀，甚至可以在眾多數據集上和有監督訓練媲美。簡單來說，CLIP的high-level的idea非常直接，就是通過對比學習，對圖像特征空間和文本特征空間進行對齊，給定任意圖像和文本都可以映射到這個空間中，然后這些圖像和文本就可以直接計算相似度。通過這種方式，CLIP填平了文本和視覺信息的gap。

CLIP是基于分類任務完成的，那么相應的，我們就不免思考其在檢測和分割領域能否也發揮比較好的效果。如何不依賴于手工標注的分割標注，如何能真真的做到去用文本來作為監督信號來指導模型訓練，就是非常值得思考的一個問題。下面我們就來介紹一個基于CLIP的zero-shot實例分割方法。

對于傳統做分割的模型的一種方法就是通過像素相似度進行語義分割。

首先在圖上找一些中心點，然后通過像素相似然后將附近像素給到不同的目標區域，最終獲得segmentation mask區域。如上圖所示，為了實現擺脫手工標注這一目標，論文提出將分割中經典的group機制引入到深度網絡中，通過這種機制，語義的信息段可以在只需要文本監督的情景下自動出現。

通過對具有對比損失的大規模成對vision-language數據進行訓練，我們可以將模型zero-shot轉移到多個語義分割到word table中，而不需要進一步的注釋或微調。

總結論文的貢獻如下：

在深度網絡中，我們超越了規則形狀的圖像網格，引入了一種新的Group ViT體系結構，將視覺概念分層自下而上地分組為不規則形狀的組。

在不依賴任何像素級的標注情況下，只采用圖像級文本監督，成功地學會了將圖像區域分組，并以zero-shot的模式遷移到多個語義分割詞匯表。

本文是第一份在不使用任何像素標簽的情況下探索從文本監督到多個語義分割任務的零鏡頭轉移的工作，并為這一新任務建立了堅實的基線。

3. 方法

如上圖所示，本文提出的結構在ViT基礎上進行設計，是一個dual-encoder的結構。訓練過程主要分為三部：

第一步：把原始的image作為輸入，利用ViT結構的encoder進行圖像編碼。將圖像分成若干個patch之后，將每個patch作為path embedding的向量信息，構建出部分的數據矩陣，然后利用線性層映射出一個embedding的數據。然后將圖像中的不同patch得到的embedding進行分類，構建出64*384大小的group token矩陣塊。

這里有兩種實現的方式，第一種，對于2-stage類型的GroupViT，

在GroupViT的第一階段，經過Transformer layers操作后可以得到64個group tokens，然后在6層Transformer層后插入grouping block。

在GroupViT的第二階段，grouping之后，都會得到8個segment tokens。對于1-stage類型的GroupViT，就非常簡單直接了，在grouping block之前，將64個group tokens通過MLP-Mixer layer映射成8個segment tokens。

然后Grouping Block將學到的group tokens 和image segment tokens作為輸入，通過Grouping Block更新image tokens，利用這些tokens將相似的images歸并到一起。每經過一個grouping stage，能夠得到更大更少的image segments。

第二步：基于上一步輸出的8384的group token后把文本數據和得到的數據聯合進行訓練。為了和Text信息進行關聯，能夠機選Clip的內積，需要把8維映射為1維，為了方便簡單，論文直接用avg pooling處理；

論文的訓練loss有兩項，包括image-text loss和multi-label contrastive loss with text prompting。

image-text loss包括image to text和text to image兩項：

multi-label contrastive loss with text prompting涉及到較為復雜的操作，可以參考原文進一步了解：

第三步：通過設計好的GroupViT結構，模型能夠自動將image分組成一個個的segment，所以可以很容易的zero-shot transfer到語義分割任務上，而不需要微調。由于GroupViT自動將圖像分組為語義相似的片段，它的輸出可以很容易地轉移到語義分割，而無需進一步的微調。如圖4所示。

為了推斷圖像的片段屬于對象類的有限詞匯table，論文通過Group VIT來傳遞一個測試圖像，而不對其最終的L輸出段應用AvgPool，并得到每個片段的嵌入為。每個段標記對應于輸入圖像的任意形狀的區域。然后，我們計算每個段標記的嵌入與數據集中所有語義類的文本嵌入之間的相似性。

我們將每個圖像片段分配給圖像文本embedding相似度最高的語義類定為最終分割結果。

4. 實驗結果

在無監督的情況下，自然是相較于其他的對比學習方式有了比較明顯的提升，但顯然和有監督的setting表現還是有一定的gap的（如VOC可以達到80%+），由此可見，無監督的語義分割還是有一定進步的空間的。

為了將CLIP zero-shot轉換為語義分割，在推理過程中首先對其輸出特征進行non-parametric的分組。然后計算每組的特征均值與數據集分割標簽的文本embeddings之間的相似度。這樣，任何結合CLIP的ViT非參數分組方法都可以被認為是一個零鏡頭的語義分割基線。如表4所示，分組ViT的性能大大優于其他分組方法。這表明，與使用CLIP訓練的ViT相比，我們的GroupViT在zero-shot轉換到語義分割方面更有效。

5. 結論

本文邁出了學習零樣本語義分割的第一步，也是重要一步，在只有文本，沒有任何明確的人類標注的監督下進行自監督。我們證明，使用GroupViT，從大規模噪聲圖像-文本對中學習到的表示可以以零鏡頭的方式轉移到語義分割。這項工作也證明了除了圖像分類之外，文本監督也可以轉移到更細粒度的視覺任務中，這是以前沒有探索過的，開辟了一個非常有趣的研究方向。

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

圖像編碼

圖像編碼

+關注

關注
0

文章
26

瀏覽量
8353
Clip

Clip

+關注

關注
0

文章
31

瀏覽量
6716

原文標題：CVPR 2022: GroupViT 基于文本監督的語義分割算法

文章出處：【微信號：GiantPandaCV，微信公眾號：GiantPandaCV】歡迎添加關注！文章轉載請注明出處。

基于將 CLIP 用于下游few-shot圖像分類的方案

對比性圖像語言預訓練模型（CLIP）在近期展現出了強大的視覺領域遷移能力，可以在一個全新的下游數據集上進行 zero-shot 圖像識別。

發表于 09-27 09:46 ?5484次閱讀

圖像分割的基本方法解析

本文詳細介紹了圖像分割的基本方法有：基于邊緣的圖像分割方法、閾值分割

發表于 12-20 11:06 ?11w次閱讀

圖像<b class='flag-5'>分割</b>的基本<b class='flag-5'>方法</b>解析

在機器學習中如何進行基本翻譯

Statsbot數據科學家Daniil Korbut簡明扼要地介紹了用于機器學習翻譯的基本原理：RNN、LSTM、BRNN、Seq2Seq、Zero-Shot、BLEU。

發表于 12-22 11:38 ?5772次閱讀

Facebook AI使用單一神經網絡架構來同時完成實例分割和語義分割

這一新架構“全景 FPN ”在 Facebook 2017 年發布的 Mask R-CNN 的基礎上添加了一個用于語義分割的分支。這一新架構

發表于 04-22 11:46 ?2938次閱讀

Facebook AI使用單<b class='flag-5'>一</b>神經網絡架構來同時完成<b class='flag-5'>實例</b><b class='flag-5'>分割</b>和語義<b class='flag-5'>分割</b>

在一個很小的Pascal VOC數據集上訓練一個實例分割模型

的應用，如自動駕駛汽車或醫療診斷。在這些任務中，我們依靠機器的能力來識別物體。我們經常看到的與目標識別相關的任務有4個：分類和定位、目標檢測、語義分割和實例分割。在分類和定位中，我

發表于 12-26 11:26 ?6125次閱讀

Zero-shot-CoT是multi-task的方法

大規模預訓練語言模型借助于針對特定任務設計的prompt（無論是few shot還是zero shot），在單步驟的system-1任務上有著出色表現，但是對于那些緩慢和需要多步推理的system-2任務表現不佳。

發表于 06-15 10:53 ?2511次閱讀

從預訓練語言模型看MLM預測任務

的prompt情感分類實踐以及基于zero-shot的promptNER實體識別實踐五個方面，進行代碼介紹，供大家一起思考。

發表于 11-14 14:56 ?3191次閱讀

基于GLM-6B對話模型的實體屬性抽取項目實現解析

Zero-shot、One-shot以及Few-shot讓人傻傻分不清，讀了很多文章，也沒搞清楚他們的差別，究竟什么叫zero-shot，其在應用過程中的no gradient upd

發表于 03-28 10:11 ?7093次閱讀

邁向多模態AGI之開放世界目標檢測

OVD的基礎概念：OVD的使用主要涉及到 few-shot 和 zero-shot兩大類場景，few-shot是指有少量人工標注訓練樣本的目標類別，zero-shot則是指不存在任何人

發表于 06-15 16:08 ?900次閱讀

基于通用的模型PADing解決三大分割任務

數據需要消耗巨大的時間以及人力成本。為處理上述難題，零樣本學習（Zero-Shot Learning，ZSL）被提出用于分類沒有訓練樣本的新對象，并擴展到分割任務中，例如零樣本語義分割（Zer

發表于 06-26 10:39 ?578次閱讀

CVPR 2023 | 華科&MSRA新作：基于CLIP的輕量級開放詞匯語義分割架構

Adapter Network (SAN)的新框架，用于基于預訓練的視覺語言模型進行開放式語義分割。該方法將語義分割任務建模為區域識別問題，并通過附加一

發表于 07-10 10:05 ?1174次閱讀

APE：對CLIP進行特征提純能夠提升Few-shot性能

CLIP是一個通用的模型，考慮到下游數據分布的差異，對某個下游任務來說，CLIP提取的特征并不全是有用的，可能包含一部分冗余或噪聲。因此，在

發表于 07-19 14:19 ?1824次閱讀

在英特爾開發套件上用OpenVIN實現中文圖文檢索

embedding，根據特征相似度匹配可完成圖像分類和相似查找任務。CLIP 模型的 zero-shot 分類效果就能達到在 Imagenet 上監督訓練的 ResNet 分類效果，且有更好的泛化和抽象能力。

發表于 10-27 11:06 ?938次閱讀

基于AX650N+CLIP的以文搜圖展示

能否有一種“識別萬物”的圖像識別大模型呢？今天就借此機會，通過實操來重溫下由OpenAI在2021年初發布的Zero-Shot視覺分類模型CLIP，并移植到愛芯派Pro上實現簡單的以圖搜文示例。

發表于 11-01 16:44 ?1566次閱讀

基于顯式證據推理的few-shot關系抽取CoT

最近，上下文學習策略已被證明在沒有訓練的情況下顯示出顯著的結果。很少有研究利用上下文學習進行zero-shot信息提取。不幸的是，推理的證據在思維鏈提示的構建過程中沒有被考慮或隱式建模。

發表于 11-20 17:44 ?968次閱讀