衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

上交提出RCLSTR:面向場景文本識別的關系對比學習

CVer ? 來源:CSIG文檔圖像分析與識別專 ? 2023-09-14 17:21 ? 次閱讀

本文簡單介紹ACMMM2023錄用的論文“Relational Contrastive Learning for Scene Text Recognition”的主要工作。該論文主要研究了基于對比學習的文本識別自監(jiān)督方法。文章受到基于上下文感知方法在文字監(jiān)督學習中取得的巨大成功[1],利用文本和背景的異質(zhì)性,將文字的上下文信息理解為文本基元的關系,為表征學習提供有效的自監(jiān)督標簽。但是由于詞匯依賴[2],文本關系被限制在有限的數(shù)據(jù)集中,這可能導致過擬合并損害表征的魯棒性。因此,該文提出通過重排、分層和交互來豐富文本關系,并設計了一個統(tǒng)一的框架RCLSTR: Relational Contrastive Learning for Scene Text Recognition。實驗表明,該方法能夠有效提升對比學習文本識別的自監(jiān)督性能。

一、背景介紹

場景文本圖像的特點與自然圖像有很大的不同。首先,前景(文本)和背景是異構的,文本識別主要依賴于文本而不是背景。第二,大部分文本圖像通常具有從左到右的結構。第三,文本圖像包含了字符序列和多粒度的結構。先前的文本自監(jiān)督方法主要是從自然圖像遷移而來的,僅僅探索了文本的部分特點。該文章啟發(fā)于上下文感知方法在文字監(jiān)督學習中的成功應用,在自監(jiān)督對比學習中充分探索文本的特點。提出通過重排、分層和交互來豐富文本關系,從而形成更完整的對比學習機制。

7c3252cc-524f-11ee-a25d-92fbcf53809c.png

如上圖所示,首先,對于“重排”,文本圖像可以被分割并重新排列成新的上下文關系,該文設計了一個重排模塊來生成新的單詞圖像,豐富了文本關系的多樣性。第二,對于“分層”,由于文本圖像中存在詞、子詞、字符等多個不同粒度的對象,提出了一種分層結構在多個層級上進行表征學習,從而豐富語義信息,增強表征的魯棒性。第三,對于“交互”,利用不同層級對象之間的交互,例如字符-子詞和子詞-詞相似度,約束不同層級上語義相似性的一致性,從而促進學習高質(zhì)量的表征。

二、方法介紹

基于MoCo[3]的框架,該文提出了用于文本識別的關系對比學習框架(RCLSTR)。如下圖所示:1、在Online分支(上半部分)中引入了一個新的重排階段,從原始分支中產(chǎn)生水平重排的圖像,稱為關系正則化模塊(Relational Regularization)。2、文章設計了一個分層結構來學習每一層內(nèi)部的關系,稱為分層關系模塊(Hierarchical Relation)。3、提出了一個跨層次關系一致性模塊(Cross-Hierarchy Relational Consistency),以便網(wǎng)絡學習層級之間的關系。

7c6a8ad4-524f-11ee-a25d-92fbcf53809c.png

對于Relational Regularization,該文提出了一個重排模塊來生成新的文本圖像,生成的圖像包含更多的上下文關系。如下圖所示,該模塊將文本圖像水平劃分為幾個片段,然后隨機打亂,重新連接片段后生成重排后的圖像。重排后的圖像經(jīng)過Online編碼器和投影層后得到對應特征,然后將特征復位到原始圖片中的位置。

7c994a36-524f-11ee-a25d-92fbcf53809c.png

文章分別計算了原始特征7cb99098-524f-11ee-a25d-92fbcf53809c.png和正則化特征7cc3322e-524f-11ee-a25d-92fbcf53809c.png(對應于重新排列的圖像)上的對比損失,然后將兩者求和得到:

7cd409aa-524f-11ee-a25d-92fbcf53809c.png

對于Hierarchical Relation,考慮到文本在水平方向上具有不同的粒度,該文提出了一種分層的對比學習結構,通過不同粒度的池化層將特征映射到幀、子詞和詞三個層次,然后進行分層級的關系對比學習,每個層級計算對比損失(上標7ce6809e-524f-11ee-a25d-92fbcf53809c.png指代幀、子詞和詞三個層級),并求和得到:

7cf25342-524f-11ee-a25d-92fbcf53809c.png

對于Cross-Hierarchy Relational Consistency,提出一致性約束來學習相鄰層之間的關系,實現(xiàn)幀-子詞和子詞-詞之間的一致性約束。對于幀-子詞關系,由于來自相同空間位置(在同一圖像中)的幀和子詞特征在特征空間中表現(xiàn)出更高的相似性,因此將其視為正樣本對,將其他位置的特征視為負樣本對,子詞-詞之間的正負對關系類似。該模塊通過KL損失來約束相似度分布之間的一致性:

7d07db72-524f-11ee-a25d-92fbcf53809c.png

其中7d186f8c-524f-11ee-a25d-92fbcf53809c.png表示幀-子詞一致性損失,7d29f3ec-524f-11ee-a25d-92fbcf53809c.png表示子詞-詞一致性損失。最后總的損失函數(shù)為正則化的多層級損失和跨層級損失求和:

7d377904-524f-11ee-a25d-92fbcf53809c.png

三、實驗結果

表征質(zhì)量的結果如下表所示,與SeqMoCo的baseline相比,加入三個主要模塊后,基于CTC的解碼器性能平均提高了+12.38%,基于注意力的解碼器平均提高了+10.15%。同時,該表也展示了三個關鍵模塊各自的有效性。

7d4c5162-524f-11ee-a25d-92fbcf53809c.png

下圖是使用t-SNE[4]將IIIT5K[5]數(shù)據(jù)集圖像特征可視化的結果,對應于SeqMoCo(Baseline)和該文的方法RCLSTR。可以看出,RCLSTR方法能更好地挖掘字符關系,對應相同類別的字符特征能夠更好地成簇。

7d786ed2-524f-11ee-a25d-92fbcf53809c.png

四、總結

該工作提出了一個新的場景文本識別的關系對比學習框架(RCLSTR)。在這個框架中,通過三個模塊對文本圖像之間的關系進行了充分的探討。提出了Relational Regularization模塊,以豐富圖像內(nèi)部和圖像間的上下文關系。同時設計了用于關系對比學習的Hierarchical Relation模塊,在不同粒度上進行分層級對比學習。此外,針對場景文本圖像中不同層次的交互,設計了Cross-Hierarchy Relational Consistency模塊。實驗結果表明該方法能夠有效提升對比學習文本識別的自監(jiān)督性能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1148

    瀏覽量

    40938
  • 模塊
    +關注

    關注

    7

    文章

    2735

    瀏覽量

    47755
  • 數(shù)據(jù)集

    關注

    4

    文章

    1209

    瀏覽量

    24835

原文標題:ACM MM 2023 | 上交提出RCLSTR:面向場景文本識別的關系對比學習

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    請問instaspin foc識別的參數(shù)跟注入電流大小關系比較大怎么處理?

    instaspin foc識別的參數(shù)跟注入電流大小關系比較大.Rs Ls學習的電流設置為1A或者10A,都能識別完成,但是發(fā)現(xiàn)學到的Rs和Ls前后差別卻很大,有2倍的差距.請問這種情況
    發(fā)表于 09-21 14:15

    基于多標記學習的汽車評論文本多性能識別

    針對汽車產(chǎn)品評論文本中出現(xiàn)的多方面性能,提出一種基于多標記學習的汽車評論文本多方面性能識別方法。首先,結合
    發(fā)表于 12-06 17:12 ?0次下載
    基于多標記<b class='flag-5'>學習</b>的汽車評論<b class='flag-5'>文本</b>多性能<b class='flag-5'>識別</b>

    基于面向文本標題的任務關系抽取

    為了克服文本標題的人物關系抽取中非人物實體的干擾、關系特征詞的選取以及標題中多人物實體對目標實體的關系判定的影響,提出基于決策樹的人物實體判
    發(fā)表于 12-22 09:56 ?0次下載
    基于<b class='flag-5'>面向</b><b class='flag-5'>文本</b>標題的任務<b class='flag-5'>關系</b>抽取

    面向人體動作識別的隨機增量型混合學習機模型

    針對自然人機交互應用中的人體動作識別問題,總結了傳統(tǒng)機器學習模型在識別人體動作時的缺點,然后在此基礎上針對自然人機交互應用的獨特要求提出面向
    發(fā)表于 01-03 15:50 ?1次下載
    <b class='flag-5'>面向</b>人體動作<b class='flag-5'>識別的</b>隨機增量型混合<b class='flag-5'>學習</b>機模型

    面向實體識別的聚類算法

    實體識別是數(shù)據(jù)質(zhì)量的一個重要方面,對于大數(shù)據(jù)處理不可或缺,已有的實體識別研究工作聚焦于數(shù)據(jù)對象相似度算法、分塊技術和監(jiān)督的實體識別技術,而非監(jiān)督的實體識別中匹配決定的問題很少被涉及.
    發(fā)表于 01-09 15:52 ?0次下載

    如何使用EAST文本檢測器在自然場景下檢測文本

    EAST是一種基于深度學習文本探測器,即高效、準確的場景文本檢測(Efficient and Accurate Scene Text detectionpipeline)。更重要的是
    的頭像 發(fā)表于 08-24 08:40 ?1.1w次閱讀

    語音識別的應用場景

    在西方經(jīng)濟發(fā)達國家,大量的語音識別產(chǎn)品已經(jīng)進入市場和服務領域。一些用戶交換機、電話機、手機已經(jīng)包含了語音識別撥號功能、語音記事本、語音智能玩具等產(chǎn)品,同時也包括語音識別與語音合成功能。人們可以通過電話網(wǎng)絡用語音
    的頭像 發(fā)表于 03-27 15:04 ?2.1w次閱讀

    面向港口停留區(qū)域識別的船舶停留軌跡提取方法

    面向港口停留區(qū)域識別的船舶停留軌跡提取方法介紹。
    發(fā)表于 03-17 16:13 ?6次下載
    <b class='flag-5'>面向</b>港口停留區(qū)域<b class='flag-5'>識別的</b>船舶停留軌跡提取方法

    淺談面向人臉表情識別的雙模板稀疏分類方法

    提出一種面向人臉表情識別的雙模板稀疏分類方法(DT-SRC)。該算法在用訓練樣本組成觀測矩陣的基礎上,通過添加正、
    的頭像 發(fā)表于 05-05 00:05 ?1945次閱讀
    淺談<b class='flag-5'>面向</b>人臉表情<b class='flag-5'>識別的</b>雙模板稀疏分類方法

    面向網(wǎng)絡攻擊識別的威脅情報畫像分析方法

    新型網(wǎng)絡攻擊向高隱蔽性、高持久性和髙擴散性的方向發(fā)展,導致攻擊識別與檢測難度驟增。為提高網(wǎng)絡攻擊識別的效率與準確性,提出一種面向攻擊識別的
    發(fā)表于 05-12 13:57 ?2次下載

    面向人臉識別的FusNet網(wǎng)絡模型

    面向人臉識別的FusNet網(wǎng)絡模型
    發(fā)表于 06-09 14:59 ?8次下載

    機器視覺與生物特征識別的關系

    機器視覺與生物特征識別的關系 機器視覺和生物特征識別是目前科技領域非常熱門的方向。機器視覺是指利用電子設備來對物體進行識別、分析和處理,尤其是指計算機對視覺信息的處理;而生物特征
    的頭像 發(fā)表于 08-09 17:43 ?792次閱讀

    小模型也能進行上下文學習!字節(jié)&amp;華東師大聯(lián)合提出自進化文本識別

    場景文本識別(Scene Text Recognition)的目標是將圖像中的文本內(nèi)容提取出來。實際應用場景中,
    的頭像 發(fā)表于 11-27 16:28 ?990次閱讀
    小模型也能進行上下文<b class='flag-5'>學習</b>!字節(jié)&amp;華東師大聯(lián)合<b class='flag-5'>提出</b>自進化<b class='flag-5'>文本</b><b class='flag-5'>識別</b>器

    如何使用Python進行圖像識別的自動學習自動訓練?

    如何使用Python進行圖像識別的自動學習自動訓練? 使用Python進行圖像識別的自動學習和自動訓練需要掌握一些重要的概念和技術。在本文中,我們將介紹如何使用Python中的一些常用
    的頭像 發(fā)表于 01-12 16:06 ?652次閱讀

    ASR與傳統(tǒng)語音識別的區(qū)別

    ASR(Automatic Speech Recognition,自動語音識別)與傳統(tǒng)語音識別在多個方面存在顯著的區(qū)別。以下是對這兩者的對比: 一、技術基礎 ASR : 基于深度學習
    的頭像 發(fā)表于 11-18 15:22 ?643次閱讀
    网上百家乐官网骗人不| 南京百家乐赌博现场被| 西安市| 百家乐的玩法和技巧| 葡京百家乐官网玩法| 百家乐赌博破解方法| 现金百家乐官网人气最高| 九州百家乐的玩法技巧和规则| 百家乐官网网盛世三国| 大发888娱乐城 bg| 百家乐官网代理合作| 图木舒克市| 在线百家乐合作| 赌博百家乐官网游戏| 大发888中文官网| 24山风水水口| 博九百家乐官网游戏| E世博百家乐的玩法技巧和规则| 百家乐官网赌博技巧论坛| bet365注册哪家好 | 百家乐官网博弈之赢者理论| 恒和国际| A8百家乐娱乐场| 百家乐官网水晶筹码价格| 88娱乐城开户| 赌场百家乐规则| 现金百家乐官网破解| 大发888在线扑| 有百家乐的游戏平台| 视频百家乐官网信誉| 能赢钱的棋牌游戏| 打百家乐的技巧| 最好的百家乐官网投注| 六合彩挂牌| 太阳神百家乐的玩法技巧和规则 | 网上的百家乐官网是假的吗| 澳门彩票| 金牌百家乐的玩法技巧和规则| 德州百家乐官网21点桌| 百家乐官网赢新全讯网| 亿乐棋牌游戏大厅|