衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于重疊和嵌套事件抽取領域的主流方法

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2022-09-30 15:24 ? 次閱讀

本研究設計了一種簡單有效的標簽系統將重疊和嵌套事件抽取轉換成了詞對關系分類的任務,觸發詞、論元以及其間的關系可以并行地同時被預測出來,達到非常快的抽取速度,在3個重疊或嵌套的事件抽取數據集上的實驗結果達到了SOTA。

一、動機介紹

1.1重疊和嵌套事件抽取

事件抽取(Event Extraction,EE)是自然語言處理領域的一項非常基本的任務,在社區長久以來一直得到廣泛的研究。EE的目標是從文本中抽取事件觸發詞和相關的論元。傳統的事件抽取關注于普通的事件,認為觸發詞和論元之間沒有重疊,忽視了復雜的事件模式,即重疊事件和嵌套事件:

Flat Event:觸發詞和論元之間沒有重疊;

Overlapped Event:多個事件的共享重疊的觸發詞或論元;

Nested Event:一個事件的論元是另外一個事件。

ceff6b20-3fef-11ed-b1c7-dac502259ad0.png

圖1:普通事件(a),重疊事件(b),嵌套事件(c)

以圖1為例,(b)中Investment事件和Share Transfer事件共享了”acquired”這一重疊觸發詞,以及”Citic Securities”,”Guangzhou Securities”是重疊的論元。(c)中Gene Expression事件是Positive Regulation的Theme論元。

1.2重疊和嵌套事件抽取方法

截止當前,重疊和嵌套事件抽取領域的主流方法大致有三類:

基于Pipleline的方法;

基于多輪QA的方法;

基于級聯網絡的方法。

這些方法都是Multi-stage的,用多個連續的階段分別抽取事件觸發詞和論元。其中,基于級聯網絡的方法CasEE是之前的SOTA,CasEE依次預測事件類型、抽取觸發詞、抽取論元。這些Multi-stage的方法后面階段的預測依賴于前面的預測結果,難以避免地帶來了誤差傳播的問題。

本研究關注于構建一種高效的EE框架,能夠在一個階段同時解決重疊和嵌套的事件抽取。

1.3本文的方法

傳統的事件抽取使用序列標注的方法無法解決重疊和嵌套的問題,現有的工作使用指針網絡分別識別觸發詞或論元的頭尾token;我們在針對重疊和嵌套事件的共性進行深入挖掘后,發現可以通過token-pair之間的關系分類進行統一建模。觸發詞和論元可以通過token-head和token-tail之間聯系,而論元的角色可以通過觸發詞和論元之間的關系建模,例如圖1(b)中觸發詞”acquired”和論元”Guangzhou Securities”表達了object關系。

根據上述觀察,本文將Overlapped and Nested EE任務轉化成一種詞對的關系分類任務,通過這種標簽體系能夠在一個階段內抽取出事件類型、觸發詞、論元以及論元的角色,在此基礎提出了一種新的EE框架(A One-Stage Framework for Fast Overlapping and Nested Event Extraction),名為OneEE。具體地,該框架的目標是將EE轉變為識別出觸發詞和論元中所蘊含的兩種類型的關系,即:

Span關系(S-T, S-A);

Role關系(R-*);

具體的詞對關系分類示例如圖2所示。其中S-T表示兩個詞是某個觸發詞的頭部和尾部,S-A表示兩個詞是某個論元的頭部和尾部(如”Citic”->”Securities”,Argument),R-*表示該詞作為觸發詞的事件中,另一個詞扮演了角色類型為*的論元(如“acquired”->“Citic Securities”,Subject)。

cf146d68-3fef-11ed-b1c7-dac502259ad0.png

圖2:關系分類示例

二、模型框架

圖3給出了OneEE整體的框架結構。其整體可分為三層:輸入編碼層,自適應事件融合曾以及最后的聯合解碼層。其中解碼層是本論文的核心。

cfa6247e-3fef-11ed-b1c7-dac502259ad0.png

圖3:模型整體結構

2.1 編碼層

給定一個輸入句子,將每一個詞轉換成多個word piece,并將他們輸入預訓練的BERT模塊中。進過BERT計算后,使用最大池化操作將這些word piece表示重新聚合成詞表示。

2.2 自適應事件融合層

由于該框架的目標是預測目標事件類型的詞對之間的關系,因此生成高質量的事件感知的表示十分重要。因此,為了融合編碼器提供的事件信息和上下文信息,本論文設計了一個自適應事件融合層。其中注意力模塊用于建模不同事件類型之間的交互并獲得全局事件信息,兩個門融合模塊用于將全局事件信息和目標事件類型信息與上下文化的詞表示融合。

2.3 解碼層

在自適應事件融合層之后,獲得了事件感知的詞表示,用于預測詞對之間的Span關系和Role關系,對于每個詞對(w_i , w_j ),計算一個分數來衡量它們對于關系 s ∈ S 和 r ∈ R 的可能性。為了使預測層對于詞與詞之間的相對距離敏感,論文還引入了旋轉式的相對位置編碼,設計了距離感知的打分函數。損失函數部分本文使用了Circle Loss的變體,將交叉熵損失擴展到多標簽分類問題,并緩解了類別不均衡的問題。

在解碼階段,該模型通過將事件類型Embedding并行地插入自適應事件融合層來抽取所有事件。如圖 4 所示,一旦該模型在一個階段預測了某種事件類型的所有標簽,整個解碼過程可以概括為四個步驟:首先,獲得觸發詞或論元的開始和結束索引;其次,獲得觸發詞和論元的span;第三,根據 R-* 關系匹配觸發詞和論元;最后,將事件類型分配給該事件結構。

cfd4827e-3fef-11ed-b1c7-dac502259ad0.png

圖4:解碼示例

三、實驗結果

本文在3個重疊和嵌套的事件抽取數據集上(包括英文和中文)進行了實驗,分別是:

FewFC,一個中文金融事件抽取數據集,標注了10種事件類型和18種論元,有約22%的句子包含重疊事件;

Genia 11和Genia 13,兩個英文醫學領域數據集,有約18%的句子包含嵌套事件,Genia11 標注了9種事件類型和10種論元,而Genia13的數字是13和7。

表1-2分別展示了上述任務和數據集上與基線模型對比的結果。實驗結果表明,本文提出的基于詞對關系分類的One-Stage方法,可以同時解決重疊和嵌套的事件抽取,并在3個數據集上的效果都優于之前的工作,并且推理速度也是最快的。

d1375f42-3fef-11ed-b1c7-dac502259ad0.png

表1:FewFC, 重疊事件抽取

d20cec3e-3fef-11ed-b1c7-dac502259ad0.png

表2:Genia 11和Genia 13, 嵌套事件抽取

d2ae4962-3fef-11ed-b1c7-dac502259ad0.png

圖5:重疊事件與嵌套事件抽取效果對比

d2dfe350-3fef-11ed-b1c7-dac502259ad0.png

圖6:觸發詞和論元不同距離論元角色抽取效果對比

通過進一步的消融實驗,我們探索了不同參數和部件對整體框架的影響。此外我們模型在相對較小的參數情況下,其訓練和推理速度超過了多個非連續實體識別模型。

d32ab7ea-3fef-11ed-b1c7-dac502259ad0.png

表6:消融實驗

d3457fbc-3fef-11ed-b1c7-dac502259ad0.png

表 7:模型參數與效率對比

四、總結

在本文中,我們提出了一種基于詞-詞關系識別的新型單階段框架,以同時解決重疊和嵌套的事件抽取。詞對之間的關系被預定義為觸發詞或論元內的詞-詞關系以及跨越觸發詞-論元對。此外,我們提出了一個有效的模型,該模型由一個用于融合目標事件表示的自適應事件融合層和一個用于聯合識別各種關系的距離感知的預測層組成。實驗結果表明,我們提出的模型在三個數據集上實現了新的 SoTA 結果,并且比 SoTA 模型更快。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3667

    瀏覽量

    135237
  • 網絡
    +關注

    關注

    14

    文章

    7599

    瀏覽量

    89246
  • 框架
    +關注

    關注

    0

    文章

    403

    瀏覽量

    17542
  • 模型
    +關注

    關注

    1

    文章

    3305

    瀏覽量

    49220

原文標題:COLING 2022 | 基于token-pair關系建模解決重疊和嵌套事件抽取的One-stage框架

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    面向領域的Web數據抽取與集成架構

    數據抽取與集成架構,在給出Web數據模型與Web數據模式、領域數據模型和領域數據模式等相關概念基礎上,提出Web數據模式與領域數據模式的映射方法
    發表于 12-08 11:40 ?0次下載
    面向<b class='flag-5'>領域</b>的Web數據<b class='flag-5'>抽取</b>與集成架構

    基于本體約束的知識抽取方法

    在信息抽取領域,命名實體識別方法可以為實體賦予正確的語義,實體關系抽取則可以明確兩個實體間的關系語義。但從知識的角度來看,無論是命名實體識別還是實體關系
    發表于 12-19 11:24 ?0次下載
    基于本體約束的知識<b class='flag-5'>抽取</b><b class='flag-5'>方法</b>

    基于標簽優先的抽取排序方法

    針對微博關鍵詞抽取準確率不高的問題,提出一種基于標簽優先的抽取排序方法。該方法利用微博本身具有的社交特征標簽,從微博內容集中抽取關鍵詞。該
    發表于 12-25 15:04 ?0次下載
    基于標簽優先的<b class='flag-5'>抽取</b>排序<b class='flag-5'>方法</b>

    基于WebHarvest的健康領域Web信息抽取方法

    針對Web信息抽取(WIE)技術在健康領域應用的問題,提出了一種基于WebHarvest的健康領域Web信息抽取方法。通過對不同健康網站的結
    發表于 12-26 13:44 ?0次下載

    基于自動關鍵詞抽取方法

    科學、心理學和社會科學等多個方面研究了自動關鍵詞抽取的理論基礎.從宏觀、中觀和微觀角度,回顧和分析了自動關鍵詞抽取的發展、技術和方法.針對目前廣泛應用的自動關鍵詞抽取
    發表于 12-26 16:47 ?2次下載
    基于自動關鍵詞<b class='flag-5'>抽取</b><b class='flag-5'>方法</b>

    基于XML特征的網頁文本抽取方法

    Web信息抽取(Web Information Extraction,簡稱WIE)是指:給出屬于同一類型的若干樣本網頁。找出它們的源數據集的嵌套結構,并將源數據集從網頁中抽取出來。即通過對原文
    發表于 01-02 14:14 ?0次下載

    語料庫中術語抽取算法

    術語抽取在中文信息處理領域中是一項重要的基礎性研究課題。隨著科技、經濟、文化的快速發展,各個學科領域中的術語也發生了很大變化,為了及時了解學科的發展動態,術語抽取的需求應運而生。術語
    發表于 01-12 14:12 ?0次下載

    節點屬性的海量Web信息抽取方法

    為解決大數據場景下從海量Web頁面中抽取有價值的信息,提出了一種基于節點屬性與正文內容的海量Web信息抽取方法。將Web頁面轉化為DOM樹表示,并提出剪枝與融合算法,對DOM樹進行簡化;定義DOM
    發表于 02-06 14:36 ?0次下載

    模型NLP事件抽取方法總結

    本系列文章主要分享近年來事件抽取方法總結,包括中文事件抽取、開放域事件抽取、事件數據生成、跨語言事件抽取、小樣本事件
    的頭像 發表于 12-31 10:19 ?1w次閱讀
    模型NLP事件<b class='flag-5'>抽取</b><b class='flag-5'>方法</b>總結

    實體關系聯合抽取取得SOTA的三種方法

    2020實體關系聯合抽取一片紅海,各種SOTA方法你方唱罷我方登場,在一些數據集上也是不斷刷出新高度,為信息抽取領域帶來了新思路,推動了信息抽取
    的頭像 發表于 02-10 17:08 ?1.2w次閱讀
    實體關系聯合<b class='flag-5'>抽取</b>取得SOTA的三種<b class='flag-5'>方法</b>

    基于句法語義依存分析的金融事件抽取

    事件抽取在自然語言處理應用中扮演著重要的角色,如股票市場趨勢預測.傳統事件抽取較為關注觸發詞和論元所屬類型的正確性,較少地結合應用需求去分析研究事件抽取效果及使用價值.在財經領域,事件
    發表于 03-24 14:03 ?8次下載
    基于句法語義依存分析的金融事件<b class='flag-5'>抽取</b>

    抽取式摘要方法中如何合理設置抽取單元?

    的核心問題。抽取式摘要則是文本摘要技術中效果穩定,實現簡單的一類方法,本文結合COLING 2020中抽取式摘要相關的兩篇最新工作,對抽取式摘要方法
    的頭像 發表于 05-03 18:23 ?1680次閱讀
    <b class='flag-5'>抽取</b>式摘要<b class='flag-5'>方法</b>中如何合理設置<b class='flag-5'>抽取</b>單元?

    基于規則的商品評論搭配抽取方法

    分析商品評論中評價對象和評價短語的詞性和句法關系,提出一種使用規則模板進行評價搭配抽取方法。通過詞性、依存句法分析及語義依存分析結果,設計核心搭配抽取規則。引入COO算法及改進的ATT鏈算法,根據
    發表于 06-11 10:50 ?128次下載

    如何用一種級聯的并解決嵌套的實體的三元組抽取模型?

    關系抽取是自然語言處理中一個比較基礎的任務,除了關系抽取之外還有類似的任務如:屬性抽取等。
    的頭像 發表于 02-08 09:28 ?1249次閱讀
    如何用一種級聯的并解決<b class='flag-5'>嵌套</b>的實體的三元組<b class='flag-5'>抽取</b>模型?

    if嵌套函數的正確輸入方法

    輸入方法是在if語句內部創建一個新的函數。這個函數可以是一個匿名函數或者是一個有名稱的函數,具體取決于你的需求和偏好。下面是一個if嵌套函數的正確輸入方法的示例: def main_function
    的頭像 發表于 11-30 16:50 ?1476次閱讀
    任你博百家乐官网娱乐城| 澳门百家乐官网技巧皇冠网 | 葵青区| 太阳城77娱乐城| 太阳百家乐官网网址| 百家乐官网娱乐城棋牌| 大发888开户,| 新全讯网22335555| 老k百家乐游戏| 大中华百家乐官网的玩法技巧和规则 | 百家乐官网赌博赌博网站| 百家乐官网开庄概率| 1368棋牌官网| 百家乐博娱乐赌百家乐的玩法技巧和规则 | 澳门百家乐国际娱乐城| 戒掉百家乐官网的玩法技巧和规则| 百家乐官网的赚钱原理| E世博投注| 大发888娱乐城 34hytrgwsdfpv| 骰子百家乐的玩法技巧和规则 | 百家乐官网切入法| 百家乐官网与龙虎斗怎么玩| 嵊泗县| 京城国际娱乐城| 大发888游戏技巧| 百家乐博娱乐网赌百家乐的玩法技巧和规则 | 百家乐微笑投注| 24山向什么最好| 如何看百家乐官网的玩法技巧和规则 | 维也纳国际娱乐城| 大发888真钱游戏官方网站| 华硕百家乐的玩法技巧和规则| 澳门百家乐怎么| 百家乐单跳双跳| 永利百家乐官网的玩法技巧和规则 | 百家乐开庄概率| 中国百家乐官网澳门真人娱乐平台网址| 金冠百家乐官网娱乐城| 崇仁县| 博王娱乐| 快乐之都|