衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NLP:如何在只有詞典的情況下提升NER落地效果

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:NLP從入門到放棄 ? 2021-01-07 14:25 ? 次閱讀

今天介紹一個論文autoner[1],主要是為了探索如何在只有詞典的情況下,提升NER實際落地效果;

首先,如果手中含有詞典,常規操作就是遠程監督打標數據,然后做NER;

遠程監督一個比較常見的操作就是使用我們手中的字典,通過字符匹配的形式對文本中可能存在的實體打標。

但是對于這種遠程監督的形式,存在比較多的問題,這個論文主要探討兩種:多標簽(multi-label tokens) 和標簽不完善的問題;

針對multi-label tokens,論文提出的是Fuzzy-LSTM-CRF,簡單講就是講LSTM后面的CRF層變為了Fuzzy CRF層,可以在處理tokens對應多標簽的情況下,不犧牲計算效率;

第二個問題標簽不完善,是因為字典畢竟是有限的,不可能把所有的實體都覆蓋到,那么句子中沒有被字典打標成功的詞組很有可能也是某種實體,但是遠程監督并沒有對此做處理。

針對這個問題,本文提出了一種比較新的標注框架,簡單來講就是在這新的框架中,不去預測單個的token的類別,而是去判斷兩個相鄰的tokens是不是在同一個實體中被tied;

上面只是我自己簡單的分類,其實存在的兩個問題和兩種解決架構是相互融合在一起的,具體的我們下面談。

0. 詞典形式簡單介紹

首先定義一下詞典形式,包含兩個部分,第一部分是實體的表面名稱,這個包括規范名稱和對應的同義詞列表;第二個部分就是實體的類型;

其次,詞典的標注肯定是有限的,肯定存在不在詞典中的某些詞組但是也屬于某種類型的實體;

對于這部分實體,我自己的理解大體可以包含兩個大部分;第一個大部分就是比如說【科技】這個領域覆蓋的【科技】實體有有限的,所以有漏網之魚;第二部分就是詞典的實體類型是有限的,比如詞典總共包含2個實體類型,但是你真實的文本包含更多的實體類型,存在漏網之魚。

對于這些漏網之魚的實體,我們的策略是這樣的。

首先通過AutoPhrase從文中挖掘出來高質量短語,然后統一賦值為unknown type,也就是未知類型。

1. Fuzzy-LSTM-CRF

1.1 標注策略

梳理一下,我們現在手上有詞典;

詞典包含兩個部分,一部分是已知實體類型(假設是2個,當然可能更多或者更少);另一個部分就是我們通過某種方式挖掘出來的高質量實體對應的未知類型;

然后我們通過手中的詞典對原始無標注文本進行打標;

那么現在對于句子中的某個token,它存在三種可能性;第一它可能是已知實體類型中的一種或者多種;第二它屬于未知類型;第三是屬于O這種情況,就是non-entity;

基于傳統架構BIlstm-CRF如何解決多標簽的問題?

其實本質解決的思路很簡單。對于原來的每個token,只是預測一個類別,現在是預測多個類別就可以了。

詳細點講就是,首先對于遠程監督標注的過程,我們會使用三種策略。

我們先假設我們使用{I;O;B;E;S}的標注形式;

第一,對于某個token,如果它對應到了已知類型中的某一個或者多個實體,那么按照對應的位置直接標記上,不要漏掉;也就是說{I;B;E;S}和對應的一個或者多個實體類型對上標;

第二對于對于某個token,如果屬于未知類型,那么對應的這個token就需要把所有已知實體類型(區別于上面的一個或者多個已知實體類型)和 {I,O, B, E, S}對應的打標上;

注意,這里并沒有使用未知實體類型,而是使用的所有的已知實體類型;

第三個對于既不屬于已知類型的,也不屬于未知類型的,全部打上O;

1.2 Fuzzy-LSTM-CRF 模型架構

其實很好理解,傳統的CRF最大化唯一一條有效的標注序列。在這里,我們最大化所有有可能的標注序列。

公式如下:

55dae800-5036-11eb-8b86-12bb97331649.jpg

Fuzzy-LSTM-CRF優化公式

看架構圖:

55ff4420-5036-11eb-8b86-12bb97331649.jpg

Fuzzy-LSTM-CRF

2. AutoNER

區別于Fuzzy-LSTM-CRF 模型沿用傳統架構,在這里論文提出一種新的標注架構-Tie or Break;

這個標注框架更加關注的是當前token和上一個token是否在同一個實體里面;如果在同一個實體里面,那么就標注為Tie;

如果當前單詞和上一個單詞至少有一個在unkonw類型的高質量短語,那么標注為unkonw,其他情況標注為Break;

優化過程:把實體識別和實體類型判定分離開。

原論文中描述的是先做實體識別,兩個Break之間作為一個span,然后做實體類型判定;

實體識別中,對于當前單詞和上一個單詞之間類別的的輸出,對Tie和Break做二分類損失,如果類別是unkown類別,直接跳過,不計算損失。

概率公式如下:

564b4866-5036-11eb-8b86-12bb97331649.jpg

tie_break_loss

56a37752-5036-11eb-8b86-12bb97331649.jpg

tie_break_loss

第二步預測實體類型,包含None實體類型

unkonw這種,知道這屬于實體,在高質量短語詞典中,但是不知道短語類型,所在這里我們會標注為None實體類型。

其他的不在詞典中的,當然也就會被標注為None實體類型。

為了應對多標簽,也就是同一個實體對應不同的類別,這里修改了最后的CE損失函數:

57264272-5036-11eb-8b86-12bb97331649.jpg

CE_總

575eea46-5036-11eb-8b86-12bb97331649.jpg

CE_Soft

使用的是軟標簽的進行的CE的計算,并沒有使用硬標簽。

對應的是在遠程監督中,當前實體真實類型標簽集合。從公式我們可以知道,尤其是看分母,在不屬于這個集合的標簽概率我們并沒有計算在內。

總結

多提一個小細節,就是高質量短語的挖掘使用的是AutoPhrase,大家可以去試一下;

論文提出兩種結構解決多標簽和標簽不完善的問題。

首先對于標簽不完善,使用上面提到的AutoPhrase去挖掘文本中的高質量短語,作為詞典中的未知類型。

在Fuzzy-LSTM-CRF,需要注意的細節是,對于未知類型的標注,我們使用的策略是標注所有已知類型;

對于AutoNER,有兩個細節需要注意,一個是新的標注框架tie or break,重點在于去看兩個相鄰單詞是否屬于同一個實體;第二個細節就是為了解決多標簽問題,修改了損失函數,使用的軟標簽;

責任編輯:xj

原文標題:【論文解讀】如何在只有詞典的情況下提升NER落地效果

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 自然語言
    +關注

    關注

    1

    文章

    291

    瀏覽量

    13401
  • nlp
    nlp
    +關注

    關注

    1

    文章

    489

    瀏覽量

    22111

原文標題:【論文解讀】如何在只有詞典的情況下提升NER落地效果

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    ADS1299套件的可編程增益是只有在差分輸入情況下才可用嗎?

    昂問一ADS1299套件的可編程增益是只有在差分輸入情況下才可用嗎?我用AIN口輸入單端信號 調節PGA大于1時信號就不對了
    發表于 12-26 06:29

    請問ADS1292R如何在MCU休眠的情況下通過脫落檢測喚醒MCU?

    請問ADS1292R如何在MCU休眠的情況下通過脫落檢測喚醒MCU?
    發表于 11-28 08:03

    在不用miniDSP的情況下,使用信號處理模塊時,aic3254怎么配置DAC的3D效果

    請問,在不用miniDSP的情況下,使用信號處理模塊時,怎么配置DAC的3D效果?找了很多資料,沒有關于這個方面的介紹,可以提供一這方面的資料嗎?謝謝
    發表于 11-08 07:34

    AIC3106如何在不改變BCLK和LRCLK的情況下,能夠調好?

    你好,請問:AIC3106現在配置為從設備、DAC采樣率為16K、數據寬度為32位。現在主設備給的BCLK是2048K,LRCLK為16K,播放現在有問題,如何在不改變BCLK和LRCLK的情況下,能夠調好?
    發表于 10-28 07:06

    PCM1795如何在通電的情況下切換PCM模式和DSD模式?

    Ti工程師您好,項目上有用到PCM1795這枚芯片,因為它具有DSD解碼與PCM解碼功能,之前沒有使用過類似產品 有兩個問題請教下: 1、用MCU初始化PCM1795讓它能正常工作,至少需要配置哪幾個相關寄存器 2、如何在通電的情況下 切換PCM模式和DSD模式或者說
    發表于 09-29 06:00

    數字地和模擬地利用磁珠隔離或者單點接地效果都不怎么好,怎樣隔離效果會比較好一些?

    數字地和模擬地利用磁珠隔離或者單點接地效果都不怎么好,怎樣隔離效果會比較好一些?
    發表于 09-20 06:23

    只有單端輸入的情況下,THS4531如何輸出差分信號?

    想請問在只有單端輸入的情況下,THS4531如何輸出差分信號。 我的輸入電壓為0-5V,想通過THS4531輸出0-3V的差分信號給DSP28377D。我用TINA做了仿真,發現了一些問題。 我將
    發表于 08-13 07:42

    MOS管什么情況下會短路

    MOS管(Metal-Oxide-Semiconductor Field-Effect Transistor,金屬-氧化物半導體場效應晶體管)在多種情況下可能會發生短路,這些情況主要涉及其工作環境、操作條件、物理特性以及制造工藝等多個方面。以下是對MOS管短路原因的詳細分
    的頭像 發表于 07-16 11:39 ?3679次閱讀

    什么情況下會產生零序電流

    零序電流是指在三相電力系統中,三相電流的矢量和不為零的情況。在正常情況下,三相電力系統中的三相電流是平衡的,即三相電流的矢量和為零。但是,在某些特殊情況下,三相電流的矢量和不為零,就會產生零序電流
    的頭像 發表于 07-15 14:53 ?4771次閱讀

    受控源什么情況下可看為電阻

    受控源,又稱為非獨立源,是指其電壓或電流值受電路中其他部分的電壓或電流控制的電源。受控源在電路分析中具有重要的作用,其特性和行為與獨立源(如電池、發電機等)有所不同。在某些特定情況下,受控源可以看作
    的頭像 發表于 07-12 09:29 ?2271次閱讀

    ESP8266如何在沒有SNTP的情況下寫入當前的系統時間?

    當我開發SSL應用程序時,我首先需要SNTP。我們希望通過添加外部RTC模塊來記錄有效時間,從而避免每次使用SSL時先使用SNTP。但是,我們沒有找到設置系統時間的接口。如何在沒有SNTP的情況下寫入當前的系統時間?
    發表于 07-09 07:19

    何在UDP的情況下監聽自己通信是否中斷?

    請教大佬一個問題。 我如何在UDP的情況下監聽自己通信是否中斷? 不知道有沒有什么可以參考的?
    發表于 06-24 06:04

    谷景揭秘如何在色環電感封裝尺寸不變的情況下升級電感性能

    谷景揭秘如何在色環電感封裝尺寸不變的情況下升級電感性能 編輯:谷景電子 色環電感作為電子電路中的一種特別重要的電感元件,它對于電路運行的穩定性有著重要影響。色環電感的種類很多,不同的電路需求對色環
    的頭像 發表于 06-23 09:45 ?460次閱讀

    何在不更換固件的情況下控制cyusb3014在USB 2.0和USB 3.0模式的讀寫速度?

    您好,我想通過上層機測試cyusb3014在 USB 2.0和 USB 3.0模式的讀寫速度。 如何在不更換固件的情況下控制是通過上位機以 USB 2.0 還是 USB 3.0 速度連接? 謝謝。
    發表于 02-27 06:24

    什么情況下電容器會被擊穿

    電容器是一種常見的電子元件,廣泛應用于各個領域。然而,在特定條件,電容器可能會發生擊穿現象,導致其無法正常工作甚至損壞。那么,在什么情況下電容器會被擊穿呢?
    的頭像 發表于 02-19 14:11 ?2967次閱讀
    天朝博彩论坛| 百家乐官网桌面| 百家乐官网赌现金| 百家乐怎么玩高手| 百家乐博赌场娱乐网规则| 778棋牌游戏| 网上百家乐官网洗码技巧| 淮阳县| 尊龙百家乐官网娱乐场| 百家乐官网娱乐城信息| 连环百家乐官网的玩法技巧和规则| 百家乐赌场策略论坛| 网上投注| 百家乐官网五湖四海娱乐平台| 可信百家乐的玩法技巧和规则 | 百家乐真人游戏网| 太阳城娱乐网可信吗| 百家乐官网怎么赢9| 百家乐官网特殊计| 宝马百家乐的玩法技巧和规则| 百家乐官网正网开户| 澳门百家乐洗码提成查询| 大发888开户注册网站| 百家乐官网推二八杠| 百家乐能赢到钱吗| bodog博狗| 百家乐官网事一箩筐的微博| 威尼斯人娱乐城客服| 百家乐官网单跳投注法| 百家乐网投注| 百乐彩| 迪士尼百家乐官网的玩法技巧和规则 | 百家乐官网筛子游戏| 百家乐玩法秘诀| 威尼斯人娱乐网可信吗| 必博百家乐官网游戏| 机械百家乐技巧| 百家乐官网投注最好方法| 百家乐保单机解码| 赌博网站| 云鼎娱乐城信誉度|