衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

哈工大訊飛聯(lián)合實驗室發(fā)布基于全詞覆蓋的中文BERT預訓練模型

WpOh_rgznai100 ? 來源:lq ? 2019-07-18 14:36 ? 次閱讀

為了進一步促進中文自然語言處理的研究發(fā)展,哈工大訊飛聯(lián)合實驗室發(fā)布基于全詞覆蓋(Whole Word Masking)的中文BERT預訓練模型。我們在多個中文數(shù)據(jù)集上得到了較好的結(jié)果,覆蓋了句子級到篇章級任務(wù)。同時,我們對現(xiàn)有的中文預訓練模型進行了對比,并且給出了若干使用建議。我們歡迎大家下載試用。

下載地址:https://github.com/ymcui/Chinese-BERT-wwm

技術(shù)報告:https://arxiv.org/abs/1906.08101

摘要

基于Transformers的雙向編碼表示(BERT)在多個自然語言處理任務(wù)中取得了廣泛的性能提升。近期,谷歌發(fā)布了基于全詞覆蓋(Whold Word Masking)的BERT預訓練模型,并且在SQuAD數(shù)據(jù)中取得了更好的結(jié)果。應(yīng)用該技術(shù)后,在預訓練階段,同屬同一個詞的WordPiece會被全部覆蓋掉,而不是孤立的覆蓋其中的某些WordPiece,進一步提升了Masked Language Model (MLM)的難度。在本文中我們將WWM技術(shù)應(yīng)用在了中文BERT中。我們采用中文維基百科數(shù)據(jù)進行了預訓練。該模型在多個自然語言處理任務(wù)中得到了測試和驗證,囊括了句子級到篇章級任務(wù),包括:情感分類,命名實體識別,句對分類,篇章分類,機器閱讀理解。實驗結(jié)果表明,基于全詞覆蓋的中文BERT能夠帶來進一步性能提升。同時我們對現(xiàn)有的中文預訓練模型BERT,ERNIE和本文的BERT-wwm進行了對比,并給出了若干使用建議。預訓練模型將發(fā)布在:https://github.com/ymcui/Chinese-BERT-wwm

簡介

Whole Word Masking (wwm),暫翻譯為全詞Mask,是谷歌在2019年5月31日發(fā)布的一項BERT的升級版本,主要更改了原預訓練階段的訓練樣本生成策略。簡單來說,原有基于WordPiece的分詞方式會把一個完整的詞切分成若干個詞綴,在生成訓練樣本時,這些被分開的詞綴會隨機被[MASK]替換。在全詞Mask中,如果一個完整的詞的部分WordPiece被[MASK]替換,則同屬該詞的其他部分也會被[MASK]替換,即全詞Mask。

同理,由于谷歌官方發(fā)布的BERT-base(Chinese)中,中文是以字為粒度進行切分,沒有考慮到傳統(tǒng)NLP中的中文分詞(CWS)。我們將全詞Mask的方法應(yīng)用在了中文中,即對組成同一個詞的漢字全部進行[MASK]。該模型使用了中文維基百科(包括簡體和繁體)進行訓練,并且使用了哈工大語言技術(shù)平臺LTP(http://ltp.ai)作為分詞工具。

下述文本展示了全詞Mask的生成樣例。

基線測試結(jié)果

我們選擇了若干中文自然語言處理數(shù)據(jù)集來測試和驗證預訓練模型的效果。同時,我們也對近期發(fā)布的谷歌BERT,百度ERNIE進行了基準測試。為了進一步測試這些模型的適應(yīng)性,我們特別加入了篇章級自然語言處理任務(wù),來驗證它們在長文本上的建模效果。

以下是我們選用的基準測試數(shù)據(jù)集。

我們列舉其中部分實驗結(jié)果,完整結(jié)果請查看我們的技術(shù)報告。為了確保結(jié)果的穩(wěn)定性,每組實驗均獨立運行10次,匯報性能最大值和平均值(括號內(nèi)顯示)。

▌中文簡體閱讀理解:CMRC 2018

CMRC 2018是哈工大訊飛聯(lián)合實驗室發(fā)布的中文機器閱讀理解數(shù)據(jù)。根據(jù)給定問題,系統(tǒng)需要從篇章中抽取出片段作為答案,形式與SQuAD相同。

▌中文繁體閱讀理解:DRCD

DRCD數(shù)據(jù)集由中國***臺達研究院發(fā)布,其形式與SQuAD相同,是基于繁體中文的抽取式閱讀理解數(shù)據(jù)集。

▌中文命名實體識別:人民日報,MSRA-NER

中文命名實體識別(NER)任務(wù)中,我們采用了經(jīng)典的人民日報數(shù)據(jù)以及微軟亞洲研究院發(fā)布的NER數(shù)據(jù)。

▌句對分類:LCQMC,BQ Corpus

LCQMC以及BQ Corpus是由哈爾濱工業(yè)大學(深圳)發(fā)布的句對分類數(shù)據(jù)集。

▌篇章級文本分類:THUCNews

由清華大學自然語言處理實驗室發(fā)布的新聞數(shù)據(jù)集,需要將新聞分成10個類別中的一個。

使用建議

基于以上實驗結(jié)果,我們給出以下使用建議(部分),完整內(nèi)容請查看我們的技術(shù)報告。

初始學習率是非常重要的一個參數(shù)(不論是BERT還是其他模型),需要根據(jù)目標任務(wù)進行調(diào)整。

ERNIE的最佳學習率和BERT/BERT-wwm相差較大,所以使用ERNIE時請務(wù)必調(diào)整學習率(基于以上實驗結(jié)果,ERNIE需要的初始學習率較高)。

由于BERT/BERT-wwm使用了維基百科數(shù)據(jù)進行訓練,故它們對正式文本建模較好;而ERNIE使用了額外的百度百科、貼吧、知道等網(wǎng)絡(luò)數(shù)據(jù),它對非正式文本(例如微博等)建模有優(yōu)勢。

在長文本建模任務(wù)上,例如閱讀理解、文檔分類,BERT和BERT-wwm的效果較好。

如果目標任務(wù)的數(shù)據(jù)和預訓練模型的領(lǐng)域相差較大,請在自己的數(shù)據(jù)集上進一步做預訓練。

如果要處理繁體中文數(shù)據(jù),請使用BERT或者BERT-wwm。因為我們發(fā)現(xiàn)ERNIE的詞表中幾乎沒有繁體中文。

聲明

雖然我們極力的爭取得到穩(wěn)定的實驗結(jié)果,但實驗中難免存在多種不穩(wěn)定因素(隨機種子,計算資源,超參),故以上實驗結(jié)果僅供學術(shù)研究參考。由于ERNIE的原始發(fā)布平臺是PaddlePaddle(https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE),我們無法保證在本報告中的效果能反映其真實性能(雖然我們在若干數(shù)據(jù)集中復現(xiàn)了效果)。同時,上述使用建議僅供參考,不能作為任何結(jié)論性依據(jù)。

該項目不是谷歌官方發(fā)布的中文Whole Word Masking預訓練模型。

總結(jié)

我們發(fā)布了基于全詞覆蓋的中文BERT預訓練模型,并在多個自然語言處理數(shù)據(jù)集上對比了BERT、ERNIE以及BERT-wwm的效果。實驗結(jié)果表明,在大多數(shù)情況下,采用了全詞覆蓋的預訓練模型(ERNIE,BERT-wwm)能夠得到更優(yōu)的效果。由于這些模型在不同任務(wù)上的表現(xiàn)不一致,我們也給出了若干使用建議,并且希望能夠進一步促進中文信息處理的研究與發(fā)展。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1209

    瀏覽量

    24835
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    619

    瀏覽量

    13646

原文標題:刷新中文閱讀理解水平,哈工大訊飛聯(lián)合發(fā)布基于全詞覆蓋中文BERT預訓練模型

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    科大星火大模型升級發(fā)布會回顧

    發(fā)布首個基于全國產(chǎn)算力平臺訓練的具備深度思考和推理能力的大模型——星火深度推理模型X1,
    的頭像 發(fā)表于 01-16 14:51 ?854次閱讀

    科大即將發(fā)布星火深度推理模型X1

    近日,科大飛在1月7日成功舉辦的辦公智能體產(chǎn)品升級發(fā)布會上,宣布了一項令人振奮的新進展。據(jù)科大官方透露,公司將于1月15日正式對外發(fā)布
    的頭像 發(fā)表于 01-08 10:30 ?335次閱讀

    阿里云與零一萬物戰(zhàn)略合作,成立產(chǎn)業(yè)大模型聯(lián)合實驗室

    近日,阿里云與業(yè)界領(lǐng)先的大模型企業(yè)零一萬物宣布達成模型平臺業(yè)務(wù)的戰(zhàn)略合作。此次合作的核心內(nèi)容是雙方將共同成立“產(chǎn)業(yè)大模型聯(lián)合實驗室”,旨在加
    的頭像 發(fā)表于 01-03 11:12 ?245次閱讀

    小米與聚光電成立聯(lián)合實驗室

    近日,“小米&聚聯(lián)合實驗室”在惠州聚正式揭牌成立。該實驗室將以Mini背光技術(shù)創(chuàng)新為主要方向,進一步強化雙方在顯示終端領(lǐng)域的多元化合作。
    的頭像 發(fā)表于 11-27 10:45 ?248次閱讀

    科大發(fā)布星火4.0 Turbo大模型及星火多語言大模型

    ,科大以其一貫的創(chuàng)新精神,開創(chuàng)性地發(fā)布了星火多語言大模型。這一創(chuàng)新之舉不僅進一步鞏固了科大飛在中文
    的頭像 發(fā)表于 10-24 13:58 ?474次閱讀

    華工科技聯(lián)合哈工大實現(xiàn)國內(nèi)首臺激光智能除草機器人落地

    華工科技黨委書記、董事長、總裁馬新強一行赴哈爾濱對哈爾濱工業(yè)大學機器人技術(shù)與系統(tǒng)全國重點實驗室(后簡稱哈工大機器人實驗室)、愛輝區(qū)智能激光除草機器人試點基地進行實地調(diào)研,代表華工科技中央研究院同
    的頭像 發(fā)表于 09-06 10:45 ?905次閱讀

    榮耀與智譜攜手共建AI大模型聯(lián)合實驗室

    近日,榮耀終端有限公司與北京智譜華章科技有限公司正式攜手,共同宣布成立AI大模型技術(shù)聯(lián)合實驗室,并簽署了戰(zhàn)略合作協(xié)議。此次合作標志著雙方在人工智能領(lǐng)域的深度合作邁入新階段,共同致力于為用戶帶來前所未有的智能體驗。
    的頭像 發(fā)表于 09-03 18:15 ?1089次閱讀

    MediaTek與小米集團聯(lián)合實驗室正式揭幕

    MediaTek 宣布攜手小米集團持續(xù)強化戰(zhàn)略合作,共同開啟更深層次的多元合作,并為位于小米深圳研發(fā)總部的「聯(lián)合實驗室」揭牌。此次「聯(lián)合實驗室」的揭幕將進一步強化雙方合作伙伴關(guān)系,推動
    的頭像 發(fā)表于 07-03 14:52 ?755次閱讀

    中山聯(lián)合光電:精密光學實驗室簽約落地長春理工大學中山研究院

    5月7日,中山聯(lián)合光電研究院有限公司與長春理工大學中山研究院“付秀華精密光學薄膜實驗室”簽約儀式在中山聯(lián)合光電科技股份有限公司正式舉行。聯(lián)合
    的頭像 發(fā)表于 05-10 10:08 ?854次閱讀
    中山<b class='flag-5'>聯(lián)合</b>光電:精密光學<b class='flag-5'>實驗室</b>簽約落地長春理<b class='flag-5'>工大</b>學中山研究院

    【大語言模型:原理與工程實踐】大語言模型訓練

    大語言模型的核心特點在于其龐大的參數(shù)量,這賦予了模型強大的學習容量,使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學習容量的增加,對訓練數(shù)據(jù)的需求也相
    發(fā)表于 05-07 17:10

    志科技與佰維存儲簽署聯(lián)合實驗室合作協(xié)議

    近日,珠海志科技股份有限公司與深圳佰維存儲科技股份有限公司在深圳佰維總部正式簽署聯(lián)合實驗室合作協(xié)議。此次合作旨在加強SoC平臺與存儲器之間的適配和測試驗證工作。
    的頭像 發(fā)表于 05-06 16:01 ?507次閱讀

    【大語言模型:原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

    模型架構(gòu)奠定基礎(chǔ)。然后,引介一些經(jīng)典的訓練模型,如BERT、GPT等。最后,解讀ChatGPT和LLaMA系列
    發(fā)表于 05-05 12:17

    西井科技和香港理工大學簽署合作協(xié)議,將共建聯(lián)合創(chuàng)新實驗室

    西井科技和香港理工大學簽署了人工智能和自動駕駛方面的深度產(chǎn)學研合作協(xié)議,將共建聯(lián)合創(chuàng)新實驗室,雙方共同探索該領(lǐng)域的前沿技術(shù)和應(yīng)用實踐。
    的頭像 發(fā)表于 04-29 09:42 ?649次閱讀
    西井科技和香港理<b class='flag-5'>工大</b>學簽署合作協(xié)議,將共建<b class='flag-5'>聯(lián)合</b>創(chuàng)新<b class='flag-5'>實驗室</b>

    AI+教育 深圳市中小學聯(lián)合實驗室正式啟用

    4月18日,深圳市中小學人工智能聯(lián)合實驗室在深圳高級中學(集團)南校區(qū)啟用。 去年,深圳市教育局發(fā)布推進中小學人工智能教育工作方案,提出要建成具有深圳特色的人工智能教育課程體系,構(gòu)建社會資源支持
    發(fā)表于 04-22 10:07 ?263次閱讀
    AI+教育 深圳市中小學<b class='flag-5'>聯(lián)合</b><b class='flag-5'>實驗室</b>正式啟用

    志科技與佰維存儲簽署建立聯(lián)合實驗室合作協(xié)議

    近日,珠海志科技股份有限公司與深圳佰維存儲科技股份有限公司在深圳佰維總部簽署建立聯(lián)合實驗室合作協(xié)議。
    的頭像 發(fā)表于 04-16 10:23 ?646次閱讀
    <b class='flag-5'>全</b>志科技與佰維存儲簽署建立<b class='flag-5'>聯(lián)合</b><b class='flag-5'>實驗室</b>合作協(xié)議
    太子百家乐的玩法技巧和规则 | 凤凰百家乐官网娱乐城| 百家乐官网庄闲排| 八大胜百家乐娱乐城| 瑞丰国际娱乐| 百家乐官网追注法| 百家乐威尼斯人| 365体育在线投注| 百家乐官网知道| 大发888主页| 金花百家乐官网娱乐城| 百家乐注册18元体验金| 百家乐网址| 赌场百家乐官网实战| 真人百家乐体验金| 百家乐官网一直下注庄家| 太阳城百家乐如何看路| 百家乐电脑上怎么赌| 利来国际开户| 24山向吉凶水法| 巴登娱乐城信誉怎么样| 百家乐官网破解分| 华夏棋牌注册| 邯郸百家乐园真钱区| 博狗开户| 澳门百家乐心德| 太子娱乐城官网| 百家乐如何写路| 网上真人娱乐场| 百家乐发牌的介绍| 棋牌游戏赚钱| 百家乐官网群dmwd| 免费百家乐官网统计| 沈阳娱乐棋牌网| 足球百家乐官网投注网出租| 最新娱乐城注册送彩金| 百家乐园胎教网| 泰顺县| 百家乐赌场娱乐| 百家乐官网桌游| 大发888官网www.dafa888.com|