衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

新的預(yù)訓(xùn)練方法——MASS!MASS預(yù)訓(xùn)練幾大優(yōu)勢!

電子工程師 ? 來源:lq ? 2019-05-11 09:34 ? 次閱讀

編者按:從2018年開始,預(yù)訓(xùn)練(pre-train) 毫無疑問成為NLP領(lǐng)域最熱的研究方向。借助于BERT和GPT等預(yù)訓(xùn)練模型,人類在多個自然語言理解任務(wù)中取得了重大突破。然而,在序列到序列的自然語言生成任務(wù)中,目前主流預(yù)訓(xùn)練模型并沒有取得顯著效果。為此,微軟亞洲研究院的研究員在ICML 2019上提出了一個全新的通用預(yù)訓(xùn)練方法MASS,在序列到序列的自然語言生成任務(wù)中全面超越BERT和GPT。在微軟參加的WMT19機(jī)器翻譯比賽中,MASS幫助中-英、英-立陶宛兩個語言對取得了第一名的成績。

BERT在自然語言理解(比如情感分類、自然語言推理、命名實(shí)體識別、SQuAD閱讀理解等)任務(wù)中取得了很好的結(jié)果,受到了越來越多的關(guān)注。然而,在自然語言處理領(lǐng)域,除了自然語言理解任務(wù),還有很多序列到序列的自然語言生成任務(wù),比如機(jī)器翻譯、文本摘要生成、對話生成、問答、文本風(fēng)格轉(zhuǎn)換等。在這類任務(wù)中,目前主流的方法是編碼器-注意力-解碼器框架,如下圖所示。

編碼器-注意力-解碼器框架

編碼器(Encoder)將源序列文本X編碼成隱藏向量序列,然后解碼器(Decoder)通過注意力機(jī)制(Attention)抽取編碼的隱藏向量序列信息,自回歸地生成目標(biāo)序列文本Y。

BERT通常只訓(xùn)練一個編碼器用于自然語言理解,而GPT的語言模型通常是訓(xùn)練一個解碼器。如果要將BERT或者GPT用于序列到序列的自然語言生成任務(wù),通常只有分開預(yù)訓(xùn)練編碼器和解碼器,因此編碼器-注意力-解碼器結(jié)構(gòu)沒有被聯(lián)合訓(xùn)練,記憶力機(jī)制也不會被預(yù)訓(xùn)練,而解碼器對編碼器的注意力機(jī)制在這類任務(wù)中非常重要,因此BERT和GPT在這類任務(wù)中只能達(dá)到次優(yōu)效果。

新的預(yù)訓(xùn)練方法——MASS

專門針對序列到序列的自然語言生成任務(wù),微軟亞洲研究院提出了新的預(yù)訓(xùn)練方法:屏蔽序列到序列預(yù)訓(xùn)練(MASS: Masked Sequence to Sequence Pre-training)。MASS對句子隨機(jī)屏蔽一個長度為k的連續(xù)片段,然后通過編碼器-注意力-解碼器模型預(yù)測生成該片段。

屏蔽序列到序列預(yù)訓(xùn)練MASS模型框架

如上圖所示,編碼器端的第3-6個詞被屏蔽掉,然后解碼器端只預(yù)測這幾個連續(xù)的詞,而屏蔽掉其它詞,圖中“_”代表被屏蔽的詞。

MASS預(yù)訓(xùn)練有以下幾大優(yōu)勢:

(1)解碼器端其它詞(在編碼器端未被屏蔽掉的詞)都被屏蔽掉,以鼓勵解碼器從編碼器端提取信息來幫助連續(xù)片段的預(yù)測,這樣能促進(jìn)編碼器-注意力-解碼器結(jié)構(gòu)的聯(lián)合訓(xùn)練;

(2)為了給解碼器提供更有用的信息,編碼器被強(qiáng)制去抽取未被屏蔽掉詞的語義,以提升編碼器理解源序列文本的能力;

(3)讓解碼器預(yù)測連續(xù)的序列片段,以提升解碼器的語言建模能力。

統(tǒng)一的預(yù)訓(xùn)練框架

MASS有一個重要的超參數(shù)k(屏蔽的連續(xù)片段長度),通過調(diào)整k的大小,MASS能包含BERT中的屏蔽語言模型訓(xùn)練方法以及GPT中標(biāo)準(zhǔn)的語言模型預(yù)訓(xùn)練方法,使MASS成為一個通用的預(yù)訓(xùn)練框架。

當(dāng)k=1時(shí),根據(jù)MASS的設(shè)定,編碼器端屏蔽一個單詞,解碼器端預(yù)測一個單詞,如下圖所示。解碼器端沒有任何輸入信息,這時(shí)MASS和BERT中的屏蔽語言模型的預(yù)訓(xùn)練方法等價(jià)。

當(dāng)k=m(m為序列長度)時(shí),根據(jù)MASS的設(shè)定,編碼器屏蔽所有的單詞,解碼器預(yù)測所有單詞,如下圖所示,由于編碼器端所有詞都被屏蔽掉,解碼器的注意力機(jī)制相當(dāng)于沒有獲取到信息,在這種情況下MASS等價(jià)于GPT中的標(biāo)準(zhǔn)語言模型。

MASS在不同K下的概率形式如下表所示,其中m為序列長度,u和v為屏蔽序列的開始和結(jié)束位置,x^u:v表示從位置u到v的序列片段,x^\u:v表示該序列從位置u到v被屏蔽掉。可以看到,當(dāng)K=1或者m時(shí),MASS的概率形式分別和BERT中的屏蔽語言模型以及GPT中的標(biāo)準(zhǔn)語言模型一致。

我們通過實(shí)驗(yàn)分析了屏蔽MASS模型中不同的片段長度(k)進(jìn)行預(yù)訓(xùn)練的效果,如下圖所示。

當(dāng)k取大約句子長度一半時(shí)(50% m),下游任務(wù)能達(dá)到最優(yōu)性能。屏蔽句子中一半的詞可以很好地平衡編碼器和解碼器的預(yù)訓(xùn)練,過度偏向編碼器(k=1,即BERT)或者過度偏向解碼器(k=m,即LM/GPT)都不能在該任務(wù)中取得最優(yōu)的效果,由此可以看出MASS在序列到序列的自然語言生成任務(wù)中的優(yōu)勢。

序列到序列自然語言生成任務(wù)實(shí)驗(yàn)

預(yù)訓(xùn)練流程

MASS只需要無監(jiān)督的單語數(shù)據(jù)(比如WMT News Crawl Data、Wikipedia Data等)進(jìn)行預(yù)訓(xùn)練。MASS支持跨語言的序列到序列生成(比如機(jī)器翻譯),也支持單語言的序列到序列生成(比如文本摘要生成、對話生成)。當(dāng)預(yù)訓(xùn)練MASS支持跨語言任務(wù)時(shí)(比如英語-法語機(jī)器翻譯),我們在一個模型里同時(shí)進(jìn)行英語到英語以及法語到法語的預(yù)訓(xùn)練。需要單獨(dú)給每個語言加上相應(yīng)的語言嵌入向量,用來區(qū)分不同的語言。我們選取了無監(jiān)督機(jī)器翻譯、低資源機(jī)器翻譯、文本摘要生成以及對話生成四個任務(wù),將MASS預(yù)訓(xùn)練模型針對各個任務(wù)進(jìn)行精調(diào),以驗(yàn)證MASS的效果。

無監(jiān)督機(jī)器翻譯

在無監(jiān)督翻譯任務(wù)上,我們和當(dāng)前最強(qiáng)的Facebook XLM作比較(XLM用BERT中的屏蔽預(yù)訓(xùn)練模型,以及標(biāo)準(zhǔn)語言模型來分別預(yù)訓(xùn)練編碼器和解碼器),對比結(jié)果如下表所示。

可以看到,MASS的預(yù)訓(xùn)練方法在WMT14英語-法語、WMT16英語-德語一共4個翻譯方向上的表現(xiàn)都優(yōu)于XLM。MASS在英語-法語無監(jiān)督翻譯上的效果已經(jīng)遠(yuǎn)超早期有監(jiān)督的編碼器-注意力-解碼器模型,同時(shí)極大縮小了和當(dāng)前最好的有監(jiān)督模型之間的差距。

低資源機(jī)器翻譯

低資源機(jī)器翻譯指的是監(jiān)督數(shù)據(jù)有限情況下的機(jī)器翻譯。我們在WMT14英語-法語、WMT16英語-德語上的不同低資源場景上(分別只有10K、100K、1M的監(jiān)督數(shù)據(jù))驗(yàn)證我們方法的有效性,結(jié)果如下所示。

在不同的數(shù)據(jù)規(guī)模下,我們的預(yù)訓(xùn)練方法的表現(xiàn)均比不用預(yù)訓(xùn)練的基線模型有不同程度的提升,監(jiān)督數(shù)據(jù)越少,提升效果越顯著。

文本摘要生成

在文本摘要生成(Gigaword Corpus)任務(wù)上,我們將MASS同BERT+LM(編碼器用BERT預(yù)訓(xùn)練,解碼器用標(biāo)準(zhǔn)語言模型LM預(yù)訓(xùn)練)以及DAE(去噪自編碼器)進(jìn)行了比較。從下表可以看到,MASS的效果明顯優(yōu)于BERT+LM以及DAE。

對話生成

在對話生成(Cornell Movie Dialog Corpus)任務(wù)上,我們將MASS同BERT+LM進(jìn)行了比較,結(jié)果如下表所示。MASS的PPL低于BERT+LM。

在不同的序列到序列自然語言生成任務(wù)中,MASS均取得了非常不錯的效果。接下來,我們還將測試MASS在自然語言理解任務(wù)上的性能,并為該模型增加支持監(jiān)督數(shù)據(jù)預(yù)訓(xùn)練的功能,以期望在更多自然語言任務(wù)中取得提升。未來,我們還希望將MASS的應(yīng)用領(lǐng)域擴(kuò)展到包含語音、視頻等其它序列到序列的生成任務(wù)中。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1147

    瀏覽量

    40933
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3669

    瀏覽量

    135245
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    291

    瀏覽量

    13400

原文標(biāo)題:ICML 2019:序列到序列自然語言生成任務(wù)超越BERT、GPT!微軟提出通用預(yù)訓(xùn)練模型MASS | 技術(shù)頭條

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    【大語言模型:原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

    大語言模型的核心特點(diǎn)在于其龐大的參數(shù)量,這賦予了模型強(qiáng)大的學(xué)習(xí)容量,使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)習(xí)容量的增加,對預(yù)訓(xùn)練數(shù)據(jù)的需求也相應(yīng)
    發(fā)表于 05-07 17:10

    優(yōu)化神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法有哪些?

    優(yōu)化神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法有哪些?
    發(fā)表于 09-06 09:52

    微軟在ICML 2019上提出了一個全新的通用預(yù)訓(xùn)練方法MASS

    專門針對序列到序列的自然語言生成任務(wù),微軟亞洲研究院提出了新的預(yù)訓(xùn)練方法:屏蔽序列到序列預(yù)訓(xùn)練MASS: Masked Sequence
    的頭像 發(fā)表于 05-11 09:19 ?3531次閱讀
    微軟在ICML 2019上提出了一個全新的通用<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練方法</b><b class='flag-5'>MASS</b>

    預(yù)訓(xùn)練語言模型設(shè)計(jì)的理論化認(rèn)識

    在這篇文章中,我會介紹一篇最新的預(yù)訓(xùn)練語言模型的論文,出自MASS的同一作者。這篇文章的亮點(diǎn)是:將兩種經(jīng)典的預(yù)訓(xùn)練語言模型(MaskedLa
    的頭像 發(fā)表于 11-02 15:09 ?2760次閱讀

    小米在預(yù)訓(xùn)練模型的探索與優(yōu)化

    大家?guī)硇∶自?b class='flag-5'>預(yù)訓(xùn)練模型的探索與優(yōu)化。 01 預(yù)訓(xùn)練簡介 預(yù)訓(xùn)練與詞向量的
    的頭像 發(fā)表于 12-31 10:17 ?2668次閱讀
    小米在<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>模型的探索與優(yōu)化

    一種側(cè)重于學(xué)習(xí)情感特征的預(yù)訓(xùn)練方法

    transformers編碼表示)的基礎(chǔ)上,提岀了一種側(cè)重學(xué)習(xí)情感特征的預(yù)訓(xùn)練方法。在目標(biāo)領(lǐng)域的預(yù)練階段,利用情感詞典改進(jìn)了BERT的預(yù)訓(xùn)練
    發(fā)表于 04-13 11:40 ?4次下載
    一種側(cè)重于學(xué)習(xí)情感特征的<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練方法</b>

    利用視覺語言模型對檢測器進(jìn)行預(yù)訓(xùn)練

    預(yù)訓(xùn)練通常被用于自然語言處理以及計(jì)算機(jī)視覺領(lǐng)域,以增強(qiáng)主干網(wǎng)絡(luò)的特征提取能力,達(dá)到加速訓(xùn)練和提高模型泛化性能的目的。該方法亦可以用于場景文本檢測當(dāng)中,如最早的使用ImageNet
    的頭像 發(fā)表于 08-08 15:33 ?1460次閱讀

    什么是預(yù)訓(xùn)練 AI 模型?

    預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用,也可以根據(jù)不同行業(yè)的應(yīng)用需求進(jìn)行自定義。 如果要教一個剛學(xué)會走路的孩子什么是獨(dú)角獸,那么我們首先應(yīng)
    的頭像 發(fā)表于 04-04 01:45 ?1529次閱讀

    什么是預(yù)訓(xùn)練AI模型?

    預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用,也可以根據(jù)不同行業(yè)的應(yīng)用需求進(jìn)行自定義。
    的頭像 發(fā)表于 05-25 17:10 ?1126次閱讀

    基礎(chǔ)模型自監(jiān)督預(yù)訓(xùn)練的數(shù)據(jù)之謎:大量數(shù)據(jù)究竟是福還是禍?

    。然而,在自監(jiān)督預(yù)訓(xùn)練中,是否數(shù)據(jù)越多越好?數(shù)據(jù)增廣是否始終有效?華為諾亞方舟實(shí)驗(yàn)室與香港科技大學(xué)的研究團(tuán)隊(duì)近期發(fā)現(xiàn): 主流自監(jiān)督預(yù)訓(xùn)練方法如 Masked Autoencoder (
    的頭像 發(fā)表于 07-24 16:55 ?593次閱讀
    基礎(chǔ)模型自監(jiān)督<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的數(shù)據(jù)之謎:大量數(shù)據(jù)究竟是福還是禍?

    基于生成模型的預(yù)訓(xùn)練方法

    with Deep Generative Models,我認(rèn)為是個挺強(qiáng)挺有趣的自監(jiān)督方面的工作。DreamTeacher 用于從預(yù)訓(xùn)練的生成網(wǎng)絡(luò)向目標(biāo)圖像 Backbone 進(jìn)行知識蒸餾,作為一種通用的預(yù)
    的頭像 發(fā)表于 08-11 09:38 ?1282次閱讀
    基于生成模型的<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練方法</b>

    谷歌模型訓(xùn)練軟件有哪些功能和作用

    谷歌模型訓(xùn)練軟件主要是指ELECTRA,這是一種新的預(yù)訓(xùn)練方法,源自谷歌AI。ELECTRA不僅擁有BERT的優(yōu)勢,而且在效率上更勝一籌。
    的頭像 發(fā)表于 02-29 17:37 ?854次閱讀

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個重要概念,尤其是在自然語言處理(NLP)和計(jì)算機(jī)視覺(CV)等領(lǐng)域中得到了廣泛應(yīng)用。預(yù)訓(xùn)練模型指的是在大
    的頭像 發(fā)表于 07-03 18:20 ?3151次閱讀

    LLM預(yù)訓(xùn)練的基本概念、基本原理和主要優(yōu)勢

    理解和生成自然語言的能力,為各種NLP任務(wù)提供了強(qiáng)大的支持。本文將詳細(xì)介紹LLM預(yù)訓(xùn)練的基本概念、基本原理以及主要優(yōu)勢,并附上相關(guān)的代碼示例。
    的頭像 發(fā)表于 07-10 11:03 ?1298次閱讀

    大語言模型的預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過在海量無標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使模型學(xué)習(xí)到語言的通用知識,為后續(xù)的任務(wù)微調(diào)奠定基礎(chǔ)。本文將深入探討大語言模型
    的頭像 發(fā)表于 07-11 10:11 ?537次閱讀
    世嘉百家乐官网的玩法技巧和规则| A8百家乐官网娱乐网| 大桥下做生意风水好吗| 加多宝百家乐的玩法技巧和规则| 缅甸百家乐赌场| 上虞市| 百家乐代理占成| 大发888棋牌下载| 香港百家乐官网赌场| 百家乐之三姐妹赌博机| 88娱乐城网址| 百家乐官网有没有单机版的 | 名门国际娱乐| 名仕百家乐官网的玩法技巧和规则 | 百家乐官网路单免费下载| 塑料百家乐筹码| 鸿运娱乐| 免邮百家乐官网布桌| 大发888挖掘| 网上百家乐官网的玩法技巧和规则| 百家乐真人游戏棋牌| 百家乐官网分析下载| 81数理 做生意| 海港城百家乐的玩法技巧和规则| 爱赢百家乐官网开户送现金| 百家乐波音平台有假吗| 温州市| 百家乐破解软件真的有用吗| 栾城县| 菲律宾百家乐太阳城| 百家乐官网博彩桌出租| 百家乐论坛香港马会| 蛟河市| 百家乐智能系统| 澳门百家乐官网网站bt| 全讯网5532888| 百家乐官网网络娱乐场开户注册| 大发888官wang| 德州扑克概率| 百家乐软件代打| 百家乐官网没有必胜|