棋牌拖拉机游戏,合胜盈皇冠现金网,娱乐场所上岗证图片(中国)·官方网站

論文：Adversarial Training for Large NeuralLangUageModels

源碼：https://github.com/namisan/mt-dnn

TL;DR

本文把對抗訓練用到了預訓練和微調兩個階段，對抗訓練的方法是針對embedding space，通過最大化對抗損失、最小化模型損失的方式進行對抗，在下游任務上取得了一致的效果提升。

有趣的是，這種對抗訓練方法不僅能夠在BERT上有提高，而且在RoBERTa這種已經預訓練好的模型上也能有所提高，說明對抗訓練的確可以幫助模型糾正易錯點。

方法：ALUM（大型神經語言模型的對抗性訓練）

實現：在embedding space添加擾動，最大化對抗損失

應用：任何基于Transformer的語言模型的預訓練或微調

預備知識

BPE編碼

為了解決詞匯表外單詞的問題，使用Byte-Pair Encoding（BPE）（Sennrich et al.，2015）或其變體（Kudo and Richardson，2018）將標記劃分為子詞單元，生成固定大小的子詞詞匯，以便在訓練文本語料庫中緊湊地表示單詞。

BPE詞表既存在char-level級別的字符，也存在word-level級別的單詞。通過BPE得到了更加合適的詞表，這個詞表可能會出現一些不是單詞的組合，但是這個本身是有意義的一種形式。

流程：

確定subword詞表大小

統計每一個連續字節對的出現頻率，并保存為code_file。這個是git中learn-bpe完成

將單詞拆分為字符序列并在末尾添加后綴“ ”，而后按照code_file合并新的subword，首先合并頻率出現最高的字節對。例如單詞birthday，分割為['b', 'i', 'r', 't', 'h', 'd', 'a', 'y']，查code_file，發現'th'出現的最多，那么合并為['b', 'i', 'r', 'th', 'd', 'a', 'y']，最后，字符序列合并為['birth', 'day']。然后去除'',變為['birth', 'day']，將這兩個詞添加到詞表。這個是apply-bpe完成。

重復第3步直到達到第2步設定的subword詞表大小或下一個最高頻的字節對出現頻率為1

模型：ALUM

基于幾個關鍵想法：

擾動embedding空間，優于直接對輸入文本應用擾動。

通過虛擬對抗訓練為標準目標添加正則化項。

其中預訓練階段，微調階段

因為有最大化操作，所以訓練昂貴。有利于embedding鄰域的標簽平滑。

文中觀點：

虛擬對抗訓練優于傳統對抗訓練，特別是當標簽可能有噪聲時。

例如，BERT pretraining使用masked words作為自監督的標簽，但在許多情況下，它們可以被其他詞取代，形成完全合法的文本。但BERT中，給到被替換的word的標簽均為負。

算法

首先使用標準目標（1）訓練模型；然后使用虛擬對抗訓練（3）繼續訓練。

第4-6行為求最大梯度步驟，以找到使對抗性損失最大化的擾動（反局部平滑性）。K越大的近似值越高，但成本更高。為了在速度和性能之間取得良好的平衡，本文實驗K=1.

泛化與魯棒性

文中表示，通過使用ALUM進行對抗性的預訓練，能夠提高廣泛的NLP任務的泛化和魯棒性（如后述實驗結論所示）。之前的研究較多發現，對抗訓練會損害泛化能力。

先前關于泛化和魯棒性之間沖突的工作通常集中在有監督的學習環境中。調和兩者的一些初顯成果也利用了未標記的數據，例如自訓練（Raghunathan等人，2020年）。

此外，假設通過擾動embedding空間而不是輸入空間，NLP中的對抗訓練可能無意中偏向于流形擾動而不是規則擾動。

什么是流形

流形學習的觀點：認為我們所觀察到的數據實際上是由一個低維流形映射到高維空間的。由于數據內部特征的限制，一些高維中的數據會產生維度上的冗余，實際上這些數據只要比較低的維度的維度就能唯一的表示。

所以直觀上來講，一個流形好比是一個d維的空間，在一個m維的空間中（m>d）被扭曲之后的結果。需要注意的是流形不是一個形狀，而是一個空間。舉個例子，比如說一塊布，可以把它看成一個二維的平面，這是一個二維的空間，現在我們把它扭一扭(三維空間),它就變成了一個流形，當然不扭的時候，它也是一個流形，歐氏空間是流形的一種特殊情況。

實驗

提升泛化能力

BERT BASE是使用與Devlin等人相同的設置訓練的標準BERT base模型。（即1M步，batch size = 256）。

BERT+BASE與BERT BASE相似，不同之處在于其訓練步數為1.6M，與對抗預訓練所需時間大致相同（ALUM BERT-BASE）。

ALUM BERT-BASE是一個BERT模型，使用與BERT BASE相同的設置進行訓練，但最后的500K步驟使用ALUM。每一個對抗訓練步驟大約比標準訓練步驟長1.5倍。

可以觀察到后500k加了ALUM后提升明顯。

提升魯棒性

結合對抗預訓練和對抗微調

之前都是在預訓練階段做的對抗，ALUM RoBERTa-LARGE-SMART在預訓練和微調階段均做對抗。

結論

提出了一種通用的對抗性訓練算法ALUM：

對抗預訓練可以顯著提高泛化能力和魯棒性。

ALUM大大提高了BERT和RoBERTa在各種NLP任務中的準確性，并且可以與對抗微調相結合以獲得進一步的收益。

未來的發展方向：

進一步研究對抗性預訓練在提高泛化和魯棒性方面的作用；

對抗性訓練加速；

將ALUM應用于其他領域。

責任編輯：xj

原文標題：【微軟ALUM】當語言模型遇到對抗訓練

文章出處：【微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

微軟

微軟

+關注

關注
4

文章
6630

瀏覽量
104473
算法

算法

+關注

關注
23

文章
4630

瀏覽量
93359
語言模型

語言模型

+關注

關注
0

文章
538

瀏覽量
10342
nlp

nlp

+關注

關注
1

文章
489

瀏覽量
22109

原文標題：【微軟ALUM】當語言模型遇到對抗訓練

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

大語言模型開發框架是什么

大語言模型開發框架是指用于訓練、推理和部署大型語言模型的軟件工具和庫。下面，AI部落小編為您介紹大語言

發表于 12-06 10:28 ?182次閱讀

什么是大模型、大模型是怎么訓練出來的及大模型作用

，基礎模型。 ? 大模型是一個簡稱，完整的叫法，應該是“人工智能預訓練大模型”。預訓練，是一項技術，我們后面再解釋。 ? 我們現在口頭上常說

發表于 11-25 09:29 ?3368次閱讀

從零開始訓練一個大語言模型需要投資多少錢？

一，前言 ? 在AI領域，訓練一個大型語言模型（LLM）是一個耗時且復雜的過程。幾乎每個做大型語言模型（LLM）

發表于 11-08 14:15 ?332次閱讀

摩爾線程與羽人科技完成大語言模型訓練測試

（YuRen-7b）大語言模型的訓練測試。測試結果顯示，訓練效率達到預期，夸娥千卡智算集群展現出了高度的兼容性和穩定性，為羽人科技未來的零代碼訓練

發表于 08-27 16:19 ?593次閱讀

大語言模型的預訓練

能力，逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這一技術發展的關鍵步驟，它通過在海量無標簽數據上進行訓練，使模型學習到

發表于 07-11 10:11 ?539次閱讀

llm模型訓練一般用什么系統

LLM（Large Language Model，大型語言模型）是近年來在自然語言處理領域取得顯著成果的一種深度學習模型。它通常需要大量的計算資源和數據來進行

發表于 07-09 10:02 ?496次閱讀

大語言模型：原理與工程實踐+初識2

的一系列變革。大語言模型是深度學習的應用之一，可以認為，這些模型的目標是模擬人類交流，為了理解和生成人類語言。為此，模型需要在大量文本數據

發表于 05-13 00:09

大語言模型：原理與工程時間+小白初識大語言模型

解鎖我理解的是基于深度學習，需要訓練各種數據知識最后生成自己的的語言理解和能力的交互模型。對于常說的RNN是處理短序列的數據時表現出色，耳真正厲害的是Transformer，此框架被推出后直接

發表于 05-12 23:57

【大語言模型：原理與工程實踐】大語言模型的應用

。關于大語言模型是否具備與人類“系統2”相似的能力，存在廣泛的爭議。然而，隨著模型參數量的增加和大規模預訓練的實施，大

發表于 05-07 17:21

【大語言模型：原理與工程實踐】大語言模型的預訓練

大語言模型的核心特點在于其龐大的參數量，這賦予了模型強大的學習容量，使其無需依賴微調即可適應各種下游任務，而更傾向于培養通用的處理能力。然而，隨著學習容量的增加，對預訓練數據的需求也相

發表于 05-07 17:10

【大語言模型：原理與工程實踐】大語言模型的基礎技術

全面剖析大語言模型的核心技術與基礎知識。首先，概述自然語言的基本表示，這是理解大語言模型技術的前提。接著，詳細介紹自然

發表于 05-05 12:17

【大語言模型：原理與工程實踐】核心技術綜述

我也不打算把網上相關的信息在總結一下，這樣的話，工作量很大。我主要看了-大語言模型基礎技術這節大語言模型（Large Language

發表于 05-05 10:56

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

大語言模型（LLM）是人工智能領域的尖端技術，憑借龐大的參數量和卓越的語言理解能力贏得了廣泛關注。它基于深度學習，利用神經網絡框架來理解和生成自然語言文本。這些

發表于 05-04 23:55

【大語言模型：原理與工程實踐】探索《大語言模型原理與工程實踐》

處理中預訓練架構Transformer，以及這些技術在現實世界中的如何應用。通過具體案例的分析，作者展示了大語言模型在解決實際問題中的強大能力，同時也指出了當前技術面臨的挑戰和局限性。書中對大

發表于 04-30 15:35

盤點一下史上最全大語言模型訓練中的網絡技術

人工智能的基礎設施在大語言模型訓練和推理過程中發揮了關鍵的作用。隨著大語言模型規模不斷增大，其對計算和通信的需求也在不斷增加。高

發表于 03-27 17:24 ?1671次閱讀

衡阳派盒市场营销有限公司

搜索歷史

關于語言模型和對抗訓練的工作

評論

大語言模型開發框架是什么

什么是大模型、大模型是怎么訓練出來的及大模型作用

從零開始訓練一個大語言模型需要投資多少錢？

摩爾線程與羽人科技完成大語言模型訓練測試

大語言模型的預訓練

llm模型訓練一般用什么系統

大語言模型：原理與工程實踐+初識2

大語言模型：原理與工程時間+小白初識大語言模型

【大語言模型：原理與工程實踐】大語言模型的應用

【大語言模型：原理與工程實踐】大語言模型的預訓練

【大語言模型：原理與工程實踐】大語言模型的基礎技術

【大語言模型：原理與工程實踐】核心技術綜述

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

【大語言模型：原理與工程實踐】探索《大語言模型原理與工程實踐》

盤點一下史上最全大語言模型訓練中的網絡技術