最近兩個(gè)月,我比較關(guān)注Bert的領(lǐng)域應(yīng)用現(xiàn)狀,以及Bert存在哪些問(wèn)題及對(duì)應(yīng)的解決方案。于是,收集了不少相關(guān)論文,正在梳理這兩個(gè)問(wèn)題,并形成了兩篇文章。這部分內(nèi)容本來(lái)是第一篇“應(yīng)用篇”的一部分,后來(lái)發(fā)現(xiàn)文章實(shí)在太長(zhǎng),于是從介紹Bert領(lǐng)域應(yīng)用現(xiàn)狀的文章中剝離出來(lái)。本部分涉及具體技術(shù)較少,比較務(wù)虛,所以單獨(dú)抽出來(lái)了,主題也比較散。所講純屬個(gè)人思考,眼光有限,錯(cuò)誤難免,謹(jǐn)慎參考。
魚(yú)與熊掌:Bert應(yīng)用模式比較與選擇
我們知道,ELMO/GPT/Bert這幾個(gè)自然語(yǔ)言預(yù)訓(xùn)練模型給NLP帶來(lái)了方向性的指引,一般在應(yīng)用這些預(yù)訓(xùn)練模型的時(shí)候,采取兩階段策略:首先是利用通用語(yǔ)言模型任務(wù),采用自監(jiān)督學(xué)習(xí)方法,選擇某個(gè)具體的特征抽取器來(lái)學(xué)習(xí)預(yù)訓(xùn)練模型;第二個(gè)階段,則針對(duì)手頭的具體監(jiān)督學(xué)習(xí)任務(wù),采取特征集成或者Fine-tuning的應(yīng)用模式,表達(dá)清楚自己到底想要Bert干什么,然后就可以高效地解決手頭的問(wèn)題和任務(wù)了。
關(guān)于Bert大的應(yīng)用框架如此,但是,其實(shí)有幾個(gè)懸而未決的應(yīng)用模式問(wèn)題并沒(méi)有探討清楚,比如以下兩個(gè)問(wèn)題,它們的答案是什么?首先搞清楚這些問(wèn)題其實(shí)是很重要的,因?yàn)檫@對(duì)于后續(xù)的Bert領(lǐng)域應(yīng)用起到了明確的指導(dǎo)作用。哪兩個(gè)問(wèn)題呢?
問(wèn)題一:下游任務(wù)在利用預(yù)訓(xùn)練模型的時(shí)候,有兩種可能的選擇:特征集成(Feature Ensemble)或者微調(diào)(Fine-tuning)模式。那么對(duì)于Bert應(yīng)用來(lái)說(shuō),這兩種模式,到底哪種應(yīng)用效果更好呢?還是說(shuō)兩者效果其實(shí)差不多?這是一個(gè)問(wèn)題,這個(gè)問(wèn)題如果有明確答案,那么在做應(yīng)用的時(shí)候,可以直接選擇那個(gè)較好的方案。
我們知道,ELMO在下游任務(wù)使用預(yù)訓(xùn)練模型的時(shí)候,采用的是特征集成的方式:就是說(shuō)把當(dāng)前要判斷的輸入句子,走一遍ELMO預(yù)訓(xùn)練好的的雙層雙向LSTM網(wǎng)絡(luò),然后把每個(gè)輸入單詞對(duì)應(yīng)位置的高層LSTM激活embedding(或者輸入單詞對(duì)應(yīng)位置的若干層embedding進(jìn)行加權(quán)求和),作為下游任務(wù)單詞對(duì)應(yīng)的輸入。這是一種典型的應(yīng)用預(yù)訓(xùn)練模型的方法,更側(cè)重于單詞的上下文特征表達(dá)方面。
GPT和Bert則采取了另外一種應(yīng)用模式:Fine-tuning。意思是:在獲得了預(yù)訓(xùn)練模型以及對(duì)應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)(Transformer)后,第二個(gè)階段仍然采用與預(yù)訓(xùn)練過(guò)程相同的網(wǎng)絡(luò)結(jié)構(gòu),拿出手頭任務(wù)的部分訓(xùn)練數(shù)據(jù),直接在這個(gè)網(wǎng)絡(luò)上進(jìn)行模型訓(xùn)練,以針對(duì)性地修正預(yù)訓(xùn)練階段獲得的網(wǎng)絡(luò)參數(shù),一般這個(gè)階段被稱(chēng)為Fine-tuning。這是另外一種典型的應(yīng)用模式。
當(dāng)然,在實(shí)際應(yīng)用的時(shí)候,只要有了預(yù)訓(xùn)練模型,應(yīng)用模式是可選的。其實(shí)ELMO也可以改造成Fine-tuning的模式,GPT和Bert同樣也可以改造成特征集成的應(yīng)用模式。 那么,這兩種應(yīng)用模式對(duì)應(yīng)用來(lái)說(shuō),有效果方面的差異嗎?
有篇論文專(zhuān)門(mén)探討了這個(gè)問(wèn)題,論文的名字是:“To Tune or Not to Tune? Adapting Pre-trained Representations to Diverse Tasks”,這篇論文還是挺有意思的,有時(shí)間的同學(xué)可以仔細(xì)看看。
它的目的是對(duì)比ELMO和Bert的上述兩種應(yīng)用模式的差異,希望得出到底哪種模式更適合下游任務(wù)的結(jié)論。它使用了7種不同的NLP任務(wù)來(lái)評(píng)估,如果歸納一下實(shí)驗(yàn)結(jié)果(參考上圖),可以看出這個(gè)問(wèn)題的結(jié)論如下:
對(duì)于ELMO來(lái)說(shuō),特征集成的應(yīng)用方式,在不同數(shù)據(jù)集合下,效果穩(wěn)定地優(yōu)于Fine-tuning;而B(niǎo)ert的結(jié)論正好相反,F(xiàn)ine-tuning應(yīng)用模式的效果,在大部分任務(wù)中與特征集成模式效果相當(dāng)或者稍好些,但是對(duì)于sentence pair句子對(duì)匹配類(lèi)的任務(wù),則Fine-tuning效果明顯好于特征集成的方式。這可能是因?yàn)锽ert在預(yù)訓(xùn)練的過(guò)程中包含Next Sentence Prediction任務(wù),考慮到了句間關(guān)系問(wèn)題,所以和下游的sentence pair任務(wù)比較匹配導(dǎo)致的。
另外還有一個(gè)證據(jù)。清華大學(xué)最近有篇論文(Understanding the Behaviors of BERT in Ranking),盡管它的主題不是專(zhuān)門(mén)探討上述問(wèn)題的,但是有組相關(guān)的實(shí)驗(yàn),也能在一定程度上說(shuō)明問(wèn)題,所以我把那篇論文的結(jié)論也列在這里。
它的結(jié)論是:對(duì)于比如QA這種句子匹配類(lèi)問(wèn)題,如果僅僅把Bert作為特征表達(dá)工具,也就是說(shuō),Bert的輸入側(cè)只是單獨(dú)輸入Question或者單獨(dú)輸入Passage,取出Bert高層的[CLS]標(biāo)記作為Question或者Passage的語(yǔ)義表示;這種應(yīng)用方式,效果遠(yuǎn)不如在Bert端同時(shí)輸入Question和Passage,意思是讓Transformer自己去做Question和Passage的匹配過(guò)程,應(yīng)用效果會(huì)更好,而且兩者效果相差甚遠(yuǎn)。這從側(cè)面說(shuō)明了:在QA任務(wù)中,F(xiàn)ine-tuning模式效果是要遠(yuǎn)好于特征集成模式的。
這在一定程度上說(shuō)明了:起碼對(duì)于句子匹配類(lèi)任務(wù),F(xiàn)ine-tuning這種應(yīng)用模式效果是要遠(yuǎn)好于特征集成那種特征表示應(yīng)用模式的。當(dāng)然,因?yàn)闆](méi)有看到更多的工作來(lái)對(duì)兩種模式做對(duì)比,所以謹(jǐn)慎的做法是:僅僅把這個(gè)結(jié)論限制在句子對(duì)匹配任務(wù)上,其它非句子對(duì)匹配任務(wù)目前并沒(méi)有特別明確的結(jié)論,這塊值得通過(guò)更多實(shí)驗(yàn)繼續(xù)深入摸索一下。
Bert的原始論文,也簡(jiǎn)單對(duì)比了下兩種模式,我印象是Fine-tuning模式要略?xún)?yōu)于特征集成模式。
綜合上述三個(gè)工作,我覺(jué)得目前可以得出的結(jié)論是:對(duì)于句子匹配類(lèi)任務(wù),或者說(shuō)是輸入由多個(gè)不同組成部分構(gòu)成的NLP任務(wù),那么在應(yīng)用Bert的時(shí)候,采用Fine-tuning效果是要明顯好于特征集成模式的。所以遇到這種類(lèi)型的任務(wù),你不用猶豫,直接上Fine-tuning沒(méi)有大錯(cuò)。而對(duì)于其它類(lèi)型的任務(wù),在應(yīng)用Bert的時(shí)候,F(xiàn)ine-tuning模式要稍好于特征集成模式,或者兩者效果差不多。
再簡(jiǎn)練點(diǎn)的話(huà),結(jié)論是:對(duì)于Bert應(yīng)用,安全穩(wěn)妥的做法是,建議采取Fine-tuning的模式,而不是特征集成的模式。
問(wèn)題二:假設(shè)我們選定了Fine-tuning的應(yīng)用模式,在標(biāo)準(zhǔn)的Bert的Fine-tuning過(guò)程或應(yīng)用中的推斷過(guò)程中,一般而言,分類(lèi)層的輸入信息來(lái)自于Bert的Transformer特征抽取器的最高層輸出。我們知道,Transformer Base版本是有12層的,一種直觀(guān)感覺(jué)有意義的想法是:也許不僅僅最高層的Transformer包含有效的分類(lèi)特征信息,底下的11層Transformer中間層,可能編碼了輸入句子的不同抽象粒度的特征信息。
那么,如果我們?cè)诜诸?lèi)前,通過(guò)一定方式把每個(gè)單詞對(duì)應(yīng)的Transformer的多層中間層的響應(yīng)值集成起來(lái),在這個(gè)集成好的特征基礎(chǔ)上,上接分類(lèi)層,從直覺(jué)上感覺(jué)應(yīng)該是有效的,因?yàn)楦杏X(jué)好像融入多層特征后,信息更豐富一些。
那么事實(shí)到底如何呢?這種集成多層特征的模式,與只使用Transformer最高層特征的使用模式,到底哪個(gè)效果更好呢?這個(gè)問(wèn)題其實(shí)也挺有意思。
清華大學(xué)那篇論文:Understanding the Behaviors of BERT in Ranking。其實(shí)主要可以用來(lái)回答上面這個(gè)問(wèn)題。它在分類(lèi)層之前,采用了幾種不同的特征集成方式,并對(duì)比了在QA任務(wù)上的性能差異。如果進(jìn)行歸納,結(jié)論如下:直接使用Bert輸入的第一個(gè)起始標(biāo)記[CLS]對(duì)應(yīng)位置的最高層Transformer的Embedding作為分類(lèi)層的輸入,以此作為文本匹配特征表示,既簡(jiǎn)潔效果又最好。
其它的幾個(gè)對(duì)比方案,包括集成最高層Transformer各個(gè)單詞的embedding,或者集成不同層Transformer的響應(yīng)值,或者更復(fù)雜的方案,效果是不如這種最簡(jiǎn)單的方案的(參考上圖,一個(gè)數(shù)據(jù)集合中Only高層特征明顯占優(yōu),另外一個(gè)兩者效果相近)。我覺(jué)得,這說(shuō)明了:對(duì)于句子對(duì)匹配任務(wù),這個(gè)[CLS]標(biāo)記已經(jīng)編碼了足夠多的句子匹配所需要的特征信息,所以不再需要額外的特征進(jìn)行補(bǔ)充。
當(dāng)然,上述實(shí)驗(yàn)結(jié)果的結(jié)論,還僅僅局限在QA任務(wù)上,我估計(jì)頂多能擴(kuò)充到句子對(duì)匹配類(lèi)任務(wù)上。至于NLP其它類(lèi)型任務(wù),比如單句分類(lèi)或者序列標(biāo)注任務(wù),還需要額外的證據(jù)說(shuō)明或進(jìn)行比較分析。
關(guān)于序列標(biāo)注任務(wù),有篇論文:“Multi-Head Multi-Layer Attention to Deep Language Representations for Grammatical Error Detection”是用來(lái)驗(yàn)證這兩種模式不同效果的,它做的是語(yǔ)法錯(cuò)誤檢測(cè)任務(wù),這是一種序列標(biāo)注任務(wù),也就是說(shuō),每個(gè)輸入單詞都需要對(duì)應(yīng)一個(gè)分類(lèi)結(jié)果輸出。
它提出了的實(shí)驗(yàn)結(jié)果證明了:在這個(gè)任務(wù)中,與只使用最高層特征模式相比,集成多層特征的具體方式對(duì)效果有影響,如果在集成各層特征的時(shí)候,把每層特征的重要性看作是相同的(取均值),那么效果跟只使用最高層特征比,不同數(shù)據(jù)集合下效果有好有壞,總體看差不太多或者稍微好點(diǎn)。
如果加入Attention來(lái)自適應(yīng)的學(xué)習(xí)每層特征的權(quán)重,那么效果穩(wěn)定地好于只使用高層特征的模式。這說(shuō)明:在序列標(biāo)注任務(wù)中,傾向于選擇多層特征融合的應(yīng)用模式。
我們?nèi)ツ暝谟肂ert改進(jìn)微博打標(biāo)簽(文本分類(lèi)任務(wù))應(yīng)用的時(shí)候,也嘗試過(guò)集成不同層的embedding特征,當(dāng)時(shí)測(cè)試對(duì)于應(yīng)用效果的F1數(shù)值有大約不到2個(gè)百分點(diǎn)的提升(相對(duì)僅使用Bert最高層特征的方法)。不過(guò)除此外,我還沒(méi)看到有其它發(fā)表工作說(shuō)明這個(gè)問(wèn)題。
所以,我覺(jué)得關(guān)于這個(gè)問(wèn)題,目前的結(jié)論貌似可以這樣下:對(duì)于句子匹配等多輸入的NLP任務(wù),直接使用Bert高層的[CLS]標(biāo)記作為輸出的信息基礎(chǔ),這是效果最好的,也是最簡(jiǎn)單的模式。對(duì)于序列標(biāo)注類(lèi)任務(wù),可能多層特征融合更適合應(yīng)用場(chǎng)景,但是在融合各層特征時(shí),要做細(xì)致些。
對(duì)于單句分類(lèi)等其它任務(wù),因?yàn)闆](méi)有更多的工作或者實(shí)驗(yàn)來(lái)說(shuō)明這個(gè)問(wèn)題,所以尚未能下明確的結(jié)論,這塊還需要后續(xù)更多的驗(yàn)證工作。我的預(yù)感是,這可能跟任務(wù)類(lèi)型有關(guān),不同類(lèi)型的任務(wù)可能結(jié)論不太一樣,背后可能有更深層的原因在起作用。
困境與希望:Bert到底給NLP領(lǐng)域帶來(lái)了什么
毫無(wú)疑問(wèn),Bert是NLP領(lǐng)域的極為重大的技術(shù)進(jìn)展,在我看來(lái),Bert的重要性,很可能比把深度學(xué)習(xí)引入NLP領(lǐng)域這種研究模式轉(zhuǎn)換的進(jìn)展重要性都要高,因?yàn)镈L剛引進(jìn)NLP的時(shí)候,說(shuō)實(shí)話(huà),效果跟傳統(tǒng)模型相比,并沒(méi)有體現(xiàn)出明顯優(yōu)勢(shì)。但是Bert的效果之好,出人意料,它完全可以跟CV領(lǐng)域以Resnet為代表的Skip Connection相比,屬于深度學(xué)習(xí)在兩個(gè)不同領(lǐng)域的熠熠奪目雙子星。
盡管后面才會(huì)提,但是這里可以一句話(huà)歸納一下:從NLP各個(gè)領(lǐng)域的應(yīng)用效果可以看出,在使用了Bert后,在很多領(lǐng)域,指標(biāo)一般都有不同幅度的增長(zhǎng),不同領(lǐng)域情況不同,不少領(lǐng)域有大幅度地增長(zhǎng),很多領(lǐng)域有30%甚至100%的提升。
這些事實(shí)擺在我們面前,按理說(shuō),這說(shuō)明Bert的技術(shù)突破給NLP研究與應(yīng)用帶來(lái)了很大希望,同時(shí)指明了發(fā)展方向:就是通過(guò)預(yù)訓(xùn)練的模式,充分使用大量的無(wú)標(biāo)注語(yǔ)言數(shù)據(jù),利用自監(jiān)督模型,發(fā)揮Transformer特征吸收能力強(qiáng)的特點(diǎn),來(lái)對(duì)語(yǔ)言知識(shí)進(jìn)行特征編碼。用這些知識(shí)來(lái)促進(jìn)很多下游NLP任務(wù)的效果,以彌補(bǔ)有監(jiān)督任務(wù)往往訓(xùn)練數(shù)據(jù)規(guī)模不夠大,無(wú)法充分編碼語(yǔ)言知識(shí)的困境。
既然前途如此光明,那么我們完全可以只講希望與方向,對(duì)于所謂的“困境”,貌似沒(méi)什么可談的。其實(shí)不然,世間事都是人做出來(lái)的,如果我們的思考對(duì)象是身處其中的研發(fā)人員,則對(duì)于很多局中人,有著顯而易見(jiàn)的困境或者說(shuō)是困擾。這體現(xiàn)了另外一種理想和現(xiàn)實(shí)的差距。這個(gè)距離有多遠(yuǎn)?
相信有一定生活閱歷的人都理解,答案是:與天海之間的距離是一樣的,在站在海邊的人眼里,遠(yuǎn)看無(wú)限近,近看無(wú)窮遠(yuǎn)。這正像,我們每個(gè)人都希望自己能活出“美麗的外表,有趣的靈魂”,但是活著活著,在生活的重力擠壓下,活成了“有趣的外表,美麗的靈魂”,甚至,可能連美麗的靈魂都已蒙塵。
最近感概有點(diǎn)多,說(shuō)遠(yuǎn)了,跑回來(lái)。
那么,對(duì)于很多局中人,Bert的出現(xiàn)帶來(lái)的困擾是什么呢?
現(xiàn)在很多證據(jù)表明:直接簡(jiǎn)單應(yīng)用Bert,往往就會(huì)對(duì)很多任務(wù)的指標(biāo)有大幅度地提升。在Bert出來(lái)之前,我相信有很多人,在絞盡腦汁地嘗試著各種不同的NLP改進(jìn)方法,也許思路各異,但是能夠像Bert這樣直接對(duì)應(yīng)用有這么高幅度提升的方法,我相信這種方法應(yīng)該基本沒(méi)有。否則,現(xiàn)在大家看到的,除了Bert外,應(yīng)該有另外一個(gè)“模型震驚部”推出的新模型,但是骨感的現(xiàn)實(shí)是,并沒(méi)有,所以我這個(gè)假設(shè)看上去并沒(méi)什么大毛病。
順著這個(gè)假設(shè)推理下去,這又說(shuō)明什么呢?說(shuō)明了有大量懷胎十月哇哇墜地甚至還剛受孕的NLP論文,因?yàn)锽ert的出現(xiàn),它們已經(jīng)沒(méi)有出生的必要了。“從來(lái)只見(jiàn)新人笑,有誰(shuí)記得舊人哭”。剛看到Bert論文的時(shí)候,我的耳邊仿佛傳來(lái)很多無(wú)奈的苦笑聲,而這笑聲,應(yīng)該來(lái)自于這些技術(shù)創(chuàng)新的發(fā)明者。
從另外一個(gè)角度考慮,Bert的出現(xiàn),快速拉高了很多NLP應(yīng)用領(lǐng)域的Benchmark或者對(duì)比baseline,所以會(huì)引發(fā)一個(gè)對(duì)很多NLP領(lǐng)域研究者,尤其是憋論文的研究生的一個(gè)現(xiàn)實(shí)的問(wèn)題。什么問(wèn)題?就是在一夜之間大幅提升的基線(xiàn)方法高壓下,如果不在Bert的基礎(chǔ)上進(jìn)行方法創(chuàng)新,那么提出一種效果要好于Bert效果的新方法,概率是非常低的。這意味著有了Bert后,創(chuàng)新難度大大增加了,這對(duì)于應(yīng)用人員沒(méi)什么,對(duì)于有創(chuàng)新要求的人來(lái)說(shuō),門(mén)檻變高了。
你會(huì)反問(wèn):為什么將Bert作為對(duì)比參照系,原先的方法就失靈了呢?我可以在Bert基礎(chǔ)上,再套用我原先想的辦法來(lái)創(chuàng)新嗎不是?當(dāng)然,不排除有些點(diǎn)子具備不管風(fēng)吹浪打,我自閑庭信步的成功可能性,但是對(duì)于絕大多數(shù)方法,我相信這條路是走不通的。為什么?因?yàn)楹芸赡苣惚锪税肽甑哪莻€(gè)方法產(chǎn)生的一點(diǎn)收益,已經(jīng)被Bert自身帶來(lái)的收益覆蓋或者吃掉了。
意思是說(shuō),如果沒(méi)有Bert,你的改進(jìn)可能看著還算有些效果,但是你想疊加到Bert上,既想吃到Bert帶來(lái)的技術(shù)紅利,又能體現(xiàn)你方法的優(yōu)點(diǎn),這個(gè)良好愿望,實(shí)現(xiàn)的概率,是很低的。如果你還這么樂(lè)觀(guān)地想這個(gè)問(wèn)題,那么,我覺(jué)得你該定個(gè)鬧鐘早點(diǎn)叫醒自己了。看到這,你體會(huì)到我上面說(shuō)的理想和現(xiàn)實(shí)的距離問(wèn)題了嗎?
不過(guò)話(huà)說(shuō)回來(lái),創(chuàng)新難度增加,看你怎么看這個(gè)問(wèn)題了。其實(shí)從領(lǐng)域長(zhǎng)遠(yuǎn)發(fā)展來(lái)看,是有好處的。好處是:也不局限于NLP領(lǐng)域,大多數(shù)AI領(lǐng)域的98%以上的所謂創(chuàng)新,如果把眼光放長(zhǎng)遠(yuǎn),是沒(méi)有太大價(jià)值的。怎么判斷?再過(guò)幾年不會(huì)被人提起的創(chuàng)新,都屬于這種。
如果這個(gè)假設(shè)成立,那么Bert的出現(xiàn),會(huì)逼迫從業(yè)者不要浪費(fèi)時(shí)間在這些沒(méi)有什么長(zhǎng)遠(yuǎn)領(lǐng)域價(jià)值的點(diǎn)子上,而逼迫你去解決那些真正有價(jià)值的問(wèn)題。沒(méi)有Bert的時(shí)候,只能靠自覺(jué)或者研究品味來(lái)做到這一點(diǎn),有了Bert,你就不能不這么做了。從這點(diǎn)講,出現(xiàn)突破模型,對(duì)于領(lǐng)域人力資源的投入優(yōu)化配置,是具有非常積極的作用的。所以很多事情,看你是站在什么角度去看的,不同的角度,可能得出相反的結(jié)論。
不過(guò),我想,除了上面觀(guān)察角度各異結(jié)論會(huì)不同的判斷外,Bert確實(shí)可能存在一個(gè)壞處:很多非常新的想法,在剛提出來(lái)的時(shí)候,效果可能并不能達(dá)到類(lèi)似Bert這種碾壓效果,甚至效果不太明顯,需要后面有個(gè)靈機(jī)一動(dòng)的改進(jìn),讓它的效果發(fā)揮出來(lái)。但是面臨Bert的高基線(xiàn),很可能很多具備高潛力的點(diǎn)子,根本發(fā)表不出來(lái)。意味著B(niǎo)ert這堵高墻,可能遮蔽了很多低垂灌木的陽(yáng)光,使得它們還沒(méi)長(zhǎng)大就夭折了。這是Bert可能帶來(lái)的負(fù)面效果。
另外一個(gè)容易讓人感到無(wú)奈的事實(shí)是:Bert的出現(xiàn)預(yù)示著,使用Transformer這種重模型,利用幾乎無(wú)窮多的自然語(yǔ)言文本資源進(jìn)行自監(jiān)督訓(xùn)練,這條路看樣子是能走通的,而這是一條通向NLP之峰的陽(yáng)關(guān)大道。但是復(fù)雜模型加上超量數(shù)據(jù),也預(yù)示著要想沿著這條路線(xiàn)繼續(xù)往后走,在預(yù)訓(xùn)練階段,對(duì)機(jī)器資源的消耗非常之大,這種金錢(qián)游戲,不是你我這種NLP屆的窮人們玩的起的。
這就像什么呢?打個(gè)比方,漫威電影里的超級(jí)英雄們,各個(gè)身手非凡,但是如果追究下他們超能力的來(lái)源問(wèn)題,就上升到階級(jí)問(wèn)題了,所謂“富人靠科技,窮人靠變異”,這句力透屏幕的扎心總結(jié),透著濃濃的馬克思主義的氣息。換成Bert時(shí)代,那就是 “富人靠機(jī)器,窮人靠運(yùn)氣”。各位還請(qǐng)檢查下銀行卡余額,對(duì)號(hào)入座。
不過(guò)話(huà)說(shuō)回來(lái),有些事,接受事實(shí)就好,不要想太多,想太多,除了苦惱,什么也得不到。雖說(shuō)世事本多無(wú)奈,但我們要永保赤子之心,畢竟無(wú)奈著無(wú)奈著……..慢慢你也就習(xí)慣了……..
路在何方:Bert時(shí)代的可能NLP創(chuàng)新路徑
上面既然談到了可能的困境與希望,不妨再進(jìn)一步深入思考一下:對(duì)于有創(chuàng)新要求的局中人,在Bert時(shí)代,未來(lái)可以選擇怎樣的創(chuàng)新路徑呢?這個(gè)問(wèn)題其實(shí)還是很重要的。
以我的私見(jiàn),將來(lái)能走的路有幾條,各自難度不同,我來(lái)列一列,你可以衡量看看你打算怎么走。再次強(qiáng)調(diào),純屬個(gè)人意見(jiàn),謹(jǐn)慎參考。
第一條路是條康莊大道。就是說(shuō),在完全不依賴(lài)Bert的基礎(chǔ)上,提出一個(gè)與Bert效果相當(dāng)或者更好的新模型或新方法。這絕對(duì)是條金光閃閃的正路,但是,走通的概率有多大你自己自我評(píng)估一下。當(dāng)然,私心里,我本人是特別贊成沒(méi)有各種短期壓力,無(wú)論是創(chuàng)新成果壓力還是經(jīng)濟(jì)壓力,的同志走這條路的。也對(duì)能選擇走上這條路的同志表示敬意,能選這條路是非常不容易的,而且我相信,一定會(huì)有人會(huì)堅(jiān)定不移地選擇這條路。
這條路拼的是對(duì)領(lǐng)域的認(rèn)識(shí)深刻程度,速度不關(guān)鍵。
第二條路,不考慮模型創(chuàng)新,可以利用Bert預(yù)訓(xùn)練模型,直接去做各種應(yīng)用,以實(shí)證Bert在各種領(lǐng)域是有效果的。當(dāng)然,在應(yīng)用Bert的時(shí)候,也可能適應(yīng)領(lǐng)域應(yīng)用特點(diǎn),做出些模型的改動(dòng),但是無(wú)疑這種改進(jìn)不會(huì)大。這是一條相對(duì)好走的路,好走的路走的人自然就會(huì)多,所以這條路拼的是誰(shuí)的速度快。目前大量Bert的后續(xù)工作屬于這一種,這很正常。后面應(yīng)用篇文章總結(jié)的也是這一類(lèi)的工作。
第三條路,通過(guò)各種偏實(shí)驗(yàn)性的研究,以更深入地了解Bert的特性,其實(shí)我們目前并沒(méi)有對(duì)Bert及Transformer有很深刻的了解,而我們目前也非常急迫地需要做到這一點(diǎn)。如果我們能夠?qū)λ鼈兗由盍私猓@也是非常有價(jià)值的,因?yàn)閷?duì)Bert進(jìn)一步做較大的改進(jìn),改起來(lái)會(huì)更有針對(duì)性。而且只有了解了Bert的本質(zhì)特性,才有可能拋開(kāi)Bert,提出更好的全新的模型。這條路其實(shí)也不算難走,但是做的人感覺(jué)不太多。我倒是建議有心的同學(xué)多想想這條路。
第四條路,直接改進(jìn)Bert模型。針對(duì)Bert目前還做得不太好的地方,改進(jìn)優(yōu)化它,或者改造使得它能夠適用更廣的應(yīng)用范圍。這條路是比較務(wù)實(shí)且有可能作出比較重要?jiǎng)?chuàng)新的一條路。目前很多Bert后續(xù)工作也集中在這里。這里的創(chuàng)新難度要求方差較大,有些會(huì)比較常規(guī),有些問(wèn)題則需要巧思。目前這塊的工作也相對(duì)多,后面“Bert改進(jìn)篇”文章主要集中在這塊。
第五條路,想出那些在Bert基礎(chǔ)之上,又看上去與Bert無(wú)關(guān)的改進(jìn),期待新技術(shù)疊加到Bert上去之后,新方法仍然有效。就是說(shuō)它的技術(shù)紅利點(diǎn)和Bert的技術(shù)紅利點(diǎn)不重合,那么可以產(chǎn)生累計(jì)疊加紅利,這也是一條較好的路,應(yīng)該也能走得通,當(dāng)然肯定也不太好走。
第六條路,找Bert做不好的任務(wù)或應(yīng)用領(lǐng)域,就是說(shuō)Bert的優(yōu)點(diǎn)在這個(gè)領(lǐng)域里發(fā)揮不出來(lái),既然Bert沒(méi)法侵入該領(lǐng)域,所以對(duì)于常規(guī)的技術(shù)創(chuàng)新并沒(méi)有什么阻礙或影響。如果選擇這條路,你的首要任務(wù)是找出這些領(lǐng)域。而且,在這些領(lǐng)域里面,參考Bert的基本思想,是很有可能引入大的改進(jìn)模型的。
還有其它可能走的路嗎?貌似不多了吧。好了,上面的路有好走的,也有荊棘密布的,您可以在上面的可能options中選一條,然后堅(jiān)定地走下去。祝好運(yùn)。
-
應(yīng)用
+關(guān)注
關(guān)注
2文章
439瀏覽量
34222 -
編碼
+關(guān)注
關(guān)注
6文章
957瀏覽量
54953 -
訓(xùn)練模型
+關(guān)注
關(guān)注
1文章
36瀏覽量
3888
原文標(biāo)題:Bert時(shí)代的創(chuàng)新:Bert應(yīng)用模式比較及其它 | 技術(shù)頭條
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論