衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

河套IT TALK94:(原創(chuàng))GPT技術(shù)揭秘:探索生成式模型的訓(xùn)練之道

共熵服務(wù)中心 ? 來(lái)源:未知 ? 2023-06-20 19:10 ? 次閱讀

1. 引言

人工智能機(jī)器學(xué)習(xí),都是由場(chǎng)景和需求驅(qū)動(dòng)的。找不到運(yùn)用場(chǎng)景的機(jī)器學(xué)習(xí)技術(shù),也沒(méi)有生命力。越有挑戰(zhàn)性的場(chǎng)景,越能激發(fā)人們用機(jī)器學(xué)習(xí)尋找解決方案的激情和動(dòng)力。人們總是在問(wèn)題中尋找解決方案,砥礪前行。

最近在嘗試梳理機(jī)器學(xué)習(xí)的相關(guān)內(nèi)容,發(fā)現(xiàn)知識(shí)量巨大,信息龐雜,需要梳理一個(gè)主線,才能更好理解相關(guān)概念。所以很多研究機(jī)器學(xué)習(xí)的技術(shù),都是順著如下的脈絡(luò)來(lái)展開(kāi)的:

1. 我們準(zhǔn)備解決什么問(wèn)題?

2. 我們準(zhǔn)備按照什么方式進(jìn)行訓(xùn)練學(xué)習(xí)?

3. 我們準(zhǔn)備選定什么樣的模型來(lái)應(yīng)對(duì)?

4. 針對(duì)模型,我們應(yīng)該采取什么樣特定架構(gòu)或網(wǎng)絡(luò)?

5. 針對(duì)這個(gè)模型和網(wǎng)絡(luò),我們將采用什么樣的算法?

6. 這個(gè)算法有什么優(yōu)勢(shì)和劣勢(shì)?

這幾個(gè)維度的問(wèn)題解答,相信能涵蓋絕大多數(shù)人對(duì)機(jī)器學(xué)習(xí)某些特定場(chǎng)景的技術(shù)和知識(shí)領(lǐng)域的理解。近期看了很多關(guān)于機(jī)器學(xué)習(xí)、自然語(yǔ)言處理以及GPT相關(guān)技術(shù)的文章,有一些心得體會(huì),今天準(zhǔn)備按照上述問(wèn)題的脈絡(luò),分享給大家,希望能有所幫助。

2. 自然語(yǔ)言處理NLP(Natural Language Processing)

人類,作為智能生物,交流是離不開(kāi)自然語(yǔ)言的。如何讓機(jī)器理解人的語(yǔ)言,并能正常和人類進(jìn)行語(yǔ)言互動(dòng),就成為迫切需要解決的重要問(wèn)題。不管是文字類,還是語(yǔ)音類,都會(huì)存在所謂的語(yǔ)義分析理解、情感分析、機(jī)器翻譯問(wèn)題。從自然語(yǔ)言處理的過(guò)程來(lái)看,不免要經(jīng)歷:分詞和詞性標(biāo)注、詞法分析、句法分析、實(shí)體識(shí)別、語(yǔ)義角色標(biāo)注、句法語(yǔ)義分析、情感分析、語(yǔ)法歸納和機(jī)器翻譯等等。人類差不多有7000種活躍的語(yǔ)言,其中有文字支撐的,特別是在很多消費(fèi)電子產(chǎn)品里能正常切換使用的,不過(guò)百種。不過(guò)這也足夠給自然語(yǔ)言處理帶來(lái)巨大的挑戰(zhàn)。不同文化背景,可能意味著完全不同的詞語(yǔ)分割、模糊和引發(fā)歧義的語(yǔ)義、或嚴(yán)格或?qū)捤傻恼Z(yǔ)法靈活性,以及俗語(yǔ)、諺語(yǔ)等等,甚至?xí)砍兜礁鞣N圖形學(xué)和圖像識(shí)別的技術(shù)。

3. 大模型(Large language model)

既然是自然語(yǔ)言處理,就一定離不開(kāi)語(yǔ)言模型。我們現(xiàn)在聽(tīng)的很多的所謂大模型,就是大型語(yǔ)言模型的簡(jiǎn)稱,英文是LLM,也就是 Large language model的縮寫。大模型也沒(méi)有什么神秘的,無(wú)非就是“大”。目前對(duì)于這個(gè)多“大”才算是大模型,還沒(méi)有一個(gè)官方權(quán)威的界定。但經(jīng)驗(yàn)上來(lái)講,大模型通常指的是至少具有數(shù)百萬(wàn)參數(shù)深度學(xué)習(xí)模型。而類似GPT-4的參數(shù)已經(jīng)達(dá)到了170萬(wàn)億的量級(jí)。上圖是近年來(lái)已有的大模型LLM(大于100億參數(shù))的時(shí)間線。黃色標(biāo)記此大模型已經(jīng)開(kāi)源。

6a447320-0f5a-11ee-962d-dac502259ad0.png

大模型一般是通用模型,在廣泛任務(wù)中表現(xiàn)出色,而且通常大模型已經(jīng)在大型語(yǔ)料庫(kù)上進(jìn)行了“預(yù)訓(xùn)練”。

只要是語(yǔ)言模型,不管是大還是小,其實(shí)都是一個(gè)基于統(tǒng)計(jì)學(xué)的模型。不管人們?cè)趺慈グb,把這個(gè)說(shuō)成是“推理”,但目前的技術(shù)就是建立在概率基礎(chǔ)上的。無(wú)非就是根據(jù)給定的輸入文本,預(yù)測(cè)下一個(gè)可能的單詞或字符序列。通過(guò)分析大量的文本數(shù)據(jù),學(xué)習(xí)詞匯的出現(xiàn)概率和上下文之間的關(guān)系,從而能夠生成連貫的文本或評(píng)估給定文本的合理性。

4. 大模型的最小單元Token

語(yǔ)言模型最基礎(chǔ)的模型是詞袋模型(Bag-of-Words Model)。作為一種簡(jiǎn)化的文本表示方法,將文本看作是一個(gè)袋子(或集合)中的詞語(yǔ)的無(wú)序集合,忽略了詞語(yǔ)的順序和語(yǔ)法結(jié)構(gòu)。在詞袋模型中,每個(gè)文檔或句子被表示為一個(gè)向量,向量的每個(gè)維度對(duì)應(yīng)一個(gè)詞語(yǔ),維度的值表示該詞語(yǔ)在文檔中出現(xiàn)的次數(shù)或其他統(tǒng)計(jì)信息。詞袋模型假設(shè)詞語(yǔ)的出現(xiàn)是獨(dú)立的,只關(guān)注詞語(yǔ)的頻率和出現(xiàn)情況,忽略了詞語(yǔ)之間的順序和上下文信息。這種模型簡(jiǎn)化了文本的表示和處理,常用于文本分類、信息檢索等任務(wù)。但是對(duì)于自然語(yǔ)言生成就無(wú)能為力了。在此基礎(chǔ)上將連續(xù)的文本流切分成有意義的單元,以便于模型對(duì)其進(jìn)行處理和理解,這就是Token化(Tokenization)。"token"是指文本中的最小單位或基本元素。它可以是一個(gè)單詞、一個(gè)字、一個(gè)字符或其他語(yǔ)言單位,根據(jù)任務(wù)和需求而定。下圖就是GPT-3的標(biāo)記化(Tokenization)示例:

6a991e84-0f5a-11ee-962d-dac502259ad0.png

在大模型中,token 的選擇和處理方式往往是根據(jù)具體任務(wù)和訓(xùn)練數(shù)據(jù)來(lái)確定的。在訓(xùn)練一個(gè)通用模型時(shí),可以使用更粗粒度的 tokenization 方法,如將單詞作為 token。而在某些特定任務(wù),如命名實(shí)體識(shí)別(Named Entity Recognition)或語(yǔ)言翻譯(Machine Translation)中,可能需要更細(xì)粒度的 tokenization,以便更好地捕捉特定領(lǐng)域或語(yǔ)言的信息。

不同語(yǔ)言的Token也會(huì)有很大差別。拿英文和漢語(yǔ)為例,在英語(yǔ)中,通常將單詞作為 token,而在漢語(yǔ)中,單個(gè)漢字級(jí)別的 tokenization 更為常見(jiàn)。漢語(yǔ)中的詞匯通常沒(méi)有復(fù)數(shù)形式、時(shí)態(tài)變化或進(jìn)行時(shí)等形態(tài)變化,因此,對(duì)于一些任務(wù),如詞性標(biāo)注或命名實(shí)體識(shí)別,將單個(gè)詞作為 token 可能更加合適。而在英語(yǔ)中,單詞的不同形式(如單數(shù)和復(fù)數(shù)、時(shí)態(tài)等)可能被視為不同的 token。漢語(yǔ)中的合成詞較為常見(jiàn),可以通過(guò)將多個(gè)單字組合而成。因此,在處理漢語(yǔ)時(shí),可能需要將合成詞進(jìn)行拆分,將其組成部分作為單獨(dú)的 token 進(jìn)行處理。而在英語(yǔ)中,合成詞的形式較少,單詞本身就可以作為一個(gè)獨(dú)立的 token。在英語(yǔ)中,單詞之間由空格或標(biāo)點(diǎn)符號(hào)分隔,因此可以相對(duì)容易地進(jìn)行單詞級(jí)別的 tokenization。而在漢語(yǔ)中,字詞之間沒(méi)有明確的分隔符,需要進(jìn)行中文分詞來(lái)將連續(xù)的漢字序列劃分為有意義的詞匯。所以在漢字處理上,比英文多了分詞這個(gè)步驟。

5. 無(wú)監(jiān)督學(xué)習(xí)(Unsupervised learning)

6adc1e6e-0f5a-11ee-962d-dac502259ad0.png

有了模型,我們接下來(lái)思考的就是,應(yīng)該用什么方式進(jìn)行訓(xùn)練?語(yǔ)言模型帶有很強(qiáng)的內(nèi)容生成屬性和靈活性,也就是不存在唯一解。這種模型,就絕對(duì)不能采用老是想著最優(yōu)策略的強(qiáng)化學(xué)習(xí)方式。而且,訓(xùn)練這種語(yǔ)言模型,也不適合用通過(guò)使用標(biāo)記的訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)從輸入到輸出的映射關(guān)系的監(jiān)督學(xué)習(xí)(Supervised learning),因?yàn)槿祟愓Z(yǔ)言信息量太大,標(biāo)記不過(guò)來(lái)。而最理想的方式就是從未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)數(shù)據(jù)的隱藏結(jié)構(gòu)、模式或分布的無(wú)監(jiān)督學(xué)習(xí)(Unsupervised learning)。當(dāng)然,也不排除所謂的同時(shí)利用有標(biāo)簽和無(wú)標(biāo)簽的數(shù)據(jù)來(lái)進(jìn)行學(xué)習(xí)的半監(jiān)督學(xué)習(xí)(Semi-supervised learning),或者從無(wú)監(jiān)督任務(wù)中自動(dòng)生成標(biāo)簽來(lái)進(jìn)行學(xué)習(xí)。通過(guò)設(shè)計(jì)任務(wù)或目標(biāo)函數(shù),利用數(shù)據(jù)樣本中的已知信息進(jìn)行預(yù)測(cè)或重構(gòu)的自我監(jiān)督學(xué)習(xí)(Self-supervised learning)。

既然是無(wú)監(jiān)督學(xué)習(xí)為主,那么應(yīng)該采用什么樣的網(wǎng)絡(luò)架構(gòu)來(lái)學(xué)習(xí)合適呢?

6. 反饋神經(jīng)網(wǎng)絡(luò)(Feedback Neural Networks)

當(dāng)然是神經(jīng)網(wǎng)絡(luò)。最早人們想到的用于語(yǔ)言模型處理的神經(jīng)網(wǎng)絡(luò)是反饋神經(jīng)網(wǎng)絡(luò)(Feedback Neural Networks)。存在反饋連接,信息可以從后續(xù)時(shí)間步驟傳遞回前面的時(shí)間步驟??梢詫?duì)動(dòng)態(tài)系統(tǒng)的行為進(jìn)行建模和預(yù)測(cè),如控制系統(tǒng)、運(yùn)動(dòng)軌跡預(yù)測(cè)等。我們必須承認(rèn),在處理時(shí)序任務(wù)方面反饋神經(jīng)網(wǎng)絡(luò)著實(shí)表現(xiàn)出色,如語(yǔ)音識(shí)別、自然語(yǔ)言處理中的語(yǔ)言模型、機(jī)器翻譯等。

6b268bde-0f5a-11ee-962d-dac502259ad0.png

大家一般會(huì)想到的反饋神經(jīng)網(wǎng)絡(luò)就是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN),是一類具有循環(huán)連接的神經(jīng)網(wǎng)絡(luò),能夠保留先前狀態(tài)的信息,主要由循環(huán)層和激活函數(shù)組成。作為一種遞歸的神經(jīng)網(wǎng)絡(luò),適用于處理序列數(shù)據(jù)的任務(wù),如自然語(yǔ)言處理、語(yǔ)音識(shí)別、時(shí)間序列分析等。如果用于處理文本,它的核心思想是在處理每個(gè)輸入時(shí),將前一個(gè)時(shí)刻的隱藏狀態(tài)傳遞給當(dāng)前時(shí)刻,并結(jié)合當(dāng)前輸入進(jìn)行計(jì)算。這種遞歸的結(jié)構(gòu)使得RNN能夠捕捉到序列中的上下文信息。

6b4d4760-0f5a-11ee-962d-dac502259ad0.png

然而,傳統(tǒng)的RNN在處理長(zhǎng)序列時(shí)會(huì)面臨梯度消失(Vanishing Gradient)和梯度爆炸(Exploding Gradient)的問(wèn)題。梯度消失指的是在深層神經(jīng)網(wǎng)絡(luò)中,反向傳播過(guò)程中梯度逐漸變小,并最終變得非常接近于零的現(xiàn)象。當(dāng)網(wǎng)絡(luò)層數(shù)較多時(shí),梯度在每一層中都會(huì)乘以網(wǎng)絡(luò)參數(shù)的權(quán)重,因此,如果權(quán)重小于1,則梯度會(huì)指數(shù)級(jí)地逐漸減小,導(dǎo)致在淺層網(wǎng)絡(luò)中梯度無(wú)法有效傳遞到較深的層,從而使得較深層的參數(shù)更新緩慢或停止更新,影響網(wǎng)絡(luò)的訓(xùn)練效果。梯度爆炸指的是在深層神經(jīng)網(wǎng)絡(luò)中,反向傳播過(guò)程中梯度逐漸增大,并最終變得非常大的現(xiàn)象。當(dāng)網(wǎng)絡(luò)層數(shù)較多時(shí),梯度在每一層中都會(huì)乘以網(wǎng)絡(luò)參數(shù)的權(quán)重,如果權(quán)重大于1,則梯度會(huì)指數(shù)級(jí)地逐漸增大,導(dǎo)致在淺層網(wǎng)絡(luò)中梯度變得非常大,進(jìn)而導(dǎo)致網(wǎng)絡(luò)參數(shù)更新過(guò)大,使得網(wǎng)絡(luò)無(wú)法收斂。不管是梯度消失,還是梯度爆炸問(wèn)題,都會(huì)導(dǎo)致深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練變得困難,甚至無(wú)法收斂到有效的結(jié)果。

6b858ed6-0f5a-11ee-962d-dac502259ad0.png

于是人們又改進(jìn)了循環(huán)神經(jīng)網(wǎng)絡(luò),設(shè)計(jì)了一個(gè)變體長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM),用于解決傳統(tǒng)RNN在處理長(zhǎng)期依賴問(wèn)題上的挑戰(zhàn)。LSTM通過(guò)引入門控單元結(jié)構(gòu),可以更有效地處理和記憶長(zhǎng)期依賴關(guān)系。LSTM通過(guò)引入門控機(jī)制來(lái)解決梯度消失和梯度爆炸的問(wèn)題。LSTM單元包含遺忘門(forget gate)、輸入門(input gate)和輸出門(output gate)。LSTM通過(guò)這些門的控制,可以有選擇性地遺忘和更新信息,能夠更好地捕捉長(zhǎng)期依賴關(guān)系,有助于控制信息的流動(dòng)和記憶的更新,從而解決了梯度消失和梯度爆炸的問(wèn)題。

7. Transformer轉(zhuǎn)換器

上述的LSTM看似完美,其實(shí)也有硬傷。傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)或長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)都屬于反饋神經(jīng)網(wǎng)絡(luò)(Feedback Neural Networks),在處理序列數(shù)據(jù)時(shí)是逐步進(jìn)行的,每個(gè)時(shí)間步依賴于前一個(gè)時(shí)間步的計(jì)算結(jié)果。這種順序計(jì)算導(dǎo)致了計(jì)算的串行性,無(wú)法同時(shí)進(jìn)行多個(gè)計(jì)算。而且這種局部信息交互的方式可能無(wú)法充分利用整個(gè)序列中的上下文信息。盡管LSTM緩解了梯度消失或梯度爆炸的問(wèn)題,但仍然存在一定的限制。

6bb7c6bc-0f5a-11ee-962d-dac502259ad0.png

而新的技術(shù)Transformer又打破了僵局。Transformer是前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Networks)。前饋神經(jīng)網(wǎng)絡(luò)中,信息只沿著前向的方向傳遞,沒(méi)有循環(huán)連接。適用于各種監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)任務(wù),如分類、回歸、特征提取等。Transformer作為一種基于自注意力機(jī)制的模型,用于處理序列數(shù)據(jù),能夠在每個(gè)位置對(duì)輸入序列的所有位置進(jìn)行注意力計(jì)算。這使得模型能夠根據(jù)輸入序列的不同部分自適應(yīng)地分配注意力權(quán)重,能夠在一個(gè)序列中捕捉到不同位置之間的依賴關(guān)系,更加靈活地捕捉關(guān)鍵信息。由于Transformer是基于注意力機(jī)制的前饋神經(jīng)網(wǎng)絡(luò),可以在一次前向傳播中同時(shí)處理整個(gè)序列,因此可以進(jìn)行更有效的并行計(jì)算。這使得Transformer摒棄了傳統(tǒng)的遞歸結(jié)構(gòu),而是采用了并行計(jì)算的方式,在處理長(zhǎng)序列時(shí)更為高效。Transformer由編碼器和解碼器組成,編碼器負(fù)責(zé)將輸入序列編碼成一系列特征表示,解碼器則根據(jù)這些特征表示生成目標(biāo)序列,Transformer通過(guò)注意力機(jī)制使每個(gè)位置都能夠在編碼和解碼階段獲得序列中所有位置的信息,實(shí)現(xiàn)了全局的信息交互,能夠更好地捕捉上下文關(guān)系。使得它可以廣泛應(yīng)用于機(jī)器翻譯和生成式任務(wù)中。

8. 生成式與訓(xùn)練轉(zhuǎn)換器GPT(Generative Pre-trained Transformer)

6c05ac7e-0f5a-11ee-962d-dac502259ad0.png

而大家熟知的GPT正是使用了最后這個(gè)Transformer技術(shù)。其實(shí)這也是GPT名字的由來(lái)。GPT是生成式與訓(xùn)練轉(zhuǎn)換器(Generative Pre-trained Transformer)的縮寫。GPT通過(guò)對(duì)提出的問(wèn)題進(jìn)行預(yù)測(cè)(Generate)來(lái)生成一篇回答。GPT不是在一次預(yù)測(cè)中輸出整篇回答,而是首先預(yù)測(cè)回答的第一個(gè)字,然后將預(yù)測(cè)的第一個(gè)字與問(wèn)題連接起來(lái),形成一個(gè)延長(zhǎng)一個(gè)字的輸入句子,并再次輸入給GPT。GPT進(jìn)行第二次預(yù)測(cè),得到回答的第二個(gè)字,然后將這個(gè)字續(xù)在輸入句子后,再次輸入給GPT,以此類推。這個(gè)過(guò)程一直重復(fù)進(jìn)行,直到GPT預(yù)測(cè)出"結(jié)束符"(或達(dá)到約定的最大長(zhǎng)度,此時(shí)回答過(guò)程結(jié)束,GPT生成了一篇完整的回答。這種逐步地一個(gè)字一個(gè)字生成整篇回答的過(guò)程被稱為"自回歸"—— Auto-Regression。在自回歸過(guò)程中,GPT進(jìn)行多次預(yù)測(cè)而不僅僅是一次預(yù)測(cè)。因此,使用過(guò)ChatGPT的用戶可能會(huì)發(fā)現(xiàn)它在回答問(wèn)題時(shí)逐字逐字地產(chǎn)生輸出,速度較慢。這是因?yàn)榇笮偷腉PT模型進(jìn)行一次預(yù)測(cè)(輸出一個(gè)字)本身就需要一定的時(shí)間。

9. 轉(zhuǎn)換器(Transformer)與注意力(Attention)

6c286c8c-0f5a-11ee-962d-dac502259ad0.png

從內(nèi)部實(shí)現(xiàn)細(xì)節(jié)來(lái)看,輸入句子首先通過(guò)一系列堆疊在一起的Transformer組件。下一層Transformer的輸出作為上一層Transformer的輸入。GPT看到的"字"是數(shù)值化的表示,即一組向量。整個(gè)語(yǔ)言中有V個(gè)字(字表)。GPT為每個(gè)字分配一個(gè)向量,這些向量也是GPT的參數(shù)。輸入句子中的每個(gè)字向量被傳遞給第一個(gè)Transformer,它對(duì)每個(gè)字生成一個(gè)向量。可以將這個(gè)過(guò)程看作是Transformer對(duì)每個(gè)字向量進(jìn)行了"變形"。下一層Transformer將其輸出的字向量傳遞給上一層Transformer,直到最頂層的Transformer為句子中的每個(gè)字生成一個(gè)向量。通過(guò)多層Transformer的處理,字向量在傳遞過(guò)程中發(fā)生了變化,這些變化可以視為Transformer對(duì)字向量進(jìn)行了"變形"。更重要的是,在這個(gè)變形的過(guò)程中,每個(gè)字的向量融合了上下文中所有字的信息。這就是Transformer中的Attention(注意力)組件的作用。Attention首先利用每個(gè)字的向量計(jì)算出query向量、key向量和value向量。query向量和key向量指示了這個(gè)字與其他字(包括自身)如何相關(guān)聯(lián),而value向量則包含了字本身的含義信息。Attention使用query向量和所有字的key向量計(jì)算出對(duì)應(yīng)的注意力得分,這個(gè)得分表示這個(gè)字在多大程度上將注意力分配給其他字。然后,Attention使用這些注意力得分對(duì)所有字的value向量進(jìn)行加權(quán)求和,得到對(duì)于該字的輸出向量??梢哉J(rèn)為,Attention改變了該字的向量,使得變化后的向量通過(guò)不同的注意力權(quán)重融合了上下文中所有字的信息。

GPT的全部參數(shù)包括:

  • N個(gè)Transformer中組合多個(gè)Attention頭的輸出矩陣,以及全連接神經(jīng)網(wǎng)絡(luò)的參數(shù)(包括多個(gè)權(quán)重矩陣和偏置向量);

  • 每個(gè)Transformer中H個(gè)Attention頭的Q、K和V矩陣;

  • 預(yù)測(cè)下一個(gè)字的全連接神經(jīng)網(wǎng)絡(luò)的參數(shù)(包括多個(gè)權(quán)重矩陣和偏置向量);

  • 初始的字向量。

正是這些參數(shù)使得GPT模型具有我們希望它具備的行為。例如,一個(gè)Attention頭的Q、K和V矩陣,其中V矩陣對(duì)輸入給Attention的字向量進(jìn)行線性變換,得到該字的value向量,這種線性變換在某種程度上表達(dá)了該字某個(gè)方面的含義(抽象)。Q和K矩陣分別對(duì)字向量進(jìn)行線性變換,得到該字的query和key向量,也編碼了該字與其他字相關(guān)聯(lián)的信息。再例如,位于Transformer之上的預(yù)測(cè)神經(jīng)網(wǎng)絡(luò),其參數(shù)編碼了如何根據(jù)句子的表示(即最后一個(gè)字的向量)來(lái)預(yù)測(cè)下一個(gè)字的信息。

10. GPT是如何訓(xùn)練出來(lái)的?

所有這些參數(shù)都是通過(guò)“訓(xùn)練”得到的。一開(kāi)始,這些參數(shù)被初始化為隨機(jī)值,此時(shí)它們沒(méi)有任何含義和功能,GPT也無(wú)法很好地預(yù)測(cè)下一個(gè)字。訓(xùn)練者準(zhǔn)備了一個(gè)龐大的語(yǔ)料庫(kù),其中包含許多合法的句子。從合法句子中隨機(jī)選擇一部分作為訓(xùn)練樣本,以最后一個(gè)字作為標(biāo)簽,將前面的字作為輸入,從而構(gòu)造了一個(gè)訓(xùn)練樣本。許多這樣的訓(xùn)練樣本構(gòu)成了訓(xùn)練集。

將訓(xùn)練樣本的句子輸入到GPT中,GPT將預(yù)測(cè)下一個(gè)字,準(zhǔn)確地說(shuō)是生成字表中所有字的概率分布。然后將正確的下一個(gè)字(標(biāo)簽)與GPT的輸出進(jìn)行比較,計(jì)算出誤差(交叉熵?fù)p失)。接下來(lái),在GPT模型上執(zhí)行反向傳播,使用梯度下降法或其變體更新GPT的所有參數(shù)。

通過(guò)逐個(gè)樣本地(實(shí)際上是一批樣本)進(jìn)行這一過(guò)程的迭代,即“計(jì)算誤差+反向傳播+更新參數(shù)”,最終調(diào)整GPT的參數(shù)使誤差最小化。此時(shí),GPT能夠很好地預(yù)測(cè)句子的下一個(gè)字,訓(xùn)練完成。

通過(guò)對(duì)GPT技術(shù)的揭秘,今天我們深入了解了生成式模型的訓(xùn)練之道。相信大家能清晰看到從自然語(yǔ)言處理(NLP)到生成式與訓(xùn)練轉(zhuǎn)換器(GPT)的技術(shù)發(fā)展脈絡(luò)。隨著技術(shù)的不斷進(jìn)步,人們對(duì)大模型的期望也在增加。特別是如何處理不同語(yǔ)言和文化背景下的多樣性,克服詞語(yǔ)分割、語(yǔ)義模糊和語(yǔ)法靈活性等挑戰(zhàn),以實(shí)現(xiàn)全球范圍內(nèi)的語(yǔ)言處理能力。同時(shí),這種大模型的能力如何擴(kuò)展到多媒體,多模態(tài)領(lǐng)域以及如何在各種專業(yè)領(lǐng)域發(fā)揮更好的作用,讓人們產(chǎn)生更多的期待。

相信,通過(guò)不斷的研究和探索,AIGC大模型將在自然語(yǔ)言處理領(lǐng)域發(fā)揮越來(lái)越重要的作用,為人們提供更好的語(yǔ)言交流和理解體驗(yàn),進(jìn)而推動(dòng)人工智能的發(fā)展邁上新的臺(tái)階。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 開(kāi)源技術(shù)
    +關(guān)注

    關(guān)注

    0

    文章

    389

    瀏覽量

    7992
  • OpenHarmony
    +關(guān)注

    關(guān)注

    25

    文章

    3747

    瀏覽量

    16594

原文標(biāo)題:河套IT TALK94:(原創(chuàng))GPT技術(shù)揭秘:探索生成式模型的訓(xùn)練之道

文章出處:【微信號(hào):開(kāi)源技術(shù)服務(wù)中心,微信公眾號(hào):共熵服務(wù)中心】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    OpenAI GPT-5開(kāi)發(fā)滯后:訓(xùn)練成本高昂

    近日,據(jù)最新消息,OpenAI在推進(jìn)其備受期待的下一代旗艦模型GPT-5的開(kāi)發(fā)進(jìn)程上遇到了困難。由于計(jì)算成本高昂且高質(zhì)量訓(xùn)練數(shù)據(jù)稀缺,GPT-5的開(kāi)發(fā)已經(jīng)落后于原定計(jì)劃半年之久。 據(jù)悉
    的頭像 發(fā)表于 12-23 11:04 ?323次閱讀

    NVIDIA Nemotron-4 340B模型幫助開(kāi)發(fā)者生成合成訓(xùn)練數(shù)據(jù)

    Nemotron-4 340B 是針對(duì) NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優(yōu)化的模型系列,該系列包含最先進(jìn)的指導(dǎo)和獎(jiǎng)勵(lì)模型,以及一個(gè)用于生成 AI
    的頭像 發(fā)表于 09-06 14:59 ?383次閱讀
    NVIDIA Nemotron-4 340B<b class='flag-5'>模型</b>幫助開(kāi)發(fā)者<b class='flag-5'>生成</b>合成<b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)

    大語(yǔ)言模型的預(yù)訓(xùn)練

    隨著人工智能技術(shù)的飛速發(fā)展,自然語(yǔ)言處理(NLP)作為人工智能領(lǐng)域的一個(gè)重要分支,取得了顯著的進(jìn)步。其中,大語(yǔ)言模型(Large Language Model, LLM)憑借其強(qiáng)大的語(yǔ)言理解和生成
    的頭像 發(fā)表于 07-11 10:11 ?541次閱讀

    llm模型和chatGPT的區(qū)別

    基于Transformer架構(gòu)的預(yù)訓(xùn)練語(yǔ)言模型,它可以生成連貫、自然的文本。ChatGPT使用GPT模型作為基礎(chǔ),通過(guò)微調(diào)和
    的頭像 發(fā)表于 07-09 09:55 ?1330次閱讀

    如何用C++創(chuàng)建簡(jiǎn)單的生成AI模型

    生成AI(Generative AI)是一種人工智能技術(shù),它通過(guò)機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)技術(shù),從大量歷史數(shù)據(jù)中學(xué)習(xí)對(duì)象的特征和規(guī)律,從而能夠
    的頭像 發(fā)表于 07-05 17:53 ?1050次閱讀

    OpenAI揭秘CriticGPT:GPT自進(jìn)化新篇章,RLHF助力突破人類能力邊界

    OpenAI近期震撼發(fā)布了一項(xiàng)革命性成果——CriticGPT,一個(gè)基于GPT-4深度優(yōu)化的新型模型,其獨(dú)特之處在于能夠自我提升,助力未來(lái)GPT模型
    的頭像 發(fā)表于 07-02 10:19 ?835次閱讀

    OpenAI發(fā)布全新GPT-4o模型

    近日,OpenAI宣布推出全新的GPT-4o模型,標(biāo)志著人工智能領(lǐng)域的一大技術(shù)飛躍。這款模型不僅具備強(qiáng)大的生成能力,還能精準(zhǔn)理解用戶意圖,提
    的頭像 發(fā)表于 05-17 11:48 ?696次閱讀

    大語(yǔ)言模型:原理與工程時(shí)間+小白初識(shí)大語(yǔ)言模型

    開(kāi)拓深度學(xué)習(xí)的思路。對(duì)于新涌現(xiàn)的大語(yǔ)言模型的能力,主要是表現(xiàn)在學(xué)習(xí)能力的提升、語(yǔ)言理解和生成能力、創(chuàng)新和探索的能力。 基礎(chǔ)技術(shù) 詞表示技術(shù)
    發(fā)表于 05-12 23:57

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

    大語(yǔ)言模型的核心特點(diǎn)在于其龐大的參數(shù)量,這賦予了模型強(qiáng)大的學(xué)習(xí)容量,使其無(wú)需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)習(xí)容量的增加,對(duì)預(yù)訓(xùn)練數(shù)據(jù)的需求也相應(yīng)
    發(fā)表于 05-07 17:10

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    下游任務(wù)提供豐富的文本表示,如谷歌公司推出的BERT。(2) Decoder-Only 預(yù)訓(xùn)練語(yǔ)言模型:這類模型一般使用單向的 Decoder 結(jié)構(gòu),通常擅長(zhǎng)生成任務(wù),如OpenAI
    發(fā)表于 05-05 12:17

    【大語(yǔ)言模型:原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

    大語(yǔ)言模型(LLM)是人工智能領(lǐng)域的尖端技術(shù),憑借龐大的參數(shù)量和卓越的語(yǔ)言理解能力贏得了廣泛關(guān)注。它基于深度學(xué)習(xí),利用神經(jīng)網(wǎng)絡(luò)框架來(lái)理解和生成自然語(yǔ)言文本。這些模型通過(guò)
    發(fā)表于 05-04 23:55

    【大語(yǔ)言模型:原理與工程實(shí)踐】探索《大語(yǔ)言模型原理與工程實(shí)踐》

    處理中預(yù)訓(xùn)練架構(gòu)Transformer,以及這些技術(shù)在現(xiàn)實(shí)世界中的如何應(yīng)用。通過(guò)具體案例的分析,作者展示了大語(yǔ)言模型在解決實(shí)際問(wèn)題中的強(qiáng)大能力,同時(shí)也指出了當(dāng)前技術(shù)面臨的挑戰(zhàn)和局限性。
    發(fā)表于 04-30 15:35

    生成 AI 進(jìn)入模型驅(qū)動(dòng)時(shí)代

    隨著ChatGPT和大型語(yǔ)言模型(LLM)呈現(xiàn)爆炸增長(zhǎng),生成人工智能(GenerativeAI)成為近來(lái)的一大熱詞。由此引發(fā)了一場(chǎng)爭(zhēng)論:哪種AI
    的頭像 發(fā)表于 04-13 08:12 ?582次閱讀
    <b class='flag-5'>生成</b><b class='flag-5'>式</b> AI 進(jìn)入<b class='flag-5'>模型</b>驅(qū)動(dòng)時(shí)代

    聯(lián)想攜手京東,緊扣大模型生成AI技術(shù)

    聯(lián)想與京東攜手,緊扣大模型生成AI技術(shù)帶來(lái)的產(chǎn)業(yè)機(jī)遇,在多個(gè)領(lǐng)域展開(kāi)深入合作。
    的頭像 發(fā)表于 04-12 10:27 ?675次閱讀

    理想汽車自研大模型Mind GPT通過(guò)國(guó)家備案

    理想汽車近日宣布,其全自研的多模態(tài)認(rèn)知大模型Mind GPT已正式通過(guò)國(guó)家《生成人工智能服務(wù)管理暫行辦法》備案,成為汽車行業(yè)中首個(gè)成功通過(guò)該備案的自研大
    的頭像 發(fā)表于 03-29 11:05 ?645次閱讀
    索罗门百家乐官网的玩法技巧和规则 | 百家乐赢利策略| 海立方百家乐官网客户端| 大发888游戏平台 df888ylc3403| 百家乐浴盆博彩通排名| 粤港澳百家乐官网娱乐平台| 桂平市| 大发888怎么进不去| 百家乐路子技巧| 段风水24宿| 御金百家乐官网娱乐城| 崇阳县| 顶级赌场| 百家乐唯一能长期赢钱的方法| 真人百家乐网西陆| 蓝盾百家乐官网洗码| 澳门百家乐官网海星王| 风水24山图解| 百家乐官网群11889| 长城百家乐官网游戏| 棋牌易发| 威尼斯人娱乐的微博| 澳门百家乐必赢技巧| 百家乐游戏全讯网2| 百家乐官网群的微博| 百家乐官网赌博导航| 百家乐官网园会员注册| 瑞丽市| 金宝博网站| 全讯网新闻| 单机百家乐破解方法| 百家乐定位膽技巧| 百家乐官网筹码防伪| 百家乐官网正式版| 赌场百家乐官网赢钱| 关于百家乐官网切入点| 奉新县| 超级皇冠网分布图| 金沙国际娱乐城| 新澳门娱乐城官网| 大发888攻略|