衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

ChatGPT的真相:強泛化的秘密以及眾多關鍵問題

深度學習自然語言處理 ? 來源:AI科技評論 ? 2023-04-26 10:27 ? 次閱讀

本文從ChatGPT帶來的即時學習能力(in-context learning)入手,逐步深入地探討了ChatGPT目前眾多的關鍵性問題,包括:

ChatGPT帶來了從未有過的計算層次——虛擬人

ChatGPT帶來的新的智能計算構架:母體和虛擬人

在人類語料知識用盡的時候,新的智能架構如何成長,如何吸收新的技能

強泛化能力的解釋,以及大模型能力涌現(xiàn)的可能原因

一本正經(jīng)胡說八道問題的原因和長、短期解決方案

ChatGPT如何細化到垂直領域,比如法律領域。

本文并不是對已發(fā)表的大模型論文的技術總結,不是一篇綜述文章,而是基于筆者自己的研究分析去探索上述問題的答案。希望能起到一個拋磚引玉的作用。文章的寫作跨度比較長,大部分的寫作完成于OpenAI推出plugins功能之前,所以有少部分技術內容顯得有些滯后了。

1

ChatGPT帶來的嶄新技術:

即時學習能力

在OpenAI的GPT-3出現(xiàn)之前,以往的深度學習模型只是為某個特定任務開發(fā)的,比如,翻譯、分類、摘要、信息抽取等等。每個任務都有一個專用的模型,都需要人類標柱員專門為這個任務生成大量的標注數(shù)據(jù)用來訓練模型。而OpenAI采用自監(jiān)督的方式來訓練它的超級大模型GPT-3,不需要任何人類標注數(shù)據(jù)。它使用了巨量的50TB的文字語料,其中大部分來自于互聯(lián)網(wǎng)。而它所做的唯一一件訓練任務就是根據(jù)文本中前面看到的文字,不斷的預測下一個文字是什么。

這個1750億參數(shù)的模型充分訓練完成以后,就誕生了一件非常奇妙的事情:模型即時學習的能力,術語叫做in-context learning(也可翻譯為文中學習)。因為GPT-3有根據(jù)前面的文字不斷預測下一個文字的能力,所以它可以生成文本,可以和人對話。即時學習能力就是指GPT-3在這個交互過程中可以馬上領會到你的指令的意圖、執(zhí)行你的任務,并且可以即時學習到新的知識和技能。ChatGPT通過一個良好的人機交互對話界面,充分釋放出GPT-3的即時學習能力。

誕生了超強的即時學習能力以后,以ChatGPT為代表的大模型就成為了一個新的物種,區(qū)別于以往為專用任務開發(fā)的深度學習模型。大模型不再是任務的執(zhí)行者,它的角色將轉換為底層的賦能者,而它創(chuàng)造出來的各種形形色色具備即時學習能力的“虛擬人”將成為真正的任務執(zhí)行者。機器學習訓練的傳統(tǒng)范式也將發(fā)生根本性的改變。我們先從下圖中的一個簡單的例子看起。

ChatGPT通過即時學習的能力記住了我教給它的新知識—中國2022年的人口總數(shù),并在后面的人口列表中使用上了這個新知識。這是多么驚嘆的一種能力!按照以往的范式,我們要改變模型存儲的知識,需要用新數(shù)據(jù)在模型上進行多輪的訓練。比如,往模型里增加中國2022年的人口總數(shù)這個事實,就是非常棘手的一件事情。因為我們不確定訓練多少輪以后,模型才能夠記住這個事實。而且,我們也不確定對這些新數(shù)據(jù)訓練之后,是否會破壞模型中存儲的其它知識。科研界目前也在努力解決這個問題,出現(xiàn)了一個新的研究方向,叫做neural editing。但是大模型即時學習的能力實際上已經(jīng)解決這個問題了,而且是用一種近乎完美的方式:一條指令,一步到位。

你這時候可能會反駁說,這條新知識其實并沒有真正存儲在ChatGPT大模型里面,因為當你打開一個新的對話的時候,這個知識就不存在了。然而,這恰恰是大模型非常大的一個優(yōu)點:即時學習學到的東西是和母體脫離的,這樣就可以實現(xiàn)大模型上層任務的定制化,實現(xiàn)各種各樣不同的應用。而所有的這些都不會改變底層大模型的任何參數(shù)。底層大模型就像操作系統(tǒng)一樣,以賦能者的身份存在。

722b6e9c-e3a7-11ed-ab56-dac502259ad0.png

具備即時學習能力的“虛擬人”可以看作是一種應用程序,它的狀態(tài)是可以存儲的,可以讀取的。你教授給它的新知識和新技能并不會丟失。目前ChatGPT能記住4000個(GPT-4是32000個)漢字的上下文關聯(lián)。這就意味著我們當前對話中前4000個字里面描述過的知識和技能,ChatGPT都不會遺忘。今后,技術的發(fā)展肯定會帶來更大的記憶體空間。越大的記憶體就意味著越高的“虛擬人”定制化水平,越寬廣的任務適用范圍。

我們再列舉一些ChatGPT通過即時學習能力學習新技能、新任務的例子。第一個例子是關于七言律詩的學習。你如果直接讓ChatGPT寫七言律詩,它會寫得很不符合格式,很隨意。但是如果先將百度百科中關于七言律詩的定義告訴ChatGPT以后,ChatGPT就可以寫出非常工整的七言律詩。它可以從你給它的定義,馬上學習到七言律詩是什么。網(wǎng)絡上有很多教ChatGPT各種奇奇怪怪新技能和指派新任務的例子。有人發(fā)明了一種新的語言,教給ChatGPT以后,他和ChatGPT就可以用這種新語言交流了。有人讓ChatGPT去模擬一個linux內核接受用戶的指令,ChatGPT模仿的非常逼真。所有的這些新技能和新任務的學習也僅僅只是一個定義,一個prompt,一步到位。

大模型即時學習的能力把大模型從知識和技能萬能者的角色中解放出來了。大模型不再需要做到知識的完美,技能的完美。大模型的知識可以是不完整的,可以不用總是最新的,甚至是可以允許有錯的。大模型上層創(chuàng)造出來的各種“虛擬人”會利用即時學習能力來完善任務特有的專業(yè)化知識和技能。“虛擬人”還可以通過自主使用API的方式從搜索引擎和數(shù)據(jù)庫中獲得大量的、最新的專業(yè)化知識。大模型此時真正存在的意義是賦能:即提升“虛擬人”的即時學習的能力和其它能力,比如使用API。

2新的智能計算構架:虛擬人和母體

ChatGPT這次帶來的沖擊和計算機發(fā)展歷史中的一個大事件驚人的相似,那就是通用計算機的誕生。在通用計算機誕生以前,沒有軟件的概念。那個時候電子工程師們需要為每一個應用程序設計專門的邏輯電路,開發(fā)專用的計算機。直到艾倫·圖靈為解決計算機理論問題而提出圖靈機這一偉大發(fā)明的時候,人們才發(fā)現(xiàn)計算機邏輯可以用代碼的形式和數(shù)據(jù)一起存儲,并通過圖靈機進行運算。

通用計算機的誕生對社會生產(chǎn)力的提升意義重大。學習寫代碼比學習開發(fā)邏輯電路要簡單太多了。普通人經(jīng)過一段較長時間的培訓都可以學會寫代碼。這樣一來,社會各行各業(yè)都可以從軟件開發(fā)中受益,社會自動化程度得到快速的提高。

這次ChatGPT的技術變革會帶來社會生產(chǎn)力更高層次的躍升。在ChatGPT為代表的通用人工智能出現(xiàn)之前,軟件工程師們需要為每一個特定任務開發(fā)一個專用的機器學習模型或者代碼。ChatGPT誕生之后,普通人就可以通過自然語言交流的方式給ChatGPT安排任務,快速地完成各種復雜的工作。以前,大家還需要找軟件開發(fā)商來滿足自己業(yè)務上的需求,現(xiàn)在自己動手就可能可以實現(xiàn)了!

我們可以設想一下不久的未來ChatGPT將會帶來的新的智能計算構架,主要可分為賦能層(母體)和應用層(虛擬人世界):

1. 底層是一個基礎大模型,我們稱之為母體。大模型不再是任務的執(zhí)行者,而是底層的賦能者,其角色就像通用計算機中的操作系統(tǒng)一樣。大模型需要為上層提供越來越強的即時學習能力和API訪問等其它能力。在知識方面,大模型不需要做到盡善盡美,無所不知,上面的應用層會有辦法彌補大模型專業(yè)知識不足的問題。但大模型仍然需要盡量做到知識的全面性、正確性、最新性,給應用層提供最有力的支撐。

2. 上層的應用層是一個虛擬人或者虛擬人任務的網(wǎng)絡,我們稱之為虛擬人世界。用戶可以根據(jù)不同的任務用自然語言交流的方式定制虛擬人。虛擬人有自己單獨的記憶體,里面可以存儲任務特有的專業(yè)化知識和技能。這部分特有知識可以對底層大模型的知識進行補全和覆蓋。虛擬人還可以通過自己調用數(shù)據(jù)庫和搜索引擎API來獲取完成任務需要的專業(yè)知識。類似人類社會的分工機制,虛擬人也可以通過分工的方式來完成更加復雜的任務,這樣就會構造出一個虛擬人的網(wǎng)絡。虛擬人即時學習到的知識和技能不會對底層大模型的參數(shù)有任何影響。當虛擬人停止工作的時候,這部分計算資源就被系統(tǒng)收回,但虛擬人記憶體中的知識和技能可以被保存下來等待下次工作時讀取。簡而言之,虛擬人的角色就像通用計算機中的應用程序。

虛擬人的定制化是通過每個虛擬人記憶體中特有的知識和技能來實現(xiàn)的。長期來看,我們需要為虛擬人開發(fā)出“可顯示的長期記憶體”技術來提高記憶的穩(wěn)定性、可靠性、高效性。當前,ChatGPT提供了“隱式”的記憶力,GPT-3.5可以記住對話中前4000個token(漢字)中的內容,而GPT-4可以記住32000個。這些歷史對話中的知識可以用來覆蓋掉母體中的知識。比如,我們先提供給ChatGPT一個中國人口的數(shù)據(jù)報告,然后再問它關于人口數(shù)據(jù)的時候,ChatGPT會優(yōu)先使用報告中的數(shù)據(jù)而不是大模型中的數(shù)據(jù)。這是即時學習能力的一個基本特性,我們將會在下一節(jié)進行詳細的講解。

ChatGPT的最終形態(tài)可能就是一個超大的智能基座,像供水供電一樣為全社會的各行各業(yè)提供虛擬人服務。同時,各行各業(yè)企業(yè)級的反饋又能幫助大模型成長。這時,大模型成長的主要助推動力就不再是人類長期歷史文本中積累的知識了,而是各行各業(yè)企業(yè)級應用中的第一手知識。換一句形象的話說,所有虛擬人的“生活經(jīng)歷”將成為真正推動母體前進的燃料(有趣的是,即時學習并不會直接改變母體的參數(shù))。

在這個新的計算架構下,我們可以看出知識和技能有兩處可選擇的存儲區(qū)域。一個是母體,另一個就是虛擬人的專有記憶體。一般來說,大眾的、穩(wěn)定的、有共識的知識和技能應當由母體來理解記憶;而任務特有的、新型的知識和技能則可以通過即時學習的能力存儲在虛擬人的專有記憶體中。

本文章寫作時間跨度比較長,文章還差結尾的時候,OpenAI就把ChatGPT plugins的功能推出市場了。因為plugins是一個特別好的可以用來說明如何巧用兩處存儲區(qū)域的例子, 我們在這里插入補充一下。plugins作為一種新的技能,可以有兩種實現(xiàn)的方式。一種就是通過對母體的預訓練來實現(xiàn),另一種就是通過即使學習的能力直接教授給虛擬人。OpenAI選擇的是第二種方式,因為這種方式實現(xiàn)起來很快,成本很低。而第一種方式需要專門的訓練語料,如果讓人來標注,成本非常高。但是第二種方式也存在著一個較大的問題,就是各種plugin API的自然語言描述Prompt加起來會占去虛擬人專有記憶體很大的空間。

這個時候其實有一個巧妙的解法,不知道OpenAI是否也是這么想的。如果我們把所有用戶使用plugins的全部過程,包括在plugins內部點擊選擇的步驟,都詳詳細細地記錄下來作為語料反哺給母體進行訓練。一旦母體獲得掌握這些知識技能之后,我們就不再需要虛擬人用即時學習能力去學這些plugin API了。甚至,用戶都可以不用再在plugin內部進行點擊選擇了,所以的一切都會按照用戶的任務目標自動進行。虛擬人只需要返回給用戶一個plugin使用的確認報告就行了。

這就給我們的計算架構提供了一種引入新的大眾技能的范式。即,先通過虛擬人的即時學習能力+用戶輔助來先實現(xiàn)這個功能,然后在大量用戶使用之后,逐漸將這個技能知識沉淀到母體,隨之就可以釋放掉虛擬人這部分的技能定義Prompt。

3即時學習能力和強泛化的解釋

我們現(xiàn)在開始分析一下ChatGPT的即時學習能力從何而來。OpenAI公布的文檔中提及過ChatGPT即時學習能力是通過無監(jiān)督訓練的方法從巨量的人類文本語料中學習來的,后期的有監(jiān)督訓練并沒有提升ChatGPT的即時學習能力。這個無監(jiān)督訓練方法非常簡單樸質,就是根據(jù)文本中前面看到的文字,不斷的預測下一個文字是什么。現(xiàn)在我們把眼光稍微放開一些,這個任務本質上就等于根據(jù)前面文本的約束條件生成后面文本,只不過是以一種分步走的形式來進行。我們再引申一下,這個任務可以進一步看成自然語言約束條件下的前因推后果的任務,由前文的“因”推出后文的“果”。

而前因推后果這個任務是一個超級任務,是所有具體任務的元任務。GPT實際上就是在訓練這個超級任務。因為它是一個超級任務,非常難,所以它需要非常龐大的參數(shù)模型和巨量的語料來訓練。這可能這就是大模型能力涌現(xiàn)現(xiàn)象的原因所在。對于單任務模型來說,泛化意味著從此任務的已知數(shù)據(jù)點泛化到此任務的未知數(shù)據(jù)點上。對于GPT來說,泛化意味著從已知的不計其數(shù)的任務泛化到未知的任務上面。這就解釋了為何ChatGPT擁有即時學習能力,有掌握全新的知識和技能的能力。要做到這樣強的泛化能力,就需要GPT通過在巨量語料上的訓練在其內部建立起一個良好的世界知識的模型。

深刻理解“前因推后果”這個訓練本質能指導我們更好地使用ChatGPT,構造出理想的Prompt。我們舉一個例子(見下圖),如果我們給ChatGPT一個人口的數(shù)據(jù)報告,然后再問它關于人口數(shù)據(jù)的時候,ChatGPT會優(yōu)先使用報告中的數(shù)據(jù)而不是大模型中的數(shù)據(jù)。這是因為報告起到了一個前因的作用,所以后面的數(shù)據(jù)分析肯定是會基于前面這個報告得出的。ChatGPT用到的通用語料中的文字都是上下文相關的,不可能說前面放了一個報告,緊跟著卻去說與報告無關的事情,這樣的概率很小。所以,如果我們可以給ChatGPT設置一個很好的“前因”,把它帶到我們想要的場景中,那么就會得到更符合我們要求的“后果”。

723aa4f2-e3a7-11ed-ab56-dac502259ad0.png

下面我們接著探討一下GPT強泛化能力的來由。

根據(jù)前面的文本預測下一個字確實是一個概率行為,看似簡單,但想做好卻是一件異常復雜的事情。我們人類是怎么做的呢?我們需要理解前文的語義,我們大腦要有世界的知識模型,我們要預測出后面將會發(fā)生什么事情,最后我們需要根據(jù)語法規(guī)則挑選出合適的下一個字。只有這樣才能生成符合邏輯的文本。GPT可能也是在做類似的事情,因為它生成了非常符合邏輯的文本,GPT-4在各種任務上文本生成的表現(xiàn)已經(jīng)接近甚至超越了普通人的智能水平。

很多人認為大模型的訓練只是對語料中的數(shù)據(jù)進行一個擬合,或者叫做近似。但他們不了解大模型中用到隨機梯度下降算法實際上是一種泛化在先的擬合算法,即通過泛化的形式來進行擬合。這種算法會先擬合所有數(shù)據(jù)點中最共性的特征,然后再擬合次共性的特征,以此類推,最后擬合每個數(shù)據(jù)點中最個性的特征。這時才等于把所有數(shù)據(jù)點都記憶下來了。

深度學習中的隨機梯度下降算法甚至不屬于標準意義上的NLP統(tǒng)計算法,因為它的最小計算單位不再是字或者字符,不再通過計數(shù)(counting)字或者詞之間關聯(lián)的方式來研究語義,這和其它的傳統(tǒng)機器學習算法,比如貝葉斯、SVM、HMM等等非常不同。大模型用高緯度向量來表達字,相當于把離散的一個個字的邊界都打碎了,把字碾成了粉末,每個字其中包含的語義變成連續(xù)的、可以流動的東西,這是為了方便求導的數(shù)學運算。

下面,我們用一個非常形象但不是特別準確的例子來解釋一下隨機梯度下降算法中的泛化在先原則。例子中用到的隨機梯度下降優(yōu)化算法為Mini-batch SGD。假設我們的世界知識是一棵長滿綠葉的大樹的照片,我們可以把樹的葉子比喻成語料,一片葉子相當于一個文字。我們的模型初始化的時候是一張空白的紙。我們不能看見樹的全觀,只能通過一個個小窗口看見窗口內的樹葉。一個窗口就相當于一次采樣。我們的目標是要通過隨機梯度下降優(yōu)化算法使得模型內部構建出這顆世界知識的大樹。

我們使用和GPT同樣的訓練任務,即我們通過窗口內已經(jīng)看到的樹葉去預測與它們最相鄰的一片葉子,而GPT是使用一段文本中前面的文字去預測下一個文字。和GPT訓練方法一樣,我們使用Transformer 掩碼(masking)的方式可以同時完成窗口內每一片葉子的被預測的訓練任務,并且同時完成多個窗口(多次采樣)上的全部訓練任務,因為我們采用的是Mini-batch SGD。這就是說,對模型參數(shù)的每一次更新實際上是基于很多個預測下一片葉子的訓練子任務。我們知道,我們是通過梯度的方向來對模型參數(shù)進行更新,而梯度的方向就是真實和預測之間變化差異最大的方向。每次模型更新的梯度實際上是多個訓練子任務上的梯度的疊加。所以這個總梯度可以說是一個共性的表現(xiàn),因此每個訓練子任務上面共性的東西就容易被放大,而個性的東西就容易被抵消,特別是在共性的東西尚未建立的混沌狀態(tài)中。從統(tǒng)計的角度來說,大量訓練子任務梯度疊加的方向近似于真實的世界知識和模型內部構建的世界知識差異最大的方向。

最開始的時候,當我們的模型還是一張空白紙,它和那棵真實的“世界知識大樹”差異最大的方向是什么呢?那必定是滿屏的綠色,這就是所有知識(葉子)最最共性的特征。所有預測下一片葉子的子任務的梯度中都會有明顯指向這個方向的向量維度。所以,模型最先擬合的特征就是葉子的綠色,相當于我們在白紙上畫上了一片綠色。一旦綠色的特征被基本上擬合之后,次共性的特征就會變得顯著,這些特征可能包括樹葉的輪廓和內部脈絡的基本形狀。一旦這些次共性的特征被擬合之后,次次共性的特征的差異性就會顯露出來了,可能包括樹葉所在的區(qū)域,頂部、中部、邊緣、底部,或者樹葉有沒有被蟲咬,樹葉的菌斑等等樹葉之間的普遍關聯(lián)特征。當共性的特征都被擬合完成之后,模型會開始著重擬合個性的特征,每片葉子具體的特點,特定葉子與葉子之間的關聯(lián)關系等等。直至最后,真實世界知識大樹和我們模型內部表征出來的大樹之間的差異沒有了,梯度消失了,我們的訓練也就停止了。

通過上面這個例子我們可以看出,隨機梯度下降算法是和“死記硬背”完完全全對立的一種算法。它具有非常強的泛化性,是一種泛化在先的算法,因為它總是先擬合共性的東西。GPT也是使用了相同的方式從巨量的人類語料中學習并構建出來人類的“世界知識大樹模型”。但是,機器這種在連續(xù)空間里面找共性的“思維方式”對于我們人類來說是很難理解的,因為我們習慣于在基于離散的字的空間上去思考問題。

眾所周知,ChatGPT有時候會一本正經(jīng)的胡編亂造,不知道問題答案的人很容易會被它蒙騙。而這種胡編亂造的本領其實正是GPT大模型強泛化能力的一個具體表現(xiàn)。泛化就是理解的能力,舉一反三的能力。編造不存在的東西達到以假亂真的程度正是說明GPT對它所需要描述的事物有著充分的理解,是一種“高智商”的體現(xiàn)。

4

ChatGPT一本正經(jīng)胡說八道問題的

探討和解決思路

ChatGPT胡編亂造的問題牽扯到一些大模型中非常本質的東西。ChatGPT胡編亂造最主要的原因是GPT在巨量語料的預訓練中完全是以旁觀者的身份存在的,這里面缺少一個“自我”。語料中的內容是客觀存在的,并不以GPT知不知道這些內容有任何的變化。GPT只是在模仿這些內容的生成。當然我們上節(jié)說過,這是一種基于“理解”的模仿,并不是單純記憶。

咱們舉個法律領域的例子。假設GPT的語料中有一些案件分析的文本。這些文本首先會交代一個案情,然后法官會分析解剖這個案件,給出這些案件的法律適用(法條),最后法官還會給出幾個以往的類似案例作為參照。我們使用ChatGPT做案件分析的時候,它其實是在模仿語料中的這個過程。但是如果大模型的法律法規(guī)訓練得不夠充分,ChatGPT找不到合適的法條的時候,它知道這個位置需要生成一個法條,它就會運用它的泛化能力編造一個最像的法條。ChatGPT不會說,我找不到合適的法條,因為它學習模仿的語料文本中不會發(fā)生這樣的事情。

造成ChatGPT胡編亂造的第二個原因是訓練不充分。從某種角度來說,胡編亂造不是大模型的一種錯誤,而是對相關知識未充分訓練的一種中間狀態(tài)。假設人類世界的知識是有限的(closed world),大模型裝下了所有的知識,并對之進行了充分的訓練,那么絕大多數(shù)胡編亂造的情況會消失。因為大模型可以清楚地知道知識的界限在哪里,哪些是存在的,哪些是不存在的。

但是實際上,人類世界的知識可以說是無限的(open world),大模型雖然知道很多知識,但它并不知道邊界在哪里。訓練語料中存在著大量的邊緣知識,出現(xiàn)的次數(shù)比較少,大模型沒有機會進行充分的訓練,以至于不能很好地理解掌握這部分知識。如果在對話中涉及到這部分邊緣知識,ChatGPT就會出現(xiàn)胡編亂造的現(xiàn)象。其實這就是大模型從不懂通向懂之間的一個未完成狀態(tài)。

下面我們看一個例子。我們讓ChatGPT和百度文心一言同時生成演員張涵予的生平介紹。ChatGPT給出的張涵予的信息貌似有模有樣,實際上都是胡謅的,出生時間和地點都是錯的。不過ChatGPT大體上知道張涵予是演電影的,而且也說對了其中的一部電影《湄公河行動》。百度文心一言給出的張涵予的信息基本上都是對的。我們知道,ChatGPT訓練中使用的中文語料是很少的,而百度使用的語料絕大部分都是中文而且訓練是比較充分的。可以看出,經(jīng)過充分訓練之后大模型在演員張涵予生平介紹上的胡編亂造情況得到了大大的改善。

725a5f22-e3a7-11ed-ab56-dac502259ad0.png

7264705c-e3a7-11ed-ab56-dac502259ad0.png

解決ChatGPT胡編亂造的問題可以從上述的兩個原因入手,還可以分為長期、短期兩類方案。最正統(tǒng)的長期方案就是通過與外界交互式的訓練,讓ChatGPT擁有“自我”,可以根據(jù)“自我”的狀態(tài)調整對話的內容。這樣,當ChatGPT不擁有準確地回答某些問題的知識的時候,它就會回答“我不知道”。實際上,OpenAI也正走在這條路上。基于人類反饋的強化學習(RLHF)就給了ChatGPT和外界交互的機會,它就不再僅僅是一個世界的旁觀者了。當ChatGPT胡編亂造的時候,我們人類可以對它進行糾正,告訴它這個時候正確的回答是“我不知道”。當這種反饋訓練達到足夠量級的時候,ChatGPT就可以將這種胡編亂造的場景和自身的知識掌握狀態(tài)聯(lián)系在一起,進行泛化。GPT-4發(fā)布時公開的官方文檔也顯示出了RLHF正在有效地解決幻覺的問題:經(jīng)過RLHF訓練之后的ChatGPT在TruthfulQA的問題集上有50%以上的改善(見下圖)。

727b82b0-e3a7-11ed-ab56-dac502259ad0.png

理論上,我們從算法層面應該也可以捕捉到ChatGPT胡編亂造的狀態(tài)。GPT-4發(fā)布時的官方文檔顯示出一個有趣的現(xiàn)象,預訓練完成之后GPT-4在做MMLU測試集的時候,它對所選擇答案輸出的概率和它實際上答對這道題的正確率幾乎完全一致。這說明GPT-4對答案的正確與否是“心中有數(shù)”的。所以,當ChatGPT“胡編亂造”時生成的文本,其相對應的概率曲線或者entropy曲線可能也具有某種明顯特征,應該可以和“胸有成竹”時生成文本的曲線區(qū)分開來。

72860b4a-e3a7-11ed-ab56-dac502259ad0.png

解決ChatGPT胡編亂造的問題的第二條路就是讓大模型盡可能多地吸收語料知識,并對之進行充分訓練。多吸收各方面的語料知識就是擴大大模型知識的范圍,使得用戶提出的問題基本上可以落在大模型邊緣知識以內的部分,即大模型可以充分理解的知識范疇之中。充分訓練就是讓大模型可以完全掌握并記憶住這些知識。前文中我們舉的那個張涵予的例子可以說明充分訓練的必要性。

但是大模型的容量有限,不可能包含世界上所有的知識。就拿中文法律領域來說吧,全量案例加在一起就有1TB的數(shù)據(jù)量了。而1750億參數(shù)的GPT-3模型的總共容量也就只有1TB。所以,至少目前大模型是不可能包含全量的案例信息。那么我們在訓練大模型的時候就會面臨一個語料的取舍問題,哪些是該放的,哪些是不該放的,以及訓練程度問題。

拿法律領域來說,訓練至少要做到對全部法律法規(guī)的準確記憶,因為這是理解法律知識和關系的基礎。全量案例不宜于都加入到語料之中,因為這么做會造成同一模式的語料占比過高,容易破壞語料的多樣性,影響到大模型的泛化理解能力。

而準確記憶和索引案例數(shù)據(jù)這個任務則交由外部的法律信息搜索引擎,比如北大法寶,來完成。通過虛擬人的即時學習能力,我們可以直接告訴ChatGPT對話機器人,“凡是需要引用實際案例的地方,請調用北大法寶來搜索案例”。ChatGPT可以理解你的命令,按照你的命令執(zhí)行,因為這個命令并不涉及到ChatGPT“自我”的狀態(tài),而只是對一個客觀知識(案例)的認知和理解。最近微軟發(fā)布的154頁的GPT-4調研報告《通用人工智能火花》的中充分展示了ChatGPT在這方面的能力(見下圖)。ChatGPT可以在凡是需要數(shù)學計算的時候能夠自動調用計算器來解決問題。

所以,即使OpenAI在第一條“讓ChatGPT擁有自我”的路上受阻,我們仍然可以通過第二條路,充分訓練+鎖定范圍,來有效地規(guī)避掉ChatGPT胡編亂造的問題。雖然ChatGPT“不知道”自己知不知道,但我們可以通過訓練來控制它不知道的范圍。只要我們清楚它的知識范圍,我們就可以通過自動調用外部工具的方式來彌補它的不足。

728fefc0-e3a7-11ed-ab56-dac502259ad0.png

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 邏輯電路
    +關注

    關注

    13

    文章

    494

    瀏覽量

    42709
  • OpenAI
    +關注

    關注

    9

    文章

    1140

    瀏覽量

    6707
  • ChatGPT
    +關注

    關注

    29

    文章

    1570

    瀏覽量

    8067

原文標題:ChatGPT的真相:強泛化的秘密以及眾多關鍵問題

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    ChatGPT:怎樣打造智能客服體驗的重要工具?

    模型輸出中的錯誤或不適當?shù)幕卮稹?.用戶界面和交互設計:設計用戶友好的客服界面,使用戶能夠與ChatGPT進行無縫互動。考慮到用戶體驗,提供簡潔明了的交互流程和可視元素。6.不斷優(yōu)化和改進:持續(xù)監(jiān)測
    的頭像 發(fā)表于 11-01 11:12 ?222次閱讀
    <b class='flag-5'>ChatGPT</b>:怎樣打造智能客服體驗的重要工具?

    ChatGPT 適合哪些行業(yè)

    ChatGPT 是一種基于人工智能的自然語言處理技術,它能夠理解和生成人類語言。這種技術在多個行業(yè)中都有廣泛的應用潛力。以下是一些ChatGPT特別適合的行業(yè),以及它在這些行業(yè)中可能的應用方式
    的頭像 發(fā)表于 10-25 16:11 ?526次閱讀

    如何使用 ChatGPT 進行內容創(chuàng)作

    使用ChatGPT進行內容創(chuàng)作是一個高效且富有創(chuàng)意的過程。以下是一些關鍵步驟和建議,幫助您充分利用ChatGPT進行內容創(chuàng)作: 一、準備階段 注冊與登錄 : 確保您已注冊ChatGPT
    的頭像 發(fā)表于 10-25 16:08 ?550次閱讀

    用launch pad燒錄chatgpt_demo項目會有api key報錯的原因?

    我用launch pad燒錄chatgpt_demo項目問題會有api key報錯;請問用launch pad要如何設置api key和調試?還是只能通過idf?
    發(fā)表于 06-27 07:59

    亞馬遜秘密研發(fā)AI聊天機器人Metis,挑戰(zhàn)ChatGPT

    科技巨頭亞馬遜近日被曝正在秘密研發(fā)一款代號為“Metis”的人工智能(AI)聊天機器人,意圖與OpenAI的ChatGPT一較高下。Metis,這個名字源于希臘神話中的智慧女神,象征著亞馬遜對其寄予的厚望與期待。
    的頭像 發(fā)表于 06-26 18:08 ?1103次閱讀

    淺談在電力物聯(lián)網(wǎng)的規(guī)劃與發(fā)展

    摘要: 文章分析了在電力物聯(lián)網(wǎng)的內涵及其主要特征,針對在電力物聯(lián)網(wǎng)的建設目標、基本構架以及關鍵技術與未來發(fā)展策略進行綜合探討,期待得到專業(yè)人士的指點。
    的頭像 發(fā)表于 06-25 10:13 ?608次閱讀
    淺談<b class='flag-5'>泛</b>在電力物聯(lián)網(wǎng)的規(guī)劃與發(fā)展

    使用espbox lite進行chatgpt_demo的燒錄報錯是什么原因?

    我使用espbox lite進行chatgpt_demo的燒錄 我的idf是v5.1release版本的,espbox是master版本的 在編譯時似乎沒有什么問題 在燒錄時報錯 請問這是什么原因
    發(fā)表于 06-11 08:45

    淺析在物聯(lián)網(wǎng)在配電系統(tǒng)關鍵技術研究

    和轉換利用的重要樞紐正朝著數(shù)字、智能的方向不斷發(fā)展。而基于在電力物聯(lián)網(wǎng)的配電系統(tǒng)關鍵技術作為現(xiàn)階段較為先進的技術類型,對于電力物聯(lián)網(wǎng)的建設具有一定意義。文章基于
    的頭像 發(fā)表于 06-04 15:25 ?603次閱讀
    淺析<b class='flag-5'>泛</b>在物聯(lián)網(wǎng)在配電系統(tǒng)<b class='flag-5'>關鍵</b>技術研究

    OpenAI 深夜拋出王炸 “ChatGPT- 4o”, “她” 來了

    的定制,以滿足不同的行業(yè)需求。 發(fā)布現(xiàn)場關鍵演示 OpenAI的演示有效地展示了如何在各種現(xiàn)實場景中利用ChatGPT-4o: · 多語言客戶支持模擬 :演示以ChatGPT-4o在英語和意大利語之間
    發(fā)表于 05-27 15:43

    OpenAI或將推出ChatGPT搜索引擎

    據(jù)可靠消息透露,OpenAI正秘密研發(fā)一款以ChatGPT為基礎的大型產(chǎn)品,其核心功能將是一款新型搜索引擎,旨在為用戶提供更便捷的上網(wǎng)體驗。
    的頭像 發(fā)表于 05-08 10:19 ?543次閱讀

    在FPGA設計中是否可以應用ChatGPT生成想要的程序呢

    當下AI人工智能崛起,很多開發(fā)領域都可看到ChatGPT的身影,F(xiàn)PGA設計中,是否也可以用ChatGPT輔助設計呢?
    發(fā)表于 03-28 23:41

    林集團積極實施供應鏈多元戰(zhàn)略,越南將扮演關鍵角色

    據(jù)報道,2023年中國市場對林集團的貢獻降至26%,而2022年這一比例為31%。林集團對此表示,美國限制中國客戶進口對其收入產(chǎn)生了負面影響,且未來或存在更大風險。
    的頭像 發(fā)表于 03-22 15:55 ?794次閱讀

    ChatGPT答非所問胡言亂語 OpenAI 已修復該問題

    ;甚至是造出了一些很短的關鍵詞;突發(fā)故障使得ChatGPT無法提供準確且連貫的回應。對此OpenAI進行緊急修復。
    的頭像 發(fā)表于 02-23 11:34 ?821次閱讀

    藍牙ESL標準推動零售業(yè)數(shù)字轉型

    首先,市場碎片是影響ESL發(fā)展的關鍵問題。當前市面上存在眾多品牌的ESL產(chǎn)品,但由于各廠商均采用獨有的系統(tǒng)運行,缺乏統(tǒng)一標準,導致供應商鎖定、互操作性差以及靈活性缺失等問題。因此,對
    的頭像 發(fā)表于 02-22 15:23 ?581次閱讀

    【國產(chǎn)FPGA+OMAPL138開發(fā)板體驗】(原創(chuàng))6.FPGA連接ChatGPT 4

    ,為了滿足要求,我將嘗試用pseudo代碼編寫一個簡化的“FPGA訪問ChatGPT 4”的pseudo程序,并逐行解釋: // 1. 初始FPGA FPGA_Init(); print(\"FPGA
    發(fā)表于 02-14 21:58
    百家乐官网路单显示程序| 恒丰百家乐的玩法技巧和规则 | 永盈会娱乐场官网| 百家乐接线玩法| 百家乐官网视频打麻将| 百家乐77scs官| 百家乐官网博百家乐官网的玩法技巧和规则 | 百家乐官网庄闲几率| 百家乐小游戏单机版| 巨星百家乐官网的玩法技巧和规则 | 大发888真钱棋牌| 百家乐线上游戏| 现金百家乐官网| 威尼斯人娱乐城网络博彩| 百家乐出千大全| 百家乐官网投注网中国| 大发888娱乐游戏注册| 威斯汀百家乐官网的玩法技巧和规则 | 百家乐官网投注技巧公式| 大发888真人| 百家乐智能投注系统| 百家乐官网国际娱乐场| 温泉县| 老虎机上分器| 百家乐分析软件骗人| 百家乐官网赌场软件| 六合彩下注| 太阳城管理网| 百家乐网上娱乐城| 百家乐官网打闲赢机会多| 昭平县| 大发888娱乐城下载平台| 百家乐专业豪华版| CEO百家乐官网的玩法技巧和规则| 百家乐官网网址是多少| 德州扑克计算器| 线上百家乐是如何作弊| 六十甲子24山吉凶| 视频百家乐官网代理| 建宁县| 上游棋牌下载|