多任務(wù)學習——即允許單個智能體學習如何完成多種不同的的任務(wù)——一直是人工智能研究的長期目標。近年來,這一領(lǐng)域出現(xiàn)了不少優(yōu)秀進展,比如DQN只用同一種算法就能玩包含《打磚塊》和《乓》在內(nèi)的多種游戲。但事實上,這些算法的本質(zhì)還是對于每個任務(wù),訓練單獨的智能體。
隨著人工智能研究開始向更復雜的現(xiàn)實任務(wù)靠攏,構(gòu)建一個“多才多藝”的智能體——而不是多個“專家級”智能體——對學習執(zhí)行多個任務(wù)將是至關(guān)重要的。很可惜,到目前為止,這已經(jīng)被證明仍是一項重大挑戰(zhàn)。
其中的一個原因是在不同任務(wù)中,強化學習智能體用來判斷自己成功與否的獎勵標準存在差異,這導致它們會陷入“唯獎勵論”,專注于執(zhí)行所有獎勵更高的任務(wù)。舉個例子,在雅達利游戲《乓》中,智能體每執(zhí)行一個“動作”就可能獲得如下獎勵:-1、0或+1。相比之下,如果是同為街機游戲的《吃豆人小姐》,智能體可能走一步就能獲得成百上千個積分。
即便我們把單個獎勵設(shè)置成基本一致,隨著智能體被訓練地越來越好,由于獎勵頻率不同的存在,不同游戲間的獎勵差異還是會變得越來越明顯。
為了解決這些問題,DeepMind開發(fā)了PopArt,它可以調(diào)整每個游戲中的積分等級,因此無論不同游戲間的獎勵差異有多大,智能體都會對它們“一視同仁”,判斷它們帶給自己的獎勵相同。在他們最新的論文Multi-task Deep Reinforcement Learning with PopArt中,DeepMind把PopArt歸一化用在當前最先進的強化學習智能體上,訓練了一個只用一套權(quán)重的單一智能體。在一整套57種不同的Atari游戲上,這個智能體的表現(xiàn)可以達到人類中等水平以上。
從廣義上講,深度學習極度依賴神經(jīng)網(wǎng)絡(luò)權(quán)重的更新,使輸出更接近需要的目標輸出。這一點放在深度強化學習上也一樣。
PopArt的工作機制基于估計這些目標的平均值和分布(例如游戲中的得分),在利用這些統(tǒng)計信息更新網(wǎng)絡(luò)權(quán)重前,它會先對它們做歸一化,目的是形成對獎勵的規(guī)模和頻率更穩(wěn)健的學習經(jīng)驗。之后,為了獲得更準確的估計——如預期的得分——它再繼續(xù)把網(wǎng)絡(luò)的輸出重新轉(zhuǎn)成原始范圍。
如果單純地這么做,那么每次更新統(tǒng)計數(shù)據(jù)都會改變非歸一化的輸出,包括非常理想的輸出。這不是我們想要的。為了避免這一點,DeepMind提出的解決方案是,每次更新統(tǒng)計數(shù)據(jù)時,網(wǎng)絡(luò)就會進行一次反向更新,這意味著我們既能實現(xiàn)網(wǎng)絡(luò)的大規(guī)模更新,又能保持先前學習的輸出不變。
出于這種原因,他們把這種方法命名為PopArt:Preserving Outputs Precisely while Adaptively Rescaling Targets(在自適應(yīng)重新縮放目標的同時精確保留原有輸出)。
用PopArt代替獎勵剪枝
按照以往的做法,如果研究人員要用強化學習算法對獎勵進行剪枝,以此克服獎勵范圍各不相同的問題,他們首先會把大的獎勵設(shè)為+1,小的獎勵為-1,然后對預期獎勵做歸一化處理。雖然這種做法易于學習,但它也改變了智能體的目標。
例如,《吃豆人小姐》的目標是吃豆子,每個豆子10分,吃鬼200-1600分。在訓練強化學習智能體時,通過剪枝,智能體會認為自己吃豆子或吃鬼沒有任何區(qū)別,再加上吃豆子更容易,研究人員會很容易訓練出一個只會吃豆子、從不追逐鬼的智能體。
而如下面這個視頻所示,用PopArt取代獎勵剪枝后,這個智能體更“聰明”了,它會把追鬼納入自己的吃豆路徑,得分也更高:
用PopArt進行多任務(wù)深度強化學習
今年2月,DeepMind曾發(fā)布一個多任務(wù)集合DMLab-30,為了解決其中的問題,他們還開發(fā)了一個高度可擴展的、基于分布式架構(gòu)的智能體IMPALA。這是目前世界上最先進的強化學習智能體之一,也是DeepMind最常用的深度強化學習智能體之一。
在實驗中,他們把PopArt用于IMPALA,并和基線智能體做對比。結(jié)果如下圖所示,PopArt大幅提高了智能體的性能。實驗還對比了獎勵剪枝和未剪枝的情況,可以發(fā)現(xiàn),使用PopArt的智能體在游戲中的得分中位數(shù)高于人類玩家的中位數(shù),這比基線表現(xiàn)好很多。而其中未剪枝的基線得分幾乎為0,因為它無法從游戲中學習有意義的表征,所以也無法處理游戲獎勵范圍的巨大變化。
57個Atari上的表現(xiàn)中位數(shù),每一行對應(yīng)單個智能體的中值性能;實現(xiàn)為經(jīng)過剪枝,虛線未剪枝
這也是DeepMind第一次在多任務(wù)環(huán)境中看到智能體有超人表現(xiàn),這表明PopArt確實在獎勵不平衡上有一定的協(xié)調(diào)作用。而當未來我們把AI系統(tǒng)用于更復雜的多模態(tài)環(huán)境時,像這種自適應(yīng)規(guī)范化方法會變得越來越重要,因為智能體必須要學會在面對多個不同目標時,利用它們各自的獎勵做總體權(quán)衡。
-
人工智能
+關(guān)注
關(guān)注
1796文章
47666瀏覽量
240282 -
智能體
+關(guān)注
關(guān)注
1文章
166瀏覽量
10613 -
強化學習
+關(guān)注
關(guān)注
4文章
268瀏覽量
11301
原文標題:DeepMind:用PopArt進行多任務(wù)深度強化學習
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論