衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用PopArt進行多任務(wù)深度強化學習

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-09-16 09:32 ? 次閱讀

多任務(wù)學習——即允許單個智能體學習如何完成多種不同的的任務(wù)——一直是人工智能研究的長期目標。近年來,這一領(lǐng)域出現(xiàn)了不少優(yōu)秀進展,比如DQN只用同一種算法就能玩包含《打磚塊》和《乓》在內(nèi)的多種游戲。但事實上,這些算法的本質(zhì)還是對于每個任務(wù),訓練單獨的智能體。

隨著人工智能研究開始向更復雜的現(xiàn)實任務(wù)靠攏,構(gòu)建一個“多才多藝”的智能體——而不是多個“專家級”智能體——對學習執(zhí)行多個任務(wù)將是至關(guān)重要的。很可惜,到目前為止,這已經(jīng)被證明仍是一項重大挑戰(zhàn)。

其中的一個原因是在不同任務(wù)中,強化學習智能體用來判斷自己成功與否的獎勵標準存在差異,這導致它們會陷入“唯獎勵論”,專注于執(zhí)行所有獎勵更高的任務(wù)。舉個例子,在雅達利游戲《乓》中,智能體每執(zhí)行一個“動作”就可能獲得如下獎勵:-1、0或+1。相比之下,如果是同為街機游戲的《吃豆人小姐》,智能體可能走一步就能獲得成百上千個積分。

即便我們把單個獎勵設(shè)置成基本一致,隨著智能體被訓練地越來越好,由于獎勵頻率不同的存在,不同游戲間的獎勵差異還是會變得越來越明顯。

為了解決這些問題,DeepMind開發(fā)了PopArt,它可以調(diào)整每個游戲中的積分等級,因此無論不同游戲間的獎勵差異有多大,智能體都會對它們“一視同仁”,判斷它們帶給自己的獎勵相同。在他們最新的論文Multi-task Deep Reinforcement Learning with PopArt中,DeepMind把PopArt歸一化用在當前最先進的強化學習智能體上,訓練了一個只用一套權(quán)重的單一智能體。在一整套57種不同的Atari游戲上,這個智能體的表現(xiàn)可以達到人類中等水平以上。

從廣義上講,深度學習極度依賴神經(jīng)網(wǎng)絡(luò)權(quán)重的更新,使輸出更接近需要的目標輸出。這一點放在深度強化學習上也一樣。

PopArt的工作機制基于估計這些目標的平均值和分布(例如游戲中的得分),在利用這些統(tǒng)計信息更新網(wǎng)絡(luò)權(quán)重前,它會先對它們做歸一化,目的是形成對獎勵的規(guī)模和頻率更穩(wěn)健的學習經(jīng)驗。之后,為了獲得更準確的估計——如預期的得分——它再繼續(xù)把網(wǎng)絡(luò)的輸出重新轉(zhuǎn)成原始范圍。

如果單純地這么做,那么每次更新統(tǒng)計數(shù)據(jù)都會改變非歸一化的輸出,包括非常理想的輸出。這不是我們想要的。為了避免這一點,DeepMind提出的解決方案是,每次更新統(tǒng)計數(shù)據(jù)時,網(wǎng)絡(luò)就會進行一次反向更新,這意味著我們既能實現(xiàn)網(wǎng)絡(luò)的大規(guī)模更新,又能保持先前學習的輸出不變。

出于這種原因,他們把這種方法命名為PopArt:Preserving Outputs Precisely while Adaptively Rescaling Targets(在自適應(yīng)重新縮放目標的同時精確保留原有輸出)。

用PopArt代替獎勵剪枝

按照以往的做法,如果研究人員要用強化學習算法對獎勵進行剪枝,以此克服獎勵范圍各不相同的問題,他們首先會把大的獎勵設(shè)為+1,小的獎勵為-1,然后對預期獎勵做歸一化處理。雖然這種做法易于學習,但它也改變了智能體的目標。

例如,《吃豆人小姐》的目標是吃豆子,每個豆子10分,吃鬼200-1600分。在訓練強化學習智能體時,通過剪枝,智能體會認為自己吃豆子或吃鬼沒有任何區(qū)別,再加上吃豆子更容易,研究人員會很容易訓練出一個只會吃豆子、從不追逐鬼的智能體。

而如下面這個視頻所示,用PopArt取代獎勵剪枝后,這個智能體更“聰明”了,它會把追鬼納入自己的吃豆路徑,得分也更高:

用PopArt進行多任務(wù)深度強化學習

今年2月,DeepMind曾發(fā)布一個多任務(wù)集合DMLab-30,為了解決其中的問題,他們還開發(fā)了一個高度可擴展的、基于分布式架構(gòu)的智能體IMPALA。這是目前世界上最先進的強化學習智能體之一,也是DeepMind最常用的深度強化學習智能體之一。

在實驗中,他們把PopArt用于IMPALA,并和基線智能體做對比。結(jié)果如下圖所示,PopArt大幅提高了智能體的性能。實驗還對比了獎勵剪枝和未剪枝的情況,可以發(fā)現(xiàn),使用PopArt的智能體在游戲中的得分中位數(shù)高于人類玩家的中位數(shù),這比基線表現(xiàn)好很多。而其中未剪枝的基線得分幾乎為0,因為它無法從游戲中學習有意義的表征,所以也無法處理游戲獎勵范圍的巨大變化。

57個Atari上的表現(xiàn)中位數(shù),每一行對應(yīng)單個智能體的中值性能;實現(xiàn)為經(jīng)過剪枝,虛線未剪枝

這也是DeepMind第一次在多任務(wù)環(huán)境中看到智能體有超人表現(xiàn),這表明PopArt確實在獎勵不平衡上有一定的協(xié)調(diào)作用。而當未來我們把AI系統(tǒng)用于更復雜的多模態(tài)環(huán)境時,像這種自適應(yīng)規(guī)范化方法會變得越來越重要,因為智能體必須要學會在面對多個不同目標時,利用它們各自的獎勵做總體權(quán)衡。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1796

    文章

    47666

    瀏覽量

    240282
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    166

    瀏覽量

    10613
  • 強化學習
    +關(guān)注

    關(guān)注

    4

    文章

    268

    瀏覽量

    11301

原文標題:DeepMind:用PopArt進行多任務(wù)深度強化學習

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    使用Isaac Gym 來強化學習mycobot 抓取任務(wù)

    使用Isaac Gym來強化學習mycobot抓取任務(wù)
    的頭像 發(fā)表于 04-11 14:57 ?7392次閱讀
    使用Isaac Gym 來<b class='flag-5'>強化學習</b>mycobot 抓取<b class='flag-5'>任務(wù)</b>

    什么是深度強化學習?深度強化學習算法應(yīng)用分析

    什么是深度強化學習? 眾所周知,人類擅長解決各種挑戰(zhàn)性的問題,從低級的運動控制(如:步行、跑步、打網(wǎng)球)到高級的認知任務(wù)
    發(fā)表于 07-01 10:29 ?1527次閱讀
    什么是<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>?<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>算法應(yīng)用分析

    深度學習DeepLearning實戰(zhàn)

    測試)三、主講內(nèi)容1:課程一、強化學習簡介課程二、強化學習基礎(chǔ)課程三、深度強化學習基礎(chǔ)課程四、多智能體深度
    發(fā)表于 01-09 17:01

    深度強化學習實戰(zhàn)

    測試)三、主講內(nèi)容1:課程一、強化學習簡介課程二、強化學習基礎(chǔ)課程三、深度強化學習基礎(chǔ)課程四、多智能體深度
    發(fā)表于 01-10 13:42

    強化學習在RoboCup帶球任務(wù)中的應(yīng)用劉飛

    強化學習在RoboCup帶球任務(wù)中的應(yīng)用_劉飛
    發(fā)表于 03-14 08:00 ?0次下載

    深度學習強化學習相結(jié)合的深度強化學習DRL

    深度強化學習DRL自提出以來, 已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團隊基于深度強化學習DRL研發(fā)的AlphaGo,將
    發(fā)表于 06-29 18:36 ?2.8w次閱讀

    薩頓科普了強化學習、深度強化學習,并談到了這項技術(shù)的潛力和發(fā)展方向

    薩頓在專訪中(再次)科普了強化學習、深度強化學習,并談到了這項技術(shù)的潛力,以及接下來的發(fā)展方向:預測學習
    的頭像 發(fā)表于 12-27 09:07 ?1.1w次閱讀

    深度強化學習的筆記資料免費下載

    本文檔的主要內(nèi)容詳細介紹的是深度強化學習的筆記資料免費下載。
    發(fā)表于 03-10 08:00 ?0次下載
    <b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>的筆記資料免費下載

    深度強化學習到底是什么?它的工作原理是怎么樣的

    深度學習DL是機器學習中一種基于對數(shù)據(jù)進行表征學習的方法。深度
    的頭像 發(fā)表于 06-13 11:39 ?6137次閱讀

    強化學習在智能對話上的應(yīng)用介紹

    本文主要介紹深度強化學習任務(wù)型對話上的應(yīng)用,兩者的結(jié)合點主要是將深度強化學習應(yīng)用于任務(wù)型對話的
    的頭像 發(fā)表于 12-10 19:02 ?1086次閱讀

    基于深度強化學習仿真集成的壓邊力控制模型

    壓邊為改善板料拉深制造的成品質(zhì)量,釆深度強化學習的方法進行拉深過程旳壓邊力優(yōu)化控制。提岀一種基于深度
    發(fā)表于 05-27 10:32 ?0次下載

    基于深度強化學習的無人機控制律設(shè)計方法

    基于深度強化學習的無人機控制律設(shè)計方法
    發(fā)表于 06-23 14:59 ?46次下載

    《自動化學報》—多Agent深度強化學習綜述

    多Agent 深度強化學習綜述 來源:《自動化學報》,作者梁星星等 摘 要?近年來,深度強化學習(Deep reinforcement le
    發(fā)表于 01-18 10:08 ?1660次閱讀
    《自動<b class='flag-5'>化學</b>報》—多Agent<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>綜述

    ESP32上的深度強化學習

    電子發(fā)燒友網(wǎng)站提供《ESP32上的深度強化學習.zip》資料免費下載
    發(fā)表于 12-27 10:31 ?0次下載
    ESP32上的<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>

    NeurIPS 2023 | 擴散模型解決多任務(wù)強化學習問題

    model 能否解決多任務(wù)強化學習問題呢?我們最近提出的一篇新工作——“Diffusion Model is an Effective Planner and Data
    的頭像 發(fā)表于 10-02 10:45 ?908次閱讀
    NeurIPS 2023 | 擴散模型解決<b class='flag-5'>多任務(wù)</b><b class='flag-5'>強化學習</b>問題
    大发888九州娱乐城| 皇马百家乐官网的玩法技巧和规则| 全讯网百家乐的玩法技巧和规则| 澳门百家乐官网赌技术| 可信百家乐的玩法技巧和规则| 在百家乐官网二庄两闲揽的概率 | 赌百家乐心里技巧| 卡卡湾网上娱乐| 百家乐技巧论坛| 百家乐官网扑克玩法| 百家乐庄89| 百家乐官网太阳城菲律宾| 太阳城真人娱乐城| 金赞百家乐官网的玩法技巧和规则 | 总统娱乐城能赢钱吗| 澳门百家乐赢技巧| 百家乐官网注册送彩金平台| 威尼斯人娱乐城老品牌lm0| 百家乐官网永利娱乐平台| 澳门娱乐城| 百家乐赢钱心得| 百家乐官网视频聊天游戏| 威尼斯人娱乐城在线赌博网站| 百家乐官网游戏作弊| 多多视频棋牌游戏| 百家乐视频游戏注册| 百家乐官网平台注册送彩金| 大发888真钱账户注册| 百家乐太阳城怎么样| 百家乐官网波音平台开户导航| 大发888游戏官方下载| 赌博百家乐的乐趣| 百家乐官网庄家必赢诀窍| 娱乐城网址| 百家乐中的小路怎样| 女神百家乐官网娱乐城| 盈乐博| 太阳百家乐管理网| 百家乐美女视频| 赌场百家乐官网技巧| bet365百科|