2016年,Alphabet的DeepMind與AlphaGo一起問(wèn)世,該AI一直領(lǐng)先于人類最佳Go players。一年后,該子公司繼續(xù)完善其工作,創(chuàng)建了AlphaGo Zero。 在AlphaGo Zero的前身通過(guò)觀察業(yè)余和專業(yè)比賽學(xué)會(huì)了圍棋的過(guò)程中,AlphaGo Zero通過(guò)簡(jiǎn)單地與自己對(duì)戰(zhàn)來(lái)掌握了古老的游戲。 然后,DeepMind創(chuàng)建了AlphaZero,該AlphaZero可以使用單一算法玩圍棋,象棋和將棋(日本象棋)。將所有這些AI捆綁在一起的是,他們知道在訓(xùn)練中必須掌握的游戲規(guī)則。 而DeepMind的最新AI MuZero,不需要去被告知如何下棋等游戲規(guī)則即可掌握。取而代之的是,該AI獨(dú)自學(xué)習(xí)了游戲的相關(guān)內(nèi)容,并且與DeepMind以前的任何算法一樣,更加有能力,或者說(shuō)更勝一籌。
創(chuàng)建一種可以適應(yīng)情況的算法是人工智能研究人員試圖解決的一個(gè)挑戰(zhàn),該算法雖然不知道控制仿真的所有規(guī)則,但仍然可以找到一種規(guī)劃成功的方法。DeepMind一直嘗試使用稱為超前搜索的方法來(lái)解決該問(wèn)題。使用這種方法,算法將考慮未來(lái)狀態(tài)以規(guī)劃行動(dòng)計(jì)劃。解決這個(gè)問(wèn)題的最好方法是考慮如何玩象棋或星際爭(zhēng)霸II這樣的策略游戲。在采取行動(dòng)之前,將考慮到對(duì)手的反應(yīng)并嘗試做出相應(yīng)的計(jì)劃。以幾乎相同的方式,利用前瞻方法的AI將嘗試預(yù)先計(jì)劃幾個(gè)動(dòng)作。即使是像國(guó)際象棋這樣相對(duì)簡(jiǎn)單的游戲,也無(wú)法考慮所有可能的未來(lái)狀態(tài),因此AI會(huì)優(yōu)先考慮最有可能贏得比賽的游戲。
DeepMind
這種方法的問(wèn)題在于,大多數(shù)現(xiàn)實(shí)情況,甚至某些游戲,都沒(méi)有一套簡(jiǎn)單的規(guī)則來(lái)管理操作方式。因此,一些研究人員試圖通過(guò)使用一種方法來(lái)解決該問(wèn)題,該方法試圖對(duì)特定游戲或場(chǎng)景環(huán)境將如何影響結(jié)果進(jìn)行建模,然后使用該知識(shí)制定計(jì)劃。該系統(tǒng)的缺點(diǎn)是某些域是如此復(fù)雜,以至于幾乎不可能對(duì)各個(gè)方面進(jìn)行建模。例如,事實(shí)證明,大多數(shù)Atari游戲都是這種情況。
在某種程度上,MuZero結(jié)合了兩個(gè)方面的優(yōu)勢(shì)。它沒(méi)有嘗試對(duì)所有模型進(jìn)行建模,而只是嘗試考慮那些對(duì)決策至關(guān)重要的因素。正如DeepMind所指出的,這是作為人類所做的事情。當(dāng)大多數(shù)人看著窗外,看到地平線上形成烏云時(shí),他們通常不會(huì)被凝結(jié)和壓力前沿之類的事情所困擾。相反,他們思考如果出門(mén)應(yīng)該如何穿著以不被雨水淋濕。MuZero做的也是類似的事情。
在必須做出決定時(shí),它考慮了三個(gè)因素。它將考慮其先前決定的結(jié)果,它目前所處的位置以及下一步的最佳行動(dòng)方案。這種看似簡(jiǎn)單的方法使MuZero成為迄今為止DeepMind最有效的算法。在測(cè)試中,它發(fā)現(xiàn)MuZero在國(guó)際象棋,圍棋和將棋中的表現(xiàn)都和AlphaZero一樣好,并且比Atari游戲中包括Agent57在內(nèi)的所有以前的算法都要好。它還發(fā)現(xiàn),MuZero考慮動(dòng)作的時(shí)間越長(zhǎng),執(zhí)行效果就越好。DeepMind還進(jìn)行了測(cè)試,在那些測(cè)試中,它發(fā)現(xiàn)MuZero仍然能夠取得良好的結(jié)果。
在Atari游戲中獲得高分固然很好,但是DeepMind最新研究的實(shí)際應(yīng)用又如何呢?總之,它們可能是開(kāi)創(chuàng)性的。雖然還沒(méi)有找到,但MuZero是最接近研究人員來(lái)開(kāi)發(fā)通用算法的。該子公司表示,MuZero的學(xué)習(xí)能力有一天可以幫助它解決沒(méi)有簡(jiǎn)單規(guī)則的機(jī)器人領(lǐng)域的復(fù)雜問(wèn)題。
原文標(biāo)題:DeepMind最新AI - 無(wú)需提前知曉規(guī)則 也可以掌握游戲
文章出處:【微信公眾號(hào):IEEE電氣電子工程師學(xué)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
責(zé)任編輯:haq
-
AI
+關(guān)注
關(guān)注
87文章
31536瀏覽量
270347 -
人工智能
+關(guān)注
關(guān)注
1796文章
47683瀏覽量
240307
原文標(biāo)題:DeepMind最新AI - 無(wú)需提前知曉規(guī)則 也可以掌握游戲
文章出處:【微信號(hào):IEEE_China,微信公眾號(hào):IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論