“最終之戰(zhàn)”人類完敗!DOTA2 AI 2:0吊打世界冠軍
OpenAI 又回來了。就在硅谷當(dāng)?shù)貢r(shí)間 4 月 13 日,它完成了其成立以來的最大挑戰(zhàn)——迎戰(zhàn) TI8( Dota 2 國(guó)際邀請(qǐng)賽)冠軍 OG 戰(zhàn)隊(duì),并以 2:0 的成績(jī)最終碾壓人類(還史無前例地上演了一場(chǎng)人機(jī)搭配的大混戰(zhàn))!
至此,繼 DeepMind AlphaGo 攻陷圍棋之后, Dota 2 被 OpenAI 拿下。
賽后,OG 隊(duì)長(zhǎng) N0tail 在接受采訪時(shí)表示,“AI 的表現(xiàn)超乎想象,它雖然在插眼等方面還有待進(jìn)步,買活的時(shí)機(jī)也與人類常識(shí)相反,但它的技能釋放十分精準(zhǔn),可能凌駕于所有人類玩家之上,而且有超強(qiáng)的執(zhí)行力,能夠保證隨時(shí)將損失降到最低。或許跟它交戰(zhàn) 50 場(chǎng)之后,我們能贏一常”
圖 | 在擊敗 OG 之前,OpenAI 已經(jīng)打敗了 Alliance 等三只職業(yè)隊(duì)伍,全部都是 2:
在比賽結(jié)束后,OpenAI 宣布,從4 月18 日到 4 月 21 日內(nèi),所有人都可以挑戰(zhàn) OpenAI Five,即日起開放注冊(cè)。無論你是 2000分,還是 8000分,都可以組隊(duì)挑戰(zhàn)這個(gè)打敗了 OG 的強(qiáng)大AI。
此次比賽之前,OpenAI 表示,這次公開對(duì)決將會(huì)是 OpenAI Five 在 Dota 2 中的最后一次出場(chǎng),因此本次比賽名為OpenAI Five Finals,意為“最終之戰(zhàn)”。它的對(duì)手自然不能是無名之輩。
人類代表:OG戰(zhàn)隊(duì)
代表人類出戰(zhàn)的 OG 戰(zhàn)隊(duì),是第八屆 Dota 2國(guó)際邀請(qǐng)賽(TI8)的冠軍。它的前身是“monkeyBusiness”戰(zhàn)隊(duì),最早以大爹 N0tail 和他的摯友 Fly 為核心(兩人一起打了超過 1400 場(chǎng) Dota),還挖掘了當(dāng)時(shí)的天才少年,之后的天梯9000 分第一人 Miracle,發(fā)展歷程可以追溯到 2015 年,頗具傳奇色彩。
圖丨 OG 戰(zhàn)隊(duì)的五名成員 (來源:OG)
彼時(shí),五人組剛剛更名 OG,就一舉拿下了法蘭克福和馬尼拉 Major 錦標(biāo)賽冠軍。在 TI6 失意之后,Miracle 等三人離隊(duì),僅留下 N0tail和Fly兩兄弟,但重振旗鼓的 OG 又連續(xù)拿下波士頓和基輔 Major 冠軍,成為首支贏得四次 Major 冠軍的 Dota 2 戰(zhàn)隊(duì)。
好景不長(zhǎng),在經(jīng)歷 TI7 和 2017/2018 賽季的低潮期后,OG 眼看 TI8 直邀無望,只能參加海眩可是雪上加霜的是,在海選開始前不到一個(gè)月,s4 和 Fly 兩名選手突然轉(zhuǎn)會(huì) EG 戰(zhàn)隊(duì),幾乎意味著 N0tail 和 OG 的 TI8 之旅還沒開始就結(jié)束了,逼得 OG 不得不緊急引入從未打過職業(yè)的新人 Topson,兄弟 Dota 不復(fù)存在。
造化弄人,就是 OG 這樣一支臨時(shí)拼湊的海選隊(duì)伍,最終爆發(fā)出驚人的韌性和團(tuán)隊(duì)默契,多次上演驚天翻盤,手刃“叛徒” Fly 和 s4 所在的 EG 戰(zhàn)隊(duì),力克“不可戰(zhàn)勝的” PSG.LGD 戰(zhàn)隊(duì)兩次( True Sight 看的讓人心痛),出人意料地拿下了 TI8 冠軍之盾。
圖 | TI8 賽場(chǎng),昔日好友,形同陌路
從不被看好,到一路逆襲,再到近半年又一次跌落神壇,OG 雖然被戲稱為“最菜 TI 冠軍”,也被詬病“含金量不足”,但它奪冠之路的傳奇色彩足以比肩曾經(jīng)的護(hù)國(guó)神翼Wings。尤其是在奪冠功臣 Ana 復(fù)出之后,其紙面實(shí)力絕對(duì)不容小覷。
此次 OpenAI Five 選擇最終決戰(zhàn) TI8 冠軍 OG,足以為 OpenAI Dota 2 AI 游戲項(xiàng)目劃上一個(gè)完整的句號(hào)。
AI表現(xiàn)驚艷,OG潰不成軍
這次比賽是三局兩勝制,雙方按照隊(duì)長(zhǎng)模式選人。OpenAI 仍然制定了一些限制,規(guī)則與之前 TI8 上的基本比賽一致,但移除了巫妖,剩下了 17 個(gè)英雄:
圖 | 比賽限制
第一局,AI 選出了直升機(jī)、,火槍、死亡先知、斯溫和冰女的四核陣容,選人結(jié)束后直接給出了 67.6% 的勝率,信心滿滿。人類選出了神牛、巫醫(yī)、毒龍、影魔和隱刺,相對(duì)比較脆皮的陣容。
圖 | 雙方陣容
開局搶符,AI 拿下 Notail 巫醫(yī)一血,在優(yōu)勢(shì)路用斯溫,火槍和直升機(jī)剛?cè)kS后雙方對(duì)線互有斬獲,Ceb 的毒龍選擇劣勢(shì)路拉兵線,牛頭不斷游走 gank,中單 Topson 隱刺對(duì)線死亡先知也可以五五開。
另一方面,AI 三核剛?cè)尿}套路侵略性極強(qiáng),頻頻越塔嘗試擊殺ana的影魔和notail 的巫醫(yī),在 JerAx 神牛的保護(hù)下,AI 并未嘗到太多甜頭。
10 分鐘,人頭數(shù) 8:9,AI經(jīng)濟(jì)領(lǐng)先 1 千,雙方對(duì)線幾乎平手。不過根據(jù)之前的經(jīng)驗(yàn),AI 的強(qiáng)勢(shì)期即將到來。
13 分鐘,AI 的死亡先知在追殺隱刺時(shí),身背真假眼,卻先放下了假眼,隱刺得以逃出生天,可以看出 AI 還是不能很好地利用真假眼。
在 18 分鐘的遭遇戰(zhàn)中,AI 擊殺了過于托大的毒龍和隱刺,馬上給出了 95% 的勝率。
圖 | AI宣告:“我們估算的勝率為95%。”
事實(shí)證明它們并沒有夸大。1分鐘后,AI 在夜魘中路二塔擊殺了神牛和巫醫(yī),又追上高地?fù)魵⒘俗呶徊簧鞯挠澳В苯釉?20 分鐘破掉 OG 中路高地,這讓解說和觀眾始料未及。
盡管 OG 在之后開始更加謹(jǐn)慎,不再貿(mào)然深入,但 AI 侵略性不減,幾乎時(shí)刻都在五人抱團(tuán),滿地的真眼使得隱刺幾乎沒有機(jī)會(huì)打探太多信息。
24 分鐘,AI 再次在夜魘野區(qū)團(tuán)滅 OG,但并未選擇打 Roshan。
圖 | 現(xiàn)在可以看到AI選擇的戰(zhàn)略目標(biāo)
29 分鐘,OG 進(jìn)攻天輝野區(qū),AI 不以為然,死亡先知甚至做出了當(dāng)面反眼這樣的“挑釁/勾引”動(dòng)作。隨后 AI 憑借神級(jí)拉扯,送給了 OG 三人團(tuán)滅,順勢(shì)攻上了OG 高地,破掉了下路和上路遠(yuǎn)程兵營(yíng),揚(yáng)長(zhǎng)而去。
隨后的局勢(shì)幾乎是一邊倒,OG 不僅沒有找到翻盤機(jī)會(huì),反倒出現(xiàn)了幾次莫名的出擊和落單,脆皮陣容讓 AI 逐一擊破,完全無法組織有效的防守。即使神牛幾次做出多人跳大,AI 仍然能夠憑借微操化解,將損失降到最低,甚至秒開 BKB借勢(shì)反打。
30 分鐘左右,AI 成功打出超級(jí)兵,而自己的二塔都還健在。游戲在35分鐘進(jìn)入了垃圾時(shí)間,OG 被困在自己高地上,毫無招架之力,最終在38分鐘打出GG。AI 拿下第一局。
圖 | 第一局 AI 勝利,人頭數(shù) 52:29
第二局,AI 選出了冰女、直升機(jī)、斯溫、巫醫(yī)和毒龍。OG 則是火槍、神牛、死亡先知、小魚人和萊恩。AI 給出了 60.8% 的勝率,比第一局低了 7% 左右,然而事實(shí)并非如此。
雙方正常 212 分路,對(duì)線初期和第一局相似,雙方有來有回。
不過 AI 對(duì)血量和技能的判斷更勝一籌,經(jīng)常在極限狀態(tài)下?lián)魵?OG 英雄,尤其是冰女和直升機(jī)的強(qiáng)勢(shì)雙人組,讓 OG 的死亡先知十分難受,而且因?yàn)樾◆~這樣的英雄對(duì)線能力較弱,AI 在 10 分鐘就建立了 4 千經(jīng)濟(jì)優(yōu)勢(shì),人頭數(shù) 11:3,OG 經(jīng)濟(jì)被全面壓制。
局勢(shì)一邊倒到什么程度呢?9 分半,AI 就直接給出了 95% 的勝率,比上一局快了 30 分鐘。
雖然偶有繞樹逃生等亮眼表現(xiàn),但對(duì)線期崩盤,讓 OG 完全無法招架 AI 中期的兇猛侵略。
圖 | 一張圖看懂第二局的OG有多慘
14 分鐘,AI 就直接殺上了 OG 的上路高地,簡(jiǎn)直就像是毆打小朋友一樣。19分鐘,OG三路被破,只能在自家泉水種樹。
僅僅 20 分鐘,OG 傾三人之力,甚至都辦法擊殺一個(gè)20%血量的毒龍。伴隨著AI 矮人直升機(jī)的超神,夜魘基地轟然倒塌。
至此,OpenAI 2:0 擊敗 OG!
圖 | 基地崩塌前的最后一秒
在看完AI碾壓OG之后,幾個(gè)解說按捺不住Dota之魂,于是OpenAI嘗試了一次前所未有的人機(jī)合作混戰(zhàn):3 個(gè) AI + 2 個(gè)解說 VS 3 個(gè) AI + 2 個(gè)解說。
這局表演賽的節(jié)奏明顯放慢,面對(duì)人類玩家的加入,AI 顯得有些“手足無措”,很少主動(dòng)配合,而幾個(gè)解說也苦于沒有辦法指揮AI——無論是打字還是游戲自帶指令,都不能控制AI的行為——只好全場(chǎng)各自為戰(zhàn),或者跟著AI 抱團(tuán)。
圖 | 人類控制的女王滿血被集火,AI剃刀和火槍溜之大吉
比賽進(jìn)行了約60分鐘,整體來看,AI和人類還無法做到積極互動(dòng),幾乎看不到雙方的亮眼配合。比如AI操縱的三個(gè)英雄經(jīng)常抱團(tuán)打野,卻不會(huì)跟著人類一起推塔和gank,還會(huì)看著人類隊(duì)友被集火,卻袖手旁觀,從旁邊默默路過(也可能是在后臺(tái)吐槽人類太菜)。
看來我們離 AI 陪玩,甚至是 AI 教練,還有很長(zhǎng)的路要走。
OpenAI 結(jié)束 DOTA 2 三年之旅
OpenAI Dota 2 AI 首秀是在 2017 年 8 月的國(guó)際邀請(qǐng)賽(TI)現(xiàn)場(chǎng),戰(zhàn)勝了世界頂級(jí)中單選手 Dendi。那場(chǎng)影魔BO3 SOLO賽中,OpenAI 先下一城,Dendi 在第二局被拿下一血后選擇主動(dòng)放棄,最終 0:2 敗于 AI SOLO 系統(tǒng)。根據(jù) OpenAI 的介紹,他們的 AI 還擊敗了 Sumail 和 Arteezy 等明星選手。
SOLO賽之后,OpenAI 推出了可以進(jìn)行 5V5 對(duì)戰(zhàn)的“ OpenAI Five ”,并且在2018 年 8 月初以 4:1 成績(jī)戰(zhàn)勝了 Dota 2解說和前職業(yè)選手組成的戰(zhàn)隊(duì)。OpenAI 團(tuán)隊(duì)隨后認(rèn)為,自己的 AI 系統(tǒng)已經(jīng)準(zhǔn)備好挑戰(zhàn)職業(yè)隊(duì)伍了。
但是,在2018 年 8 月 22 日~24 日的 TI8 國(guó)際邀請(qǐng)賽現(xiàn)場(chǎng),之前一路高歌猛進(jìn)的 OpenAI Five 遭遇重?fù)簦趦蓤?chǎng)比賽中分別被職業(yè)隊(duì)伍 paiN Gaming 和中國(guó)前職業(yè)選手BurNIng,xiao8,430,SanSheng和rOtk組成的明星隊(duì)伍擊敗,原本計(jì)劃三天三場(chǎng)的比賽,只比了兩天兩場(chǎng)就草草收尾,提前結(jié)束了 TI8 征程。
圖丨 OpenAI Dota 2 項(xiàng)目三年來的主要進(jìn)展
根據(jù) OpenAI TI8 兩場(chǎng)比賽之后發(fā)布的博客文章,導(dǎo)致失敗的主要原因是對(duì)戰(zhàn)的游戲玩家明顯實(shí)力比 AI 高出不少量級(jí) ,除此之外,缺乏戰(zhàn)略規(guī)劃也導(dǎo)致了 AI 的失敗。縱觀八月中旬和 TI8 的幾場(chǎng)比賽,OpenAI 的系統(tǒng)似乎并沒有展現(xiàn)出太多的進(jìn)步,尤其是在戰(zhàn)略方面。雖然比賽規(guī)則有所調(diào)整,但是面對(duì)更加默契和高水平的職業(yè)隊(duì)伍時(shí),AI 系統(tǒng)精密計(jì)算的技能釋放和反應(yīng)極快的微操可以驚艷觀眾,打贏遭遇戰(zhàn),卻無法帶來勝利。
TI8比賽之后,開發(fā)人員曾透露,OpenAI Five 中使用的模型架構(gòu)也并不復(fù)雜。每一個(gè)英雄由一個(gè)單獨(dú)的 LSTM 模型控制,且為一個(gè)單層的、含有 1024 個(gè)單元的 LSTM 網(wǎng)絡(luò),它從 BOT API 中獲取數(shù)據(jù),然后通過多個(gè)不同的動(dòng)作輸出接口進(jìn)行控制。
OpenAI 的 Dota 2 AI 使用了256 個(gè) V100 GPU 和 128000 個(gè) CPU訓(xùn)練模型,不使用人類數(shù)據(jù),80% 的時(shí)間自我對(duì)弈,20% 的時(shí)間和過去的版本對(duì)弈,訓(xùn)練中每天進(jìn)行的游戲數(shù)量時(shí)長(zhǎng)相當(dāng)于大約 180 年。
因此,不少人相信,從 TI8 失利至今的大半年時(shí)間里,Dota 2 AI 系統(tǒng)的迭代優(yōu)化又有了新的飛躍。
圖丨 OpenAI Five 的網(wǎng)絡(luò)架構(gòu)圖
這次比賽,OG 戰(zhàn)隊(duì)以 TI8 奪冠時(shí)的原班人馬出戰(zhàn) OpenAI Five,但相比在2018 年奪冠時(shí)的巔峰時(shí)期,現(xiàn)在的 OG 戰(zhàn)隊(duì)實(shí)力已經(jīng)有所下滑,Ana 回歸之前,這支隊(duì)伍已經(jīng)幾次淹死在海選中,無緣大型比賽。
而且直到比賽前,任何人都不知道 OpenAI 的 OpenAI Five 又成長(zhǎng)到了何種境界,加之此前 AI 曾經(jīng)戰(zhàn)勝準(zhǔn)職業(yè)選手隊(duì)伍,也曾被職業(yè)選手隊(duì)伍所打敗,時(shí)隔大半年重出江湖,也為本次比賽帶來了很強(qiáng)的懸念。
“對(duì)我而言,最令人著迷的一點(diǎn)是看機(jī)器如何找到突破游戲的方式,以及它將如何對(duì)人類的游戲方式進(jìn)行反應(yīng),”O(jiān)G 的 Jesse“JerAx”Vainikka 在這次比賽之前說道,“這次比賽將是一次很好的學(xué)習(xí)經(jīng)歷,因?yàn)槲覀儗⒘私鈾C(jī)器如何優(yōu)先考慮資源并利用英雄。”
游戲 AI 的殊途同歸?
隨著 OpenAI Five 在今天完成 Dota 2 中的最后一戰(zhàn),回顧 OpenAI 探索和開發(fā)Dota 2 AI 幾乎長(zhǎng)達(dá) 3 年的過程,是時(shí)候重新思考和審視這些 AI 公司在游戲類AI開發(fā)上所付出的努力和選擇的目標(biāo)。
比如說,我們究竟應(yīng)該如何看待開發(fā)這些游戲 AI 的必要性?無論是 DeepMind 開發(fā)的 Alphago 還是 OpenAI Five,始終有人忍不住計(jì)較,設(shè)計(jì)這些游戲AI和人類競(jìng)爭(zhēng)根本就不公平,甚至以此來否定這種人機(jī)大戰(zhàn)的價(jià)值。
著名的深度學(xué)習(xí)批判者、紐約大學(xué)教授 Gary Marcus 就曾在推特上指出這種不公平。與人類游戲玩家(或其他一些 AI 系統(tǒng))不同,OpenAI Five 實(shí)際上并不看屏幕,而是使用 Dota 2 的“ BOT API ”來獲取數(shù)據(jù),包括從每個(gè)英雄的位置到個(gè)人法術(shù)和攻擊的冷卻時(shí)間等所有信息。這就為 AI “快速解決了極具挑戰(zhàn)性的場(chǎng)景感知問題”,從而為 AI 提供了巨大的優(yōu)勢(shì)。
AI 作弊爭(zhēng)議背后的本質(zhì)問題是:人類和 AI 之間可能有所謂“公平”的博弈嗎?恐怕我們等不到這樣一場(chǎng)比賽了。因?yàn)椋珹I 天生就被按照比人類有優(yōu)勢(shì)來打造。正如 AI 游戲研究員庫克所說的那樣:“計(jì)算機(jī)當(dāng)然要在某些方面比人類優(yōu)秀。這是我們發(fā)明計(jì)算機(jī)的原因。”
圖 | “眼觀三十六路,耳聽四十八方”的AI
在游戲中擊敗專業(yè)人士,也不是 OpenAI 等公司開發(fā)游戲 AI 所追求的目標(biāo)。他們所希望的,是 AI 學(xué)習(xí)如何制定數(shù)以千計(jì)的小決策來實(shí)現(xiàn)更大的目標(biāo)。Brockman 曾這樣表示:“我們 Dota 項(xiàng)目的初衷不是為了在這個(gè)比賽稱霸,是因?yàn)槲覀冋J(rèn)為可以開發(fā)出能夠在未來幾十年內(nèi)為世界提供動(dòng)力的人工智能技術(shù)。”對(duì)于 OpenAI 來說,選擇 DOTA2 作為人工智能測(cè)試的原因,“是因?yàn)槲覀冋J(rèn)為它是一個(gè)能夠幫助我們測(cè)試和開發(fā)通用 AI 技術(shù)的良好平臺(tái)”。
而且,這個(gè)雄心勃勃的想法也正在走向現(xiàn)實(shí)。例如,用于教授 OpenAI Five 的“基礎(chǔ)設(shè)施”之一——一個(gè)名為 Rapid 的系統(tǒng)就正在被用于其他項(xiàng)目,例如用它來使機(jī)械臂以更高水平的靈活性來操縱物體。另外,該系統(tǒng)可以協(xié)調(diào)數(shù)千個(gè)同時(shí)運(yùn)行數(shù)百個(gè)強(qiáng)化學(xué)習(xí)算法的處理器,每個(gè)算法都為機(jī)器人提供動(dòng)力,機(jī)器人通過游戲或模擬移動(dòng)手,然后在試驗(yàn)結(jié)束時(shí)將其學(xué)到的內(nèi)容與其他機(jī)器人同步。Rapid 目前仍在持續(xù)改進(jìn)中。
圖丨 Rapid 系統(tǒng)被用到機(jī)械手操控上
另一方面,AI 在 Dota2 中有勝有敗的表現(xiàn),也讓人們繼續(xù)反思相關(guān)的技術(shù)方向,強(qiáng)化學(xué)習(xí)是其中討論度最高的話題之一。
OpenAI 創(chuàng)建人工智能時(shí)使用了強(qiáng)化學(xué)習(xí)算法。這種被認(rèn)為可以實(shí)現(xiàn)讓機(jī)器“從零開始學(xué)習(xí)”的技術(shù)看似簡(jiǎn)單,但是能讓 AI 習(xí)得一些復(fù)雜的行為。它有別于傳統(tǒng)的監(jiān)督學(xué)習(xí),不需要大量的標(biāo)注數(shù)據(jù),讓 AI 在虛擬環(huán)境中通過自我嘗試和獎(jiǎng)勵(lì)學(xué)會(huì)復(fù)雜的任務(wù)。對(duì)于游戲這種擁有天然優(yōu)秀的模擬環(huán)境的場(chǎng)景,強(qiáng)化學(xué)習(xí)被認(rèn)為可以幫助創(chuàng)造水平極高的游戲 AI。
圖丨強(qiáng)化學(xué)習(xí)的原理
強(qiáng)化學(xué)習(xí)最出風(fēng)頭的案例,恐怕還是 Deepmind 開發(fā) AlphaGo 的一戰(zhàn)成名,尤其是 AlphaGo Zero 的誕生。兩者都是強(qiáng)化學(xué)習(xí)發(fā)展史上里程碑式的案例。AlphaGo 結(jié)合了監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和其他一些創(chuàng)新的輔助方法,而 AlphaGo Zero 僅僅依靠強(qiáng)化學(xué)習(xí)和自我對(duì)弈,盡管它也使用了預(yù)先準(zhǔn)備的算法規(guī)則用于持續(xù)的迭代,依然比前者更遵循了強(qiáng)化學(xué)習(xí)的整體思路。但著名 AI 學(xué)者、新晉圖靈獎(jiǎng)獲得者 Yann LeCun 認(rèn)為,AlphaGo Zero 的成功很難推廣到其他領(lǐng)域。
在 OpenAI Five 被職業(yè)隊(duì)打敗的過程中,AI 充分暴露了依靠這種方法拋棄人類先驗(yàn)經(jīng)驗(yàn)、獲取新的技能,還有一些“盲區(qū)”。
來自斯坦福的 Andrey Kurenkov 就撰寫了大量有關(guān)強(qiáng)化學(xué)習(xí)局限性的文章,他表示,此前的比賽表明,強(qiáng)化學(xué)習(xí)可以處理“比大多數(shù)人工智能研究人員想象的復(fù)雜程度更高的問題”,但一些失敗的結(jié)局表明,游戲 AI 需要新的方式來培養(yǎng)其“長(zhǎng)期思維”。也就是說,AI 在即時(shí)即地的反應(yīng)上做得很好,但宏觀層面決策的表現(xiàn)卻很糟糕。他在其文章中如此總結(jié) AlphaGo 和 OpenAI Dota2 AI 的成績(jī)局限性所在:從零開始學(xué)習(xí)導(dǎo)致它們和人類學(xué)習(xí)相比,更依海量游戲指令和使用更原始的、無人能及的計(jì)算能力。
也正因?yàn)檫@些局限,目前我們也還沒有看到有任何 AI 被廣泛應(yīng)用在商業(yè)級(jí)游戲中。但在接下來很長(zhǎng)一段時(shí)間,AI 打游戲恐怕還需要通過強(qiáng)化學(xué)習(xí)來實(shí)現(xiàn),強(qiáng)化學(xué)習(xí)究竟是不是讓機(jī)器能夠像人一樣從零學(xué)習(xí)新技能的最佳方法,還需要更長(zhǎng)時(shí)間的驗(yàn)證。
(
評(píng)論
查看更多