大數據文摘作品,轉載要求見文末
作者:寧雲州、魏子敏、Aileen
星際II的玩家們,你們準備好迎接被AI支配的恐懼了嗎?!用阿爾法狗徵服了圍棋界的DeepMind正把目光投向遊戲界:今日凌晨,DeepMind官網發布消息,已正式與暴雪娛樂合作,共同開發可以在星際爭霸II中與人類玩家對抗的AI,並且發布了SC2LE,一個旨在加速即時戰略遊戲當中AI應用的工具集。
早在去年,Deepmind已經立下Flag要教會AI玩兒星際爭霸II,也已經有包括facebook、阿里巴巴等不少科技公司或者研究機構開拓過「星際」這片競技場,但DeepMind這樣專治人類各種不服的公司正式宣布與暴雪合作,還是讓一票星際玩家大呼「熱血」。 暴雪承諾將持續發布從「星際爭霸II」天梯中收集的數十萬個匿名錄像,這會將訓練變得更加容易。 當然,這也不是一項輕鬆的任務:視頻遊戲的複雜性和更多可能性也讓AI戰勝人類要遠比在棋盤遊戲上複雜。
但是不可否認,不管對於星際玩家圈還是AI圈來說,這都是一件大事情,因為星際爭霸遠比像圍棋這樣的遊戲更接近現實世界。
後臺回復「星際爭霸」
即可獲得DeepMind相關論文
星際爭霸和星際爭霸II是史上最大和最成功的遊戲之一,它們見證了許多玩家從青蔥歲月到為人父母的20多年。其原始遊戲早已被AI和ML研究人員使用,並在每年的AIIDE機器人大賽中進行角逐(http://www.cs.mun.ca/~dchurchill/starcraftaicomp/)。
昨日凌晨,DeepMind宣布與暴雪娛樂合作,發布了SC2LE,一個旨在加速即時戰略遊戲當中AI應用的工具集,SC2LE包括:
使用AI在星際爭霸中對戰人類玩家會比圍棋艱難得多,對於AI來說,最大的難點在於,每一場對決都存在大量可能的方式。
據估計,每場對決有101685種可能的配置,為了給大家一個直觀感受,阿爾法狗的配置層是10170。
此外,不同於棋類遊戲的輪流依次進行走步,並且擁有決策的時間,在星際爭霸中,玩家會同時出招,且不能看到對方玩家的狀態,也就是說,所有決定需要在「不完整信息」的情況下做出。所有這些都意味著,你不能僅靠邏輯和一些步驟找到贏得對決的最優方式,玩家更需要的是策略和直覺。
星際爭霸擁有豐富多彩的遊戲環境和戰術體系,這是AI研究的理想環境。
例如,雖然遊戲的目標是擊敗對手,但玩家需要在收集資源或建造建築等等這些子目標中進行權衡。另外,一場對戰的時間可以從幾分鐘到一個小時不等,這意味著在遊戲早期採取的行動可能在很長時間內都不會有回報,如果你使用開局一波的打法,就很可能在進攻受挫後喪失主動權。最後,因為戰爭迷霧的關係玩家無法擁有全部地圖的視野,這意味著AI必須使用記憶和計劃的結合才能成功。
星際爭霸II還有其他一些吸引研究者的特質,比如大量每天都在網上進行遊戲的玩家。這可以確保研究者們可以得到大量的回放數據以供學習,也可以為AI代理提供大量極具天賦的對手。
星際爭霸II的玩家在同一時間可能有300多種基本行動可以選擇,因此策略集及策略選擇也對AI構成了巨大的挑戰。與此形成鮮明對比的是雅達利遊戲,大概只有10種選擇(例如,下,左,右等)。除此之外,星際爭霸中的很多操作是分級的,可以進行修改和擴充,其中很多都需要操作屏幕上的一個點進行。即使一個小84X84的屏幕也會產生大約1億種可能的行動選擇。
行動是否對人類和代理都可用取決於選擇的單位。
這次發布的PySC2意味著研究人員現在可以利用暴雪自己的工具來解決這些挑戰,並且構建自己的任務和模型。
PySC2環境提供了一個靈活的,易於使用的RL代理遊戲界面。在最初的版本中,遊戲被分解為『特徵層』,其中的遊戲元素,如單元類型、單位的健康度和地圖的可見性彼此隔離,同時保留遊戲的核心視覺和空間元素。
PySC2工具集中的特徵層
這次發布的PySC2還包括一系列的迷你遊戲,一種將遊戲分解成小模塊的技術,可以用來測試特定任務的代理,比如移動視角、收集礦物碎片或選擇單位。DeepMind希望研究人員可以測試他們的技術,並且開發新的迷你遊戲,以供其他研究人員進行使用和評估。
簡單的RL迷你遊戲可以讓研究者測試代理在一些特定任務上的表現
訓練過和未訓練過的代理在玩迷你遊戲
為了讓DeepMind的代理學習更強大的策略,需要使用模仿學習技術。 暴雪承諾將持續發布從「星際爭霸II」天梯中收集的數十萬個匿名錄像,這會將訓練變得更加容易。 這不僅可以讓研究人員訓練可監督的代理來進行遊戲,還可以打開其他有趣的研究領域,如序列預測和長期記憶。
現在,丹麥哥本哈根IT大學的Sebastian Risi和他的同事Niels Justesen已經開始將AlphaGo應用於「星際爭霸」。 到目前為止,他們已經從有世界上最好的人類星際爭霸玩家參與的超過2000場比賽中提取了大約630000場錄像,訓練了他們的AI,讓它慢慢地學會預測一個頂級的人類玩家在某些特定的遊戲狀態下會做什麼,這樣當面對類似的選擇時,它可以做出頂級玩家會做的判斷。
目前,Risi和Justesen的成果仍可以被其他「星際爭霸」的機器玩家打敗。 然而,那些機器的方法是把人類戰略硬編碼進系統,這意味著一旦有人類對手在戰略中發現了一個漏洞,他們就能夠從那裡輕鬆地擊敗他們,這樣的機器是不具備和人類正面對決的能力的。
這意味著,破解「星際爭霸」甚至可以使AI通用地進步,因為玩好這款遊戲需要考慮存儲,策略和操作並且規劃這一系列複雜的組合。 DeepMind的Oriol Vinyals說:「這款遊戲是一座通往現實世界的橋梁。」
在星際爭霸2的世界頂級賽事中,人類玩家在比賽中奇詭的戰術和精湛的操作,往往使我們感嘆於玩家技術水平的高超,而如果AI能夠像在圍棋比賽中擊敗柯潔那樣在星際爭霸2這類對操作、策略和運營的要求都達到極限的遊戲中擊敗人類的頂尖選手,我們還有興趣打開電腦在滑鼠高頻率的敲擊聲中日復一日地攀爬天梯嗎?
相信即便面對來勢兇猛的末日人機,還是會有無數的玩家像澤叔一樣喊出那聲「為了艾爾而戰!」
關於轉載
如需轉載,請在開篇顯著位置註明作者和出處(轉自:大數據文摘 | bigdatadigest),並在文章結尾放置大數據文摘醒目二維碼。無原創標識文章請按照轉載要求編輯,可直接轉載,轉載後請將轉載連結發送給我們;有原創標識文章,請發送【文章名稱-待授權公眾號名稱及ID】給我們申請白名單授權。未經許可的轉載以及改編者,我們將依法追究其法律責任。聯繫郵箱:zz@bigdatadigest.cn。
回復「志願者」加入我們
點擊圖片閱讀
票圈被吳恩達新開的深度學習課程刷屏?到底如何,我們幫你做了個測評