《星際爭霸》遊戲截圖(圖片來源:暴雪遊戲官網)
這個夏天,科幻電子競技遊戲《星際爭霸II》的玩家遭遇了一個非同尋常的對手——AlphaStar。人工智慧AlphaStar由谷歌的人工智慧公司DeepMind開發,於《星際爭霸II》歐洲伺服器上線,之後登上宗師(Grandmaster)段位,排在該地區九萬名玩家中的前0.15%。
這一項結果發表於《自然》(Nature)雜誌。該研究顯示,人工智慧可以在《星際爭霸II》裡與最高水平的玩家較量。《星際爭霸II》是一個非常流行的網絡策略遊戲。玩家們在遊戲裡分為三個種族——人族、星靈和異蟲,在具有未來感的戰鬥環境裡進行實時對抗。
在此之前,DeepMind在西洋棋和圍棋等領域開發了領先世界的人工智慧。這次,因為《星際爭霸II》遊戲策略的複雜性和快節奏,DeepMind以《星際爭霸II》為接下來的基準來發展通用的人工智慧技術,即能夠學習或者理解任何人類所能完成任務的機器。
「我沒料到人工智慧可以在這個領域中如此迅速地具備出類拔萃的能力,在我原來的預想裡,也許再過幾年也做不到,」俄勒岡州立大學(位於科瓦利斯)的人工智慧研究者Jon Dodge說道。
在《星際爭霸II》中,經驗豐富的選手們可以同時做多件事情——管理資源,執行複雜的戰鬥策略,並最終以決策打敗他們的對手。職業選手的遊戲節奏極快,每分鐘能進行300多次操作。DeepMind人工智慧背後的機器學習技術依賴於人工神經網絡。該神經網絡從大量數據集中學習識別各種模式,而非接收具體指令。
2018年12月,DeepMind第一次讓AlphaStar在一系列實驗室測試遊戲中與高水平玩家對抗。人工智慧與兩位人類職業選手進行了遊戲,並取得勝利。但是評論者們認為這些示範比賽並不公平,因為AlphaStar操作的速度和精準性都超過人類。
在開發團隊讓AlphaStar離開實驗室登陸《星際爭霸II》歐洲伺服器之前,他們限制了人工智慧的反應能力,使競爭更加公平。七月,玩家們收到通知,在匹配遊戲對手時,他們可以選擇與人工智慧有機率地進行匹配。為了使實驗不被察覺,DeepMind隱藏了AlphaStar的身份。
「我們想進行盲法實驗(blind experiment),」 AlphaStar的領隊之一David Silver說道。「我們真的想要在這樣的條件下進行遊戲,並對這一群人類對抗我們的表現有一個真實判斷。
AlphaStar的訓練獲得了成功:它擊敗了低段位的對手,並最終在90場對戰高段位玩家的遊戲中收穫了61場勝利。
挑戰複雜性
《星際爭霸II》的複雜程度給人工智慧們帶來了巨大的挑戰。與西洋棋不同,《星際爭霸II》有數百枚「棋子」——不同種族大軍中的士兵——在即時對抗中同時移動,而非依照有秩序的回合制方式博弈。在西洋棋中,一枚棋子符合規則的走棋方式是有限的,而AlphaStar則每時每刻都有1026種可選擇的操作方式。
並且,與西洋棋不同,《星際爭霸II》是一種不完全信息博弈(a game of imperfect information)——玩家們經常不能看到他們的對手在做什麼。這使得這個遊戲不可預測。
在將近十年的時間裡,研究者已經讓《星際爭霸》和《星際爭霸II》的人工智慧玩家們在年度競賽中相互對戰。然而,與AlphaStar不同,大多數自動機器人程序有賴於硬編碼(hardcoded)的指令,而非具備能夠自學的神經網絡。
AlphaStar的領隊之一Oriol Vinyals,過去是加州大學伯克利分校團隊中的一員,他們團隊在2010年的首次比賽中取得了勝利。他說,「在那時,我有點開始考慮,也許我們應該做(機器)學習,但是那個時候還太早了。」
2016年,Vinyals加入了DeepMind,開始研究能自學操作《星際爭霸II》的人工智慧。通過學習模仿將近一百萬局人類遊戲,AlphaStar開始了它的訓練。為了進一步提高AlphaStar的遊戲操作,DeepMind創建了一個聯賽,讓不同版本的人工智慧相互對戰。
帝國理工學院的人工智慧研究者Kai Arulkumaran表示,這個方法很有道理,因為像《星際爭霸II》這樣的遊戲,沒有一種策略是最好的,對於很多其它的人工智慧現實應用來說也是如此。
反應敏捷的玩家
同時,DeepMind也限制了AlphaStar的操作,確保人工智慧是真的在思維能力方面擊敗它的人類對手,而不是憑藉操作速度和數量獲勝。因為這個遊戲獎勵快速操作的能力,一臺點擊速度超過人類的電腦可能打敗人類,而不需要比人類更聰明或者做出更優的決策。因此DeepMind限制了AlphaStar的反應速度,使之與經驗豐富的人類玩家的速度相當。
在這些條件下,經過27天的訓練,AlphaStar躋身於歐洲伺服器所有玩家中的前0.5%。
然而,50局遊戲過後,DeepMind遇到了一個麻煩。一些玩家已經注意到戰網(Battle.net)遊戲平臺上有三個帳號在相似的時間段裡玩過相同數量的《星際爭霸II》遊戲,這三個帳號正是AlphaStar秘密使用的帳號。
在觀看遊戲回放時,玩家們發現,這個帳號使用者的操作對於人類來說,即使不是不可能,也是極其困難的。為了應對這個麻煩,DeepMind開始使用許多技巧來使試驗保密,避免玩家們認出AlphaStar,如經常更換遊戲帳號。
AlphaStar的最終版本依賴於44天的累積訓練,並頻繁與專業遊戲選手對戰。與西洋棋和圍棋的人工智慧們不同,這一人工智慧無法打敗世界上最優秀的玩家,但是DeepMind認為它達到了基準,並且宣布它已經完成了《星際爭霸II》挑戰。
其他人工智慧科學家還沒有被這種言論說服,他們不認為AlphaStar可以宣稱完全勝利。加拿大聖約翰市紐芬蘭紀念大學的人工智慧研究者Dave Churchill認為,AlphaStar還有很多的弱點,比如說無法處理它還沒見過的戰略。
他承認,「AlphaStar非常令人刮目相看,絕對是至今任何星際爭霸遊戲裡最強的人工智慧。不過,即便如此,星際爭霸的挑戰還遠未被 『解決』,AlphaStar甚至還沒有接近世界冠軍的水平。」
本文來自:環球科學