學習頂級玩家Replay,人工智慧學會了星際爭霸的「大局觀」

2020-12-18 機器之心Pro

 By李澤南 2017年7月14日

  「學會了哥的運營,剩下的就是A了——「F91」」 孫一峰。  

  神經網絡是機器學習的一個重要分支,近年來隨著深度學習的興起展現了強大的能力。近日,來自ITUniversityofCopenhagen的幾位學者嘗試使用頂級玩家的Replay訓練一個深度學習模型來打星際爭霸,並獲得了成功。經過訓練的AI學會了人類玩家運營的部分技巧,並在對戰中展現出了多種不同策略。

  有關星際爭霸系列遊戲的人工智慧研究層出不窮,因為這一即時戰略遊戲(RTS)的環境複雜,在同類遊戲中,平衡性也做得最好。此前,一些組織和機構發起過如AIIDEStarCraftAICompetition這樣的星際爭霸AI比賽。去年,DeepMind也在圍棋之後把注意力轉向了星際爭霸2,這家屬於谷歌的公司認為該遊戲相比西洋棋與圍棋更加接近「複雜的現實世界」。

  與今年4月阿里巴巴和UCL的研究者們試圖讓AI學會控制不同單位(學會「戰術」勝利)不同,哥本哈根的研究人員這次試圖讓人工智慧學會更高層面上的技巧(「戰略」勝利)。而其後的模型訓練方式也顯得更加直接:研究人員使用了超過2000場頂級玩家對戰的Replay來訓練神經網絡。

  

  圖1.該研究使用的遊戲版本是《星際爭霸:母巢之戰》,人工智慧控制神族,對戰人族。

  研究人員使用的新方法包括兩個部分:1.訓練神經網絡預測人類玩家的大局觀(macromanagement)活動,即下一步將發生的動作;2.將訓練好的模型放入UAlbertaBot開源星際爭霸bot中,代替原有的生產決策模塊。UAlbertaBot是由DavidChurchill5開發的一款開源的星際爭霸bot,在2013年贏得了AIIDEStarCraftAICompetition。該bot包括多個分層模塊,如信息管理、建築管理和生產管理。其中,生產管理負責控制單位生產、升級等工作。在代替後,神經網絡通過類似人類玩家的策略來對生產進行決策,從而讓整個AI系統的表現大幅增強。

  為了壓縮文件尺寸,星際爭霸的Replay包含了對戰雙方的所有指令,這同時也為神經網絡的訓練帶來了便利。在訓練中,Relplay文件中的玩家動作狀態被編碼為歸一化值的向量。訓練神經網絡使用的Replay數據集採集自GosuGamers、ICCup

  和TeamLiquid等網站,其中包含大量職業玩家之間的比賽。

  

  圖2.將星際爭霸Replay轉化為向量化動作對的示意圖

  上圖中,(a)展示了將Replay中的信息提取至SQL資料庫的提取過程,(b)表示數據處理的擴展過程,在資料庫中,源數據被分類為建築、擊殺、發現敵方單位等信息(c)。所有事件都通過正向模型運行,以生成具有歸一化值的向量化狀態-動作對(d)。

  圖3.神經網絡架構

  輸入層由包含歸一化值的向量化狀態組成,該歸一化值表示玩家所知的所有單位、建築物、科技和升級的數量。為了清楚起見,上圖中僅顯示了一小部分。另有一個輸入表示人口數量。神經網絡具有四個隱全連接層,每個都有128個單元,使用ReLU激活函數。這些層之後是使用softmax激活函數的輸出層,網絡的輸出是接下來在給定狀態下生成的每個構建動作的預測。

  

  表2.神經網絡配合UAlbertaBot對戰遊戲內建AI人族的勝率

  Probablilistic為遵循網絡輸出最高可能性的策略,Greedy為總是選擇輸出值最大的可能策略,Random為隨機選擇可能範圍內的策略。Blind策略中,AI不會收集對手的信息。如果固定採用龍騎Rush策略(捨棄經濟,追求快速生產戰鬥單位的策略),新方法對陣人族AI的勝率為100%。

  圖5.神經網絡在與遊戲內建AI對戰時形成的開放性生產策略(生產順序也取決於觀察到的對手信息)。

  每個圖標旁邊的數字表示接下來安排生產的概率,橫軸為生產時間。在本例中,生產遵循Greedy策略,總是以最高可能性安排生產。

  表3.在對戰人族時Probabilistic和Greedy量種策略生產單位/升級時的選擇。由表可見,Greedy策略的選擇相對單一,Probabilistic策略的變化更多。

  研究人員認為,雖然目前的方法並未達到業內最先進的結果,但這是一個讓人工智慧學會在RTS遊戲中進行運營非常有希望成功的方向。此外,這種方法不僅可以適用於星際爭霸系列,也可以直接適用於其他RTS遊戲。

  論文:LearningMacromanagementinStarCraftfromReplaysusingDeepLearning

  

  論文連結:https://arxiv.org/abs/1707.03743

  摘要

  即時戰略遊戲《星際爭霸》已被證明對於人工智慧而言是一個具有挑戰性的環境,目前最好的遊戲AI都加入了大量人為編寫的模塊。在本論文中,我們展示了如何用深度學習通過遊戲Replay的訓練,讓人工智慧學會星際爭霸的大局觀。神經網絡從2005個頂級玩家對戰的replay裡訓練了789,571個動作對,在預測下一個建築動作的精確度上達到了top-1:54.6%,top-3:22.9%的水平。通過結合已訓練的神經網絡和開源星際爭霸機器人UAlbertaBot,新系統的表現顯著超越了遊戲內建的人族AI,新方法使用固定的rush策略可以輕鬆打敗人族AI,表現明顯好於原版UAlbertaBot。據我們所知,這是第一次有人通過星際爭霸的replay讓計算機直接學會大局觀。儘管目前手動設定的策略仍然表現最佳,但深度神經網絡的方法可以展現出多種不同策略,而使用深度強化學習則是未來的一個研究方向。我們認為,最終這種方法可以引出無需大量手工編程策略的強大星際爭霸AI。

相關焦點

  • 多圖詳解 DeepMind 的超人類水準星際爭霸 AI 「AlphaStar」
    左 Oriol Vinyals ,右 David SilverDeepMind 的星際爭霸 2  AI 名為「AlphaStar」,這個命名方式正如之前的圍棋 AI「AlphaGo」以及蛋白質摺疊計算 AI
  • 「擊敗星際爭霸II職業玩家」的 AlphaStar是在作弊?
    AlphaStar 的超人速度 AlphaStar 團隊領導 David Silver:「AlphaStar 不能比人類選手反應速度快,也不會比人類選手執行更多點擊。」 2018 年,來自芬蘭的蟲族選手「Serral」Joona Sotala 制霸星際 2。
  • 體量大十倍,Facebook開源史上最大星際爭霸AI研究數據集
    7 月初,田淵棟等人開源了基於星際爭霸的人工智慧遊戲平臺(參見:Facebook 開源遊戲平臺 ELF,簡化版《星際爭霸》完美測試人工智慧)。最近,Facebook 又發布了一個大體量星際爭霸錄像數據集 STARDATA,旨在為廣大研究者提供方便。
  • 《星際爭霸》徹底免費了!WindowsPC和Mac版下載
    《星際爭霸》徹底免費了!最新版本的《星際爭霸》和《星際爭霸:母巢之戰》支持窗口全屏和窗口模式,UTF-8,觀戰模式,為了replay而加入的自動存檔,新的OpenGL後端,修復了對Windows 7,8.1和10的兼容穩定性。注意,我們上個月月底曾報導過《星際爭霸》免費的消息,不過那是PTR公測版,而現在是正式版。有興趣的玩家可以點擊下面這個連結下載安裝,支持PC和Mac。
  • DeepMind 和暴雪聯合官宣,邀大家看一場 AI 打《星際爭霸 II》的...
    為什麼要進軍《星際爭霸 II》遊戲戰場?用 AI 打遊戲,從來都不是 AI 研究者的最終目的,而是他們用來「進化」AI 能力並將其應用到現實世界中的「測試場景」。相比於圍棋和西洋棋來說,《星際爭霸》這類實時戰略遊戲要遠複雜得多,自然也與「複雜的現實世界」更近得多,因此,這款遊戲也成為了人工智慧研究者們立志「攻破」的目標。
  • 學界 | DeepMind提出關係性深度強化學習:在星際爭霸2任務中獲得最優水平
    近日,這家公司提出了一種「關係性深度強化學習」方法,並在星際爭霸 2 中進行了測試。在星際爭霸 II 學習環境中,DeepMind 的智能體在六個小遊戲中達到了當前最優水平,且在四個遊戲中的表現超越了大師級人類玩家。這種新型強化學習可以通過結構化感知和關係推理提高常規方法的效率、泛化能力和可解釋性。
  • 比圍棋還複雜的星際爭霸 AI要怎麼玩?
    圍棋AI華麗落幕,巨頭轉戰星際爭霸AI。遊戲一直是衡量人工智慧水平的重要指標。近日,實時戰略遊戲AI比賽中的重磅競賽——2018 AIIDE國際星際爭霸人工智慧競賽結果出爐。張俊格介紹,三星公司曾經擁有星際爭霸職業戰隊,在獲取專家知識上存在優勢,去年通過內部編程競賽決出最優異員工,今年1月開始打造SAIDA,目標直指世界冠軍。去年,傲視群雄的獨立業餘玩家佔參賽選手的一半,今年卻罕見身影。原來,第二名Cherry Pi背後的機構Facebook AI實驗室,聘請了去年競賽排前幾名的若干頂級作者到他們團隊。
  • 先贏圍棋,再勝刀塔,跟遊戲較勁的人工智慧要怎麼趕超人類?
    「它感覺就像人一樣,但又有些不太一樣。」當人類最優秀的 Dota2 玩家 Dendi 在面對人工智慧 OpenAI 比賽輸掉對局之後,他有些苦笑的說出這句來評價這個「不一般」的對手。所以當 DeepMind 通過訓練人工智慧 AlphaGo 戰勝人類之後,才引起了強烈轟動,因為藉助深度學習技術,人類第一次讓計算機展現出了創造性「思考」的能力。
  • 商湯組了「最強大腦」局,正兒八經解釋為啥搞起電競AI
    金磊 發自 凹非寺量子位 報導 | 公眾號 QbitAI前不久,《星際爭霸2》蟲王iA周航加入商湯科技,擔任AI研究員。堪稱電競職業玩家「轉型最成功」的案例之一。而商湯作為一家以計算機視覺技術著稱的公司,這一步棋又意在何為?
  • 資源| CommandCenter:基於暴雪官方API的星際爭霸2 AI Bot
    年歷史的星際爭霸一代轉向更為「現代化」的星際爭霸 2。近日,AIIDE 星際爭霸 AI 對抗賽的組織者 David Churchill 發布了基於暴雪星際 2 API 的 AI bot 框架,為開發者們構建人工智慧,挑戰這一複雜遊戲提供了一種基礎工具。
  • 能工巧匠 《星際爭霸2》玩家自製模型
    在《星際爭霸2》遊戲中有很多經典的人物角色以及種族單位,每個角色或單位都有自己獨特的外觀以及特點,每個小夥伴心中也都有自己最愛的角色單位,在廣大星際2玩家中不乏心靈手巧之人,這些玩家把自己喜愛的角色或單位製作成了精美的手辦模型,今天就讓我們一起欣賞《星際爭霸
  • 星際爭霸1的平衡性真的做得比星際爭霸2好麼?
    反觀現在,《星際爭霸2》從誕生開始,平衡性就一直飽受爭議,所以在不少玩家心中就產生了一種《星際爭霸1》的平衡性要比《星際爭霸2》好得多的感覺。那麼20年前的《星際爭霸1》平衡性真的要比10年前的《星際爭霸2》要好麼?今天大麥就來說說這個問題。其實在《星際爭霸1》時代玩家們也曾經抱怨過不少平衡性問題,但是當時玩家們的抱怨情緒遠沒有現在高。
  • 麻將AI超越99%人類玩家:專業十段,學習能力堪比阿法狗
    從最早的AI(人工智慧)在西洋棋中戰勝人類開始,中國象棋、德州撲克、圍棋等智力遊戲相繼淪陷,在DOTA、星際爭霸等電子遊戲中也表現亮眼,但是AI在麻將領域卻一直沒有突破。近日,微軟發布了一份關於麻將AI「Suphx(意為Super Phoenix,超級鳳凰)」的修訂版預印本文件,介紹說Suphx是一個專業十段水平的「選手」,超越了99%人類玩家,這是電腦程式首次超過麻將中大多數頂級人類玩家。
  • 「人工智慧研學社· 強化學習組」第二期:超越職業玩家的算法 - Deep Q-network
    它介紹了 Deep Q-Networks (DQN) 算法,並且在 49 個 Atari 遊戲上取得了很好的性能:基本都超越了以前的算法,大部分比職業玩家要好。這一算法的突出貢獻是,在 Q-learning 中引入了深度神經網絡,並且通過 experience replay 和 target network 技術穩定學習過程。
  • 【萬字總結】基於多智能體強化學習的《星際爭霸II》中大師級水平的技術研究
    《星際爭霸》作為實現此目標的基礎對象,在最高難度的專業電競方面持續佔據標誌性地位,並且其展現的複雜性和多智能體挑戰都與現實生活中的事件息息相關,因此《星際爭霸》領域已經成為人工智慧研究領域的一項重要挑戰。在過去十年中,經過無數次的比賽[1-3],學者使用最先進人工智慧體的超人類能力,或者使用人工構造的子系統,簡化了遊戲的許多重要方面[4]。
  • 星際爭霸2人類1:10輸給AI!DeepMind 「AlphaStar」進化神速
    在 AlphaGo 在 2017 年圍棋大獲全勝之後,DeepMind 開始對外宣布,團隊正在著手讓人工智慧徵服星際爭霸 2,這款遊戲對人工智慧在處理複雜任務上的成功提出了"重大挑戰"。星際爭霸 2 具備策略性、競爭性的特性,在全球都非常火爆,並且每年都會舉辦大量的比賽,因此也有著海量的玩家基礎。
  • 星際爭霸2_星際爭霸2新聞_3DM新聞
    外媒詳解星際爭霸2在線人數:中國區慘不忍睹 來自知名站點teamliquid的國外玩家muffley統計了星際爭霸2全球天梯聯賽的人數,包括美國、歐洲、韓國/臺灣、中國以及東南亞5大分區。
  • 星際爭霸劇情和官方小說 - 星際爭霸2中文網 - 星際爭霸2RPG地圖...
    2009年7月20日,在參觀暴雪總部期間,我有機會做為暴雪開發人員之外的第一批少數玩家,試玩並體驗了星際爭霸2:自由之翼單人戰役部分。      總的來說,遊戲非常贊。對於熱衷於RTS遊戲單人戰役和打穿整個故事線的玩家,以及劇情控來說都是如此。
  • 《星際爭霸II》官方FAQ中文版
    《星際爭霸2》官方網站公布了遊戲的FAQ,以下是中文翻譯版,涉及到遊戲內容的並不多,但可以讓我們對星際爭霸II有個大致的了解。 導讀: 1.《星際爭霸2》是一款全3D即時戰略遊戲,三大種族新增大量全新兵種 2.遊戲目標是全球同步何時發售,日期未定。
  • 《星際爭霸2》:玩家24歲後反應速度開始下降
    即時戰略遊戲《星際爭霸2》需要玩家有較高的微操技術才有可能擊敗對手,它雖然不屬於日常活動,但和棋類遊戲和籃球都是一種真實世界任務。加拿大的兩位心理學家和一位統計學家合作,分析了3305名16歲到44歲《星際爭霸2》玩家的表現,發現與年齡相關的反應速度下降是從24歲開始。研究報告發表在PLOS ONE上。