人工智慧打王者榮耀:匹茨堡大學&騰訊AI Lab為遊戲AI引入MCTS

2021-01-07 機器之心Pro

如果讓人工智慧來打王者榮耀,應該選擇什麼樣的英雄?近日,匹茨堡大學和騰訊 AI Lab 提交的論文給了我們答案:狄仁傑。在該研究中,人們嘗試了 AlphaGo Zero 中出現的蒙特卡洛樹搜索(MCTS)等技術,並取得了不錯的效果。

對於研究者而言,遊戲是完美的 AI 訓練環境,教會人工智慧打各種電子遊戲一直是很多人努力的目標。在開發 AlphaGo 並在圍棋上戰勝人類頂尖選手之後,DeepMind 正與暴雪合作開展星際爭霸 2 的人工智慧研究。去年 8 月,OpenAI 的人工智慧也曾在 Dota 2 上用人工智慧打敗了職業玩家。那麼手機上流行的多人在線戰術競技遊戲(MOBA 遊戲)《王者榮耀》呢?騰訊 AI Lab 自去年起一直在向外界透露正在進行這樣的研究。最近,匹茨堡大學、騰訊 AI Lab 等機構提交到 ICML 2018 大會的一篇論文揭開了王者榮耀 AI 研究的面紗。

本文中,我們將通過論文簡要介紹該研究背後的技術,以及人工智慧在王者榮耀中目前的能力。

2006 年 Remi Coulom 首次介紹了蒙特卡洛樹搜索(MCTS),2012 年 Browne 等人在論文中對其進行了詳細介紹。近年來 MCTS 因其在遊戲 AI 領域的成功引起了廣泛關注,在 AlphaGo 出現時關注度到達頂峰(Silver et al., 2016)。假設給出初始狀態(或決策樹的根節點),那麼 MCTS 致力於迭代地構建與給定馬爾可夫決策過程(MDP)相關的決策樹,以便注意力被集中在狀態空間的「重要」區域。MCTS 背後的概念是如果給出大概的狀態或動作值估計,則只需要在具備高估計值的狀態和動作方向擴展決策樹。為此,MCTS 在樹到達一定深度時,利用子節點鑑別器(策略函數(Chaslot et al., 2006)rollout、價值函數評估(Campbell et al., 2002; Enzenberger, 2004),或二者的混合(Silver et al., 2016))的指引,生成對下遊值的估計。然後將來自子節點的信息反向傳播回樹。

MCTS 的性能嚴重依賴策略/值逼近結果的質量(Gelly & Silver, 2007),同時 MCTS 在圍棋領域的成功表明它改善了用於子節點鑑別的給定策略,事實上,這可以被看作是策略改進算子(Silver et al., 2017)。匹茨堡大學、騰訊 AI Lab 等機構的研究者們新發表的論文研究了一種基於反饋的新型框架,其中 MCTS 利用根節點生成的觀測結果更新其子節點鑑別器。

MCTS 通常被視為一種在線規劃器,決策樹以當前狀態作為根節點開始構建(Chaslot et al., 2006; 2008; Hingston & Masek, 2007; Matrepierre et al., 2008; Cazenave, 2009; Mehat & Cazenave, 2010; Gelly & Silver, 2011; Gelly et al., 2012; Silver et al., 2016)。MCTS 的標準目標是僅為根節點推薦動作。在採取動作之後,系統向前移動,然後從下一個狀態中創建一棵新的樹(舊樹的數據可能會部分保存或完全丟棄)。因此 MCTS 是一個「局部」的步驟(因為它僅返回給定狀態的動作),與構建「全局」策略的價值函數逼近或策略函數逼近方法存在本質區別。在實時決策應用中,構建足夠的「運行中」(on-the-fly)局部逼近比在決策的短期時間內使用預訓練全局策略更難。對於西洋棋或圍棋等遊戲而言,使用 MCTS 的在線規劃可能是合適的,但是在需要快速決策的遊戲中(如 Atari 或 MOBA 視頻遊戲),樹搜索方法就太慢了(Guo et al., 2014)。本論文提出的算法可以離策略的方式在強化學習訓練階段中使用。訓練完成後,與子節點鑑別有關聯的策略可以實現,以進行快速、實時的決策,而無需樹搜索。

主要貢獻

MCTS 的這些特性推動了研究者們提出一種新方法,在訓練步驟中利用 MCTS 的局部特性,來迭代地構建適應所有狀態的全局策略。思路是在原始 infinite-horizon MDP 的多批小型 finite-horizon 版本上應用 MCTS。大致如下:(1)初始化隨機價值函數和策略函數;(2)開始(可能是並行處理)處理一批 MCTS 實例(限制在搜索深度內,從採樣狀態集合中初始化而得),同時將價值函數和策略函數整合為子節點鑑別器;(3)使用最近的 MCTS 根節點觀測結果更新價值函數和策略函數;(4)從第(2)步開始重複步驟。該方法利用 MCTS 策略優於單獨的子節點鑑別器策略(Silver et al., 2016),同時改進子節點鑑別器也會改善 MCTS 的質量(Gelly & Silver, 2007)。

研究者稱,新論文的主要貢獻如下:

提出了一個基於批量 MCTS 的強化學習方法,其在連續狀態、有限動作 MDP 上運行,且利用了子節點鑑別器可以通過之前的樹搜索結果進行更新來生成更強大的樹搜索。函數逼近器用於追蹤策略和價值函數逼近,後者用於減少樹搜索 rollout 的長度(通常,策略的 rollout 變成了複雜環境中的計算瓶頸)。提供對該方法的完整樣本複雜度分析,表明足夠大的樣本規模和充分的樹搜索可以使估計策略的性能接近最優,除了一些不可避免的逼近誤差。根據作者的認知,基於批量 MCTS 的強化學習方法還沒有理論分析。基於反饋的樹搜索算法的深度神經網絡實現在近期流行的 MOBA 遊戲《王者榮耀》上進行了測試。結果表明 AI 智能體在 1v1 遊戲模式中很有競爭力。

圖 1. 基於反饋的樹搜索算法。

圖 2. 反饋循環圖示。

案例分析:《王者榮耀》MOBA 遊戲 AI

研究者在全新的、有挑戰性的環境:《王者榮耀》遊戲中實現了基於反饋的樹搜索算法。該實現是第一次為該遊戲 1v1 模式設計 AI 的嘗試。

遊戲介紹

在《王者榮耀》中,玩家被分為對立的兩隊,每一隊有一個基地,分別在遊戲地圖的相反角落(與其他 MOBA 遊戲類似,如英雄聯盟和 Dota 2)。每條線上有防禦塔來防禦,它可以攻擊在一定範圍內的敵人。每支隊伍的目標是推塔並最終摧毀對方的水晶。本論文僅考慮 1v1 模式,該模式中每個玩家控制一個「英雄」,還有一些稍微弱一點的遊戲控制的「小兵」。小兵負責守衛通往水晶的路,並自動攻擊範圍內的敵人(其攻擊力較弱)。圖 4 顯示了兩個英雄和他們的小兵,左上角是地圖,藍色和紅色標記表示塔和水晶。

圖 4.《王者榮耀》1v1 遊戲模式截圖。

實驗設置

系統的狀態變量是一個 41 維的向量,包含直接從遊戲引擎獲取的信息,包括英雄位置、英雄健康度(血量)、小兵健康度、英雄技能狀態和不同結構的相對位置。有 22 個動作,包括移動、攻擊、治療術(heal)和特殊的技能動作,包括(扇形)非指向技能。獎勵函數的目標是模仿獎勵形態(reward shaping),使用信號組合(包括健康、技能、傷害和靠近水晶的程度)。研究者訓練了五個《王者榮耀》智能體,使用的英雄是狄仁傑:

FBTS 智能體使用基於反饋的樹搜索算法進行訓練,一共迭代 7 次,每次進行 50 局遊戲。搜索深度 d = 7,rollout 長度 h = 5。每次調用 MCTS 運行 400 次迭代。第二個智能體因為沒有 rollout 被標註為「NR」。它使用和 FBTS 智能體相同的參數,除了未使用 rollout。總體來看,它在批量設置上與 AlphaGo Zero 算法有些相似。DPI 智能體使用 Lazaric et al., 2016 的直接策略迭代技術,進行 K = 10 次迭代。沒有價值函數和樹搜索(因為計算限制,不使用樹搜索就可能進行更多次迭代)。AVI 智能體實現近似價值迭代(De Farias & Van Roy, 2000; Van Roy, 2006; Munos, 2007; Munos & Szepesvari , 2008),K = 10 次迭代。該算法可被認為是 DQN 的批量版本。最後是 SL 智能體,它通過在大約 100,000 個人類玩遊戲數據的狀態/動作對數據集上進行監督學習來訓練。值得注意的是,此處使用的策略架構與之前的智能體一致。

事實上,策略和價值函數近似在所有智能體中都是一樣的,二者分別使用具備五個和兩個隱藏層的全連接神經網絡和 SELU(scaled exponential linear unit)激活函數(Klambauer et al., 2017)。初始策略 π0 採取隨機動作:移動(w.p. 0.5)、直接攻擊(w.p. 0.2)或特殊技能(w.p. 0.3)。除了將移動方向挪向獎勵方向之外,π0 不使用其他啟發式信息。MCTS 是 UCT 算法的變體,更適合處理並行模擬:研究者不使用 UCB 分數的 argmax,而是根據對 UCB 得分應用 softmax 函數所獲得的分布進行動作採樣。

與理論不同,在算法的實際實現中,回歸使用 cosine proximity loss,而分類使用負對數似然損失。由於在該遊戲環境中我們無法「倒帶」或「快進」至任意狀態,因此採樣分布 ρ0 由第一次採取的隨機動作(隨機的步數)來實現併到達初始狀態,然後遵循策略 πk 直到遊戲結束。為了減少價值逼近中的相關性,研究者丟棄了在這些軌跡中遇到的 2/3 的狀態。對於 ρ1,研究者遵循 MCTS 策略,偶爾帶入噪聲(以隨機動作和隨機轉向默認策略的方式)來減少相關性。在 rollout 中,研究者使用遊戲內部 AI 作為英雄狄仁傑的對手。

結果

由於該遊戲幾乎是確定性的,因此研究者的主要測試方法是對比智能體對抗內部 AI 對手的有效性。研究者還添加了遊戲內建 AI 的狄仁傑作為「完整性檢查」基線智能體。為了選擇測試對手,研究者使用內建 AI 狄仁傑對抗其他內建 AI(即其他英雄)並選擇六個內建 AI 狄仁傑能夠打敗的射手類英雄。研究者的智能體每一個都包含內建狄仁傑 AI,使用智能體對抗測試對手。圖 5 顯示了每個智能體打敗測試對手的時間長度(單位為幀)(如果對手贏了,則顯示為 20,000 幀)。在與這些共同對手的戰鬥中,FBTS 顯著優於 DPI、AVI、SL 和遊戲內建 AI。但是,FBTS 僅稍微超出 NR 的表現(這並不令人驚訝,因為 NR 是另外一個也使用 MCTS 的智能體)。研究者的第二組結果幫助可視化了 FBTS 和四個基線的對決(全部都是 FBTS 獲勝):圖 6 顯示了 FBTS 智能體及其對手的金幣比例,橫軸為時間。王者榮耀遊戲中英雄對敵人造成傷害或者戰勝敵人時,都會得到金幣,因此金幣比例大於 1.0(高出紅色區域)表示 FBTS 的良好性能。如圖所示,每個遊戲結束時 FBTS 的金幣比例都在 [1.25, 1.75] 區間內。

圖 5. 幾種智能體戰勝其他射手英雄所用時間(以幀為單位,即幀的數量),數字越小越好。其中 FBTS 為新研究提出的智能體。

圖 6. 遊戲內行為。

論文:Feedback-Based Tree Search for Reinforcement Learning

摘要:蒙特卡洛樹搜索(MCTS)已在多個人工智慧領域取得了成功,受此啟發我們提出了一種基於模型的強化學習技術,可以在原始 infinite-horizon 馬爾可夫決策過程的多批小型 finite-horizon 版本上迭代使用 MCTS。我們使用估計值函數和估計策略函數指定 finite-horizon 問題的終止條件或 MCTS 所生成決策樹的子節點鑑別器。MCTS 步驟生成的推薦結果作為反饋,通過分類和回歸來為下一次迭代細化子節點鑑別器。我們為基於樹搜索的強化學習算法提供第一個樣本複雜度界限。此外,我們還證明該技術的深度神經網絡實現可以創建一個適合《王者榮耀》遊戲的有競爭力的 AI 智能體。

相關焦點

  • 騰訊AI Lab 2020 年度回顧
    AI+遊戲:遊戲仿真世界,「絕悟」AI 策略協作能力再升級 「AI+遊戲」也是騰訊 AI Lab 深耕的研究領域。基於圍棋、《王者榮耀》、《毀滅戰士》、《星際爭霸》等遊戲平臺,騰訊 AI Lab 已經研發許多有價值的前沿技術,並創造了中國國家隊圍棋訓練專用 AI 等真實應用。
  • 跟AI打王者榮耀你能贏幾局?騰訊AI絕悟升級完全體
    智東西(公眾號:zhidxcom)作者 | 心緣編輯 | 漠影智東西11月28日消息,今日騰訊宣布,由騰訊AI Lab和王者榮耀聯合研發的策略協作型AI「絕悟」推出升級版本——「絕悟完全體」為應對此類問題,技術團隊先採用引入「老師分身」模型,每個AI老師在單個陣容上訓練至精通,再引入一個AI學生模仿學習所有的AI老師,最終讓「絕悟」掌握了所有英雄的所有技能。
  • 王者榮耀AI絕悟如何選英雄?騰訊AI Lab新研究揭秘
    「絕悟」在打王者榮耀時是如何選英雄的?騰訊 AI Lab 開發的 AI 智能體「絕悟」已讓王者峽谷不再只是人類召喚師的競技場,而且這個 AI 戰隊在上月底進化成了「完全體」。在一局完整的比賽中,英雄選擇階段是至關重要的(比如五射手或五法師陣容會有官方勸退)。近日,騰訊 AI Lab 和上海交通大學發布的一篇論文介紹了絕悟的英雄選擇策略:JueWuDraft。
  • 騰訊AI聯合王者榮耀推出「絕悟」完全體
    說起 MOBA 類手遊,想必大家都能想到王者榮耀。它近日又有了新動作。11 月 28 日騰訊宣布,旗下騰訊 AI Lab 與王者榮耀聯合研發的策略協作型 AI 「絕悟」 推出升級版本 「絕悟 「完全體。目前,「絕悟 「背後採用的創新算法突破了 AI 的英雄上限,英雄池數量也從 40 個增至 100 + 個。
  • 稱霸《王者榮耀》、電競虛擬人問世:萬字長文盤點騰訊AI Lab 的...
    2019年,騰訊AI在圍棋、王者榮耀和星際爭霸2等競技項目上超越職業玩家,也向著「科技向善」的終極理念更近了一步!(福利:今晚8點,劉天義博士為您解讀雲遊戲性能及優化,戳右邊連結上 新智元小程序 參與直播!)2019 年,騰訊 AI Lab 不斷完善技術,創造了很多價值的新應用。
  • 升級版「絕悟」AI自帶「軍師」,解禁王者榮耀全英雄池
    11月28日騰訊宣布,由騰訊 AI Lab 與王者榮耀聯合研發的策略協作型 AI「絕悟」推出升級版本。「絕悟」一年內掌握的英雄數從1個增加到100+個,實現了王者榮耀英雄池的完全解禁,此版本因此得名「絕悟完全體」。這意味著,騰訊策略協作型AI的算法能力進一步得到提升,達到了國際領先水平。
  • 騰訊王者榮耀AI論文首次曝光:五AI王者局開黑與人類戰隊打成平手
    上個月,王者榮耀體驗服開啟了困難等級的人機練習模式測試,據說機器人只有鉑金段位的水平,然而已經讓一票大牛覺得不好打。 現在王者段位水準的AI已經出現了,就問你怕了沒。 王者榮耀AI難在哪裡 騰訊去年就隱隱約約的透露在搞王者榮耀AI。 有時說得「明目張胆」,有時又顯得有點「遮遮掩掩」。
  • 王者榮耀:妲己化身十項全能機器人!打遊戲聽音樂通通搞得定!
    最近,官方公布了騰訊智能家族的新成員——妲己機器人,她的設計是以王者榮耀中的英雄妲己為原型製作而成的,下面我們就一起來看一下吧。這個智慧機器人妲己,外觀採用的是星空魅影設計,即是指妲身穿後現代星際太空衣的形象。
  • 王者榮耀AI絕悟完全體對戰開啟:英雄隨便選,論文被NeurIPS收錄
    機器之心報導作者:小舟、陳萍、澤南人工智慧 2 級就來越塔來殺我,這遊戲怎麼玩?還記得今年五一假期時,騰訊在王者榮耀遊戲中上線的絕悟 AI 挑戰嗎?在 AlphaGo 的陰影籠罩圍棋之後,人工智慧也把觸角延伸到了最流行的遊戲中。最近,騰訊 AI Lab 在王者榮耀中的研究也獲得了學界的認可,研究人員提交的論文也被全球頂尖人工智慧會議 NeurIPS 2020 收錄。
  • 跟AI打場王者榮耀,人類又輸了
    這是王者榮耀最高規格電競賽事——世界冠軍杯半決賽正在進行,期間有一場特殊的對決上演:五位電競職業選手組成的賽區聯隊,對陣騰訊王者榮耀AI絕悟。 最終這場5v5的大戰中,思路與人類迥異的AI戰隊耗時16分15秒,團滅電競職業高手戰隊,推掉全部9塔和高地水晶。
  • 王者榮耀AI託管是什麼 AI託管作用介紹
    王者榮耀新推出了一種玩法,它可以自動更好的幫助掛機或者掉線的隊友繼續遊戲,那麼王者榮耀AI託管是什麼呢?AI託管有什麼用?下面一起來看看王者榮耀AI託管作用介紹吧。 王者榮耀AI託管作用介紹
  • 圍觀騰訊 AI Lab 的4篇 ICML 入選論文 | ICML 2017
    作為國內著名的人工智慧研究機構,騰訊 AI Lab 也有4篇論文入選了今年的 ICML。雷鋒網(公眾號:雷鋒網) AI 科技評論對這4篇論文簡單介紹如下。Hoi(新加坡大學信息系統學院),張潼(騰訊 AI Lab)論文簡介:條件梯度算法由於其應對大規模機器學習問題時高效的特點,近幾年來重新成為了研究的熱門話題。然而,目前為止的研究都沒有考慮過在線分布式環境下的算法表現,這種情況下本地的計算量就很輕微。
  • 騰訊AI Lab全解讀:3大核心領導人物
    昨天(3.23日)騰訊官方發布正式公告,任命人工智慧領域頂尖科學家張潼博士擔任騰訊AI Lab(騰訊人工智慧實驗室)主任,騰訊迎來其人工智慧發展的新階段。雷鋒網獲悉,騰訊 AI Lab 於2016年成立,專注於人工智慧的基礎研究及應用探索,不斷提升AI的決策、理解及創造能力,同時為騰訊各產品業務提供AI技術支撐。AI Lab的願景是打造全面AI能力,「讓AI未來無處不在」(Make AI Everywhere)。
  • 180ai助力麥當勞帶你玩轉盛夏「榮耀」季
    180ai助力麥當勞帶你玩轉盛夏「榮耀」季 跨界玩不停的麥當勞,是今年王者榮耀「五五開黑節」的首席合作夥伴
  • 王者榮耀:如何評價王者的AI覺醒,他強在哪裡?有什麼挑戰建議
    靠一手張良 安琪拉 東皇才打過。。第五關打了3次,艱難偷贏的打人機有幾個點,偷塔的千萬不要漏視野,等對面人集合了,開始推你家另外的2路的時候,al停不下來的,就只有你碰到水晶的時候才會走回家,沒錯 就是走回家 這時候你才會有時間把水晶打了。
  • 語音撬動遊戲市場,聲智科技全新技術助力騰訊王者榮耀智慧機器人
    2018 年 10 月 28 日,以「聽見王者世界」為主題的騰訊王者榮耀周年慶音樂盛典在成都火熱開演,以王者榮耀遊戲人物呂布為原型的全球首款王者榮耀智慧機器人,震撼上市!搭載了聲智科技為騰訊獨家定製的全球首創的穿透式遠場語音交互解決方案,這款機器人,不僅是一款全球限量版的王者榮耀遊戲手辦,更是一款具備「聽」、「說」感知能力的AI遊戲達人!
  • 《王者榮耀》英文版引入蝙蝠俠,或是對抗山寨版的有力舉措
    截至目前,騰訊方面也並未對此做出回應。實際上,騰訊在《王者榮耀》海外市場的拓展上,一直都在有序地推進中,並且針對不同的市場,採取了相應的本地化措施。比如,在港澳臺地區,遊戲被更名為《傳說對決》上架了 App Store 和 Google Play;在歐洲等小市場,《王者榮耀》以「Strike of Kings」的名字登陸了 Google Play,而非常見的「Honour of Kings」(註:數據平臺 Appannie 為王者榮耀標註的英文名)。
  • 實習 | 騰訊、知乎、網易遊戲、騰訊人工智慧實驗室、省錢快報招實習生啦!
    CDG設計實習生知乎(北京)時尚領域運營實習生網易遊戲(上海)直播營銷實習生騰訊人工智慧實驗室(深圳)實習產品運營崗省錢快報(北京)內容運營實習生熟悉直播行業,了解主播調性,為產品提供專業性的主播投放規劃;3.活動策劃。根據各類遊戲產品,不同的活動目的策劃線上/線下直播活動;4.數據分析。基於活動效果,整理數據並分析,針對後續工作提供可參考性建議。
  • 贏了王者又贏了足球賽,騰訊AI如何當得上「雙料王」?
    日前,騰訊宣布,其人工智慧球隊摘得足球AI比賽——首屆谷歌足球Kaggle競賽冠軍,該冠軍球隊來自騰訊AI Lab研發的絕悟WeKick版本。 實際上,這次奪冠的「絕悟」正是《王者榮耀》中的那個AI。據悉,AI能力可通過遊戲進行完善,其能力也已經滲入我們的生活,讓我們一同揭開AI的神秘面紗。
  • 人們熟知的人工智慧AI到底是什麼東西?
    通用型人工智慧是ai領域研究的主要目標之一,其主要包括:計算機視覺、計算機語言理解和知識表示幾個子領域,它所規定和指導的ai手段正是符號邏輯和語義邏輯等基礎邏輯。由於其基礎邏輯更加容易被人們理解,所以通用人工智慧的發展可以解決實際應用中計算機視覺等方面的具體問題,也可以解決知識表示等方面的問題。2017年國內機器人技術創新成果獎3月底頒獎典禮上,華為雲通用人工智慧產mace11也獲得了該獎項。此次獲獎的成果顯示,華為雲通用人工智慧產mace11是ai創新應用載體,基於雲端,具有極強的多領域適用性和普惠性。