木易 發自 凹非寺
量子位 報導 | 公眾號 QbitAI
騰訊AI Lab與王者榮耀聯合研發的策略協作型 AI「絕悟」,全英雄池解禁,升級成「完全體」了。
11月28日到30日,將限時開放三天公眾體驗。
這次的升級,帶來了新算法,除了突破了可用英雄限制,還優化了禁選英雄博弈策略。
而與此次升級相關的研究,也在近期被NeurIPS 2020和TNNLS分別收錄。
在這兩篇研究中,分別介紹了「絕悟」進行強化訓練和監督訓練具體細節。
那麼,「完全體絕悟」是如何訓練出來的呢?
就讓我們順著這次的論文,好好來了解一下。
新的MOBA AI強化學習範式
這次更新帶來的最大亮點便是:全英雄池更新。但是AI來說,英雄數增多,意味著的是陣容組合數量將呈多項式增長。
這對於使用自對弈強化學習進行訓練的AI來說,不甚友好,也是必須面對的問題。
在NeurIPS 2020中,騰訊實驗室提出了一種基於深度強化學習的學習範式,來嘗試解決這個問題。
首先,基於Actor-Learner框架,建立一個分布式的RL架構,並使用離策略(off-policy)的方式產生訓練數據。
之後在進行強化學習中,採用了統一的Actor-Critic網絡結構來詮釋不同英雄的遊戲機制以及動作。
另外,研究者還受到神經網絡工作中課程學習的啟發,在訓練設計了一套課程學習方法:先從小任務開始學,然後逐漸增加難度。
具體來講,就是先用固定陣容來訓練多個teacher模型,然後進行蒸餾,把所有teacher的知識蒸餾到一個模型中。
利用了student-driven的策略蒸餾方法,便可以將從簡單任務中學習到的知識轉移到複雜的任務中。
此外,對於完整的遊戲來說,禁選英雄(BanPick,BP)也是其中重要的一環。
常見的BP方法有Minimax算法,不過受限於計算難度,只適用於小英雄池。因此,隨著可用英雄數量的增加,便會帶來新的問題。
而騰訊實驗室給出的方案是:基於蒙特卡洛樹搜索(MCTS)和神經網絡進行BP的方法。
在最後的測試中,這個AI展現出了驚人的勝率:
在對抗職業選手中,實現了95.2%的勝率(42局);而對抗高水平的玩家中,則實現了97.7%的勝率(642,047局)。
監督學習,讓AI達到人類高手水平
另外,便是監督學習了。在今年11月14日起開放的「絕悟」第1到19級,就有多個關卡由監督學習訓練而成。
而TNNLS中的論文,便詳細介紹了「絕悟」智能體,是如何進行監督學習的。
監督學習成功的關鍵之一,便是設計好特徵和標籤,對於MOBA遊戲,騰訊實驗室是這麼設計的:
特徵中,包括兩部分:矢量特徵,代表遊戲狀態;圖像特徵,代表地圖信息。
標籤設計也分兩部分:意圖標籤,代表大局觀;行動標籤,表徵微操策略。
大局觀對應的多視角意圖
研究人員設計了多視角意圖標籤,包括全局意圖和局部意圖標籤,以對大局觀進行建模。
整個地圖被劃分成24*24的區域塊,然後全局意圖標籤被定義為地圖上發生下一系列攻擊的編號區域。
局部小地圖被劃分為12*12的區域塊,局部意圖標籤是從兩次攻擊事件之間玩家的中途位置提取的,為學習大局觀提供了中間信息。
微操策略的層級動作設計
研究人員設計了分層的動作標籤,用以控制英雄的微操策略。
這其中包括兩層。第一層代表動作類型,比如移動、技能、回城等。第二層代表選定動作的參數,比如方向、位置、目標等。
多模態特徵
同時使用了矢量特徵和類圖像特徵,它們分別表徵的是遊戲狀態和地圖信息。
其中矢量特徵包括血量,技能冷卻,金幣,等級等及時序信息等。
類圖像特徵包括局部類圖像特徵和全局類圖像特徵。
局部類圖像特徵的範圍是英雄的局部小地圖,全局類圖像特徵的範圍是全局地圖。
在設計好特徵和標籤的基礎上,AI建模任務便被定義成了一個層級的多分類問題,之後通過神經網絡模型來解決。
模型簡單來看就是:全局和局部圖像特徵經過卷積神經網絡處理,矢量特徵通過全連接網絡處理,兩者連接到一起去預測全局和局部的宏觀意圖。
之後進一步的,嵌入大局觀的預測結果,和原有的隱層編碼連接在一起,經過輸出層輸出微操策略對應的標籤。
此外,在大局觀和微操策略間,使用了加權的多任務損失函數進行學習。
而在本研究中的最後測試中,結果也表明:在監督學習後,該AI系統在5V5模式中,能達到人類頂尖業餘高手水平。
關於「絕悟」
「絕悟」,是由騰訊AI Lab與王者榮耀聯合研發的策略協作型 AI。名字寓意絕佳領悟力。
其技術研發始於2017年12月,並在2018年12月通過了頂尖業餘水平測試。
從去年開始,「絕悟」開始被訓練使用英雄,今年1月AI可以職業水平的英雄達到20名,而4月達到了40名。
技術團隊一年內讓 AI 掌握的英雄數從1個增加到100+個,完全解禁英雄池。因此,此版本得名「絕悟完全體」。
不說了,我要打開王者榮耀去會會這個「完全體」了。
— 完 —
本文系網易新聞•網易號特色內容激勵計劃籤約帳號【量子位】原創內容,未經帳號授權,禁止隨意轉載。
「MEET 2021智能未來大會」啟幕,
早鳥票限時搶購中,掃碼預定席位!
李開復博士、尹浩院士、清華唐傑教授,以及來自小米、美團、愛奇藝、小冰、亞信、浪潮、容聯、澎思、地平線、G7等知名AI大廠的大咖嘉賓齊聚,期待關注AI的朋友報名參會、共探新形勢下智能產業發展之路。
量子位 QbitAI · 頭條號籤約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
原標題:《王者榮耀「絕悟」完全體上線:解禁全英雄,在線約你來戰》
閱讀原文