出品 | AI科技大本營
一個人精通金庸武俠裡的所有武功,這可能嗎?現實中很難,但「絕悟「做到了。
11月28日騰訊宣布,由騰訊 AI Lab 與王者榮耀聯合研發的策略協作型 AI「絕悟」推出升級版本。「絕悟」一年內掌握的英雄數從1個增加到100+個,實現了王者榮耀英雄池的完全解禁,此版本因此得名「絕悟完全體」。
這意味著,騰訊策略協作型AI的算法能力進一步得到提升,達到了國際領先水平。
升級後的「絕悟」AI不但掌握王者榮耀所有英雄的所有技能,能應對高達10的15次方的英雄組合數變化,還「自帶軍師」,能夠做出最佳的英雄博弈策略選擇,綜合自身技能與對手情況等多重因素,派出最優英雄組合。
目前,這一「絕悟」完全體版本已在王者榮耀 App 限時開放,公眾都可與之對戰,親身體驗 AI 在複雜策略、團隊協作與微觀操作方面的強大能力。11 月 14 日至 30 日,絕悟在 20 個關卡的能力將不斷提升,最強的20級於11月28日開放,接受 5v5 的組隊挑戰。
相關研究還被 AI 頂級會議 NeurIPS 2020 與頂級期刊 TNNLS 收錄,展現出騰訊國際一流的 AI 研究與應用能力。
強化學習相關研究被 AI 頂級會議 NeurIPS 2020 收錄
由於MOBA遊戲本身的複雜性,現有的工作無法很好地解決智能體陣容組合數隨著英雄池擴大而爆炸增長的問題,例如,OpenAI的Dota AI僅支持17名英雄。至今,無限制的完整MOBA遊戲還遠沒有被任何現有的AI系統所掌握。
本文提出了一種MOBA AI學習範式,該範式使AI可以在方法論上使用深度強化學習來掌握完整的MOBA遊戲,並結合各種新穎和成熟的方法,包括curriculum self-play learning、multi-head value estimation、policy distillation、Monte-Carlo tree-search以及off-policy adaption等,在使用很大的英雄池訓練的同時巧妙地解決了可擴展性問題。
注意到在真實遊戲中,特別是在複雜的電子遊戲中對AI進行評估需要付出昂貴的代價,所以目前遊戲AI的研究仍然缺乏大規模的能力測試。為了提供更加具有統計顯著性的評估結果,文中開展了迄今最大規模的MOBA AI能力測試,實驗表明「絕悟」AI可以擊敗頂級人類選手。
AI+遊戲研究將是騰訊攻克 AI 終極研究難題——通用人工智慧(AGI)的關鍵一步。從絕藝到絕悟,不斷讓 AI 從0到1去學習進化,並發展出一套合理的行為模式,這中間的經驗、方法與結論,長期來看,將有望在大範圍內,對醫療、製造、無人駕駛、農業到智慧城市管理等領域帶來更深遠影響。
AI 策略:紅方 AI 鎧大局觀出色,繞後蹲草叢扭轉戰局
AI微操:藍方 AI 小規模交鋒精細操作化解攻勢
AI協作:藍方AI團戰完美配合以少勝多
Ai微操:AI公孫離完美連招一秀三反殺
40個到100+,英雄池完全解禁
「少林有七十二藝,功夫既有不同,練習之法,亦必各異。學者苟能盡之,則無敵於世矣。」
在王者榮耀中,若每個職業都有4個紫色熟練度英雄,你就能解鎖「全能高手」稱號。但因為練習時間與精力限制,很少有人能精通所有英雄。
但「絕悟」做到了。技術團隊一年內讓 AI 掌握的英雄數從1個增加到100+個,完全解禁英雄池,此版本因此得名「絕悟完全體」。
絕悟AI能力演進路線,從MOBA 新手玩家到職業頂尖水平
絕悟 AI 的不同英雄會共享一個模型參數,從零學會單個陣容易如反掌,但面對多英雄組合時就難如登天。在對戰中,因為地圖龐大且信息不完備,不同的10個英雄組合應該有不同的策略規劃、技能應用、路徑探索及團隊協作方式,這將使決策難度幾何級增加。
並且,多英雄組合也帶來了「災難性遺忘」問題,模型容易邊學邊忘,這成了長期困擾開發者的大難題。
為了應對多英雄組合問題,技術團隊先採用引入「老師分身」模型,每個AI老師在單個陣容上訓練至精通,再引入一個 AI 學生模仿學習所有的AI老師,最終讓「絕悟」掌握了所有英雄的所有技能,成為一代宗師。
團隊的長期目標,就是要讓「絕悟」手握強兵,學會所有英雄的技能,且每個英雄都能達到頂尖水平,因此在技術上做了三項重點突破:
首先,團隊構建了一個最佳神經網絡模型,讓模型適配MOBA類任務、表達能力強、還能對英雄操作精細建模。模型綜合了大量AI方法的優勢,具體而言,在時序信息上引入長短時記憶網絡(LSTM)優化部分可觀測問題,在圖像信息上選擇卷積神經網絡(CNN)編碼空間特徵,用注意力(Attention)方法強化目標選擇,用動作過濾(Action Mask)方法提升探索效率,用分層動作設計加快訓練速度,用多頭值估計(Multi-Head Value)方法降低估計方差等。
網絡架構
其次,團隊研究出了拓寬英雄池,讓「絕悟「掌握所有英雄技能的訓練方法——CSPL(Curriculum Self-Play Learning,課程自對弈學習)。這是一種讓 AI 從易到難的漸進式學習方法。
第一步是挑選多組覆蓋全部英雄池的陣容,在小模型下用強化學習訓練,得到多組「教師分身」模型;第二步是蒸餾,把第一步得到的多個模型的能力遷移到同一個大模型中;第三步是隨機陣容的強化訓練,在蒸餾後的大模型裡,隨機挑選陣容繼續強化訓練和微調。通過多種傳統和新穎技術方法的結合,實現了在大的英雄池訓練,同時還能不斷擴展的目標。
CSPL流程圖
設計思想:任務由易到難,模型從簡單到複雜,知識逐層深入。
使用CSPL方法擴展英雄池有明顯優勢
最後,團隊還搭建了大規模訓練平臺—騰訊開悟(aiarena.tencent.com),依託項目積累的算法經驗、脫敏數據及騰訊雲的算力資源,為訓練所需的大規模運算保駕護航。開悟平臺於今年 8 月對 18 所高校開放,未來希望為更多科研人員提供技術與資源支持,深化課題研究。
排兵布陣——「AI教練」智用田忌賽馬術
一場比賽中,勝負的關鍵不僅在於擁有「絕悟」這樣的頂尖選手,排兵布陣的教練也非常重要。從古時的田忌賽馬,到足球場上的攻防策略,莫不是一個博弈的過程。團隊的第二個目標,就是為「絕悟」找到一個能排兵布陣的AI教練,也就是在遊戲BP環節(禁選英雄)的最優策略。
絕悟 vs 人類BP測試
簡單的做法是選擇貪心策略,即選擇當前勝率最高的英雄。但王者榮耀有上百個英雄,任意英雄間都有或促進或克制的關係,只按勝率選擇很容易被對手針對,更需要綜合考慮敵我雙方、已選和未選英雄的相關信息,最大化己方優勢,最小化敵方優勢。
受到圍棋 AI 算法的啟發,團隊使用蒙特卡洛樹搜索(MCTS)和神經網絡結合的自動 BP 模型。MCTS 方法包括了選擇、擴張、模擬和反向傳播四個步驟,會不斷迭代搜索,估算出可選英雄的長期價值。因為其中模擬部分最耗時,團隊用估值神經網絡替代該環節,加快了搜索速度,就能又快又準地選出具備最大長期價值的英雄。要提到的是,圍棋等棋牌類遊戲結束就能確定勝負,但 BP 結束只到確定陣容,還未對戰,所以勝負未分。因此團隊利用絕悟自對弈產生的超過3000萬條對局數據訓練出一個陣容勝率預測器,用來預測陣容的勝率。進一步的,勝率預測器得到的陣容勝率被用來監督訓練估值網絡。
除了常見的單輪 BP ,AI 教練還學會了王者榮耀 KPL 賽場上常見的多輪 BP 賽制,該模式下不能選重複英雄,對選人策略要求更高。團隊因此引入多輪長周期判定機制,在BO3/BO5賽制中可以全局統籌、綜合判斷,做出最優 BP 選擇。訓練後的 BP 模型在對陣基於貪心策略的基準方法時,能達到近70%勝率,對陣按位置隨機陣容的勝率更接近90%。
至此,絕悟前有多個強兵,後有軍師輔佐,不折不扣的一代宗師終於練成了。
研發拓展,從監督學習到強化學習,再回到監督學習
團隊同時研發了監督學習(SL)方法,針對大局觀和微操策略同時建模,讓絕悟同時擁有優秀的長期規劃和即時操作,達到了非職業玩家的頂尖水平。相關技術成果曾在2018年12月公開亮相對戰人類玩家。其實,團隊對於監督學習的研發一直在持續進行中。今年11月14日起開放的絕悟第1到19級,就有多個關卡由監督學習訓練而成。
監督學習方法論文地址:
<ahref="https://arxiv.org/abs/2011.12582"/h">https://arxiv.org/abs/2011.12582
雖然在理論上,監督學習訓練出的 AI 表現會遜於強化學習的結果,但此類研究極具研究與應用價值,相關技術成果還入選了頂級期刊 TNNLS 。
本文提出了JueWu-SL(絕悟監督學習版本)--首個利用監督學習在MOBA遊戲中達到人類高手水平的AI系統。同時本文是首次提出,將多模態特徵表徵遊戲狀態,利用深度卷積和全連接神經網絡來同時對大局觀和微觀策略進行建模;並且,研究者提出了一種基於場景採樣的數據預處理方法,使得在不同的場景下AI智能體的能力都有所提高;大量實驗表明了JueWu-SL的能力達到了高分段人類玩家水平,這也是首次基於監督學習的AI智能體在MOBA遊戲中取得如此效果。
研究方法論上看,監督學習對於AI智能體的研發有很高的價值。首先,通過挖掘人類數據預測未來的監督學習是通常是研發遊戲 AI 的第一步,並在眾多視頻遊戲上取得良好效果。比如在明星大亂鬥等複雜電子遊戲中,純監督學習能也學到達到人類高手玩家水平的AI智能體。第二,它能復用為強化學習的策略網絡,如 AlphaGo 就是監督學習結合強化學習。第三,它還能縮短強化學習探索時間,比如 DeepMind的星際爭霸AI AlphaStar 就用監督學習做強化訓練的隱含狀態。
應用上它更是具有諸多優點,比如訓練快,在16張 GPU 卡上只需幾天,而強化學習則需幾個月。其次,拓展能力強,能完成全英雄池訓練。最後,其使用真實玩家的脫敏數據,配合有效採樣,產出的 AI 行為上會更接近人類。
網絡架構