升級版「絕悟」AI自帶「軍師」,解禁王者榮耀全英雄池

2020-12-16 AI科技大本營

出品 | AI科技大本營

一個人精通金庸武俠裡的所有武功,這可能嗎?現實中很難,但「絕悟「做到了。

11月28日騰訊宣布,由騰訊 AI Lab 與王者榮耀聯合研發的策略協作型 AI「絕悟」推出升級版本。「絕悟」一年內掌握的英雄數從1個增加到100+個,實現了王者榮耀英雄池的完全解禁,此版本因此得名「絕悟完全體」。

這意味著,騰訊策略協作型AI的算法能力進一步得到提升,達到了國際領先水平。

升級後的「絕悟」AI不但掌握王者榮耀所有英雄的所有技能,能應對高達10的15次方的英雄組合數變化,還「自帶軍師」,能夠做出最佳的英雄博弈策略選擇,綜合自身技能與對手情況等多重因素,派出最優英雄組合。

目前,這一「絕悟」完全體版本已在王者榮耀 App 限時開放,公眾都可與之對戰,親身體驗 AI 在複雜策略、團隊協作與微觀操作方面的強大能力。11 月 14 日至 30 日,絕悟在 20 個關卡的能力將不斷提升,最強的20級於11月28日開放,接受 5v5 的組隊挑戰。

相關研究還被 AI 頂級會議 NeurIPS 2020 與頂級期刊 TNNLS 收錄,展現出騰訊國際一流的 AI 研究與應用能力。

強化學習相關研究被 AI 頂級會議 NeurIPS 2020 收錄

由於MOBA遊戲本身的複雜性,現有的工作無法很好地解決智能體陣容組合數隨著英雄池擴大而爆炸增長的問題,例如,OpenAI的Dota AI僅支持17名英雄。至今,無限制的完整MOBA遊戲還遠沒有被任何現有的AI系統所掌握。

本文提出了一種MOBA AI學習範式,該範式使AI可以在方法論上使用深度強化學習來掌握完整的MOBA遊戲,並結合各種新穎和成熟的方法,包括curriculum self-play learning、multi-head value estimation、policy distillation、Monte-Carlo tree-search以及off-policy adaption等,在使用很大的英雄池訓練的同時巧妙地解決了可擴展性問題。

注意到在真實遊戲中,特別是在複雜的電子遊戲中對AI進行評估需要付出昂貴的代價,所以目前遊戲AI的研究仍然缺乏大規模的能力測試。為了提供更加具有統計顯著性的評估結果,文中開展了迄今最大規模的MOBA AI能力測試,實驗表明「絕悟」AI可以擊敗頂級人類選手。

AI+遊戲研究將是騰訊攻克 AI 終極研究難題——通用人工智慧(AGI)的關鍵一步。從絕藝到絕悟,不斷讓 AI 從0到1去學習進化,並發展出一套合理的行為模式,這中間的經驗、方法與結論,長期來看,將有望在大範圍內,對醫療、製造、無人駕駛、農業到智慧城市管理等領域帶來更深遠影響。

AI 策略:紅方 AI 鎧大局觀出色,繞後蹲草叢扭轉戰局

AI微操:藍方 AI 小規模交鋒精細操作化解攻勢

AI協作:藍方AI團戰完美配合以少勝多

Ai微操:AI公孫離完美連招一秀三反殺

40個到100+,英雄池完全解禁

「少林有七十二藝,功夫既有不同,練習之法,亦必各異。學者苟能盡之,則無敵於世矣。」

在王者榮耀中,若每個職業都有4個紫色熟練度英雄,你就能解鎖「全能高手」稱號。但因為練習時間與精力限制,很少有人能精通所有英雄。

但「絕悟」做到了。技術團隊一年內讓 AI 掌握的英雄數從1個增加到100+個,完全解禁英雄池,此版本因此得名「絕悟完全體」。

絕悟AI能力演進路線,從MOBA 新手玩家到職業頂尖水平

絕悟 AI 的不同英雄會共享一個模型參數,從零學會單個陣容易如反掌,但面對多英雄組合時就難如登天。在對戰中,因為地圖龐大且信息不完備,不同的10個英雄組合應該有不同的策略規劃、技能應用、路徑探索及團隊協作方式,這將使決策難度幾何級增加。

並且,多英雄組合也帶來了「災難性遺忘」問題,模型容易邊學邊忘,這成了長期困擾開發者的大難題。

為了應對多英雄組合問題,技術團隊先採用引入「老師分身」模型,每個AI老師在單個陣容上訓練至精通,再引入一個 AI 學生模仿學習所有的AI老師,最終讓「絕悟」掌握了所有英雄的所有技能,成為一代宗師。

團隊的長期目標,就是要讓「絕悟」手握強兵,學會所有英雄的技能,且每個英雄都能達到頂尖水平,因此在技術上做了三項重點突破:

首先,團隊構建了一個最佳神經網絡模型,讓模型適配MOBA類任務、表達能力強、還能對英雄操作精細建模。模型綜合了大量AI方法的優勢,具體而言,在時序信息上引入長短時記憶網絡(LSTM)優化部分可觀測問題,在圖像信息上選擇卷積神經網絡(CNN)編碼空間特徵,用注意力(Attention)方法強化目標選擇,用動作過濾(Action Mask)方法提升探索效率,用分層動作設計加快訓練速度,用多頭值估計(Multi-Head Value)方法降低估計方差等。

網絡架構

其次,團隊研究出了拓寬英雄池,讓「絕悟「掌握所有英雄技能的訓練方法——CSPL(Curriculum Self-Play Learning,課程自對弈學習)。這是一種讓 AI 從易到難的漸進式學習方法。

第一步是挑選多組覆蓋全部英雄池的陣容,在小模型下用強化學習訓練,得到多組「教師分身」模型;第二步是蒸餾,把第一步得到的多個模型的能力遷移到同一個大模型中;第三步是隨機陣容的強化訓練,在蒸餾後的大模型裡,隨機挑選陣容繼續強化訓練和微調。通過多種傳統和新穎技術方法的結合,實現了在大的英雄池訓練,同時還能不斷擴展的目標。

CSPL流程圖

設計思想:任務由易到難,模型從簡單到複雜,知識逐層深入。

使用CSPL方法擴展英雄池有明顯優勢

最後,團隊還搭建了大規模訓練平臺—騰訊開悟(aiarena.tencent.com),依託項目積累的算法經驗、脫敏數據及騰訊雲的算力資源,為訓練所需的大規模運算保駕護航。開悟平臺於今年 8 月對 18 所高校開放,未來希望為更多科研人員提供技術與資源支持,深化課題研究。

排兵布陣——「AI教練」智用田忌賽馬術

一場比賽中,勝負的關鍵不僅在於擁有「絕悟」這樣的頂尖選手,排兵布陣的教練也非常重要。從古時的田忌賽馬,到足球場上的攻防策略,莫不是一個博弈的過程。團隊的第二個目標,就是為「絕悟」找到一個能排兵布陣的AI教練,也就是在遊戲BP環節(禁選英雄)的最優策略。

絕悟 vs 人類BP測試

簡單的做法是選擇貪心策略,即選擇當前勝率最高的英雄。但王者榮耀有上百個英雄,任意英雄間都有或促進或克制的關係,只按勝率選擇很容易被對手針對,更需要綜合考慮敵我雙方、已選和未選英雄的相關信息,最大化己方優勢,最小化敵方優勢。

受到圍棋 AI 算法的啟發,團隊使用蒙特卡洛樹搜索(MCTS)和神經網絡結合的自動 BP 模型。MCTS 方法包括了選擇、擴張、模擬和反向傳播四個步驟,會不斷迭代搜索,估算出可選英雄的長期價值。因為其中模擬部分最耗時,團隊用估值神經網絡替代該環節,加快了搜索速度,就能又快又準地選出具備最大長期價值的英雄。要提到的是,圍棋等棋牌類遊戲結束就能確定勝負,但 BP 結束只到確定陣容,還未對戰,所以勝負未分。因此團隊利用絕悟自對弈產生的超過3000萬條對局數據訓練出一個陣容勝率預測器,用來預測陣容的勝率。進一步的,勝率預測器得到的陣容勝率被用來監督訓練估值網絡。

除了常見的單輪 BP ,AI 教練還學會了王者榮耀 KPL 賽場上常見的多輪 BP 賽制,該模式下不能選重複英雄,對選人策略要求更高。團隊因此引入多輪長周期判定機制,在BO3/BO5賽制中可以全局統籌、綜合判斷,做出最優 BP 選擇。訓練後的 BP 模型在對陣基於貪心策略的基準方法時,能達到近70%勝率,對陣按位置隨機陣容的勝率更接近90%。

至此,絕悟前有多個強兵,後有軍師輔佐,不折不扣的一代宗師終於練成了。

研發拓展,從監督學習到強化學習,再回到監督學習

團隊同時研發了監督學習(SL)方法,針對大局觀和微操策略同時建模,讓絕悟同時擁有優秀的長期規劃和即時操作,達到了非職業玩家的頂尖水平。相關技術成果曾在2018年12月公開亮相對戰人類玩家。其實,團隊對於監督學習的研發一直在持續進行中。今年11月14日起開放的絕悟第1到19級,就有多個關卡由監督學習訓練而成。

監督學習方法論文地址:

<ahref="https://arxiv.org/abs/2011.12582"/h">https://arxiv.org/abs/2011.12582

雖然在理論上,監督學習訓練出的 AI 表現會遜於強化學習的結果,但此類研究極具研究與應用價值,相關技術成果還入選了頂級期刊 TNNLS 。

本文提出了JueWu-SL(絕悟監督學習版本)--首個利用監督學習在MOBA遊戲中達到人類高手水平的AI系統。同時本文是首次提出,將多模態特徵表徵遊戲狀態,利用深度卷積和全連接神經網絡來同時對大局觀和微觀策略進行建模;並且,研究者提出了一種基於場景採樣的數據預處理方法,使得在不同的場景下AI智能體的能力都有所提高;大量實驗表明了JueWu-SL的能力達到了高分段人類玩家水平,這也是首次基於監督學習的AI智能體在MOBA遊戲中取得如此效果。

研究方法論上看,監督學習對於AI智能體的研發有很高的價值。首先,通過挖掘人類數據預測未來的監督學習是通常是研發遊戲 AI 的第一步,並在眾多視頻遊戲上取得良好效果。比如在明星大亂鬥等複雜電子遊戲中,純監督學習能也學到達到人類高手玩家水平的AI智能體。第二,它能復用為強化學習的策略網絡,如 AlphaGo 就是監督學習結合強化學習。第三,它還能縮短強化學習探索時間,比如 DeepMind的星際爭霸AI AlphaStar 就用監督學習做強化訓練的隱含狀態。

應用上它更是具有諸多優點,比如訓練快,在16張 GPU 卡上只需幾天,而強化學習則需幾個月。其次,拓展能力強,能完成全英雄池訓練。最後,其使用真實玩家的脫敏數據,配合有效採樣,產出的 AI 行為上會更接近人類。

網絡架構

相關焦點

  • 騰訊的 AI 進化了!王者榮耀「絕悟」升級,全英雄池解禁
    AI 王者「絕悟」升級了,能達到精通金庸武俠裡所有武功的那種水平。今天,騰訊宣布,由騰訊 AI Lab 與王者榮耀聯合研發的策略協作型 AI「絕悟」推出升級版本「絕悟完全體」。英雄池完全解禁在王者榮耀中,若每個職業都有 4 個紫色熟練度英雄,就能解鎖「全能高手」稱號。但受到練習時間與精力限制,很少有人能精通所有英雄,但「絕悟」做到了。那麼,王者再進化,將有多強?
  • 《王者榮耀》ai絕悟在哪進 ai絕悟進入入口一覽
    導 讀 王者榮耀ai絕悟是讓遊戲中新開的一個挑戰模式,遊戲中會出現強大的AI對手,那麼王者榮耀ai絕悟在哪裡挑戰
  • 騰訊AI聯合王者榮耀推出「絕悟」完全體
    說起 MOBA 類手遊,想必大家都能想到王者榮耀。它近日又有了新動作。11 月 28 日騰訊宣布,旗下騰訊 AI Lab 與王者榮耀聯合研發的策略協作型 AI 「絕悟」 推出升級版本 「絕悟 「完全體。目前,「絕悟 「背後採用的創新算法突破了 AI 的英雄上限,英雄池數量也從 40 個增至 100 + 個。
  • 跟AI打王者榮耀你能贏幾局?騰訊AI絕悟升級完全體
    從11月28日至30日,「絕悟完全體」將限時三天對公眾開放體驗,只要你是榮耀黃金I及以上段位,進入王者榮耀「絕悟挑戰」,就能跟AI正面PK。 ▲強化學習相關研究被NeurIPS 2020收錄 一、掌握100+英雄,完全解禁英雄池 在王者榮耀中,
  • 登上NeurIPS 2020:騰訊AI聯合王者榮耀推出「絕悟」完全體
    說起 MOBA 類手遊,想必大家都能想到王者榮耀。它近日又有了新動作。11 月 28 日騰訊宣布,旗下騰訊 AI Lab 與王者榮耀聯合研發的策略協作型 AI 「絕悟」 推出升級版本 「絕悟 「完全體。 目前,「絕悟 「背後採用的創新算法突破了 AI 的英雄上限,英雄池數量也從 40 個增至 100 + 個。
  • 王者榮耀AI絕悟完全體對戰開啟:英雄隨便選,論文被NeurIPS收錄
    還記得今年五一假期時,騰訊在王者榮耀遊戲中上線的絕悟 AI 挑戰嗎?大多數玩家只能將將挑戰前幾個難度,AI 擊敗你之後還會在聊天裡嘲諷。在 AlphaGo 的陰影籠罩圍棋之後,人工智慧也把觸角延伸到了最流行的遊戲中。
  • 王者榮耀AI絕悟完全體對戰開啟:英雄隨便選,論文已被NeurIPS收錄
    還記得今年五一假期時,騰訊在王者榮耀遊戲中上線的絕悟 AI 挑戰嗎?大多數玩家只能將將挑戰前幾個難度,AI 擊敗你之後還會在聊天裡嘲諷。在 AlphaGo 的陰影籠罩圍棋之後,人工智慧也把觸角延伸到了最流行的遊戲中。最近,騰訊 AI Lab 在王者榮耀中的研究也獲得了學界的認可,研究人員提交的論文也被全球頂尖人工智慧會議 NeurIPS 2020 收錄。
  • 王者榮耀AI絕悟如何選英雄?騰訊AI Lab新研究揭秘
    「絕悟」在打王者榮耀時是如何選英雄的?騰訊 AI Lab 開發的 AI 智能體「絕悟」已讓王者峽谷不再只是人類召喚師的競技場,而且這個 AI 戰隊在上月底進化成了「完全體」。在一局完整的比賽中,英雄選擇階段是至關重要的(比如五射手或五法師陣容會有官方勸退)。近日,騰訊 AI Lab 和上海交通大學發布的一篇論文介紹了絕悟的英雄選擇策略:JueWuDraft。
  • 《王者榮耀》AI「絕悟」進化:達到人類頂尖水平
    IT之家 11 月 28 日消息 根據《王者榮耀》官方的消息,AI「絕悟」再次進化,成為 「絕悟完全體」,從以前只精通 40 個英雄,升級到了 100 + 英雄全覆蓋,還學會了在 BP 環節(禁選英雄)派出最優英雄組合策略。
  • 緊急更新下降難度,《王者榮耀》絕悟 AI 難倒一片玩家
    作者 | 神經星星在 5 月 1 日~ 5 月 4 日期間,玩家通過《王者榮耀》最新版本客戶端進入遊戲,即可與絕悟 AI 對戰。一時間哀鴻遍野,普通玩家、遊戲主播、職業選手,紛紛表示被絕悟 AI 虐到體無完膚。
  • 《王者榮耀》絕悟AI吊打人類玩家,官方宣布,緊急更新下降難度!
    眾所周知,《王者榮耀》每年的五月五號都會舉辦一場」五五開黑節「活動,而在活動期間都會有新的模式上線,今年也不另外!就在剛過去的「五五開黑節"期間,「王者榮耀」上架了一個新系統,新模式。該模式就是AI覺悟系統。
  • 王者榮耀AI「絕悟」首次開放公眾體驗!遊戲AI是邁向通用人工智慧的關鍵一步?|專訪開發團隊
    「 絕悟 」 曾於 2019 年 8 月王者榮耀最高規格電競賽事,在職業選手賽區聯隊帶來的 5v5 水平測試中獲勝,升級至王者榮耀電競職業水平,因此受到大量關注。藉助這次面向公眾開放的機會,DeepTech 亦派出小分隊體驗了一番,與這位神秘強者直接過招。
  • 挑戰王者榮耀「絕悟」 AI,會進化的職業選手太恐怖了!
    AI,「絕悟」首次開放大規模開放:5月1日至4日,玩家從王者榮耀大廳入口,進入「挑戰絕悟」測試,「絕悟」在六個關卡中的能力將不斷提升,用戶可組隊挑戰「絕悟」。 本次在王者榮耀上線的「絕悟」真的是令人覺悟,筆者做為老的DOTATER,MOBA類遊戲的水平,自認還是相當不錯的,不過親測了幾局,始絡不能在路人匹配的情況下通過第三關。
  • 王者榮耀:如今的最強王者水平到底如何?絕悟AI來告訴你
    王者榮耀已經5周年了,作為一款競技遊戲,運營周期屬實不短了,而且隨著玩家對遊戲的不斷孰知,玩家的總體水平穩步提高,但是如今遊戲給我們的感覺卻一點不相同,反而在遊戲中遇到的隊友經常莫名其妙。
  • 挑戰王者榮耀人工智慧絕悟,我和 AI「55 開」
    機器之心報導參與:澤南、亞洲還記得那個擊敗了頂尖職業玩家的王者榮耀 AI 絕悟嗎?五一這幾天,每個人都可以挑戰它了。——你打得過 AI 嗎?在知道自己可以在王者榮耀中與人工智慧一較高下時,我們充滿信心。在 AI 破解圍棋難題之後,電子競技類遊戲成為測試和檢驗前沿人工智慧的複雜決策、行動、協作與預測能力的重要平臺。
  • 王者榮耀新版絕悟AI人機再次來襲,水平超過99%的人類玩家?
    大家好,我是你們的老朋友北北~據悉,「絕悟」寓意絕佳領悟力,這項技術的研發始於 2017 年 12 月,由騰訊 AI Lab 與王者榮耀共同打造,在2018年王者榮耀KPL總決賽現場,賽前引發猜測的「神秘嘉賓」終於揭開面紗。
  • 騰訊 AI「絕悟」KPL 擊敗職業玩家聯隊,晉升王者榮耀電競職業水平
    昨天下午,騰訊策略協作型 AI「絕悟」在吉隆坡舉辦的王者榮耀最高規格電競賽事 KPL 世冠杯半決賽中,通過了職業選手賽區聯隊帶來的水平測試,升級至電競職業水平
  • 王者榮耀絕悟AI彩蛋,玩家終於能用艾琳,盾山還會喊大佬饒命
    王者榮耀絕悟AI彩蛋,玩家終於能用艾琳,盾山還會喊大佬饒命 曾經在五五開黑節瘋狂摩擦大家的絕悟AI再度登場,這次的AI還升級了一波,自帶對話系統
  • 《王者榮耀》絕悟挑戰第1關攻略 通關技巧分享
    導 讀 王者榮耀絕悟挑戰第1關怎麼過?絕悟挑戰第1關通關有什麼技巧?
  • 王者榮耀「絕悟AI」,超越職業選手的操作,你想來挑戰嗎?
    在2019年8月29日第二屆世界人工智慧大會上,騰訊和王者榮耀團隊合作開發了一個新的AI——「絕悟」,馬化騰表示「絕悟」可以自學成才,並且已經達到了職業水準。而在王者榮耀4月29日的更新中,將挑戰AI「絕悟」加入到了活動之中。並且之前提到「絕悟」可以自學成才並且有職業水平,那豈不是勸退了許多普通玩家。這次更新也真是夠狠啊。當然「絕悟」不止打遊戲厲害,用它來觀測宇宙原子數量是可以精確到10的80次方,而計算圍棋變化則達到了10的172次方,在平時打遊戲時,「絕悟」的決策複雜度已經高達10的2萬次方!什麼概念?