登上NeurIPS 2020:騰訊AI聯合王者榮耀推出「絕悟」完全體

2020-11-30 騰訊網

說起 MOBA 類手遊,想必大家都能想到王者榮耀。它近日又有了新動作。11 月 28 日騰訊宣布,旗下騰訊 AI Lab 與王者榮耀聯合研發的策略協作型 AI 「絕悟」 推出升級版本 「絕悟 「完全體。

目前,「絕悟 「背後採用的創新算法突破了 AI 的英雄上限,英雄池數量也從 40 個增至 100 + 個。創新算法能夠讓 AI 完全掌握所有英雄的所有技能,同時應對高達 10 的 15 次方的英雄組合數變化,幾乎覆蓋人類玩家能夠選出的組合。另一技術亮點則是優化了禁選英雄(BanPick,簡稱 BP)博弈策略,能綜合自身技能與對手情況等多重因素派出最優英雄組合。

相關研究已被 AI 頂級會議 NeurIPS 2020 與頂級期刊TNNLS收錄,兩篇論文的一作均為騰訊的 DehengYe。

圖 | 其中一篇關於強化學習的相關研究被 AI 頂級會議 NeurIPS 2020 收錄

同時,「絕悟」 完全體版本已在王者榮耀 App 限時開放。各榮耀玩家可以上線與之對戰,體驗時間為 11 月 14 日至 30 日,絕悟在 20 個關卡的能力不斷提升,最強的 20 級於 11 月 28 日開放,接受 5v5 組隊挑戰。

下面是真實對戰中 AI 的高光時刻:

AI 微操:AI 公孫離完美連招一秀三反殺

AI 微操:藍方 AI 小規模交鋒精細操作化解攻勢

AI 策略:紅方 AI 鎧大局觀出色,繞後蹲草叢扭轉戰局

積少成多,自古英雄出少年

王者榮耀中,最吸引人的稱號是:「全能高手」。想要獲得它卻很難,你需要在五個職業中(對抗路、中路、發育路、遊走、打野)都擁有 4 個紫色熟練度英雄。但因為練習時間與精力限制,很少有人能精通所有英雄。

而 「絕悟」技術團隊一年內讓 AI 掌握的英雄數從 1 個增加到 100 + 個,完全解禁英雄池,此版本因此得名 「絕悟完全體」。

那麼 「絕悟完全體」 是怎樣做到的呢?

我們知道,從零學會單個陣容易如反掌,但面對多英雄組合時就難如登天。在對戰中,因為地圖龐大且信息不完備,不同的 10 個英雄組合應該有不同的策略規劃、技能應用、路徑探索及團隊協作方式,這將使決策難度幾何級增加。並且,多英雄組合也帶來了 「災難性遺忘」 問題,這使得模型容易邊學邊忘,是長期困擾開發者的大難題。

為了應對上述問題,技術團隊先引入 「老師分身」 模型,讓每個 AI 老師在單個陣容上訓練至精通,再引入一個 AI 學生模仿學習所有的 AI 老師,最終讓 「絕悟」 掌握了所有英雄的所有技能,成為一代宗師。

同時,團隊還制定了長期目標,就是要讓 「絕悟」 學會所有英雄的技能,且每個英雄都能達到頂尖水平。為此他們在技術上做了三項重點突破:

首先團隊構建了一個最佳神經網絡模型,讓模型適配 MOBA 類任務、表達能力強、還能對英雄操作精細建模。模型綜合了大量 AI 方法的優勢,具體而言:

1. 在時序信息上引入長短時記憶網絡(LSTM)優化部分可觀測問題;

2. 在圖像信息上選擇卷積神經網絡(CNN)編碼空間特徵;

3. 用注意力(Attention)方法強化目標選擇;

4. 用動作過濾(Action Mask)方法提升探索效率;

5. 用分層動作設計加快訓練速度;

6. 用多頭值估計(Multi-Head Value)方法降低估計方差等。

圖 | 網絡架構

其次,團隊借用圍棋的思路,採用了 CSPL(Curriculum Self-Play Learning,課程自對弈學習),能夠有效拓寬英雄池,讓 「絕悟 「掌握所有英雄技能。

CSPL 是一種讓 AI 從易到難的漸進式學習方法,具體有以下幾個步驟:

1.「老師分身」 模型:挑選多組覆蓋全部英雄池的陣容,在小模型下用強化學習訓練,得到多組 「老師分身」 模型;

2.遷移模型:蒸餾,把第一步得到的多個模型的能力遷移到同一個大模型中;

3.隨機陣容的強化訓練:在蒸餾後的大模型裡,隨機挑選陣容繼續強化訓練和微調。通過多種傳統和新穎技術方法的結合,實現了在大的英雄池訓練,同時還能不斷擴展的目標。

圖 | CSPL 流程圖。任務由易到難,模型從簡單到複雜,知識逐層深入。

實驗結果表明,使用 CSPL 方法擴展英雄池有明顯優勢,能夠在非常有效地減少訓練時間,同時保持良好的效果。

圖 | 實驗結果

排兵布陣,致人而不致於人

作為團隊的大腦,教練在整個比賽中都起到了非常重要的作用。無論是在 BP 環節(禁選英雄)的選擇,還是陣容的壓制上面,稍有不慎就為給對手帶來先天優勢,造成 「致於人」 的局面。因此,「絕悟」 要取得勝利就必須找到一個能排兵布陣的 AI 教練。

圖 | 絕悟 vs 人類 BP 測試

目前,簡單的做法是選擇貪心策略,即選擇當前勝率最高的英雄。這針對單個英雄而言或許可以,但王者榮耀有上百個英雄,任意英雄間都有或促進或克制的關係,只按勝率選擇很容易被對手針對,更需要綜合考慮敵我雙方、已選和未選英雄的相關信息,最大化己方優勢,最小化敵方優勢。

受到圍棋 AI 算法(Alpha Go)的啟發,團隊使用蒙特卡洛樹搜索(MCTS)和神經網絡結合的自動 BP 模型來解決這一問題。

MCTS 方法包括了選擇、擴張、模擬和反向傳播四個步驟,會不斷迭代搜索,估算出可選英雄的長期價值。在這其中模擬部分最耗時,所以團隊用估值神經網絡替代該環節,加快了搜索速度,這樣能夠又快又準地選出具備最大長期價值的英雄。要提到的是,圍棋等棋牌類遊戲結束就能確定勝負,但 BP 結束只到確定陣容,還未對戰,所以勝負未分。因此團隊利用絕悟自對弈產生的超過 3000 萬條對局數據訓練出一個陣容勝率預測器,用來預測陣容的勝率。勝率預測器得到的陣容勝率又被用來監督訓練估值網絡。

圖 | 蒙特卡洛搜索樹

除了常見的單輪 BP,AI 教練還學會了王者榮耀 KPL 賽場上常見的多輪 BP 賽制,該模式下不能選重複英雄,對選人策略要求更高。為此,團隊引入多輪長周期判定機制,在 BO3/BO5 賽制中可以全局統籌、綜合判斷,做出最優 BP 選擇。訓練後的 BP 模型在對陣基於貪心策略的基準方法時,能達到近 70% 勝率,對陣按位置隨機陣容的勝率更接近 90%。

至此,強兵加軍師的組合,使得 「絕悟」 成為了不折不扣的一代宗師。

研發拓展

除了上述的 RL(強化學習)算法外,團隊還開發了 SL(監督學習)算法,針對大局觀和微操策略同時建模,讓絕悟同時擁有優秀的長期規劃和即時操作,達到了非職業玩家的頂尖水平。

圖 | 大局觀的多視角意圖標籤

相關技術成果曾在 2018 年 12 月公開亮相對戰人類玩家。其實,團隊對於監督學習的研發一直在持續進行中。今年 11 月 14 日起開放的絕悟第 1 到 19 級,就有多個關卡由監督學習訓練而成。

圖 | 監督學習研究被期刊TNNLS收錄

從研究方法上看,監督學習對於 AI 智能體的研發有很高的價值。

1.「更像人」:通過挖掘人類數據預測未來的監督學習是通常是研發遊戲 AI 的第一步,並在眾多視頻遊戲上取得較好效果。比如在明星大亂鬥等複雜電子遊戲中,純監督學習能也學到達到人類高手玩家水平的 AI 智能體。

2. 多種深度學習的結合:監督學習能復用為強化學習的策略網絡,如 AlphaGo 就是監督學習結合強化學習。

3. 節約訓練時間:同時適當地插入監督學習可以縮短強化學習探索時間,比如 DeepMind 的星際爭霸 AI AlphaStar 就用監督學習做強化訓練的隱含狀態。

圖 | 網絡架構

應用上述諸多優點,「絕悟 「可以實現一系列效果:訓練快,在 16 張 GPU 卡上只需幾天,而強化學習則需幾個月;拓展能力強,能完成全英雄池訓練;使用真實玩家的脫敏數據,配合有效採樣,產出的 AI 行為上會更接近人類。

隨著 AI 在遊戲世界的發展,它們在數據的記憶和處理方面的優勢能夠進一步體現出來。那麼如何利用 AI 來強化自己的隊伍,或許是當下遊戲教練需要思索的問題。

-End-

相關焦點

  • 騰訊AI聯合王者榮耀推出「絕悟」完全體
    說起 MOBA 類手遊,想必大家都能想到王者榮耀。它近日又有了新動作。11 月 28 日騰訊宣布,旗下騰訊 AI Lab 與王者榮耀聯合研發的策略協作型 AI 「絕悟」 推出升級版本 「絕悟 「完全體。目前,「絕悟 「背後採用的創新算法突破了 AI 的英雄上限,英雄池數量也從 40 個增至 100 + 個。
  • 騰訊AI 王者「絕悟」升級了
    騰訊 AI 王者「絕悟」升級了 機器人大講堂 發表於 2020-12-02 10:29:06 AI 王者「絕悟」升級了,能達到精通金庸武俠裡所有武功的那種水平。
  • 騰訊的 AI 進化了!王者榮耀「絕悟」升級,全英雄池解禁
    今天,騰訊宣布,由騰訊 AI Lab 與王者榮耀聯合研發的策略協作型 AI「絕悟」推出升級版本「絕悟完全體」。這一升級的背後,則是騰訊策略協作型 AI 算法能力的進一步提升,與之相關的研究也已被 AI 頂級會議 NeurIPS 2020 與頂級期刊 TNNLS 收錄。
  • 不服SOLO:騰訊絕悟AI擊敗王者榮耀頂尖職業玩家,論文入選AAAI
    機器之心報導機器之心編輯部騰訊王者榮耀人工智慧「絕悟」的論文終於發表了。在研究測試中,AI 玩露娜和頂級選手單挑時也贏了個 3:0。基於騰訊天美工作室開發的熱門 MOBA 類手遊《王者榮耀》,騰訊 AI Lab 正努力探索強化學習技術在複雜環境中的應用潛力。本文即是其中的一項成果,研究用深度強化學習來為智能體預測遊戲動作的方法,該論文已被 AAAI-2020 接收。
  • 打「王者」的AI拿下了足球世界冠軍騰訊研發「AI+遊戲」意欲為何?
    能打「王者」也能踢足球實際上,這次奪冠的「絕悟」正是《王者榮耀》中的那個AI。「絕悟」為何要在遊戲領域四處徵戰?騰訊花大力氣研發「絕悟」有何原因?據騰訊AI Lab專家介紹,AI 研究近年成為國際科技公司必爭之地,遊戲則是檢驗AI能力的試金石。
  • 王者榮耀AI絕悟如何選英雄?騰訊AI Lab新研究揭秘
    「絕悟」在打王者榮耀時是如何選英雄的?騰訊 AI Lab 開發的 AI 智能體「絕悟」已讓王者峽谷不再只是人類召喚師的競技場,而且這個 AI 戰隊在上月底進化成了「完全體」。在一局完整的比賽中,英雄選擇階段是至關重要的(比如五射手或五法師陣容會有官方勸退)。近日,騰訊 AI Lab 和上海交通大學發布的一篇論文介紹了絕悟的英雄選擇策略:JueWuDraft。
  • 騰訊AI Lab 2020 年度回顧
    (3)11 月 28 日,「絕悟完全體」進入王者峽谷並在 28-30 日間開啟了三天公眾體驗。不同於 5 月份開放的版本,完全體版本的絕悟解禁了全部英雄池,掌握了所有英雄的所有技能,同時其它多項策略也得到優化,相關已被 AI 頂級會議 NeurIPS 2020 與頂級期刊 TNNLS 收錄。
  • 騰訊機器人拿下足球電競世界冠軍
    比賽中,每個球員都各由一個單獨的智能體控制,參賽團隊需要實時選擇並控制其中一個智能體,與其他內置智能體配合。因此,每個「球員」不僅需要觀察對手的行為,還需要留意己方隊員的情況,這需要非常複雜的團隊協作和競爭策略,以及高速的實時決策能力。最終,來自騰訊AI Lab研發的絕悟WeKick版本,憑藉1785.8的總分在與全球頂級技術團隊的競技中以顯著優勢勝出。
  • 看到絕悟和阿爾法狗,王者榮耀和圍棋,張大仙柯潔被虐
    玩了十幾個賽季的王者榮耀,沒有被王者榮耀虐人的匹配機制打敗,沒有被各路主播代練虐哭,沒有被木蘭露娜複雜的操作難倒,每個玩家都有一顆不服輸的心王者榮耀的玩家們看到了天。絕悟,來了。它踩著祥雲,傲視眾生,還未完全甦醒,便將一眾凡夫打的直接掛機。任你北慕,劍仙,孤影,可傑,騷白,心態,寂然,夢淚,飛牛,藍煙,張大仙等各大主播。
  • AI「絕悟」或許早就上線,玩家實錘排位有機器人,用AI控制勝率?
    王者榮耀最近上線了一位AI對戰機器人-「絕悟」,以往推出的超強人機和此次AI機器人不同,超強人機有屬性加強,玩家們打不過的一大原因是因為對方有高額的移動速度、高額的免傷以及高額的冷卻縮減,所以我們很難打贏他們。
  • 鵝廠AI科學家,偷偷把無人摩託寫進了年終總結
    8月18日,騰訊牽頭構建的 AI 多智能體與複雜決策開放研究平臺「開悟」正式對高校開放,同時開啟了首屆「開悟AI+遊戲高校大賽」。依託於騰訊 AI Lab 和「王者榮耀」在算法、數據(脫敏)、算力方面的核心優勢,「開悟」致力於發展成為國內領先、國際一流的研究與應用探索平臺。11月28日,「絕悟完全體」進入王者峽谷,並在28-30日間開啟了三天公眾體驗。
  • 超強人機「絕悟」即將降臨峽谷,你能戰勝他嗎
    近日,官方發布消息,在5月1號到5月4號期間,智能AI「絕悟」將登陸王者峽谷,玩家們可以在遊戲大廳組隊挑戰絕悟。能夠戰勝絕悟的玩家,將獲得五軍對決頭像框以及五五守護勳章的獎勵。同時,在4月27號至4月29號,來自各大平臺的主播高手們,將組隊對絕悟發起挑戰,全程將進行直播。
  • 這是王者榮耀微信2020年5月2日的每日一題問題...
    這是王者榮耀微信2020年5月2日的每日一題問題,回答正確可獲得微信提供的每日一題遊戲獎勵。接下來就讓我們一起了解一下與我為伍下一句是什麼吧。 激活五五朋友卡,在大廳綜合聊天頻道發送口令:與我為伍,下一句是什麼 王者榮耀5月2日微信每日一題答案 2020-05-02 00:07:57 角色扮演 人氣值:加載中...
  • 騰訊雲助力遊戲開發者,支持《王者榮耀》《和平精英》4000萬人同時...
    在今天騰訊舉辦的2020全球數字生態大會遊戲專場上,騰訊雲發布了全新升級的遊戲解決方案,以及遊戲伺服器引擎GSE、遊戲原生資料庫TcaplusDB等多款新產品,進一步提升遊戲開發者效率
  • 最佳王者歌曲誕生 全民K歌X王者榮耀「星途計劃」總決賽圓滿落幕
    榮耀星途,王者之戰!8月25日,由全民K歌和王者榮耀聯合打造的第二季星途計劃總決賽於廣州長隆歡樂世界圓滿落幕。經2個小時的激烈角逐,最終競選出2018星途計劃王者新秀單曲、星途最佳歌王、星途最佳人氣三大獎項。
  • 《王者榮耀》無限王者團X彩妝M·A·C聯動
    《王者榮耀》無限王者團X彩妝M·A·C聯動 永不變老X不會上廁所,這樣的偶像你會喜歡嗎?
  • 王者榮耀覺悟挑戰12關怎麼打 想要快速通關需要掌握很多技巧
    王者榮耀覺悟挑戰12關怎麼打 想要快速通關需要掌握很多技巧時間:2020-11-30 12:47   來源:唯美村   責任編輯:凌君 川北在線核心提示:原標題:王者榮耀覺悟挑戰12關怎麼打 想要快速通關需要掌握很多技巧 王者榮耀覺悟挑戰12關怎麼打?
  • 《緊急救援》與無限王者團跨界嘗試,「虛擬偶像」想像未來
    還有一些數據也表達著無限王者團的可能性。4月底,QQ音樂聯合《王者榮耀》為第四屆「五五開黑節」特別打造「王者音樂周」,《王者榮耀》攜手騰訊音樂娛樂集團「大玩+」聯合出品的無限王者團EP的預約量第二天就打破了QQ音樂平臺記錄,成為首個預約突破42萬的專輯。五月,無限王者團先後聯手《GQ》、《NYLON》進行雜誌拍攝,完成時尚圈跨界。
  • 《王者榮耀》,1億人的時間黑洞
    當晚,王者榮耀還宣布將在推出虛擬偶像男團後,推出番劇、影視劇作品及衍生新手遊。 但當下,與其說王者榮耀是一款單純的MOBA手遊,社交新場域、國創新符號,甚至時間黑洞都似乎更能定義它。 王者榮耀之父——騰訊副總裁、天美工作室群總裁姚曉光曾說,「遊戲可以把詩歌、文學、美術,甚至電影藝術融合,同時又具有互動性和社交性」,他呼喚社會整體大環境對遊戲有更多理解和接受,與此同時,騰訊強化了青少年防沉迷體系的規範性,嘗試在娛樂和沉迷之中做出區隔。
  • 王者榮耀禮包領取中心 王者榮耀ios禮包碼
    王者榮耀禮包領取中心 王者榮耀ios禮包碼 來源:www.18183.com作者:CC時間:2020-11-11 分享到: