【DOTA之後新裡程碑】DeepMind強化學習重大突破:AI在多人射擊遊戲完勝人類!

2021-02-15 新智元


  新智元報導  

來源:DeepMind

編譯:聞菲,肖琴

【新智元導讀】繼OpenAI之後,DeepMind也在多智能體強化學習方面秀肌肉:首次在第一人稱射擊遊戲的多人模式中完勝人類,而且沒有使用大量訓練局數,輕鬆超過了人類水平。

就在OpenAI宣布在5v5 DOTA 2中戰勝人類玩家後沒多久,今天,DeepMind也分享了他們在多智能體學習(multi-agent learning)方面的進展。

CEO Hassabis在Twitter上分享:「我們最新的工作展示了智能體在複雜的第一人稱多人遊戲中達到人類水平,還能與人類玩家合作!」

Hassbis說的這個遊戲,就是《雷神之錘III競技場》,這也是很多現代第一人稱射擊遊戲的鼻祖,玩家或獨立或組隊在地圖中廝殺,死亡後數秒在地圖某處重生。當某一方達到勝利條件(在DeepMind的實驗裡就是搶奪更多的旗幟),或者遊戲持續一定時間後即宣告回合結束。勝利條件取決於選擇的遊戲模式。

雖然Hassbis在Twitter裡說他們的AI「達到了人類水平」,實際上,從實驗結果看,他們的AI已經超越了人類:在與由40個人類玩家組成的隊伍對戰時,純AI的隊伍完勝純人類的隊伍(平均多搶到16面旗),並且有95%的機率戰勝AI與人混合組成的隊伍

這個AI名叫「為了贏」(For the Win,FTW),只玩了將近45萬場遊戲,理解了如何有效地與人和其他的機器合作與競爭。

研究人員對AI的唯一限定是,在5分鐘時間裡儘可能取得多的旗幟。對戰的遊戲地圖是隨機生成的,每場都會變,室內與室外的地形也不相同。組隊的時候,AI可能與人組隊,也可能與其他AI組隊。對戰的模式分為慢速和高速兩種。

在訓練過程中,AI發展出了自己的獎勵機制,學會了基地防守、尾隨隊友,或者守在敵人營地外偷襲等策略。

DeepMind在他們今天發表的博客文章中寫道,從多智能體的角度說,玩《雷神之錘III》這種多人視頻遊戲,需要與隊友合作,與敵方競爭,還要對遭遇到的任何對戰風格/策略保持魯棒性

分析發現,遊戲中,AI在「tagging」(碰觸對方,將其送回地圖上的初始地點)上比人類更加高效,80%的情況下能夠成功(人類為48%)。

而且有趣的是,對參與對戰的人類玩家進行調查後發現,大家普遍認為AI是更好的team player,更善於合作。

啟元世界首席算法官、前Netflix資深算法專家王湘君告訴新智元:

之前第一人稱射擊(FPS)遊戲的研究更多是單人模式,這次DeepMind在FPS多人模式做出了重大突破,在沒有使用大量訓練局數的情況下就超過了人類水平。和之前OpenAI Five相比,DeepMind的Capture the Flag (CTF) 模型直接從pixel學習,沒有作feature engineering和為每個agent單獨訓練模型,得益於以下創新:

去年DeepMind Max Jaderberg 提出的Population-based training 的應用極大提高了訓練效率,並且提供了多樣化的exploration,幫助模型在不同地形隊友環境中的適應性,實驗結果顯示比self-play的結果更好更高效。

For The Win agent 的分層reward機制來解決credit assignment問題。

用fast and slow RNN 和內存機制達到類似Hierarchical RL的作用。

不過,FPS在策略學習上面的難度還是比Dota,星際這種RTS遊戲小很多,CTF模型在長期策略遊戲上效果還有待觀察。

在和人類對戰模式之外,CTF模型同時在人機協作上有很好的效果。值得一提的是,啟元世界在今年4月份北大ACM總決賽期間發布的基於星際爭霸2的人機協作挑戰賽,其智能體也率先具備了與人和AI組隊協作的能力。人機協作在未來的人工智慧研究領域將成為非常重要的一環。

在多人視頻遊戲中掌握策略、戰術理解和團隊合作是人工智慧研究的關鍵挑戰。現在,由於強化學習取得的新進展,我們的智能體已經在《雷神之錘III競技場》(Quake III Arena)遊戲中達到了人類級別的表現,這是一個經典的3D第一人稱多人遊戲,也是一個複雜的多智能體環境。這些智能體展現出同時與人工智慧體和人類玩家合作的能力。

如下面的視頻所示,4個訓練好的智能體共同合作,成功奪到旗子。

我們居住的星球上有數十億人,每個人都有自己的個人目標和行動,但我們仍然能夠通過團隊、組織和社會團結起來,展現出顯著的集體智慧。這是我們稱之為多智能體學習(multi-agent learning)的設置:許多個體的智能體必須能夠獨立行動,同時還要學會與其他智能體交互和合作。這是一個極其困難的問題——因為有了共適應智能體,世界在不斷地變化。

為了研究這個問題,我們選擇了3D第一人稱多人視頻遊戲。這些遊戲是最流行的電子遊戲類型,由於它們身臨其境的遊戲設計,以及它們在策略、戰術、手眼協調和團隊合作方面的挑戰,吸引了數以百萬計的玩家。我們的智能體面臨的挑戰是直接從原始像素中學習以產生操作。這種複雜性使得第一人稱多人遊戲成為人工智慧社區一個非常活躍而且得到許多成果的研究領域。

我們的這項工作關注的遊戲是《雷神之錘III競技場》(我們對其進行了一些美術上的修改,但所有遊戲機制保持不變)。《雷神之錘III競技場》是為許多現代第一人稱視頻遊戲奠定了基礎,並吸引了長期以來競爭激烈的電子競技場面。我們訓練智能體作為個體學習和行動,但必須能夠與其他智能體或人類組成團隊作戰。

CTF(Capture The Flag)的遊戲規則很簡單,但是動態很複雜。在Quake 3裡分成藍紅兩隊在給定的地圖中競賽。競賽的目的是將對方的旗子帶回來,並且碰觸未被移動過的我方旗子,我隊就得一分,稱作一個 capture。為了獲得戰術上的優勢,他們可以會碰觸地方的隊員(tagging),把他們送回自己的地盤。在五分鐘內capture到最多旗子的隊伍獲勝。

從多智能體的角度看,CTF要求隊員既要成功地與隊友合作,又要與對方敵手競爭,同時在可能遇到的任何比賽風格中保持穩健性

為了使事情更有趣,我們設計了CTF的一種變體,令地圖的布局在每一場競賽中發生改變。這樣,我們的智能體被迫要採用一般性策略,而不是記住地圖的布局。此外,為了讓遊戲更加公平,智能體要以類似於人類的方式體驗CTF的世界:它們觀察一系列的像素圖像,並通過模擬遊戲控制器發出動作

CTF是在程序生成的環境中執行的,因此,智能體必須要適應不可見的地圖。

智能體必須從頭開始學習如何在不可見(unseen)的環境中觀察、行動、合作和競爭,所有這些都來自每場比賽的一個強化信號:他們的團隊是否獲勝。這是一個具有挑戰性的學習問題,它的解決方法基於強化學習的三個一般思路:

我們不是訓練一個智能體,而是訓練一群智能體,它們通過組隊玩遊戲來學習,提供了多樣化的隊友和敵手。

群體中的每個智能體都學習自己的內部獎勵信號,這些信號使得智能體能夠產生自己的內部目標,例如奪取一面旗子。雙重優化過程可以直接為了獲勝優化智能體的內部獎勵,並使用內部獎勵的強化學習來學習智能體的策略。

智能體在兩個時間尺度上運行,快速和慢速,這提高了它們使用內存和產生一致動作序列的能力。

圖: For The Win (FTW)智能體架構的示意圖。該智能體將快速和慢速兩個時間尺度的循環神經網絡(RNN)相結合,包括一個共享記憶模塊,並學習從遊戲點到內部獎勵的轉換。

由此產生的智能體,我們稱之為For The Win(FTW)智能體,它學會了以非常高的標準玩CTF。最重要的是,學會的智能體策略對地圖的大小、隊友的數量以及團隊中的其他參與者都具有穩健性

下面演示了FTW智能體互相競爭的室外程序環境遊戲,以及人類和智能體競爭的室內程序環境的遊戲。

圖:交互式CTF遊戲瀏覽器,分別有室內和室外的程序生成環境。室外地圖遊戲是FTW智能體相互之間的競賽,而室內地圖上的遊戲則是人類與FTW智能體之間的競賽(見圖標)。

我們舉辦了一場比賽,包括40名人類玩家。在比賽中,人類和智能體都是隨機配對的——可以作為敵手或者作為隊友。

一場早期的測試比賽,由人類與訓練好的智能體一起玩CTF。

FTW智能體學會的比強大的基線方法更強,並超過人類玩家的勝率。事實上,在一項對參與者的調查中,它們被認為比人類參與者更具有合作精神。

訓練期間我們的智能體的表現。我們新的FTW智能體相比人類玩家和Self-play + RS和Self-play的基線方法獲得了更高的Elo等級分——獲勝的概率也更高。

除了性能評估之外,理解這些智能體的行為和內部表示的複雜性是很重要的。

為了理解智能體如何表示遊戲狀態,我們研究了在平面上繪製的智能體的神經網絡的激活模式。下圖中的點表示遊戲過程中的情況,近處的點表示類似的激活模式。這些點是根據高級CTF遊戲狀態進行著色的,在這些狀態中智能體要問自己:智能體在哪個房間?旗子的狀態是怎樣的?可以看到哪些隊友和敵手?我們觀察到相同顏色的集群,表明智能體以類似的方式表示類似的高級遊戲狀態。

智能體如何表示遊戲世界。不同的情形在概念上對應於同一遊戲情境,並由智能體相似地表示出來。訓練好的智能體甚至展示了一些人工神經元,這些神經元直接為特定情況編碼。

智能體從未被告知遊戲的規則,但是它可以學習基本的遊戲概念,並能有效地建立CTF直覺。事實上,我們可以找到一些特定的神經元,它們可以直接編碼一些最重要的遊戲狀態,比如當智能體的旗子被奪走時激活的神經元,或者當它的隊友奪到對方的旗子時激活的神經元。我們在論文中進一步分析了智能體對記憶和視覺注意力的使用。

除了這種豐富的表示,智能體還會如何行動呢?首先,我們注意到這些智能體的反應時間非常快,tagging也非常準確,這可以解釋為它們的性能。但是,通過人為地降低tagging的準確度和反應時間,我們發現這只是它們成功的因素之一。

訓練後人為地降低了智能體的tagging精度和tagging反應時間。即使在具有於人類相當的準確度和反應時間下,智能體的性能仍高於人類。

通過無監督學習,我們建立了智能體和人類的原型行為( prototypical behaviours),發現智能體實際上學習了類似人類的行為,例如跟隨隊友並在對手的基地紮營。

訓練好的智能體表現出來的自動發現行為的3個例子。

這些行為出現在訓練過程中,通過強化學習和群體層面的進化,一些行為——比如跟隨隊友——隨著智能體學會以更加互補的方式合作而減少。

上面的視頻展示了一群FTW智能體的訓練進展。左上方顯示的是30個智能體在訓練和發展過程中的Elo等級分。右上角顯示了這些進化事件的遺傳樹( genetic tree)。下方的圖表顯示了整個智能體訓練過程中知識的發展,一些內部獎勵,以及行為概率。

最近,研究界在複雜遊戲領域做出了非常令人印象深刻的工作,例如星際爭霸2和Dota 2。我們的這篇論文聚焦於《雷神之錘III競技場》的奪旗模式,它的研究貢獻是具有普遍性的。我們很希望看到其他研究人員在不同的複雜環境中重建我們的技術。未來,我們還希望進一步改進目前的強化學習和群體訓練方法。總的來說,我們認為這項工作強調了多智能體訓練對促進人工智慧發展的潛力:利用多智能體訓練的自然設置,並促進強大的、甚至能與人類合作的智能體的開發。

更多細節請閱讀論文:

https://deepmind.com/documents/224/capture_the_flag.pdf

完整視頻:

https://youtu.be/dltN4MxV1RI

【加入社群】

新智元 AI 技術 + 產業社群招募中,歡迎對 AI 技術 + 產業落地感興趣的同學,加小助手微信號: aiera2015_3  入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。

相關焦點

  • DeepMind哈佛驚人發現!大腦中竟存在分布強化學習,靠多巴胺驅動
    【新智元導讀】人類的大腦,或許AI比我們懂。近日,DeepMind與哈佛大學新研究證明了大腦中存在「分布強化學習」,而大腦中的強化學習是通過「快樂之源」多巴胺驅動。和AI系統類似,大腦不是以「平均值」的方式預期未來可能的回報,而是以「概率分布」的方式來預期。
  • DeepMind 在多智能體強化學習方面又有了新進展,最新成果登上...
    智能體在多玩家電子遊戲中掌握策略、理解戰術以及進行團隊協作是人工智慧研究領域的重大挑戰。事實上,在一份針對遊戲參與者的調查中,它們比人類參與者表現出了更高的協作性。我們的智能體在訓練時的性能。我們的新 FTW 智能體,獲得了比人類玩家和基線方法(Self-play + RS 和 Self-play)高得多的 Elo 等級分(對應獲勝概率)。
  • DeepMind悄咪咪開源三大新框架,深度強化學習落地希望再現
    作者 | Jesus Rodriguez譯者 | 夕顏【導讀】近幾年,深度強化學習(DRL)一直是人工智慧取得最大突破的核心。儘管取得了很多進展,但由於缺乏工具和庫,DRL 方法仍難以應用於主流的解決方案。因此,DRL 主要以研究形式存在,並未在現實世界的機器學習解決方案中得到大量應用。解決這個問題需要更好的工具和框架。
  • 大腦也在用分布式強化學習?DeepMind新研究登上《Nature》
    機器之心報導機器之心編輯部分布式強化學習是智能體在圍棋、星際爭霸等遊戲中用到的技術,但 DeepMind 的一項研究表明,這種學習方式也為大腦中的獎勵機制提供了一種新的解釋解決獎勵預測問題的重要突破是時序差分算法(TD),TD 不會去計算未來的總體回報,它嘗試預測當前獎勵和未來時刻預期獎勵之和。當下一個時刻來臨時,將新的預測結果與預期中的相比,如果有出入,算法會計算二者之間的差異,並用此「時序差分」將舊版本的預測調整為新的預測。
  • DeepMind 綜述深度強化學習:智能體和人類相似度竟然如此高!
    神經網絡和「深度學習」的復興推動了圖像識別、自然語言處理等許多領域的突破。這些發展引起了越來越多心理學家、心理語言學家和神經學家的興趣,他們對 AI 發展是否意味著關於人類認知和腦功能的新假設展現出了充分的好奇心。從這個角度來講,AI 中最具吸引力的領域就是深度強化學習。因為它將神經網絡建模與強化學習充分的結合起來,形成了一套從獎懲中學習而非從準確教學中學習的方法。
  • DeepMind綜述深度強化學習中的快與慢,智能體應該像人一樣學習
    不過雖然它們很強大,但學習效率的低下讓它們很難推廣到更普遍的任務,也許結合「快」與「慢」的學習才是強化學習應該走的路。DeepMind 研究者近期在 Trends In Cognitive Sciences 期刊上發表文章,概覽了深度強化學習中的一些新技術,這些技術旨在彌補強化學習智能體與人類之間的學習速度鴻溝。
  • 人類一敗塗地?DeepMind推出Agent57,在所有雅達利遊戲上超越人類
    遊戲中的環境是對真實環境的一種模擬,通常來說,智能體在遊戲中能夠應對的環境越複雜,它在真實環境中的適應能力也會越強。街機學習環境包含 57 款雅達利遊戲,可以為強化學習智能體提供各種複雜挑戰,因此被視為評估智能體通用能力的理想試驗場。為什麼要選擇雅達利遊戲?原因有以下幾點:1.
  • 多圖詳解 DeepMind 的超人類水準星際爭霸 AI 「AlphaStar」
    而另一方面,深度學習的研究人員們也希望藉助深度強化學習的力量探索更複雜的博弈/遊戲。德州撲克顯然不夠難,德撲 AI 之父表示其中沒有用到任何深度學習;再看圍棋,雖然圍棋中可能出現的局面的總數目是一個天文數字,但具體到每一回合中,比賽的雙方只需要選擇在棋盤的某一處落一顆棋子即可。
  • 【DeepMind重大突破】DNN具有人類行為,認知心理學破解黑箱
    此文一出,就有學者指出,DeepMind 是在將過去的研究包裝為全新的研究。DeepMind 的最新論文稱過去「首次」將認知心理學方法引入了對深度神經網絡黑箱的理解研究中,並用認知心理學的方法發現了深度神經網絡存有和人類兒童在學習詞彙時也存在的「形狀偏好」的行為。此文一出,就有學者指出,DeepMind 是在將自己的研究包裝為全新的研究。
  • DeepMind開源強化學習遊戲框架,25款線上遊戲等你來挑戰
    選自GitHub機器之心編譯參與:一鳴、思強化學習算法沒有遊戲訓練?DeepMind 開源 OpenSpiel 平臺了。研究者可在線部署遊戲環境,快速開始實驗。強化學習算法廣為人知的一個應用場景便是遊戲了,通過智能體在多玩家遊戲中的表現,研究者可以更好地調整算法和參數細節,實現更好的算法性能。
  • 斯坦福初創公司發力AI硬體,DeepMind刪除神經元了解深度學習
    Skyline AI新融資$3M來源:TECHCRUNCH.COM連結:https://techcrunch.com/2018/03/22/skyline-ai-raises其主要目的是在當前遊戲狀態下選擇下一個最優的行為。
  • DeepMind開腦洞用桌遊訓練AI,7人博弈模型勝率可達32.5%
    近些年來,還有一些研究用西洋棋、撲克等遊戲訓練AI模型。現有研究中用到的圍棋、西洋棋、撲克等遊戲都是雙人參與的零和博弈遊戲。在現實中,人類往往通過更多人的協作完成任務。比如,在完成合同談判、與客戶互動等任務時,人類需要考慮團隊成員中每個人的情況,而現有AI模型還缺乏這方面能力。
  • 【深度強化學習】專業解讀「深度強化學習「:從AlphaGo到AlphaGoZero
    隨著計算資源的提升和相應算法的發展,深度學習在人工智慧領域取得了一系列重大突破,包括語音識別、圖像識別及檢測、自然語言處理等。深度學習由於其強大的表徵能力和泛化性能受到了越來越多研究人員的關注,相關技術在學術界和工業界都得到了廣泛的研究。強化學習是機器學習中的一個重要研究領域,它以試錯的機制與環境進行交互,通過最大化累積獎賞來學習最優策略。強化學習的框架如圖1所示。
  • 星際爭霸2人類1:10輸給AI!DeepMind 「AlphaStar」進化神速
    當時,DeepMind 研究科學家 Oriol Vinyals 在暴雪嘉年華現場透露 Deepmind 與星際爭霸 2 緊密合作的最新進展及未來的計劃。在 AlphaGo 在 2017 年圍棋大獲全勝之後,DeepMind 開始對外宣布,團隊正在著手讓人工智慧徵服星際爭霸 2,這款遊戲對人工智慧在處理複雜任務上的成功提出了"重大挑戰"。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    △圖源:Deepmind兩年前,上一版本的AlphaFold便已經取得了裡程碑的突破,但是,仍然沒有完全解決蛋白質摺疊問題。而這次AlphaFold 2,則更進一步。這一巨大的突破,直接引爆了全網,Nature、Science紛紛報導,生物屆和AI大牛們也紛紛祝賀。
  • DeepMind升級版MuZero:無需告知規則,觀察學習時即可掌握遊戲
    通過這樣做,MuZero 展示了強化學習算法能力上的一個重大飛躍。對未知模型的泛化做計劃的能力是人類智力的重要組成部分,它使我們能夠解決問題並對未來做出決定。例如,如果我們看到烏雲正在形成,我們可能會預測會下雨,並決定在出門之前帶上一把雨傘。
  • 深度 | 致研究者:2018 AI研究趨勢
    現在已經有很多博文以及官方報導總結了學界和業界的重大突破。本文略有不同,Alex Honchar在Medium發文,從研究者的角度分享機器學習明年發展的走向。機器之心對此行了編譯和整理。本文的預測基於 2012 年以來我關注的學術界和科技巨頭實驗室的研究思路演變。
  • DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能...
    新智元編譯來源:DeepMind編譯:肖琴   【新智元導讀】DeepMind的最新研究提出一種新的表示學習方法——對比預測編碼。研究人員在多個領域進行實驗:音頻、圖像、自然語言和強化學習,證明了相同的機制能夠在所有這些領域中學習到有意義的高級信息,並且優於其他方法。
  • 深度揭秘 AI 巨頭之谷歌 DeepMind
    DeepMind最初是由Demis Hassabis,Mustafa Suleyman和Shane Legg創立的,他們都是人工智慧的愛好者,有些人將他們視為深度學習的先驅者。 自成立以來,DeepMind Technologies已經在美國、加拿大和法國開設了研究中心。自從2016年AlphaGo打敗世界圍棋冠軍Lee Sedol之後,開始得到許多人的認可。
  • 50年難遇AI「諾獎級」裡程碑!DeepMind破解蛋白質摺疊難題
    我們都知道,DeepMind以戰勝人類而著名,在西洋棋,圍棋,星際爭霸II和老式的Atari經典遊戲中都佔據了上風。 但超人遊戲從來都不是主要目標,遊戲為程序提供了訓練場,一旦程序足夠強大,就可以解決現實世界中的問題! 蛋白質的形狀與其功能密切相關,預測蛋白質結構的能力可以幫助我們更好地理解蛋白質的功能和工作原理。