麻省理工新AI:玩桌遊會使詐,平均勝率超人類玩家

2021-01-09 騰訊網

DeepRole 在遊戲過程中不會與其他玩家交流,依舊能取得不錯的成績。

麻省理工學院的研究人員近日開發了一套會玩「阿瓦隆(Avalon)」桌遊的 AI 系統,名為DeepRole。它可以在遵守所有遊戲規則的前提下,在阿瓦隆多人在線遊戲網站 ProAvalon.com 上跟 0-4 名人類玩家同場競技,有些是它的隊友,有些則是對手。

在超過 4000 多場遊戲中,無論所處哪個陣營,隊友是 AI 還是人類,DeepRole 取得的平均勝率都超過了人類玩家。而且數據統計顯示,如果用 AI 替換一名人類玩家,所處陣營的勝率最高可以提高 12%。雖然被替換玩家的遊戲水平不詳,但超過 10% 的穩定勝率提升說明 AI 的表現已經超出了普通玩家。

這項研究是一個更廣泛的項目的一部分,該項目旨在更好地模擬人類如何依據社會反應做出決定,從而幫助開發能夠更好地理解、學習人類,並與人類合作的機器人。

在下個月的神經信息處理系統大會(NeurIPS)上,麻省理工學院研究團隊將進一步展示 DeepRole。目前研究成果已經以預印本的形式發表在Arxiv上。

圖 | ProAvalon.com 的遊戲界面(來源:YouTube)

「阿瓦隆」的遊戲規則

桌遊「阿瓦隆」的全稱是「抵抗組織:阿瓦隆(The Resistance: Avalon)」,類似於「狼人殺」。一局遊戲由 5-10 人組成,每人有一張身份牌、一張成功票和一張失敗票。所有人被劃分為抵抗組織和間諜兩個相互對立的陣營。前者希望任務成功,後者希望任務失敗。

每局遊戲共有 5 輪任務,玩家們輪流擔任隊長,負責指派 3-5 個人行使投票權,決定該輪任務成功與否。只要有一張失敗票,該任務就算失敗。

遊戲的核心角色是抵抗組織陣營的「梅林(Merlin)」和間諜陣營的「刺客(Assassin)」。「梅林」知道誰是間諜,因此可以不讓他們執行任務,確保任務 100% 成功,但也不能做的太明顯,將身份暴露給間諜陣營會引來「刺客」的刺殺。

抵抗組織陣營的玩家在執行任務時只能投成功票,獲勝條件是三輪任務成功。而間諜陣營玩家可以視情況投失敗票或成功票(隱藏身份),獲勝條件是三輪任務失敗或完成對「梅林」的刺殺(正確找出「梅林」是誰)。

這是一種明顯的信息不對稱遊戲,考驗玩家在短時間內收集信息並加以分析和推理的能力。

對於 AI 來說,想要玩好這類遊戲,最難的一環就是如何區分陣營,尤其是在玩家會刻意隱藏身份的前提下找出誰是隊友,誰是對手。

「人類向他人學習並與之合作,使我們能夠共同實現一個人無法獨立完成的事情,」研究團隊成員 Max Kleiman-Weiner 表示,「像『阿瓦隆』這樣的遊戲可以更好地模仿人們在日常生活中所經歷的動態社交環境。無論在幼兒園還是職場,我們都必須弄清楚哪些人與自己一組,可以一起共事。」

DeepRole 的設計原理

研究團隊出於概念驗證的原因稍微簡化了遊戲,DeepRole 被限定在 5 人局中,因為擁有特殊能力的角色會隨著人數的增加而增加,使遊戲的不確定性和複雜程度大幅上升,但其他規則沒有任何變化。

在開發 DeepRole 的過程中,研究人員使用了一種常見的「反事實遺憾最小化(CFR)」的遊戲計劃算法,通過反覆與自己對戰來學習遊戲,同時還引入了演繹推理(Deductive Reasoning)的技巧,使其具備從已有假設或前提推導出新結論的能力,比如 AI 看到任務中出現了一張失敗票,就能推斷出必然至少有一名間諜的結論。

在遊戲中,CFR 會前瞻性地創建由線和節點組成的「遊戲決策樹」,整合了每個玩家在未來每個決策點可能採取的所有動作,以描述每個玩家可能做出的舉動。

在進行數十億次的遊戲模擬時,CFR 會注意哪些動作增加或減少了獲勝的機會,反覆修改其策略以包含更多的好決策,最終選擇最優解。

雖然與圍棋或者撲克相比,「阿瓦隆」的遊戲規則並不複雜,但由於每輪任務都可以選擇不同的幾個人,而且通過集體投票表決還可以最多否決五次隊長的提議,因此在一局遊戲中,其狀態空間包含 10^56 組不同的信息集,甚至超過了西洋棋的狀態空間(10^47)。

圖 | DeepRole 的決策樹和推斷流程圖(來源:MIT)

為了縮小決策樹的尺寸,優化尋找最優解的過程,研究團隊還開發了價值網絡,配合 CFR 共同使用。

在訓練過程中,DeepRole 沒有藉助任何人類玩家的數據,僅通過自己扮演兩個陣營的角色來「左右互搏」。它會通過決策樹來預測每個玩家將要做什麼,每一個分支都代表著玩家的不同策略,而樹上的每個節點都有對應的價值,是 AI 對選擇這條策略的預估回報。

理論上,一條分支的整體價值越高,意味著對應陣營的獲勝的可能性就越大。

在遊戲的執行任務環節,DeepRole 會以自己陣營為基礎,用決策樹中的選擇對比每個玩家的真實選擇。如果玩家做出的選擇和 AI 預期的不一樣,那麼該玩家就可能是在對立陣營。隨著遊戲的進行,它會積累更多的數據,對玩家身份的判斷也會更加準確。最終,這些概率信息會用於更新 AI 的策略,以增加其獲勝機會。

與此同時,AI 還會使用相同的技術來估計第三人視角的觀察者如何看待自己的行為。這有助於判斷其他玩家的反應,從而做出更明智的決策。

「如果一個兩人執行的任務失敗,那麼合理的推斷是其中至少有一名間諜。AI 未來很可能不會在同一任務中同時帶上這兩人,因為它知道其他抵抗組織陣營的玩家會覺得這個提議很糟糕,」論文的第一作者 Jack Serrino 解釋道。他也是狂熱的「阿瓦隆」遊戲愛好者。

玩法高端,勝率不俗,還不用溝通

在真實測試中,從未跟人類一起練習的 DeepRole 表現不俗。

在一局玩家上傳的視頻中,AI 扮演的「梅林」甚至懂得高端玩法:人類玩家在後期判斷出了哪三個人是好人(抵抗組織),於是派這三個人執行任務,「梅林」在明知道這三人出任務絕對安全的情況下,依然不斷否決提議,以混淆間諜的判斷,讓他們分不清誰是「梅林」,最終成功避免被刺殺。

超過 4000 場的遊戲統計數據顯示,在一局有 5 名人類玩家的遊戲中,如果用 AI 替換其中之一,其所處陣營的平均勝率會比替換前高出約 12%。反之,在一局有 5 個 AI 的遊戲中,如果用人類玩家替換其中之一,其陣營的平均勝率則會下降約 8%。

儘管玩家水平參差不齊,沒有一個衡量標準,但超過 10% 的勝率差距的確能體現出 DeepRole 的表現不俗。

圖 | 在不同陣營,DeepRole 和人類的勝率對比(來源:MIT)

值得一提的是,DeepRole 在遊戲過程中不會與其他玩家交流,依舊能取得不錯的成績。通常來說,溝通是「阿瓦隆」等桌遊的關鍵組成部分。在遊戲中,人類玩家可以通過遊戲平臺的文字框相互交流。

「但事實證明,僅憑觀察玩家的行為,AI 就能夠與其他人很好地合作。這很有趣,因為人們傾向於認為這樣的遊戲需要複雜的溝通策略,」Kleiman-Weiner 表示。

接下來,研究團隊將嘗試讓 DeepRole 使用簡單的文字進行交流,例如給出自己對玩家陣營的看法——這些信息已經以概率的形式存在於 AI 的決策樹當中了,但需要按照概率配上正確的文字。

除此之外,他們還想讓 DeepRole 學習更強調溝通、社交和推理的「狼人殺」。這對溝通能力提出了更高的要求,因為它需要學習如何爭論並說服其他玩家,涉及到的推理因素也更複雜。

「在這類遊戲中,還有很多難點需要克服,但溝通絕對是最關鍵的因素,」Serrino 強調。

-End-

參考:

http://news.mit.edu/2019/deeprole-ai-beat-humans-role-games-1120

https://arxiv.org/pdf/1906.02330.pdf

相關焦點

  • 謝爾頓為何嘲笑霍華德畢業於麻省理工
    謝爾頓天縱奇才,生性刻薄古怪,瞧不起周圍的所有人,對於明顯不如他的人會肆無忌憚的嘲笑。霍華德是麻省理工學院的碩士,跟普通人比起來也不算差了,不過這個學歷在加州理工學院只能做個工程師。嚴格意義來說,謝爾頓是個科學家,而霍華德只能算是個工程師。
  • 加州理工 VS 麻省理工,到底誰才是美國理工大學屆的扛把子?
    那麼,如果讓你在這兩所學校之間挑選,你會選擇誰,他們之間存在哪些差異?不用糾結,今天,咱們一起來詳細對比一番。簡單對比眾所周知,兩校都叫「理工學院」,即都是以理工為主的大學,學校均提供大量理工專業課程及項目。
  • 加州理工VS 麻省理工,到底誰才是美國理工大學屆的扛把子?
    那麼,如果讓你在這兩所學校之間挑選,你會選擇誰,他們之間存在哪些差異?不用糾結,今天,咱們一起來詳細對比一番。 簡單對比 眾所周知,兩校都叫「理工學院」,即都是以理工為主的大學,學校均提供大量理工專業課程及項目。
  • DeepMind開腦洞用桌遊訓練AI,7人博弈模型勝率可達32.5%
    智東西6月15日消息,近日,谷歌旗下人工智慧公司DeepMind訓練出一個會打7人棋類桌遊的AI模型。訓練AI模型參與複雜遊戲已經不是新鮮事。在現實中,人類往往通過更多人的協作完成任務。比如,在完成合同談判、與客戶互動等任務時,人類需要考慮團隊成員中每個人的情況,而現有AI模型還缺乏這方面能力。為了解決這個問題,DeepMind研究人員引入經典7人棋類桌遊《外交風雲(Diplomacy)》訓練AI模型,提升其協作能力。
  • 猿輔導在線教育被麻省理工「點名」,原因是什麼
    猿輔導入選50家聰明公司據悉,在11月19日舉辦的EmTech China2020全球新興科技峰會上,《麻省理工科技評論》發布了年度「50家聰明公司」(50 Smartest Companies,TR50),很榮幸猿輔導在線教育代表行業入選。一同上榜的還有騰訊、華為、美團、特斯拉、英偉達等國內外巨頭公司。
  • NCT 成為國內首家獲得 IEEE Computer Society 和《麻省理工...
    NCT 成為國內首家獲得 IEEE Computer Society 和《麻省理工科技評論》權威認證的考試平臺 喜訊!NCT 成為國內首家獲得 IEEE Computer Society 和《麻省理工科技評論》權威認證的考試平臺 2020-12-01 12:16:48  來源:上海熱線
  • 首屆《麻省理工科技評論》中國 生命科學創業大賽 總決賽 順利閉幕
    (原標題:首屆《麻省理工科技評論》中國 生命科學創業大賽 總決賽 順利閉幕)
  • 9天後,《麻省理工科技評論》TR...
    這是網際網路崛起的前夜,或許在當時沒有人會意識到 QQ 會在幾年後成為一種生活方式、成為年輕人的代名詞。2004 年,騰訊在香港聯交所主板公開上市,那一年馬化騰只有 33 歲。 「大器晚成」 不一定是一種定律。年齡的增長意味著經驗的積累,但是,青壯年時期往往是創造力和精力最為旺盛的人生階段。
  • 山西大學韓拯入選《麻省理工科技評論》「35歲以下科技創新35人」
    12月10日-11日,《麻省理工科技評論》全球青年科技領袖峰會在浙江紹興開幕,同時《麻省理工科技評論》「35歲以下科技創新35人」(Innovators Under 35)2020年中國區榜單發布,山西大學光電研究所教授韓拯光榮上榜。
  • 史上最強抗生素:發現它的竟然不是人類,是AI人工智慧
    北京時間2月20日,麻省理工科研團隊在國際頂尖學術期刊細胞刊登了其研究團隊的重大成果。麻省理工科研團隊的科研人員利用AI深度學習系統,發現了一種非常強大的星星抗生素化合物。而且該化合物在實驗階段中對多種。致命病菌產生了抑制性的作用。而且在動物。活體實驗中也能夠有效地消滅細菌。
  • 麻省理工到底在哪個「省」?其辦學條件和綜合實力讓人為之震撼
    很多小夥伴都會被世界上的大學校名弄昏了頭腦,甚至在以前真的有人問過小編,「麻省理工學院在哪個省?」,小編確實是被這個問題驚呆了,那麼今天就和大家一起聊一聊麻省理工學院。麻省理工學院簡稱「麻省理工」,創辦於1861年,坐落於位於美國麻薩諸塞州波士頓都市區劍橋市,是一所著名的私立研究型大學,創辦歷史悠久,辦學就經驗豐富。專業領域側重於應用科學以及工程學。
  • 第四範式上榜《麻省理工科技評論》「50家聰明公司」榜單
    期間,全球知名技術商業類雜誌《麻省理工科技評論》(MIT Technology Review)隆重揭幕了其重磅榜單——「50家聰明的公司」(TR50),第四範式同英偉達、AMD、特斯拉、騰訊、百度、華為、美團、京東、小米、阿里雲、臺積電等科技巨頭攜手入選,出色的技術領導力、極具價值的商業模式得到了高度認可。
  • 三國殺:桌遊版與網遊版對比如何?網友:原因太真實!
    桌遊玩家的主要目的是社交,所以輸贏不重要;而網遊玩家是要贏的。所以就這裡對比來看,桌遊與網遊差別很大,不少網遊都認為這個原因太真實!我們舉個極端的例子,8人局,如果每局都是主忠贏,所有人的平均勝率是37.5%,每局都是內贏,平均勝率12.5%(不考慮內奸保護),但每局都是反贏的話,大家的平均勝率就能達到50%,大家的水平沒有提高,勝率卻上去了,何樂而不為?路人玩三國殺為了什麼?為了爽。一個磨嘰了一兩個小時的8人局好玩嗎?不好玩,所以大家要打快,怎麼打快?對爆呀!8個素將打有意思嗎?沒意思,加強啊。
  • 周末玩什麼:借《桌遊模擬器》,聊聊哪些桌遊宅家也能玩
    「周末玩什麼」是來自觸樂編輯們的每週遊戲推薦。每周末,我們都會各自推薦一款當周的新遊戲(偶爾也會有老遊戲),它們可能是PC或主機遊戲,也可能是手機遊戲,來供大家參考、選擇;也可能是集體品評一款熱門或有特色的遊戲,給讀者朋友們提供一款遊戲的多個視角。
  • 名人演講:薩爾曼·可汗在麻省理工的演講
    新東方網>英語>英語學習>英語閱讀>名人演講>正文名人演講:薩爾曼·可汗在麻省理工的演講 2012-09-10 22:23 來源:網際網路 作者:
  • 沒玩過桌遊,你都不好意思說自己是個遊戲玩家
    這要就先說一下目前遊戲的分類裡,比如在單機遊戲中最受歡迎的角色扮演類遊戲RPG,這類遊戲的鼻祖應當是DND桌遊了,DND在國外可是相當的火,遊戲玩法也較為有趣,由多名玩家扮演英雄,一名玩家以旁白的身份,並在規則書的條件下用創造出劇本讓其餘玩家展開各種各樣的冒險,單單這樣的模式下就很明顯的有著RPG風格,大家都是一樣的扮演一名角色,在指定的世界中完成冒險,最後完成故事遊戲勝利。
  • 超200所美國大學力挺哈佛和麻省理工,川普政府撤回...
    哈佛大學和麻省理工學院對川普政府發起訴訟一事終於有結果了,美國政府已經同意撤銷其針對國際留學生的籤證限制政策!圖片來源:央視新聞據央視新聞,當地時間7月14日,美國地方法院法官艾莉森·伯勞斯表示,美國政府已經同意撤銷其針對國際留學生的籤證限制政策。
  • 《麻省理工科技評論》50家聰明公司榜單 | 網際網路數據資訊網-199IT...
    在 2020 年 11 月 19 日舉辦的 EmTech China 2020 全球新興科技峰會上,《麻省理工科技評論》再次發布了年度 「50 家聰明公司」(50 Smartest Companies,TR50)榜單,於不確定性中預判科技產業最新走向。本屆峰會由蘇州市相城區人民政府與《麻省理工科技評論》聯合主辦。
  • 桌遊討論|20年來,BGG玩家們都在玩什麼遊戲?
    自2005年開始,BoardGameGeek開始舉辦一年一度的桌面遊戲大會,BGG.CON,這個展會專注於玩新遊戲,大會的工作人員會提供新遊戲的展示和規則教學。同時,還有更適合家庭參與的年度春季BGG.CON,還有在遊輪上進行的BGG@SEA。網站自2006年後每年都會頒發年度最佳桌面遊戲金極客獎,獲獎的作品由註冊用戶投票選出。
  • 機器人玩遊戲甩你幾條街,網友:讓機器人代打,分分鐘秒殺人類
    ,有網友問:「如果吃雞遊戲廠商有意把機器人做到最厲害,玩家打得過嗎?」《麻省理工科技評論》發布2019年十大突破性技術:靈巧機器人在列由《麻省理工科技評論》評選出的靈巧機器人Robot Dexterity,可以獨立去玩Jenga(疊疊高)。能玩Jenga,機器手很重要。