DeepMind開腦洞用桌遊訓練AI,7人博弈模型勝率可達32.5%

2020-12-11 智東西

智東西(公眾號:zhidxcom)編 | 董溫淑

智東西6月15日消息,近日,谷歌旗下人工智慧公司DeepMind訓練出一個會打7人棋類桌遊的AI模型。

訓練AI模型參與複雜遊戲已經不是新鮮事。早在2016年,DeepMind研發的AlphaGo就曾在圍棋對弈中擊敗韓國國手李世石。近些年來,還有一些研究用西洋棋、撲克等遊戲訓練AI模型。

現有研究中用到的圍棋、西洋棋、撲克等遊戲都是雙人參與的零和博弈遊戲。在現實中,人類往往通過更多人的協作完成任務。比如,在完成合同談判、與客戶互動等任務時,人類需要考慮團隊成員中每個人的情況,而現有AI模型還缺乏這方面能力。

為了解決這個問題,DeepMind研究人員引入經典7人棋類桌遊《外交風雲(Diplomacy)》訓練AI模型,提升其協作能力。《外交風雲》是美國棋類遊戲設計大師Allan B.Calhamer於1959年設計的遊戲,屬於戰棋及談判類遊戲,遊戲過程中玩家需要進行高度的互動。

研究結果顯示,經過訓練,AI模型在《外交風雲》遊戲中的勝率最高可以達到32.5%。相比之下,用監督學習方法訓練的代理勝率最高為16.3%。

這項研究發表在學術網站arXiv上,論文標題為《用最佳應對策略的迭代學會應用無媒體外交(Learning to Play No-Press Diplomacy with Best Response Policy Iteration)》。

論文連結:https://venturebeat.com/2020/06/10/deepmind-hopes-to-teach-ai-to-cooperate-by-playing-diplomacy/

一、7個玩家「攻城略地」,遊戲有10^900種可能

《外交風雲》遊戲在一張歐洲地圖上進行,這張地圖被劃分為34個「省份」。遊戲玩家可以建造自己的「軍隊」,用於保護自己現有的地盤,或用於攻佔其他玩家的地盤。玩家控制的省份越多、地盤越大,遊戲勝算就越大。

為了取勝,玩家之間可以結成聯盟,共同對抗其他玩家。另外,玩家之間互相牽制,如果一個玩家想要移動自己的軍隊,需要與其他玩家進行協調,雙方共同進行移動。

▲《外交風雲》遊戲示意圖

DeepMind研究人員用《外交風雲》遊戲研究多代理環境下的學習策略交互問題。研究人員規定採用「無媒體(No Press)」變量,即不允許代理之間進行明確的交流。

由於7個玩家各自選擇動作,遊戲的組合行動非常多。根據論文,每回合的遊戲樹(遊戲可以進行的總次數)大小約為10^900,有10^21~10^64個合法的聯合行動。

二、迭代優化算法:進行回合越多,代理勝算越大

為了使代理能在遊戲中掌握規律,研究人員採用了一種最佳響應策略迭代算法(BRPI,Best Response Policy Iteration)。

根據該方法,一回合遊戲結束後,代理會「記住」這次遊戲的經驗,並預測下一回合中可能出現的情況,在下一回合中選用更有可能獲勝的新策略。

具體而言,每回合遊戲結束後,代理會記錄在這次遊戲中應用的神經網絡策略和值函數,並把這些記錄「存」到遊戲數據集裡。初始神經網絡策略和值函數採用人類的遊戲數據。

在下一回合遊戲中,一個改進操作模塊(improvement operator)會根據之前的記錄,部署一個能打敗之前策略的策略。

神經網絡策略和值函數會預測改進操作模塊可能選擇的行為和遊戲結果,相應地做出調整,以增加遊戲獲勝的可能性。

本研究選用3種BRPI算法進行研究,這3種算法分別是:

1、迭代最佳響應算法(IBR,Iterated Best Response,IBR算法類似於在自我遊戲中應用的標準單代理策略迭代方法,這種方法在雙人零和博弈遊戲中比較流行。

2、虛擬應用策略迭代算法-1(FPPI-1,Fictitious Play Policy Iteration-1,FPPI-1算法類似於神經虛擬自我對弈算法(NFSP)。NFSP算法中,一個玩家由Q-學習網絡和監督式學習網絡組成。

3、虛擬應用策略迭代算法-2(FPPI-2,Fictitious Play Policy Iteration-2,FPPI-2算法在這3種算法中最為複雜,只預測最新的最佳響應,並記錄平均歷史檢查點,以提供當前的經驗策略。

三、代理以一敵六,平均勝率可達32.5%

為了評估BRPI算法的性能,研究人員比較了3種BRPI算法和3種基線模型的表現。基線模型分別是:監督學習模型SL、DipNet強化學習模型A2C、研究人員訓練的監督學習算法SL(ours)。

然後,研究人員使6種模型依次進行1v6遊戲,並記錄被選出玩家的平均勝率。

結果顯示,FPPI-2代理的表現最佳,其平均勝率在12.7%到32.5%之間。其中,FPPI-2代理對戰6個A2C代理時的平均勝率最高,為32.5%。相比之下,基線模型的勝率最高為16.3%。

研究人員還比較了3種BRPI算法與DipNet強化學習算法的勝率。下圖中,實線代表1個BRPI代理對戰6個DipNet代理的勝率,點線代表1個DipNet代理對戰6個BRPI代理的勝率。可以看出,BRPI代理的勝率更高。

接下來,研究人員混合採用不同BRPI算法,訓練出一個新的基線模型,比較3種BRPI算法與新基線模型的勝率。下圖中,實線代表1個BRPI代理對戰6個新基線模型的勝率,點線代表1個新基線模型對戰6個BRPI代理的勝率。可以看出,新基線模型的勝率穩步提高。

結語:未來或能用於商業、經濟、後勤等領域

本項研究中,DeepMind探索了使AI模型完成多人協作任務的可能性。數據顯示,在《外交風雲》遊戲中,AI模型的勝率最高可達32.5%,優於基線模型的表現。

目前,該AI模型處於較為初級的階段,還有很大的提升空間。根據論文,在未來,研究人員將進行更多嘗試,比如使代理能夠推理其他人的動機、使代理以互惠的方式完成任務等。如果能夠實現這些功能,該代理的應用範圍或能擴展到商業、經濟、後勤等領域,幫助人類提升工作效率。

文章來源:VentureBeat、arXiv

相關焦點

  • 從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!
    #近日,又一世紀級難題被AI迎刃而解:谷歌旗下子公司Deepmind通過AI建立的算法模型,成功精準預測了蛋白質的摺疊方式,這將對人類了解重要的生物學過程和治療新冠等疾病起到十分關鍵的作用。直到今年7月接受紐約時報採訪,馬斯克依然認為Deepmind是他最為關注(Top Concern)的AI公司,他依然深信AI可以超越甚至毀滅人類。雖然嘴上說不要,但身體卻很誠實,他除了是Deepmind的天使投資人,還是他引薦給谷歌投資的。
  • DeepFake檢測新思路:用心跳做「信號」,背後的「造假」模型也無處...
    換句話說,假視頻中顯示的「人」不會表現出與真實視頻中的人相似的心跳模式。因此,用心跳檢測假視頻的思想可以大致概括為:可以將生物信號解釋為在某種已知維度上的投影,從而可以找到每個生成模型的唯一籤名(標識)。值得一提的是,無論遮擋、照明條件如何變化,這些標識在真實視頻是不存在的。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年...
    美國分子生物學家Cyrus Levinthal指出,如果用蠻力來計算蛋白質所有可能的構型所需要的時間可能比宇宙的時間都要長,一個典型的蛋白質可能有10∧300種可能的構型。因此,從1972年至今,如何準確預測蛋白質的摺疊方式一直是生物學界的一項重大挑戰。
  • 三分靠運氣,七分靠博弈——心理博弈桌遊推薦
    博弈論,也叫game theory,或稱對策論,它充滿了數學模型的分析,又洞察了人性和心理,是經濟學重要的分析工具之一。桌面遊戲作為諸多高智商玩家的心水之物,怎麼能少了對博弈論和心理學的模擬與致敬?
  • DeepMind,哈佛造出了 AI「小白鼠」:從覓食,擊球窺探神經網絡奧秘
    他們提出的是一種小鼠的 3D 模型,這一模型可在模擬環境中接受神經網絡的控制。同時,他們用神經科學技術來分析小鼠的大腦生物活動,由此來理解神經網絡如何控制小鼠的行為。該論文目前已被 ICLR 2020 大會接收為 Spotlight 論文。論文連結:https://openreview.net/pdf?
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    端到端的訓練如此強大的AlphaFold 2系統,不免讓人好奇,它是如何訓練出來的呢?首先,研究人員把摺疊的蛋白質認為是一個「空間圖」,其中殘基是節點,邊緣連接著非常接近的殘基。之後,建立了一個基於注意力機制的神經網絡系統,端到端進行了訓練。
  • DeepMind又出大招!新算法MuZero登頂Nature,AI離人類規劃又近了一步
    顯然,這一類系統很難應用於解決混亂的現實問題,因為現實世界的問題通常很複雜,很難用簡單的三兩句規則去概括。基於模型的系統則旨在通過學習環境動態的精確模型,然後使用模型進行規劃。但是,對環境的各個方面進行建模非常複雜,導致算法無法在視覺豐富的領域(例如Atari)中競爭。截至目前為止,在Atari上取得最好結果的是無模型系統,例如DQN,R2D2和Agent57。
  • DeepMind攜手暴雪發戰帖:周五直播AI打星際II,發布研究新進展
    Twitchhttps://www.twitch.tv/starcraftYouTube:https://www.youtube.com/c/deepmind暴雪在最近的BlizzCon上,總結了自己2018年的工作,並相當低調地發布了「與DeepMind合作正在繼續 」的更新:
  • 械臂最近有點忙:OpenAI教它玩魔方,DeepMind讓它搭積木!
    新智元楊靜、科大訊飛(002230,股吧)胡鬱、微軟王永東、華為王成錄、英特爾宋繼強、曠視及智源學者孫劍、滴滴葉傑平、AWS 張崢、依圖顏水成、地平線黃暢、autowise.ai 黃超等重磅嘉賓中關村論劍,重啟充滿創新活力的 AI 未來。峰會現場,新智元揭曉 AI Era 創新大獎,並重磅發布 AI 開放創新平臺和獻禮新書《智周萬物:人工智慧改變中國》。
  • AI大事件丨Paige.ai斥資將機器學習帶入癌症病理學
    /Paige.ai病理學AI引導,已經在A輪融資中獲得了2500萬美元,用於構建一個幫助理解癌症病理的系統。文章&教程熵,交叉熵和KL-散度簡介來源:YOUTU.BE連結:https://youtu.be/ErfnhcEV1O8熵,交叉熵和KL-散度經常用於機器學習,特別是用於訓練分類器。
  • DeepMind第四代:不學規則就能下棋玩遊戲
    第一代 AlphaGo 早在 2016 年就可以擊敗世界圍棋冠軍,但需要先輸入遊戲規則和大量人類實戰的數據進行訓練。AlphaGo Zero 只需事先輸入規則,無需學習人類實戰的數據。到了第三代 AlphaZero,除了可以自主學會圍棋,也通過事先了解規則,掌握了西洋棋和日本將棋。
  • Jax 生態再添新庫:DeepMind 開源 Haiku、RLax
    Haiku:https://github.com/deepmind/haiku RLax:https://github.com/deepmind/rlax Haiku:在 Jax 上進行面向對象開發
  • Google DeepMind 團隊發布新算法,下一個被 AI 虐哭的是誰?
    你冬練三九夏練三伏,別人一出世就自帶超強自學能力,而且人家全家輸的次數屈指可數,還都是輸給自己人,你說這比賽讓人怎麼打?DeepMInd 表示:畢竟,了解雨傘會使您保持乾燥比對空氣中雨滴進行建模更有用。具體而言, MuZero 對三個元素進行建模,分別是值、策略、獎勵。分別衡量了:當前位置好壞程度、最優策略以及上一步好壞的衡量。通過蒙特卡羅搜索樹,配合動力學函數和預測函數,考慮下一步的動作序列,同時利用了和環境互動時候收集的經驗來訓練神經網絡,在每一步當中保存之前的信息。
  • DeepMind悄咪咪開源三大新框架,深度強化學習落地希望再現
    OpenSpielGitHub:https://github.com/deepmind/open_spiel遊戲在 DRL agent的 訓練中發揮著重要作用。與其他數據集一樣,遊戲本質上基於試驗和獎勵機制,可用於訓練 DRL agent。但是,正如我們所想,遊戲環境的複雜度還遠遠不夠。
  • 攻擊AI模型之DeepFool算法
    概述在前面文章《對抗樣本的基本原理》中,我們介紹了生成對抗樣本的基本思路,其中大體思路分為白盒攻擊和黑盒攻擊,區別在於黑盒測試把模型當做黑盒,只能輸入樣本獲得預測結果,白盒在黑盒的基礎上還可以獲取模型的參數、梯度等信息。本文將介紹白盒攻擊中鼎鼎大名的DeepFool算法。
  • 大腦也在用分布式強化學習?DeepMind新研究登上《Nature》
    一些研究者注意到,某些多巴胺神經元的反應揭示了獎勵預測的漏洞:相比於被訓練應該生成的那種「預期」,它們實際發送的預期總是或多或少,和訓練的預期不太一樣。於是這些研究者建議大腦使用 TD 算法去計算獎勵預測的誤差,通過多巴胺信號發送給大腦各個部位,以此來驅動學習行為。
  • 再創新高:DeepMind一年燒掉6.5億美元,谷歌卻揮手免除15億債務
    DeepMind 以在圍棋領域戰勝最強人類的 AlphaGo 開始廣為人們所知,2017 年 5 月,當時的世界第一選手柯潔在人機大戰中 0 比 3 落敗。然而,DeepMind 同樣被人記住的還有「燒錢」。最近英國公司登記處的一份文件顯示,2019 年 DeepMind 虧損 6.49 億美元,相比 2018 年虧損額增長了 1.5%。
  • DeepMind論文不應帶有錯誤引導成份
    人類研究圍棋兩千多年,只折抵了AlphaGo Zero三天的學習量,若用AlphaZero訓練用的5000TPU加上更優化的算法,可能真的不用一天就夠。如果利用這個技術,多訓練幾天、幾周、甚至幾月(相比圍棋發展史,我覺得花幾個月都非常非常划算),也許極趨近於「圍棋之神」的神AI真能誕生。
  • 普林、DeepMind新研究:結合深度學習和符號回歸,從深度模型中看見...
    具體步驟如下所示:設計一個深度學習模型,它具有可分離的內部結構和由問題引發的歸納偏置;使用可用數據對模型進行端到端訓練;在訓練過程中,鼓勵每個內部函數輸入或輸出中的潛在表示保持稀疏性;用符號表達式擬合模型內部學得的不同函數;以等價的符號表達式替換深度模型中的這些函數
  • AIOpen 預訓練語言模型專刊徵稿
    2018 年 ELMo、BERT 和 GPT 的成功發布,表明了預訓練語言模型(PLM)的成功,隨後又在自然語言理解和生成方面取得了重大突破。目前,在探索更有效的預訓練架構方面,已經做了很多卓有成效的工作,比如使用跨模態數據、跨語言數據和結構化知識等方法改進預訓練語言模型,或將 PLM 創新地應用於各種與 NLP 相關的任務。