DeepMind開腦洞用桌遊訓練AI,7人博弈模型勝率可達32.5%

2020-12-22 智東西

智東西(公眾號:zhidxcom)編 | 董溫淑

智東西6月15日消息,近日,谷歌旗下人工智慧公司DeepMind訓練出一個會打7人棋類桌遊的AI模型。

訓練AI模型參與複雜遊戲已經不是新鮮事。早在2016年,DeepMind研發的AlphaGo就曾在圍棋對弈中擊敗韓國國手李世石。近些年來,還有一些研究用西洋棋、撲克等遊戲訓練AI模型。

現有研究中用到的圍棋、西洋棋、撲克等遊戲都是雙人參與的零和博弈遊戲。在現實中,人類往往通過更多人的協作完成任務。比如,在完成合同談判、與客戶互動等任務時,人類需要考慮團隊成員中每個人的情況,而現有AI模型還缺乏這方面能力。

為了解決這個問題,DeepMind研究人員引入經典7人棋類桌遊《外交風雲(Diplomacy)》訓練AI模型,提升其協作能力。《外交風雲》是美國棋類遊戲設計大師Allan B.Calhamer於1959年設計的遊戲,屬於戰棋及談判類遊戲,遊戲過程中玩家需要進行高度的互動。

研究結果顯示,經過訓練,AI模型在《外交風雲》遊戲中的勝率最高可以達到32.5%。相比之下,用監督學習方法訓練的代理勝率最高為16.3%。

這項研究發表在學術網站arXiv上,論文標題為《用最佳應對策略的迭代學會應用無媒體外交(Learning to Play No-Press Diplomacy with Best Response Policy Iteration)》。

論文連結:https://venturebeat.com/2020/06/10/deepmind-hopes-to-teach-ai-to-cooperate-by-playing-diplomacy/

一、7個玩家「攻城略地」,遊戲有10^900種可能

《外交風雲》遊戲在一張歐洲地圖上進行,這張地圖被劃分為34個「省份」。遊戲玩家可以建造自己的「軍隊」,用於保護自己現有的地盤,或用於攻佔其他玩家的地盤。玩家控制的省份越多、地盤越大,遊戲勝算就越大。

為了取勝,玩家之間可以結成聯盟,共同對抗其他玩家。另外,玩家之間互相牽制,如果一個玩家想要移動自己的軍隊,需要與其他玩家進行協調,雙方共同進行移動。

▲《外交風雲》遊戲示意圖

DeepMind研究人員用《外交風雲》遊戲研究多代理環境下的學習策略交互問題。研究人員規定採用「無媒體(No Press)」變量,即不允許代理之間進行明確的交流。

由於7個玩家各自選擇動作,遊戲的組合行動非常多。根據論文,每回合的遊戲樹(遊戲可以進行的總次數)大小約為10^900,有10^21~10^64個合法的聯合行動。

二、迭代優化算法:進行回合越多,代理勝算越大

為了使代理能在遊戲中掌握規律,研究人員採用了一種最佳響應策略迭代算法(BRPI,Best Response Policy Iteration)。

根據該方法,一回合遊戲結束後,代理會「記住」這次遊戲的經驗,並預測下一回合中可能出現的情況,在下一回合中選用更有可能獲勝的新策略。

具體而言,每回合遊戲結束後,代理會記錄在這次遊戲中應用的神經網絡策略和值函數,並把這些記錄「存」到遊戲數據集裡。初始神經網絡策略和值函數採用人類的遊戲數據。

在下一回合遊戲中,一個改進操作模塊(improvement operator)會根據之前的記錄,部署一個能打敗之前策略的策略。

神經網絡策略和值函數會預測改進操作模塊可能選擇的行為和遊戲結果,相應地做出調整,以增加遊戲獲勝的可能性。

本研究選用3種BRPI算法進行研究,這3種算法分別是:

1、迭代最佳響應算法(IBR,Iterated Best Response,IBR算法類似於在自我遊戲中應用的標準單代理策略迭代方法,這種方法在雙人零和博弈遊戲中比較流行。

2、虛擬應用策略迭代算法-1(FPPI-1,Fictitious Play Policy Iteration-1,FPPI-1算法類似於神經虛擬自我對弈算法(NFSP)。NFSP算法中,一個玩家由Q-學習網絡和監督式學習網絡組成。

3、虛擬應用策略迭代算法-2(FPPI-2,Fictitious Play Policy Iteration-2,FPPI-2算法在這3種算法中最為複雜,只預測最新的最佳響應,並記錄平均歷史檢查點,以提供當前的經驗策略。

三、代理以一敵六,平均勝率可達32.5%

為了評估BRPI算法的性能,研究人員比較了3種BRPI算法和3種基線模型的表現。基線模型分別是:監督學習模型SL、DipNet強化學習模型A2C、研究人員訓練的監督學習算法SL(ours)。

然後,研究人員使6種模型依次進行1v6遊戲,並記錄被選出玩家的平均勝率。

結果顯示,FPPI-2代理的表現最佳,其平均勝率在12.7%到32.5%之間。其中,FPPI-2代理對戰6個A2C代理時的平均勝率最高,為32.5%。相比之下,基線模型的勝率最高為16.3%。

研究人員還比較了3種BRPI算法與DipNet強化學習算法的勝率。下圖中,實線代表1個BRPI代理對戰6個DipNet代理的勝率,點線代表1個DipNet代理對戰6個BRPI代理的勝率。可以看出,BRPI代理的勝率更高。

接下來,研究人員混合採用不同BRPI算法,訓練出一個新的基線模型,比較3種BRPI算法與新基線模型的勝率。下圖中,實線代表1個BRPI代理對戰6個新基線模型的勝率,點線代表1個新基線模型對戰6個BRPI代理的勝率。可以看出,新基線模型的勝率穩步提高。

結語:未來或能用於商業、經濟、後勤等領域

本項研究中,DeepMind探索了使AI模型完成多人協作任務的可能性。數據顯示,在《外交風雲》遊戲中,AI模型的勝率最高可達32.5%,優於基線模型的表現。

目前,該AI模型處於較為初級的階段,還有很大的提升空間。根據論文,在未來,研究人員將進行更多嘗試,比如使代理能夠推理其他人的動機、使代理以互惠的方式完成任務等。如果能夠實現這些功能,該代理的應用範圍或能擴展到商業、經濟、後勤等領域,幫助人類提升工作效率。

文章來源:VentureBeat、arXiv

相關焦點

  • 多圖詳解 DeepMind 的超人類水準星際爭霸 AI 「AlphaStar」
    網絡設計的相關論文參見:AlphaStar 訓練策略AlphaStar 的初始訓練策略與早期的 AlphaGo 相同,DeepMind 的研究人員首先用人類比賽的比賽 replay 對模型進行監督學習訓練,以模仿學習的思路讓模型快速學習到高水平玩家們在星際爭霸天梯中使用的基礎策略和微操。
  • 斯坦福初創公司發力AI硬體,DeepMind刪除神經元了解深度學習
    /tensorflow/releases/tag/v1.7.0-rc1?當涉及到跟蹤變化和重建模型時,整個領域仍處於黑暗時代。這篇文章列出了一些挑戰以及我們如何接近它們。通過神經元刪除了解深度學習來源:DEEPMIND.COM連結:https://deepmind.com/blog/understanding-deep-learning-through-neuron-deletion
  • 三分靠運氣,七分靠博弈——心理博弈桌遊推薦
    博弈論,也叫game theory,或稱對策論,它充滿了數學模型的分析,又洞察了人性和心理,是經濟學重要的分析工具之一。桌面遊戲作為諸多高智商玩家的心水之物,怎麼能少了對博弈論和心理學的模擬與致敬?1.海盜分金與《夢想啟航》(3-5人)經濟學上有個著名的「海盜分金」模型:5個海盜搶得100枚金幣,他們按抽籤的順序依次提方案——首先由1號提出分配方案,然後5人表決,超過半數同意方案才被通過,否則他將被扔入大海餵鯊魚。
  • DeepFake檢測新思路:用心跳做「信號」,背後的「造假」模型也無處...
    換句話說,假視頻中顯示的「人」不會表現出與真實視頻中的人相似的心跳模式。 因此,用心跳檢測假視頻的思想可以大致概括為:可以將生物信號解釋為在某種已知維度上的投影,從而可以找到每個生成模型的唯一籤名(標識)。 值得一提的是,無論遮擋、照明條件如何變化,這些標識在真實視頻是不存在的。
  • DeepMind私貨公開,推出分布式機器學習庫,TF、Keras可用
    怎麼用使用TF-Replicator編寫的代碼與TensorFlow中為單個設備編寫的代碼類似,允許用戶自由定義自己的模型運行循環。2repl = tf_replicator.TpuReplicator( 3 num_workers=1, num_tpu_cores_per_worker=8 4) 5with repl.context(): 6 model = resnet_model()
  • 谷歌DeepMind 的可微分神經計算機 DNC 怎麼樣?看 Facebook AI...
    近日,谷歌的 AI 部門 DeepMind 開發了一種叫做可微分神經計算機(DNC)的神經網絡模型,相關論文發表於 10 月 12 日在線出版的《自然》雜誌上,題為《 利用神經網絡與外部動態存儲器進行混合計算》。這種新模型將神經網絡與可讀寫的外部存儲器結合,既能像神經網絡那樣通過試錯和樣本訓練進行深度學習,又能像傳統計算機一樣處理數據。
  • DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?
    了解 AlphaGo 的勝率預測AlphaGo 的下法不一定總是具有最高的勝率,這是因為每一個下法的勝率都是得自於單獨的一個 1000 萬次模擬的搜索。AlphaGo 的搜索有隨機性,因此 AlphaGo 在不同的搜索可能會選擇勝率接近的另一種下法。
  • DeepMind最新研究NFNet:拋棄歸一化,深度學習模型準確率卻達到了前所未有的水平
    人們通常認為經過如此的操作,最優解的尋找過程明顯會變得平緩,模型更容易正確的收斂到最佳水平。然而這樣的「刻板印象」最近受到了挑戰,DeepMind 的研究人員提出了一種不需要歸一化的深度學習模型 NFNet,其在大型圖像分類任務上卻又實現了業內最佳水平(SOTA)。該模型(紅色)與其他模型在 ImageNet 分類準確度和訓練時間上的對比。
  • ICLR 2018 DeepMind論文精華一覽
    AI 前線導讀:4 月 30 號至 5 月 3 號,數百名研究人員將齊聚加拿大溫哥華,參加第六屆國際學習表徵大會。以下是 DeepMind 已經通過審查的論文合集以及演講內容。更多乾貨內容請關注微信公眾號「AI 前線」,(ID:ai-front) 
  • 淺談神經網絡訓練方法 Deepmind更青睞正向傳播
    深度學習的神經網絡訓練方法有除了典型的反向傳播,也有被Deepmind青睞的正向傳播,以及以BAM網絡背後的雙向傳播,本文將對這些訓練方法進行簡單的探討,如果你有興趣,歡迎留言。1. 典型的BAM網絡深度學習目前非常火爆,追蹤溯源,深度學習源於神經網絡。BP神經是反向誤差訓練的典例。
  • 淺談神經網絡訓練方法,Deepmind更青睞正向傳播
    深度學習的神經網絡訓練方法有除了典型的反向傳播,也有被Deepmind青睞的正向傳播,以及以BAM網絡背後的雙向傳播,本文將對這些訓練方法進行簡單的探討,如果你有興趣,歡迎留言。1. 典型的BAM網絡深度學習目前非常火爆,追蹤溯源,深度學習源於神經網絡。BP神經是反向誤差訓練的典例。
  • 深度 | 致研究者:2018 AI研究趨勢
    我們可以關注各種博客,比如:DeepMind blog(https://deepmind.com/blog/)OpenAI blog(https://blog.openai.com/)Salesforce blog(https://www.salesforce.com/products/einstein/ai-research/)IBM Research
  • Google AI,DeepMind和多倫多大學推出DreamerV2
    它是第一個基於世界模型的強化學習(RL)代理,可以在Atari基準上獲得人類一級的成功。它包括第二代Dreamer代理,該代理完全在由像素訓練的世界模型的潛在空間內學習行為。(世界模型易於以無監督的方式進行教學,以學習環境的壓縮時空表示形式) DreamerV2準確地預測了將來的任務獎勵,即使這些獎勵不影響其表示形式(主要是根據圖像的一般信息)也是如此。
  • Spark與深度學習框架——H2O、deeplearning4j、SparkNet
    H2O是用h2o.ai開發的具有可擴展性的機器學習框架,它不限於深度學習。H2O支持許多API(例如,R、Python、Scala和Java)。當然它是開源軟體,所以要研究它的代碼及算法也很容易。H2O框架支持所有常見的資料庫及文件類型,可以輕鬆將模型導出為各種類型的存儲。
  • DeepMind解讀,最新長程記憶模型和建基模型
    賴可 編譯量子位 報導 | 公眾號 QbitAI人可以輕易記起幾年前的事情,並根據那時的記憶在當下繼續思考。這個能力對於計算機來說,就非常困難。研究者也一直在為此努力。去年底,為了讓計算機有更長程的記憶和推理,Deepmind發布了一個新的模型和數據集。近日,DeepMind官方博客發表了最新的文章,對此進一步解讀。文章既回顧了計算機處理「記憶「的歷史,也解讀了新的模型和數據集獲得的進展。
  • DeepMind詳解新WaveNet:比原來快千倍,語音更自然 | 附論文
    Florian Stimberg, Norman Casagrande, Dominik Grewe, Seb Noury, Sander Dieleman, Erich Elsen, Nal Kalchbrenner, Heiga Zen, Alex Graves, Helen King, Tom Walters, Dan Belov, Demis Hassabis地址:https://deepmind.com
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    端到端的訓練如此強大的AlphaFold 2系統,不免讓人好奇,它是如何訓練出來的呢?首先,研究人員把摺疊的蛋白質認為是一個「空間圖」,其中殘基是節點,邊緣連接著非常接近的殘基。之後,建立了一個基於注意力機制的神經網絡系統,端到端進行了訓練。
  • DeepMind最新發現!神經網絡的性能竟然優於神經符號模型
    不需要預先訓練,完全無監督,居然這麼神奇?  按照之前的常識,結合了算法和符號推理技術的神經符號模型(Neurosymbolic Models),會比神經網絡更適合於預測和解釋任務,此外,神經符號模型在反事實方面表現更好。  而Neural-Symbolic,本質上其實是將現代數學中的分析學和代數學結合的產物。
  • AI 四巨頭 Google、DeepMind、Microsoft、Uber 深度學習框架大比拼
    per process) 4config = tf.ConfigProto() 5config.gpu_options.visible_device_list = str(hvd.local_rank())# Build model… 6loss = … 7opt = tf.train.AdagradOptimizer(0.01)# Add Horovod Distributed
  • DeepMind制霸《雷神之錘3》!碾壓人類的超級多智能體這樣訓練
    https://zh.wikipedia.org/wiki/%E9%9B%B7%E7%A5%9E%E4%B9%8B%E9%94%A4III%E7%AB%9E%E6%8A%80%E5%9C%BA作為社群生物,我們幾十億人類共同生活在同一個地球上,每個人都有自己獨立的目標和行為,但仍然能夠通過團隊、組織和社會聚集在一起,展示出令人驚嘆的集體智慧。