...BiCNet作者UCL汪軍教授:多智體研究會不會締造下一個AlphaGo...

2020-12-04 雷鋒網

雷鋒網［AI科技評論按］：前不久，阿里巴巴認知計算實驗室與倫敦大學學院（UCL）計算機系合作，推出了多智能體雙向協調網絡（BiCNet），將其應用於著名遊戲「星際爭霸1」中進行測試，研究了多個智能體之間協作行為的學習。在相關論文中，研究人員進行的實驗測試了BiCNet良好的性能表現。雷鋒網［AI科技評論按］近日採訪了這篇論文的通訊作者UCL汪軍教授，他為我們詳細解答了這篇論文的靈感來源、特點和團隊之後的研究方向。

汪軍，倫敦大學學院（UCL）計算機系副教授、網際網路科學與大數據分析專業主任。主要研究智能信息系統，主要包括數據挖掘，計算廣告學，推薦系統，機器學習，強化學習，生成模型等等。他發表了100多篇學術論文，多次獲得最佳論文獎。是國際公認的計算廣告學和智能推薦系統專家。

倫敦大學學院 (University College London），簡稱UCL，建校於1826年，位於英國倫敦，是一所譽滿全球的世界頂尖名校。它是倫敦大學聯盟（University of London，簡稱UOL）的創校學院，與劍橋大學、牛津大學、帝國理工學院、倫敦政治經濟學院並稱"G5超級精英大學"。時至今日，曾就讀、曾任職或現任職於UCL的校友中，共有32位諾貝爾獎獲得者和3位菲爾茲獎獲得者，此外還不乏政治、科學、文化以及娛樂等多個領域的名人。其中包括人工智慧AlphaGo 的創建者戴密斯·哈薩比斯。

據汪軍教授介紹，此次多智能體的論文發現是基於倫敦大學學院（UCL）在機器學習領域深厚的積累，同阿里巴巴集團緊密合作的共同結果。汪軍教授強調說，現在的計算機領域，特別是深度學習方面，研究的迭代速度非常快，只有通過和工業界緊密合作，工程和科研實力結合，學術團隊才有能力去探索更具有開拓性的，更有野心的領域和大問題。比如說，最近他和阿里巴巴的另一個實驗室，包括上海交大，天津大學的關於信息檢索研究的合作論文（ IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models）以三個滿分的最高得分被SIGIR信息檢索會議錄用。

「UCL人工智慧和機器學習的底子很強。UCL計算機系現任主任 John Shawe-Taylor教授就是機器學習專家。其支持向量機（SVM）的書被稱為廣泛採用為教科書。他領導的研究中心名為CSML（Centre for Computational Statistics and Machine Learning），研究的範圍廣泛，涉及到統計學、計算機和機器學習，研究的範圍非常大。Deepmind的創始人兼CEO Demis Hassabis 就是UCL畢業的博士，而AlphaGo那篇論文的第一作者David Silver曾是 UCL 的計算機系助理教授。」

Demis Hassabis（左）和David Silver（右）均出身於UCL

據公開資料，UCL計算機系在人工智慧和機器學習領域的研發能力，處於全球領先位置。就在2017年1月，戴密斯·哈薩比斯還專門撰文宣布，Deepmind將與UCL計算機系一道啟動頂級培訓計劃「Advanced Topics in Machine Learning」，應邀參與授課的學者都是機器學習領域各方向的頂尖級人物，涵蓋深度學習、強化學習、自然語言識別等方面。

據汪軍教授介紹，他自己主攻的智能信息系統領域（信息檢索，個性化，數據挖掘，網絡廣告，強化學習，深度學習）跟阿里認知實驗室所作的事情（推薦系統，搜尋引擎，網絡廣告）比較契合。

「阿里的認知實驗室負責人袁泉跟我是老朋友，多年的合作，我自己做推薦系統，包括搜尋引擎，跟他們這些部門的方向比較契合。這次阿里基於這個計劃，希望做些比較前沿科學的事情，我們UCL很高興跟他們合作。

下一步，我們感覺在電子商務，金融領域，包括其它的一些行業，以後會有越來越多的多重人工智體在其中代替現行智能算法。比如推薦，搜索，廣告，這三個東西在電商的場景下怎樣協作，怎樣互補？目前我們還不知道，現在的解決方案是每個做為獨立的一體，單獨優化；下一步星際爭霸裡的人工智慧怎麼用到推薦，搜索，廣告業務裡去協同？推薦系統怎麼樣去幫助廣告系統？廣告系統怎麼樣去幫助搜索？這些是需要在實踐中去尋找答案的。」

1. 這篇論文的另一大特點，是其研究學習對象是一個多智體（Multi-agent），為什麼會選擇這麼一個「小眾」的學習對象？

「Multi-agent系統是個大的研究領域，並不小眾，只是深度學習的方法還沒有廣泛的應用。我們經過一些分析後發現，現在大家都是單智體深度學習的研究，那麼人工智慧未來的方向，我覺得應該是系統層面上的，一個合作的關係，也包括競爭的關係。這一點，目前強化學習還沒有做好，所以我覺得我們應該有這麼一些嘗試。」

2. AlphaGo打敗人類選手前，做了大量的樣本學習。星際爭霸1裡的多智體做了什麼類似的工作？

「AlphaGo剛開始效果好，是因為大量的觀察專業棋手下棋，但最後優化的時候是自我博弈為主。我們在做完樣本學習後，是在多智體的前提下，用了兩個網絡，訓練的時候，用的bi-direction( 雙向通訊網絡)，這個網絡的好處就是，效率比較高，可以比較好的平衡計算量和效率；當然這個雙向RNN網絡並不是我們首創的，之前的工作就已經存在了，有各種各樣的場景應用案例，但是用它來作為通信手段，用在星際爭霸裡面，這算是所謂的一點點的創新吧。

另外這還只是一個開始，還有很多比較有意思的東西等待我們的發現。例如，我們發現給AI Agent不同的reward獎勵，對學習的效果影響很大，我們可能會從這個方面聚焦。」

附論文標題：「進行星際爭霸戰鬥遊戲學習的多智體雙向協調網絡」（Multiagent Bidirectionally-Coordinated Nets for Learning to Play StarCraft Combat Games ）

3. 多智體雙向協調網絡的優點是可以較好的平衡計算量和效率，缺點是什麼？

「目前BiCNet還不是一個全局優化的方法，畢竟它是兩層的通信。我們目前的效果是不錯的，但是我們只是解決了how問題，對why的問題，我們需要重新去思考和實驗。比如，智能體在遊戲中到底通信了什麼信息；在不同的遊戲狀態下，他們的交流是什麼，傳輸的信息對合作有什麼影響等等。這些我們現在還不清楚。」

4. 論文裡多智體對戰的星際爭霸是單機遊戲還是人類玩家？要擊敗對手的主要難點在哪裡？論文7個作者裡的分配是怎樣的？

是單機遊戲。

我先講一下，我們做這個實驗的初衷是先用人工智慧的東西跟遊戲內部的人工智慧進行比較，因為用遊戲內部的人工智慧作為對手，我們可以根據對手的數量，強度來對遊戲的整個強弱進行一些設置，即在不同的場景下，訓練我們人工智慧來應付它的能力。還有一點是因為之前的Facebook也採用這樣的測試環境模式，這樣可以用比較有效地，用我們的方法和它們進行benchmark, 後面我們會考慮是否僱傭人類玩家來測試它的效果。

要擊敗對手的主要難點這塊，在於怎麼讓人工智慧的Agent較快，以end-to-end的方式，有效地在戰爭中學會合作打敗對方，而不是需要大量的人類提示（最好能比賽中自動學習經驗）。這個難點是因為每個智體做各種各樣的動作，action space很大，如果用窮舉法來做的話，是不太可能的，特別是在有多個Agent協作的情況下，action space就更大了。怎麼有效地去在學習中探索是要解決的問題。

最後，在AI研究中，團隊合作越來越重要，我們團隊中編程能力強的負責開發和工程方面的問題；理論基礎和數學比較強的負責數學模型的建立和推導；寫作強的負責論文寫作這塊的情況。另外值得一提的是，我們的迭代速度很快（利用8個小時時間差），主要是UCL這邊工作12個小時，利用時間差，發給阿里的同事，中國的同事再反饋給UCL這邊。

5 論文中指出，此次研究中引入的的雙向協調網絡（BiCNet）, 由策略網絡（actor）和Q值網絡（critic）組成，兩者均基於雙向RNN。為什麼要基於RNN網絡？

因為每個遊戲Agent之間必須要有個通訊，整個多智能體的通訊在網絡隱含層層面，RNN的目的就是通過隱含層把信息傳遞出來，如果你要全連通的話，計算量會非常大。

6. 你們最新的多智體協作效果，相比Facebook和DeepMind團隊的工作如何？

「經過一些測試，我們的效果是比Facebook要好的。Deepmind的相關研究還沒有發布，但我們知道他們目前正在做這個事情，至於他們做的效果如何，我們也不太清楚。這個領域還剛開始，大家都是帶著問題往前走，至於要說，到底誰比誰好，我覺得這是一個次要的問題，而且這也通常是一個工程問題。從科學的角度來講，多智體系統在星際爭霸上做的一些事情，可以解決一些科學的問題，這是比較有意思的部分。」

7. 預測一下星際爭霸裡多智體協作系統最先應用落地的5個領域，為什麼？

電商，我們現在已經和阿里的推薦系統，搜索系統具體團隊對接，討論怎麼把多智體協作系統應用到電商場景裡面，比如電商裡能否把多重推薦系統協調起來，預測這個現在的研究方法可能有大的作用。
金融，金融的市場存在一個多重買家，多重賣家，怎麼根據市場供給和需求來優化我們的購買和效率，多智體協作系統可能能找到比較好的策略，來輔助人的購買策略（注意不會一下子上升到全自動。
醫療，主要涉及其中的問答系統方面以及交互式的診斷，通過用戶的反饋信息-多智體協作系統怎樣在診斷中可以更加精確地幫助把疾病的診斷做得更好，準確，風險降低，起到了一定作用。
智能駕駛，智能駕駛要保障零故障，必須要所有的自動駕駛汽車不光能自動駕駛，它同時要相互通訊，來有效地避免出危險的可能性，比如自動駕駛中的一個Agent，在前面危險的情況要剎車，這個信息可以提前通知到後面一個車，在它剎車的時候，後面的車可以採取必要的措施；或者協商過以後，才做剎車動作，所以車與車之間的協作以後有智能體較大的發揮空間。

做多智體研究會不會締造下一個AlphaGo奇蹟？

大家都知道DeepMind這個團隊是於2010年在英國倫敦大學學院成立(UCL)的，其背後的某些團隊成員自然也跟UCL有著不解之緣。

汪軍的學生，上海交大的助理教授張偉楠解釋道，其CEO Demis Hassabis曾於2005年前往倫敦大學學院開始攻讀神經科學博士學位。

團隊另一個成員David Silver，AlphaGo論文的第一作者，在劍橋大學獲得計算機科學學士和碩士學位，在阿爾伯塔大學獲得哲學博士學位，在MIT讀完機器學習的博士後之後，也回到了倫敦大學學院當老師。

多年老友在倫敦大學學院重逢後，Silver被Demis老友叫過去去優化這個遊戲，Demis自己作為一個棋類遊戲重度玩家，深知圍棋在被象棋攻克之後一直還未被攻克，所以順勢成立了AlphaGo部門，加上臺灣專門做圍棋軟的黃士傑博士等12位大牛成員助攻，做了兩年無KPI創業後，再有了後面的AlphaGo出世。

當問到汪軍教授他們正在進行的多智體研究會不會締造下一個AlphaGo奇蹟？他委婉地表示：

DeepMind的的這些技術都挺強的，但所有的努力都是臥薪嘗膽挺久後出來的結果，沒有那麼快，所以星際爭霸這個多智能體才剛剛開始。

更多雷鋒網(公眾號：雷鋒網)文章：

阿里推出多智能體雙向協調網絡BicNet，玩《星際爭霸》堪比人類

雷鋒網原創文章，未經授權禁止轉載。詳情見轉載須知。

...BiCNet作者UCL汪軍教授:多智體研究會不會締造下一個AlphaGo...

1. 這篇論文的另一大特點，是其研究學習對象是一個多智體（Multi-agent），為什麼會選擇這麼一個「小眾」的學習對象？

2. AlphaGo打敗人類選手前，做了大量的樣本學習。星際爭霸1裡的多智體做了什麼類似的工作？

4. 論文裡多智體對戰的星際爭霸是單機遊戲還是人類玩家？要擊敗對手的主要難點在哪裡？論文7個作者裡的分配是怎樣的？

5 論文中指出，此次研究中引入的的雙向協調網絡（BiCNet）, 由策略網絡（actor）和Q值網絡（critic）組成，兩者均基於雙向RNN。為什麼要基於RNN網絡？

6. 你們最新的多智體協作效果，相比Facebook和DeepMind團隊的工作如何？

7. 預測一下星際爭霸裡多智體協作系統最先應用落地的5個領域，為什麼？

相關焦點

這些高校教授受聘江蘇省法學會破產法學研究會成員

UCL的拒和錄:內卷之下,被英國G5之一選中的都是怎樣的神仙學生

動態|中國能源研究會能源政策研究中心執行主任林衛斌教授接受央視...

上海世界頂尖科學家社區啟動，將領跑世界科創下一個二十年

【CIDGA】李小雲教授率學院團隊赴歐亞系統科學研究會交流中非農業合作

姚桐斌在兄弟英語研究會

最新最全,UCL計算金融碩士近5年數據大解密

濟南市法學會交通法學研究會換屆會議成功召開

AlphaGo 圍棋教學工具已發布

第八屆食品經濟與食品質量安全論壇暨內蒙古食品經濟研究會學術...

中國未來研究會2020年學術年會在京召開

谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了

柯潔終結AI「符合預期」41連勝:若當初第一個與alphago對弈的是我

新版Alphago棋風更穩健

中國英漢語比較研究會外語學科發展研究專業委員會在上海交通大學...

越南會不會在2045年成為亞洲下一個發達國家?

高校分析測試中心研究會青年部2019年度工作會議成功召開

中國法學會法學期刊研究會二○二○年年會在南昌舉行

諸暨三賢研究會成立!重磅紀錄片央視開播!

日本人把牛塗成斑馬來研究會不會招蟲子結果...

...BiCNet作者UCL汪軍教授:多智體研究會不會締造下一個AlphaGo...

1. 這篇論文的另一大特點，是其研究學習對象是一個多智體（Multi-agent），為什麼會選擇這麼一個「小眾」的學習對象？

2. AlphaGo打敗人類選手前，做了大量的樣本學習。星際爭霸1裡的多智體做了什麼類似的工作？

4. 論文裡多智體對戰的星際爭霸是單機遊戲還是人類玩家？要擊敗對手的主要難點在哪裡？論文7個作者裡的分配是怎樣的？

5 論文中指出，此次研究中引入的的雙向協調網絡（BiCNet）, 由策略網絡（actor）和Q值網絡（critic）組成，兩者均基於雙向RNN。為什麼要基於RNN網絡？

6. 你們最新的多智體協作效果，相比Facebook和DeepMind團隊的工作如何？

7. 預測一下星際爭霸裡多智體協作系統最先應用落地的5個領域，為什麼？

相關焦點

這些高校教授受聘江蘇省法學會破產法學研究會成員

UCL的拒和錄:內卷之下,被英國G5之一選中的都是怎樣的神仙學生

動態|中國能源研究會能源政策研究中心執行主任林衛斌教授接受央視...

上海世界頂尖科學家社區啟動，將領跑世界科創下一個二十年

【CIDGA】李小雲教授率學院團隊赴歐亞系統科學研究會交流中非農業合作

姚桐斌在兄弟英語研究會

最新最全,UCL計算金融碩士近5年數據大解密

濟南市法學會交通法學研究會換屆會議成功召開

AlphaGo 圍棋教學工具已發布

第八屆食品經濟與食品質量安全論壇暨內蒙古食品經濟研究會學術...

中國未來研究會2020年學術年會在京召開

谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了

柯潔終結AI「符合預期」41連勝:若當初第一個與alphago對弈的是我

新版Alphago棋風更穩健

中國英漢語比較研究會外語學科發展研究專業委員會在上海交通大學...

越南會不會在2045年成為亞洲下一個發達國家?

高校分析測試中心研究會青年部2019年度工作會議成功召開

中國法學會法學期刊研究會二○二○年年會在南昌舉行

諸暨三賢研究會成立!重磅紀錄片央視開播!

日本人把牛塗成斑馬來研究會不會招蟲子 結果...

日本人把牛塗成斑馬來研究會不會招蟲子結果...