...BiCNet作者UCL汪軍教授:多智體研究會不會締造下一個AlphaGo...

2020-12-04 雷鋒網

雷鋒網[AI科技評論按]:前不久,阿里巴巴認知計算實驗室與倫敦大學學院(UCL)計算機系合作,推出了多智能體雙向協調網絡(BiCNet),將其應用於著名遊戲「星際爭霸1」中進行測試,研究了多個智能體之間協作行為的學習。在相關論文中,研究人員進行的實驗測試了BiCNet良好的性能表現。雷鋒網[AI科技評論按]近日採訪了這篇論文的通訊作者UCL汪軍教授,他為我們詳細解答了這篇論文的靈感來源、特點和團隊之後的研究方向。

汪軍, 倫敦大學學院(UCL)計算機系副教授、網際網路科學與大數據分析專業主任。主要研究智能信息系統,主要包括數據挖掘,計算廣告學,推薦系統,機器學習,強化學習,生成模型等等。他發表了100多篇學術論文,多次獲得最佳論文獎。是國際公認的計算廣告學和智能推薦系統專家。

倫敦大學學院 (University College London),簡稱UCL,建校於1826年,位於英國倫敦,是一所譽滿全球的世界頂尖名校。它是倫敦大學聯盟(University of London,簡稱UOL)的創校學院,與劍橋大學、牛津大學、帝國理工學院、倫敦政治經濟學院並稱"G5超級精英大學"。 時至今日,曾就讀、曾任職或現任職於UCL的校友中,共有32位諾貝爾獎獲得者和3位菲爾茲獎獲得者,此外還不乏政治、科學、文化以及娛樂等多個領域的名人。其中包括人工智慧AlphaGo 的創建者戴密斯·哈薩比斯。

據汪軍教授介紹,此次多智能體的論文發現是基於倫敦大學學院(UCL)在機器學習領域深厚的積累,同阿里巴巴集團緊密合作的共同結果。汪軍教授強調說,現在的計算機領域,特別是深度學習方面,研究的迭代速度非常快, 只有通過和工業界緊密合作,工程和科研實力結合,學術團隊才有能力去探索更具有開拓性的,更有野心的領域和大問題。比如說,最近他和阿里巴巴的另一個實驗室,包括上海交大,天津大學的關於信息檢索研究的合作論文( IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models)以三個滿分的最高得分被SIGIR信息檢索會議錄用。

「UCL人工智慧和機器學習的底子很強。UCL計算機系現任主任 John Shawe-Taylor教授就是機器學習專家。其支持向量機(SVM)的書被稱為廣泛採用為教科書。他領導的研究中心名為CSML(Centre for Computational Statistics and Machine Learning),研究的範圍廣泛,涉及到統計學、計算機和機器學習,研究的範圍非常大。Deepmind的創始人兼CEO Demis Hassabis 就是UCL畢業的博士,而AlphaGo那篇論文的第一作者David Silver曾是 UCL 的計算機系助理教授。」

Demis Hassabis(左)和David Silver(右)均出身於UCL

據公開資料,UCL計算機系在人工智慧和機器學習領域的研發能力,處於全球領先位置。就在2017年1月,戴密斯·哈薩比斯還專門撰文宣布,Deepmind將與UCL計算機系一道啟動頂級培訓計劃「Advanced Topics in Machine Learning」,應邀參與授課的學者都是機器學習領域各方向的頂尖級人物,涵蓋深度學習、強化學習、自然語言識別等方面。

據汪軍教授介紹,他自己主攻的智能信息系統領域(信息檢索,個性化,數據挖掘,網絡廣告,強化學習,深度學習)跟阿里認知實驗室所作的事情(推薦系統,搜尋引擎,網絡廣告)比較契合。

「阿里的認知實驗室負責人袁泉跟我是老朋友,多年的合作,我自己做推薦系統,包括搜尋引擎,跟他們這些部門的方向比較契合。這次阿里基於這個計劃,希望做些比較前沿科學的事情,我們UCL很高興跟他們合作。


下一步,我們感覺在電子商務,金融領域,包括其它的一些行業,以後會有越來越多的多重人工智體在其中代替現行智能算法。比如推薦,搜索,廣告,這三個東西在電商的場景下怎樣協作,怎樣互補?目前我們還不知道,現在的解決方案是每個做為獨立的一體,單獨優化;下一步星際爭霸裡的人工智慧怎麼用到推薦,搜索,廣告業務裡去協同?推薦系統怎麼樣去幫助廣告系統?廣告系統怎麼樣去幫助搜索?這些是需要在實踐中去尋找答案的。」

1. 這篇論文的另一大特點,是其研究學習對象是一個多智體(Multi-agent),為什麼會選擇這麼一個「小眾」的學習對象?

「Multi-agent系統是個大的研究領域,並不小眾,只是深度學習的方法還沒有廣泛的應用。我們經過一些分析後發現,現在大家都是單智體深度學習的研究,那麼人工智慧未來的方向,我覺得應該是系統層面上的,一個合作的關係,也包括競爭的關係。這一點,目前強化學習還沒有做好,所以我覺得我們應該有這麼一些嘗試。」

2. AlphaGo打敗人類選手前,做了大量的樣本學習。星際爭霸1裡的多智體做了什麼類似的工作?

「AlphaGo剛開始效果好,是因為大量的觀察專業棋手下棋,但最後優化的時候是自我博弈為主。我們在做完樣本學習後,是在多智體的前提下,用了兩個網絡,訓練的時候,用的bi-direction( 雙向通訊網絡),這個網絡的好處就是,效率比較高,可以比較好的平衡計算量和效率;當然這個雙向RNN網絡並不是我們首創的,之前的工作就已經存在了,有各種各樣的場景應用案例, 但是用它來作為通信手段,用在星際爭霸裡面,這算是所謂的一點點的創新吧。


另外這還只是一個開始,還有很多比較有意思的東西等待我們的發現。例如,我們發現給AI Agent不同的reward獎勵,對學習的效果影響很大,我們可能會從這個方面聚焦。」

附論文標題:「進行星際爭霸戰鬥遊戲學習的多智體雙向協調網絡  」(Multiagent Bidirectionally-Coordinated Nets for Learning to Play StarCraft Combat Games  )

3. 多智體雙向協調網絡的優點是可以較好的平衡計算量和效率,缺點是什麼?

「目前BiCNet還不是一個全局優化的方法,畢竟它是兩層的通信。我們目前的效果是不錯的,但是我們只是解決了how問題,對why的問題,我們需要重新去思考和實驗。比如,智能體在遊戲中到底通信了什麼信息;在不同的遊戲狀態下,他們的交流是什麼,傳輸的信息對合作有什麼影響等等。這些我們現在還不清楚。」

4. 論文裡多智體對戰的星際爭霸是單機遊戲還是人類玩家?要擊敗對手的主要難點在哪裡?論文7個作者裡的分配是怎樣的?

是單機遊戲。


我先講一下,我們做這個實驗的初衷是先用人工智慧的東西跟遊戲內部的人工智慧進行比較,因為用遊戲內部的人工智慧作為對手,我們可以根據對手的數量,強度來對遊戲的整個強弱進行一些設置,即在不同的場景下,訓練我們人工智慧來應付它的能力。還有一點是因為之前的Facebook也採用這樣的測試環境模式,這樣可以用比較有效地,用我們的方法和它們進行benchmark,  後面我們會考慮是否僱傭人類玩家來測試它的效果。


要擊敗對手的主要難點這塊,在於怎麼讓人工智慧的Agent較快,以end-to-end的方式,有效地在戰爭中學會合作打敗對方,而不是需要大量的人類提示(最好能比賽中自動學習經驗)。這個難點是因為每個智體做各種各樣的動作,action space很大,如果用窮舉法來做的話,是不太可能的,特別是在有多個Agent協作的情況下,action space就更大了。怎麼有效地去在學習中探索是要解決的問題。


最後,在AI研究中,團隊合作越來越重要,我們團隊中編程能力強的負責開發和工程方面的問題;理論基礎和數學比較強的負責數學模型的建立和推導;寫作強的負責論文寫作這塊的情況。另外值得一提的是,我們的迭代速度很快(利用8個小時時間差),主要是UCL這邊工作12個小時,利用時間差,發給阿里的同事,中國的同事再反饋給UCL這邊。

5 論文中指出,此次研究中引入的的雙向協調網絡(BiCNet), 由策略網絡(actor)和Q值網絡(critic)組成,兩者均基於雙向RNN。為什麼要基於RNN網絡?

因為每個遊戲Agent之間必須要有個通訊,整個多智能體的通訊在網絡隱含層層面,RNN的目的就是通過隱含層把信息傳遞出來,如果你要全連通的話,計算量會非常大。

6. 你們最新的多智體協作效果,相比Facebook和DeepMind團隊的工作如何?

「經過一些測試,我們的效果是比Facebook要好的。Deepmind的相關研究還沒有發布,但我們知道他們目前正在做這個事情,至於他們做的效果如何,我們也不太清楚。這個領域還剛開始,大家都是帶著問題往前走,至於要說,到底誰比誰好,我覺得這是一個次要的問題,而且這也通常是一個工程問題。從科學的角度來講,多智體系統在星際爭霸上做的一些事情,可以解決一些科學的問題,這是比較有意思的部分。」

7. 預測一下星際爭霸裡多智體協作系統最先應用落地的5個領域,為什麼?

  • 電商,我們現在已經和阿里的推薦系統,搜索系統具體團隊對接,討論怎麼把多智體協作系統應用到電商場景裡面,比如電商裡能否把多重推薦系統協調起來,預測這個現在的研究方法可能有大的作用。

  • 金融,金融的市場存在一個多重買家,多重賣家,怎麼根據市場供給和需求來優化我們的購買和效率,多智體協作系統可能能找到比較好的策略,來輔助人的購買策略(注意不會一下子上升到全自動。

  • 醫療,主要涉及其中的問答系統方面以及交互式的診斷,通過用戶的反饋信息-多智體協作系統怎樣在診斷中可以更加精確地幫助把疾病的診斷做得更好,準確,風險降低,起到了一定作用。

  • 智能駕駛,智能駕駛要保障零故障,必須要所有的自動駕駛汽車不光能自動駕駛,它同時要相互通訊,來有效地避免出危險的可能性,比如自動駕駛中的一個Agent,在前面危險的情況要剎車,這個信息可以提前通知到後面一個車,在它剎車的時候,後面的車可以採取必要的措施;或者協商過以後,才做剎車動作,所以車與車之間的協作以後有智能體較大的發揮空間。

做多智體研究會不會締造下一個AlphaGo奇蹟?

大家都知道DeepMind這個團隊是於2010年在英國倫敦大學學院成立(UCL)的,其背後的某些團隊成員自然也跟UCL有著不解之緣。

汪軍的學生,上海交大的助理教授張偉楠解釋道,其CEO Demis Hassabis曾於2005年前往倫敦大學學院開始攻讀神經科學博士學位。

團隊另一個成員David Silver,AlphaGo論文的第一作者,在劍橋大學獲得計算機科學學士和碩士學位,在阿爾伯塔大學獲得哲學博士學位,在MIT讀完機器學習的博士後之後,也回到了倫敦大學學院當老師。

多年老友在倫敦大學學院重逢後,Silver被Demis老友叫過去去優化這個遊戲,Demis自己作為一個棋類遊戲重度玩家,深知圍棋在被象棋攻克之後一直還未被攻克,所以順勢成立了AlphaGo部門,加上臺灣專門做圍棋軟的黃士傑博士等12位大牛成員助攻,做了兩年無KPI創業後,再有了後面的AlphaGo出世。 

當問到汪軍教授他們正在進行的多智體研究會不會締造下一個AlphaGo奇蹟? 他委婉地表示:

DeepMind的的這些技術都挺強的,但所有的努力都是臥薪嘗膽挺久後出來的結果,沒有那麼快,所以星際爭霸這個多智能體才剛剛開始。


更多雷鋒網(公眾號:雷鋒網)文章:

阿里推出多智能體雙向協調網絡BicNet,玩《星際爭霸》堪比人類

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 這些高校教授受聘江蘇省法學會破產法學研究會成員
    12月18日,江蘇省法學會破產法學研究會成立大會暨2020年年會在蘇州舉辦。該會由江蘇省法學會破產法學研究會主辦、蘇州大學王健法學院承辦,以「六穩」「六保」政策背景下企業破產挽救制度的理論與實務為主題展開。
  • UCL的拒和錄:內卷之下,被英國G5之一選中的都是怎樣的神仙學生
    所以有些學生在問,現在加申會不會晚?現在加申是否好申的?別猶豫,此刻當下就是最黃金的時段。錯過就不在,一月就是一隻穿雲箭,過半的學校會在這個時候鋪一堆offer來相見。我們今天就整理下ucl到底發了多少offer,時間有點趕,不曉得要寫啥,所以繼續水文了。時間節點12.8-1.8,UCL的offer&reject如下:1.
  • 動態|中國能源研究會能源政策研究中心執行主任林衛斌教授接受央視...
    【能源人都在看,點擊右上角加'關注'】近日,中國能源研究會能源政策研究中心執行主任、北京師範大學經濟與資源管理研究院林衛斌教授就「十三五」期間能源發展態勢接受中央電視臺記者採訪,並在2020林衛斌教授接受《新聞聯播》採訪林衛斌教授指出,我國「十三五」期間中國的能源發展緊緊圍繞著構建清潔、低碳、安全、高效能源體系這一條主線,超額完成了我們對國際社會的承諾和「十三五」規劃的目標。總體上看,中國的能源發展進入高質量的發展階段。
  • 上海世界頂尖科學家社區啟動,將領跑世界科創下一個二十年
    上海世界頂尖科學家社區,將領跑世界科創下一個二十年。在這裡,將構建全球科學組織聯盟網絡,並以科學性、地標性和開放性締造科學社區。編輯:儲舒婷 圖|袁婧攝
  • 【CIDGA】李小雲教授率學院團隊赴歐亞系統科學研究會交流中非農業合作
    2020年9月7日下午,中國農業大學文科資深講席教授、國際發展與全球農業學院名譽院長李小雲率學院團隊赴歐亞系統科學研究會就中非農業合作進行交流座談
  • 姚桐斌在兄弟英語研究會
    1954年赴聯邦德國亞亨工業大學冶金系鑄造研究室任研究員兼教授助理。1957年回國後,歷任國防部第五研究院一分院材料研究室研究員、主任,材料研究所所長。姚桐斌為我國航天事業的發展做出了卓越的貢獻,被追認為革命烈士,兩彈一星功勳獎章,是國務院、中央軍委表彰的23位兩彈一星功臣之一,3位兩彈一星烈士之一。1945年元月,國立交通大學貴州分校在四川壁山丁家坳複課。
  • 最新最全,UCL計算金融碩士近5年數據大解密
    系所網址:https://www.ucl.ac.uk/computer-science/項目內容:學術背景:申請人必須擁有強大的定量背景,且數學和統計學等科目的分數不低於英國2.1(或國際同等水平)。有關計算金融碩士的課程設置(就業方向)/申請要求/申請資料/申請時間等詳細信息,請參考下方官網:https://www.ucl.ac.uk/prospective-students/graduate/taught-degrees/computational-finance-msc/2019/
  • 濟南市法學會交通法學研究會換屆會議成功召開
    濟南交警支隊智慧辦副主任凌美煌,山東師範大學法學院副院長、教授王德新,山東交通學院交通法學院黨總支書記閆淼、院長範冠峰以及山東從德律師事務所李傳生主任等來自全市法學理論界、實務界的40餘名代表參加會議。
  • AlphaGo 圍棋教學工具已發布
    在Deepmind所謂的「教學工具」發布之前,小編曾在腦海出現萬千猜想……但今天揭底才知道,原來只是一個平平淡淡的網頁……(建議複製到電腦上打開,因為據有的棋友反映手機打不開,小編這裡實測手機能打開,只是讀取了較長時間)https://alphagoteach.deepmind.com
  • 第八屆食品經濟與食品質量安全論壇暨內蒙古食品經濟研究會學術...
    原創 科技信息傳播中心 內蒙古科協1月5日,由內蒙古食品經濟研究會主辦,內蒙古食品商會、內蒙古農業產業化龍頭企業協會協辦的第八屆食品經濟與食品質量安全論壇暨內蒙古食品經濟研究會學術年會在呼和浩特召開
  • 中國未來研究會2020年學術年會在京召開
    2020年11月28日,中國未來研究會2020年學術年會在北京召開,會議主題:疫情對中國和世界的影響。開幕式上,中國科協學會服務中心主任申金升同志到會致辭。 理事長金燦榮代表學會理事會致辭。中國未來研究會首席顧問、著名未來學家秦麟徵同志出席開幕式。學術年會上,中國未來研究會理事長、中國人民大學國際關係學院副院長、金燦榮教授作了《新冠疫情後的世界圖景》的主題學術報告。報告分別從新冠疫情對世界經濟的衝擊、新冠疫情引發世界政治的變化、美國霸權與新自由主義的內在危機、新冠疫情下中國的機遇和挑戰等幾方面,闡述了新冠疫情後中國與世界所面臨的新格局與新走向。
  • 谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了
    谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了(圖片來自於推特)在這款軟體發出之後,柯潔也對這款軟體發表了自己的看法,他認為:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」之所以柯潔會這樣說,主要是因為AlphaGo Zero的練習主要是通過自我對弈在三十天之內發展起來的。
  • 柯潔終結AI「符合預期」41連勝:若當初第一個與alphago對弈的是我
    【文/觀察者網 周遠方】昨夜,「半狗」柯潔贏了一隻41連勝的「小狗」,輾轉難眠…… 他在今天(18日)凌晨0時23分發微博感嘆: 一個AI滿地走的時代...除了alphago以外,這個暱稱為「符合預期」的AI尤其強,實力應該已經遠超當時與李世石對弈的alphago了吧?...
  • 新版Alphago棋風更穩健
    alphago再過一萬年也不可能窮盡所有圍棋的定式。這次比賽其實不是人機大戰,而是人類使用電腦作為工具探索新的東西,就像哈勃望遠鏡讓人類發現新的領域一樣。人工智慧可以幫助專家以更快的速度解決問題。本次比賽的目的也不是alphago還是棋手贏,最終還是人類贏。祝柯潔好運。」來源:網易科技
  • 中國英漢語比較研究會外語學科發展研究專業委員會在上海交通大學...
    8月15日,中國英漢語比較研究會外語學科發展研究專業委員會通過視頻會議形式舉行成立大會。本次大會由中國英漢語比較研究會外語學科發展研究專業委員會主辦,上海交通大學外國語學院承辦。
  • 越南會不會在2045年成為亞洲下一個發達國家?
    越南會不會在2045年成為亞洲下一個發達國家?先說答案,答案是不會!為什麼?雖然越南官方說會在2045年成為高收入國家,但這很明顯是偏離現實的。因為目前越南的人口已經接近上億,比越南人口多的發達國家目前就兩個,一個是美國,一個是日本。
  • 高校分析測試中心研究會青年部2019年度工作會議成功召開
    高校分析測試中心研究會青年部自2017年成立以來,為高校青年分析測試工作者提供了一個良好的交流與合作、創新與發展的平臺。為充分發揮高校分析測試中心在科學研究、學科建設、人才培養和社會服務中的重要作用,進一步推動高校青年分析測試工作者在儀器開放共享、技術培訓、人員考核和激勵機制、實驗室管理等方面的交流,2019年12月6日至7日由高校分析測試中心研究會主辦、重慶大學理學部和分析測試中心承辦的「高校分析測試中心研究會青年部2019年度工作會議」在重慶大學虎溪校區圖書館1F-9會議室舉辦。
  • 中國法學會法學期刊研究會二○二○年年會在南昌舉行
    中國法學會黨組成員、學術委員會主任張文顯教授出席會議並作主旨演講。江西省法學會會長劉鐵流,江西省法學會副會長、南昌大學黨委書記喻曉社,中國法學會法學期刊研究會會長、副會長、常務理事、特邀嘉賓等80餘人參加線下會議。開幕式由中國法學會法學期刊研究會常務副會長、《法學研究》社長張廣興教授主持。喻曉社重點介紹了南昌大學的辦學歷史、重點學科和特色學科。
  • 諸暨三賢研究會成立!重磅紀錄片央視開播!
    諸暨三賢研究會成立!重磅紀錄片央視開播!01 來源:澎湃新聞·澎湃號·政務 昨天上午,諸暨三賢研究會成立大會暨央視
  • 日本人把牛塗成斑馬來研究會不會招蟲子 結果...
    31666342,.日本人把牛塗成斑馬來研究會不會招蟲子