IJTCS | 分論壇日程:多智能體強化學習

2021-03-03 北京大學前沿計算研究中心

首屆國際理論計算機聯合大會(International Joint Conference on Theoretical Computer Science,IJTCS)將於2020年8月17日-21日在線上舉行,由北京大學中國工業與應用數學學會(CSIAM)、中國計算機學會(CCF)、國際計算機學會中國委員會(ACM China Council)聯合主辦,北京大學前沿計算研究中心承辦。  

本次大會的主題為「理論計算機科學領域的最新進展與焦點問題」。大會共設7個分論壇,分別對算法博弈論區塊鏈技術多智能體強化學習機器學習理論量子計算機器學習與形式化方法算法與複雜性等領域進行深入探討。同時,大會特別開設了青年博士論壇女性學者論壇本科生科研論壇,薈集海內外知名專家學者,聚焦理論計算機前沿問題。有關信息將持續更新,敬請關注!

本期帶來「多智能體強化學習」分論壇精彩介紹。

多智能體強化學習是近年來新興的研究領域,它結合博弈論與深度強化學習,致力於解決複雜狀態、動作空間下的群體智能決策問題,在遊戲AI、工業機器人、社會預測等方面具有廣泛的應用前景。當前,中國研究者在多智能體算法收斂性理論、多智能體通訊機制學習算法、大規模多智能體系統等問題取得許多進展,正與全世界的研究者一道推進多智能體強化學習的研究。本次 IJTCS MARL Track 將聚焦多智能體通訊算法、基於世界模型的強化學習算法、多智能體策略評估、多智能體強化學習的解概念等前沿課題,希望與廣大研究者一同探討多智能體強化學習的未來發展方向。

Online Search and Pursuit-Evasion in Robotics

In search and pursuit-evasion problems one team of mobile entities are requested to seek, a set of fixed objects or capture another team of moving objects in an environment. Searching strategy or motion planning plays a key role in any scenario. In this talk we briefly introduce several exploration and search models in an unknown environment, and propose a number of challenging algorithmic problems.

A Distance Function to Nash Equilibrium

Nash equilibrium has long been a desired solution concept in economics and game theoretical studies. Although the related complexity literature closed the door to efficiently compute the exact equilibrium, approximation methods are still sought after in its various application fields, such as online marketing, crowdsourcing, sharing economy and so on. In this paper, we present a new approach to obtain approximate Nash equilibrium in any N-player normal-form zero-sum game with discrete action spaces, which is applicable to solve any general N-player game with some pre-processing. Our approach defines a new measure for the distance between the current joint strategy profile of players and that of a Nash equilibrium. The computing process transforms the task of finding the equilibrium into one of finding a global minimization solution. We solve it based on a gradient descent algorithm and further prove the convergences of our algorithm under moderate assumptions. We next compare our algorithm with baselines by experiments, show consistent and significant improvement in approximate Nash equilibrium computation and show the robustness of the algorithm as the game size increases.

Model-based Multi-Agent Reinforcement Learning

Multi-agent reinforcement learning (MARL) typically suffers from low sample efficiency due to useless multi-agent exploration in the state & joint action space. In single-agent RL tasks, there has been an increasing interest of building environment dynamics model and performing model-based RL to improve the sample efficiency. In this talk, I will perform an attempt to build model-based methods to achieve sample-efficient MARL. First, I will discuss several important settings of model-based MARL tasks and the key challenges there. Then I will delve into the decentralized model-based MARL setting, which can be used on almost all decentralized model-free methods of MARL. Theoretic bound on policy value discrepancy will be derived, based on which an effiicient decentralized model-based MARL algorithm will be introduced. Further, I will show the preliminary experimental results. The final takeaway of this talk will be the discussion of feasibility and challenges of model-based MARL.

Solution Concepts in Multi-agent Reinforcement Learning

Nash equilibrium has long been a well-studied solution concept in game theory. Naturally, multi-agent reinforcement learning algorithms usually set Nash equilibrium as the laerning objective. However, in many situations, other solution concepts such as Stackelberg equilibrium and correlated equilibrium have potential to perform better than Nash equilibrium. In this talk, we will talk about two MARL algorithms, bi-level actor-citic (Bi-AC) and signal instructed coordination (SIC), which aim to solving Stackelberg and correlated equilibrium respectively.

Learning Multi-Agent Cooperation

Cooperation is a widespread phenomenon in nature, from viruses, bacteria, and social amoebae to insect societies, social animals, and humans. It is also crucially important to enable agents to learn to cooperate in multi-agent environments for many applications, e.g., autonomous driving, multi-robot control, traffic light control, smart grid control, network optimization, etc. In this talk, I will focus on the latest reinforcement learning methods for multi-agent cooperation via joint policy learning, communication, agent modeling, etc.

An Overview of Game-Based AI Competitions---From a Perspective of AI Evaluation

Intelligence exists when we measure it! A game-based AI competition explicitly depicts our imagination of intelligence, therefore recently, holding this kind of competition is quite popular in AI conferences such as AAAI, IJCAI. With its bright and accurate definition of problems, unified platform environment, fair performance assessment mechanism, open data set, and benchmark, game-based AI competition has attracted many researchers, thus accelerating the development of artificial intelligence technology.

 

There is a new trend of game-based competitions that hosts a competition for a long time with an online platform, and this will encourage researchers and fans of AI to continuously work on a task and share information at any time. The platform enables us to test the learning ability of bots as well. In this trend, we are facing the problem of evaluating an enormous amount of bots quickly and fairly.

 

Through the collection and analysis of various competitions, this paper finds that the games used in the competitions are becoming more complex, and the techniques used in the matches are also becoming more complex. The judgment for a match becomes more time consuming and sometimes yield results with randomness. These problems, combined with an increase in the number of participants, have led to the need for organizers to improve the race process to produce fair results on time.

 

An emerging MCTS (Monte Carlo Tree Search) based AI evaluation method is worthy of our attention. Hopefully, this method may measure the intelligent levels of a bot quantitatively and possibly compare bots created for different games. Besides the above, measuring a bot’s cooperative ability in a multi-agent (three agents or more) system is still an open problem.

本次大會已經正式面向公眾開放註冊!每位參與者可以選擇免費註冊以觀看線上報告,或是支付一定費用以進一步和講者就報告內容進行交流,深度參與大會的更多環節。

註冊截止:2020年8月15日23:59

點擊 ↓↓↓二維碼↓↓↓ 跳轉註冊頁面

*學生註冊:網站上註冊後需將學生證含有個人信息和學校信息的頁拍照發送至IJTCS@pku.edu.cn,郵件主題格式為"Student Registration + 姓名"。

John Hopcroft

中國科學院外籍院士、北京大學訪問講席教授

張平文

中國科學院院士、CSIAM理事長、北京大學教授

大會網站:

https://econcs.pku.edu.cn/ijtcs2020/IJTCS2020.html

註冊連結:

https://econcs.pku.edu.cn/ijtcs2020/Registration.htm

大會贊助、合作等信息,請聯繫:IJTCS@pku.edu.cn

—   版權聲明  —

本微信公眾號所有內容,由北京大學前沿計算研究中心微信自身創作、收集的文字、圖片和音視頻資料,版權屬北京大學前沿計算研究中心微信所有;從公開渠道收集、整理及授權轉載的文字、圖片和音視頻資料,版權屬原作者。本公眾號內容原作者如不願意在本號刊登內容,請及時通知本號,予以刪除。

相關焦點

  • IJTCS | 分論壇日程:算法博弈論
    本次大會的主題為「理論計算機科學領域的最新進展與焦點問題」,誠邀國內外多位計算機科學領域的專家學者,旨在交流與討論理論計算科學最新的發展,同時對理論計算科學領域分支中備受關注的算法博弈論、區塊鏈技術、多智能體強化學習、機器學習理論
  • 北大NeurIPS19論文提出多智能體強化學習方法FEN
    機器之心報導機器之心編輯部近日,北京大學盧宗青團隊提出了一種新的多智能體強化學習方法 Fair-Efficient Network(FEN,「分」),用於多個智能體學習提升系統效率並同時保持公平。公平有助於人類社會的穩定和生產力的提高,同樣對於多智能體系統也十分重要。然而讓一組智能體學習提升系統效率並同時保持公平是一個複雜的、多目標的、聯合策略優化問題。目前主流的多智能體強化學習算法沒有考慮公平性的問題,一些針對特定情景公平性的方法又依賴專家知識,這對於一般性情景並不適用。
  • [Paper精讀 | 多智能體強化學習算法:QMIX]
    《QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning》QMIX: 一種多智能體深度強化學習的 單調值函數分解方法作者Tabish Rashid 、 Mikayel
  • 【萬字總結】基於多智能體強化學習的《星際爭霸II》中大師級水平的技術研究
    關鍵詞:星際爭霸;監督學習;強化學習;多智能體學習‍‍‍‍‍‍‍‍‍‍‍‍‍在許多實際應用的複雜環境中,往往需要人工智慧體與其他智能體互相協調與競爭。,強化學習和多智能體學習。為了應對博弈論的挑戰,引入了一種多智能體強化學習的算法對聯盟進行訓練,與西洋棋和圍棋[18]中使用的算法類似,自我對弈算法學習迅速,但可能會無限期地進行循環(例如,A打敗B,B打敗c,但A輸給c),而沒有取得進步[19]。
  • DeepMind 在多智能體強化學習方面又有了新進展,最新成果登上...
    然而,智能體如何在邊界開放、約束動態的環境下學習到知識,並且進行團隊協作仍然是極具挑戰的難題。DeepMind 近年來針對基於種群的多智能體強化學習進行了大量的研究,其最新研究成果近日發表在了國際權威雜誌「Science」上。DeepMind 發博客將這一成果進行了介紹,雷鋒網 AI 科技評論編譯如下。
  • AlphaGo原來是這樣運行的,一文詳解多智能體強化學習基礎和應用
    此外,作者還以 AlphaGo、AlphaStar為例,概述了多智能體強化學習的實際應用。近年來,隨著強化學習(reinforcement learning)在多個應用領域取得了令人矚目的成果,並且考慮到在現實場景中通常會同時存在多個決策個體(智能體),部分研究者逐漸將眼光從單智能體領域延伸到多智能體。
  • AlphaGo原來是這樣運行的,一文詳解多智能體強化學習的基礎和應用
    最後,本文列舉深度強化學習在多智能體研究工作中提出的一些方法(multi-agent deep reinforcement learning)。1. 強化學習和多智能體強化學習我們知道,強化學習的核心思想是「試錯」(trial-and-error):智能體通過與環境的交互,根據獲得的反饋信息迭代地優化。
  • 智能決策論壇系列解讀 | 深度強化學習理論和算法
    智能體在與環境的交互中根據獲得的獎勵或懲罰不斷學習新知識,進而更加適應環境。深度強化學習的範式非常類似於我們人類學習知識的過程,也正因此,深度強化學習被視為實現通用AI的重要途徑。深度強化學習將具有環境「感知」能力的深度學習和具有策略「決策」能力的強化學習融合,形成能夠直接處理高維複雜信息作為輸入的優化決策方法。
  • ICCV 2019 | 曠視研究院推出基於深度強化學習的繪畫智能體
    曠視研究院共有 11 篇接收論文,涵蓋通用物體檢測及數據集、文字檢測與識別、半監督學習、分割算法、視頻分析、影像處理、行人/車輛再識別、AutoML、度量學習、強化學習、元學習等眾多領域。在此之前,曠視研究院將每周介紹一篇 ICCV 2019 接收論文,助力計算機視覺技術的交流與落地。
  • DeepMind提出SPIRAL:使用強化對抗學習,實現會用畫筆的智能體
    近日,DeepMind 發布博客,提出一種結合了對抗訓練和強化學習的智能體 SPIRAL。該智能體可與繪圖程序互動,在數位畫布上畫畫、改變筆觸的大小、用力和顏色,並像街頭藝人一樣畫畫。這與最近的研究《A Neural Representation of Sketch Drawings》恰恰相反,後者目前仍依賴於從人類演示中學習,是一個時間密集型的過程。DeepMind 設計了一種深度強化學習智能體,該智能體可與計算機繪圖程序(http://mypaint.org/)互動,在數位畫布上畫畫、改變筆觸的大小、用力和顏色。
  • 多任務深度強化學習綜述
    本文的目的是survey DRL領域中與多任務相關的研究挑戰,並通過比較sota方法——DISTRAL (DIStill & TRAnsfer Learning), IMPALA(Importance Weighted Actor-Learner Architecture)和 PopArt,希望解決可擴展性、分心困境、部分可觀察性、災難性遺忘和負面知識遷移等多任務強化學習的核心挑戰。
  • IJTCS | 大會特邀報告介紹(一)
    Sloan Research Fellow 等榮譽應明生雪梨科技大學傑出教授,主要研究領域包括形式化方法、量子計算與量子信息、計算機科學與人工智慧中的邏輯學、模糊邏輯等汪  軍英國倫敦大學學院教授、阿蘭·圖靈研究所Turing Fellow,研究領域為多智能體強化學習、博弈論、
  • 李飛飛提出深度進化強化學習新框架:創建具身智能體學會動物進化法則
    研究人員稱,AI智能體也可以很快學會動物的這種智能行為,但目前推動具身認知面臨很多挑戰。最近斯坦福李飛飛教授等人的研究「深度進化強化學習」有了突破,首次證明了「鮑德溫效應」。智能體/代理(Agents)是人工智慧領域的一個主要研究課題,分為非具身智能和具身智能。
  • 強化學習總體介紹-初步搭建強化學習理論體系(一)
    前言兩年前接觸強化學習是通過莫煩的課程,那時候對強化學習整體有一個基礎的認識,最近聽了David Silver的課程後又建立起了完整的強化學習體系,故連載
  • 《星際爭霸II》中多智能體的群體博弈策略解讀
    編輯|猩算法多智能體強化學習是強化學習的一個重要研究領域。它通過與環境的不斷交互來學習每個狀態的獎勵值函數,再通過獎勵值函數獲得最優策略。在星際爭霸中,群體博弈便運用了這項技術。作者從遊戲層面和算法層面提出了強化學習解決星際爭霸2中AI遇到的重大挑戰及解決方案。
  • 澳門大學講座教授陳俊龍:從深度強化學習到寬度強化學習:結構,算法...
    在越來越多的複雜現實場景任務中,需要利用深度學習、寬度學習來自動學習大規模輸入數據的抽象表徵,並以此表徵為依據進行自我激勵的強化學習,優化解決問題的策略。深度與寬度強化學習技術在遊戲、機器人控制、參數優化、機器視覺等領域中的成功應用,使其被認為是邁向通用人工智慧的重要途徑。
  • 強化學習簡介(一)
    強化學習被認為是機器學習的三大範式(監督學習、無監督學習、強化學習)之一,它具有如下特徵:1)、沒有監督,即學習對象得不到直接的指導(如行動對與錯);而是得到一個獎勵信號,或者說,不直接判定某個狀態或行動的好壞,而是給出一個獎勵; 2)、行動的獎勵不及時,或者說,反饋是有延遲的。
  • 深度強化學習核心技術實戰培訓班
    而深度強化學習,作為一種嶄新的機器學習方法,同時具有感知能力和決策能力,它是深度學習與強化學習的結合,二者的結合涵蓋眾多算法、規則、框架,並廣泛應用於機器人控制、多智能體、推薦系統、多任務遷移等眾多領域,具有極高的研究與應用價值。
  • 深度強化學習——從DQN到DDPG
    前些年開始興起的深度學習,剛好可以應對高維的輸入,如果能將兩者結合,那麼將使智能體同時擁有深度學習的理解能力和強化學習的決策能力。2013和2015年DeepMind的DQN可謂是將兩者成功結合的開端,它用一個深度網絡代表價值函數,依據強化學習中的Q-Learning,為深度網絡提供目標值,對網絡不斷更新直至收斂。