兼顧公平與效率?北大NeurIPS19論文提出多智能體強化學習方法FEN

2020-12-16 手機鳳凰網

機器之心報導

機器之心編輯部

近日,北京大學盧宗青團隊提出了一種新的多智能體強化學習方法 Fair-Efficient Network(FEN,「分」),用於多個智能體學習提升系統效率並同時保持公平。這一新方法對任務調度、馬太效應和工廠生產等實際情景具有重要意義,該論文已被人工智慧頂會 NeurIPS 2019 錄用。

公平有助於人類社會的穩定和生產力的提高,同樣對於多智能體系統也十分重要。然而讓一組智能體學習提升系統效率並同時保持公平是一個複雜的、多目標的、聯合策略優化問題。目前主流的多智能體強化學習算法沒有考慮公平性的問題,一些針對特定情景公平性的方法又依賴專家知識,這對於一般性情景並不適用。

作者提出一種分層多智能體強化學習方法 Fair-Efficient Network(FEN,「分」),從三個方面解決這一問題:

  • 提出 fair-efficient reward,用於學習效率與公平。
  • 提出一種 hierarchy 架構,降低學習難度。
  • 提出 FEN 的分布式訓練方法。

在作者的設定中,環境中存在若干智能體和有限的資源,如內存、帶寬等。每個智能體獲得的環境外部獎勵只與自己所佔據的資源相關。每個智能體的效用 u 定義為在時間域上的平均獎勵,使用 coefficient of variation 來衡量系統公平性。

Fair-efficient reward

每個智能體的 fair-efficient reward 設計為:

其中分子項表示系統的平均效用,用來促進效率,分母項表示該智能體效用偏離平均值的偏差。因此 fair-efficient reward 兼顧了公平與效率。另外,作者證明了在強化學習設定下,若每個智能體使自己的 fair-efficient reward 最大化,可以實現帕累託最優和資源的平均分配。

Hierarchy

然而學習 fair-efficient reward 依然是困難的,因為效率與公平在某些狀態下是衝突的,因此作者提出一種 hierarchy 架構,用於降低學習難度。

每個智能體擁有一個 hierarchy 結構,包含一個 controller 和若干 sub-policies。每經過 T 時間步,controller 選擇一個 sub-policy 與環境交互,並獲得 fair-efficient reward。1 號 sub-policy 獲得環境外部獎勵,專注於學習如何佔據資源。而對於其他 sub-policies 來說,作者提出一種資訊理論優化目標,用於探索多樣的公平行為。目標包括兩項,第一項是 sub-policy 的序號與 sub-policy 下觀察的互信息,第二項是動作的熵正則。

對於 controller 來說,避免了與環境的直接交互,能夠實現長遠規劃;對於 sub-policy 來說,只需要專注於自己易於優化的目標,降低了學習難度。

Hierarchy 架構

實驗

作者在三個情景中進行了實驗

  • Job Scheduling 環境中存在 4 個智能體和 1 個資源,智能體佔據資源會獲得獎勵,資源在同一時刻只能被一個智能體佔據。
  • The Matthew Effect 環境中存在 10 個 Pac-men 和若干 ghosts。Pac-man 吃掉 ghost 會獲得獎勵,並且體積和速度變大,更容易吃其他 ghost,因此強者越強。
  • Manufacturing Plant 環境中存在 5 個智能體和不同種類的礦石,每個智能體採集不同的礦石來生產不同的零件,最終的產量取決於數目最少的零件。

在實驗中,相比其他的 baselines,FEN 取得了接近最高的資源利用率和最低的 CV,並且在第三個實驗中取得了最高的產量,這說明 FEN 智能體學會了兼顧效率與公平。

Job Scheduling

Manufacturing Plant

對比使用或者不使用 hierarchy 結構的 FEN,發現使用了 hierarchy 以後學習速度更快且收斂到更高的 fair-efficient reward,證明 hierarchy 能夠顯著降低學習難度。

隨後作者分析了 controller 的行為模式,發現當智能體效用低於平均效用時,controller 傾向於選擇 1 號 sub-policy 來佔據更多資源,否則傾向於選擇其他 sub-policy 來保持公平。這說明 controller 能夠理智地切換策略使 fair-efficient reward 最大化。

為了分析除去 1 號之外其他 sub-policies 的行為,作者將三個 ghosts 置於環境中央,可視化三個 sub-policies 的分布(左)和隨機策略的分布(右),可以發現:

  • Sub-policies 能夠遠離三個 ghosts 來保持公平。
  • 三個 sub-policies 分布互不相同,達到了資訊理論目標的預期。

下面是在實驗 Job Scheduling 中,「分」智能體(上)和獨立決策智能體(下)的行為可視化比較。

相關焦點

  • [Paper精讀 | 多智能體強化學習算法:QMIX]
    通過一段時間的論文閱讀,我覺得閱讀必須要有輸出,不然理解的很難深刻,本文借鑑「一文七問」的解讀角度,結合自己調整,將從以下7個角度解讀這篇多智能體領域的經典大作:QMIX(被引293):背景動機、現有方法及問題、本文提出方法、實驗方法及結果、結論、創新點及相關工作論文簡介標題
  • DeepMind 在多智能體強化學習方面又有了新進展,最新成果登上...
    然而,智能體如何在邊界開放、約束動態的環境下學習到知識,並且進行團隊協作仍然是極具挑戰的難題。DeepMind 近年來針對基於種群的多智能體強化學習進行了大量的研究,其最新研究成果近日發表在了國際權威雜誌「Science」上。DeepMind 發博客將這一成果進行了介紹,雷鋒網 AI 科技評論編譯如下。
  • DeepMind提出SPIRAL:使用強化對抗學習,實現會用畫筆的智能體
    近日,DeepMind 發布博客,提出一種結合了對抗訓練和強化學習的智能體 SPIRAL。該智能體可與繪圖程序互動,在數位畫布上畫畫、改變筆觸的大小、用力和顏色,並像街頭藝人一樣畫畫。這與最近的研究《A Neural Representation of Sketch Drawings》恰恰相反,後者目前仍依賴於從人類演示中學習,是一個時間密集型的過程。DeepMind 設計了一種深度強化學習智能體,該智能體可與計算機繪圖程序(http://mypaint.org/)互動,在數位畫布上畫畫、改變筆觸的大小、用力和顏色。
  • NeurIPS論文解讀|強化學習與自動機器學習(文末贈書)
    強化學習是近年來大放異彩的機器學習技術之一,基於這種技術開發的人工智慧模型已經在圍棋、撲克、視頻遊戲和機器人等領域取得了非常多的裡程碑式的進步。騰訊 AI Lab的 NeurIPS 2019 入選論文中有三篇與強化學習有關,這三篇論文針對不同方向的任務分別提出了兩種不同的新的算法以及一種新的多智能體學習策略。
  • 李飛飛提出深度進化強化學習新框架:創建具身智能體學會動物進化法則
    研究人員稱,AI智能體也可以很快學會動物的這種智能行為,但目前推動具身認知面臨很多挑戰。最近斯坦福李飛飛教授等人的研究「深度進化強化學習」有了突破,首次證明了「鮑德溫效應」。智能體/代理(Agents)是人工智慧領域的一個主要研究課題,分為非具身智能和具身智能。
  • AlphaGo原來是這樣運行的,一文詳解多智能體強化學習基礎和應用
    然後,根據具體應用中智能體之間的關係,將多智能體問題分為完全合作式、完全競爭式、混合關係式三種類型,並簡要闡述解決各類多智能體問題的經典算法。最後,本文列舉深度強化學習在多智能體研究工作中提出的一些方法(multi-agent deep reinforcement learning)。1.
  • ICCV 2019 | 曠視研究院推出基於深度強化學習的繪畫智能體
    曠視研究院共有 11 篇接收論文,涵蓋通用物體檢測及數據集、文字檢測與識別、半監督學習、分割算法、視頻分析、影像處理、行人/車輛再識別、AutoML、度量學習、強化學習、元學習等眾多領域。在此之前,曠視研究院將每周介紹一篇 ICCV 2019 接收論文,助力計算機視覺技術的交流與落地。
  • AlphaGo原來是這樣運行的,一文詳解多智能體強化學習的基礎和應用
    最後,本文列舉深度強化學習在多智能體研究工作中提出的一些方法(multi-agent deep reinforcement learning)。1. 強化學習和多智能體強化學習我們知道,強化學習的核心思想是「試錯」(trial-and-error):智能體通過與環境的交互,根據獲得的反饋信息迭代地優化。
  • EMNLP 2019論文分享|神經網絡機器翻譯多智能體聯合學習模型
    在此背景下,百度翻譯團隊近期提出業內首個神經網絡機器翻譯多智能體聯合學習模型(MAL),顯著提升了單智能體的學習能力,在多個機器翻譯測試集合上刷新了當前最好結果(SOTA)。相比於傳統的神經網絡翻譯模型,MAL具有如下創新點:(1)提出了一種適應多智能體聯合學習的訓練框架,通過將多智能體之間的多對多學習問題轉化為一對多學習問題,能夠高效支持多個智能體聯合學習。
  • ...Atari能走迷宮,牛津大學的新型強化學習方法有多牛? | ICLR 2017
    而在今年的 ICLR 2017,來自牛津大學的Max Jaderberg等研究者在 oral paper 論文《Reinforcement Learning With Unsupervised Auxiliarys Tasks 》中介紹了一個智能體,它既可以通過強化學習,學習單獨的策略,同時也可以最大限度地發揮許多其他的偽回報功能。
  • 玩轉Atari能走迷宮,牛津大學的新型強化學習方法有多牛?|ICLR2017
    在這個深度學習會議舉辦之前,雷鋒網也將圍繞會議議程及論文介紹展開一系列的覆蓋和專題報導,敬請期待。深層強化學習通過直接最大化累積回報獲得最先進的成果。 然而,環境中還包含著很多種類的潛在訓練信號。以下為AI科技評論據論文內容進行的部分編譯。不論是自然界還是人工創造,智能體都生活在感覺運動數據流中。 在每個時間步驟t,智能體接收觀察的信息ot並執行動作a。 這些行為將影響感覺運動流的未來過程。 研究人員開發了通過解決大量強化學習問題來學習預測和控制感覺運動流的智能體,每個智能體都集中在學習感覺運動流的特徵上。
  • 將離策略評估看作分類,谷歌提出新型強化學習模型選擇方法OPC
    谷歌最近提出一種新型離策略評估方法——離策略分類,將評估視為一個分類任務,根據過去的數據評估智能體的性能,其中智能體的動作「action」被標註為「可能導致成功」或「一定導致失敗」。OPC 可以擴展到更廣泛的任務,包括現實世界中基於視覺的機器人抓取任務。強化學習(RL)是一種讓智能體根據經驗學習決策的框架。
  • IJTCS | 分論壇日程:多智能體強化學習
    大會共設7個分論壇,分別對算法博弈論、區塊鏈技術、多智能體強化學習、機器學習理論、量子計算、機器學習與形式化方法和算法與複雜性等領域進行深入探討。本期帶來「多智能體強化學習」分論壇精彩介紹。多智能體強化學習是近年來新興的研究領域,它結合博弈論與深度強化學習,致力於解決複雜狀態、動作空間下的群體智能決策問題,在遊戲AI、工業機器人、社會預測等方面具有廣泛的應用前景。
  • 學界 | DeepMind提出元梯度強化學習算法,顯著提高大規模深度強化學習應用的性能
    ,提出一種基於梯度的元學習算法,可以在線調整元參數,使得回報既能適應具體問題,又能隨著時間動態調整以適應不斷變化的學習環境。強化學習(RL)的核心目標是優化智能體的回報(累積獎勵)。一般通過預測和控制相結合的方法來實現這一目標。預測的子任務是估計價值函數,即在任何給定狀態下的預期回報。理想情況下,這可以通過朝著真值函數(true value function)的方向不斷更新近似價值函數來實現。控制的子任務是優化智能體選擇動作的策略,以最大化價值函數。理想情況下,策略只會在使真值函數增加的方向上更新。
  • 【萬字總結】基於多智能體強化學習的《星際爭霸II》中大師級水平的技術研究
    關鍵詞:星際爭霸;監督學習;強化學習;多智能體學習‍‍‍‍‍‍‍‍‍‍‍‍‍在許多實際應用的複雜環境中,往往需要人工智慧體與其他智能體互相協調與競爭。,強化學習和多智能體學習。研究學者也將強化學習用於遊戲中控制部隊的研究[7,34,42-44],並提出了模仿學習來熟悉部隊和構造建築[45]。最近,深度學習被用來預測遊戲的未來趨勢[46]。自公共應用程式編程接口(API)[7]發布以來,《星際爭霸II》同樣擁有一個活躍的機器人社區[3]。
  • NeurIPS 2019|騰訊AI Lab詳解入選論文,含模仿學習、強化學習、自動機器學習等主題
    強化學習是近年來大放異彩的機器學習技術之一,基於這種技術開發的人工智慧模型已經在圍棋、撲克、視頻遊戲和機器人等領域取得了非常多的裡程碑式的進步。騰訊 AI Lab的 NeurIPS 2019 入選論文中有三篇與強化學習有關,這三篇論文針對不同方向的任務分別提出了兩種不同的新的算法以及一種新的多智能體學習策略。
  • DDPG:針對連續動作空間的深度強化學習方法
    為了有效解決上述問題,深度強化學習有效的將強化學習的決策優勢和深度學習的強大表徵能力相結合,如圖3所示,使用強化學習定義問題和優化目標,使用深度學習來求解策略函數或者價值函數,在很多任務上均取得了巨大的成功。
  • NIPS2019 | 深度強化學習重點論文解讀
    for Reinforcement Learning by Evaluating the Optimal Bias Function該論文提出了一種基於面對不確定性(OFU)原理的算法,該算法能夠有效地學習具有有限狀態作用空間的馬爾可夫決策過程(MDP)建模的強化學習(RL),其通過評估最優偏差函數的狀態對差異,在h*跨度的上限H的情況下,提出的算法實現了具有S狀態和A動作的MDP的後悔界限
  • 17歲高中生都發AI論文了!OpenAI實習生提出分層強化學習新算法
    下面,讓我們看看 OpenAI 博客是如何解讀 Frans 這篇論文的。OpenAI 開發了一個分層強化學習算法,它通過學習高級動作以完成一系列任務,比如快速完成需要數千時間步的任務。OpenAI 把算法應用到導航問題時,發現了一組向不同方向步行和爬行的高級動作,這能幫助智能體快速掌握導航任務。
  • DeepMind綜述深度強化學習中的快與慢,智能體應該像人一樣學習
    不過雖然它們很強大,但學習效率的低下讓它們很難推廣到更普遍的任務,也許結合「快」與「慢」的學習才是強化學習應該走的路。DeepMind 研究者近期在 Trends In Cognitive Sciences 期刊上發表文章,概覽了深度強化學習中的一些新技術,這些技術旨在彌補強化學習智能體與人類之間的學習速度鴻溝。