機器之心報導
機器之心編輯部
近日,北京大學盧宗青團隊提出了一種新的多智能體強化學習方法 Fair-Efficient Network(FEN,「分」),用於多個智能體學習提升系統效率並同時保持公平。這一新方法對任務調度、馬太效應和工廠生產等實際情景具有重要意義,該論文已被人工智慧頂會 NeurIPS 2019 錄用。
公平有助於人類社會的穩定和生產力的提高,同樣對於多智能體系統也十分重要。然而讓一組智能體學習提升系統效率並同時保持公平是一個複雜的、多目標的、聯合策略優化問題。目前主流的多智能體強化學習算法沒有考慮公平性的問題,一些針對特定情景公平性的方法又依賴專家知識,這對於一般性情景並不適用。
作者提出一種分層多智能體強化學習方法 Fair-Efficient Network(FEN,「分」),從三個方面解決這一問題:
在作者的設定中,環境中存在若干智能體和有限的資源,如內存、帶寬等。每個智能體獲得的環境外部獎勵只與自己所佔據的資源相關。每個智能體的效用 u 定義為在時間域上的平均獎勵,使用 coefficient of variation 來衡量系統公平性。
Fair-efficient reward
每個智能體的 fair-efficient reward 設計為:
其中分子項表示系統的平均效用,用來促進效率,分母項表示該智能體效用偏離平均值的偏差。因此 fair-efficient reward 兼顧了公平與效率。另外,作者證明了在強化學習設定下,若每個智能體使自己的 fair-efficient reward 最大化,可以實現帕累託最優和資源的平均分配。
Hierarchy
然而學習 fair-efficient reward 依然是困難的,因為效率與公平在某些狀態下是衝突的,因此作者提出一種 hierarchy 架構,用於降低學習難度。
每個智能體擁有一個 hierarchy 結構,包含一個 controller 和若干 sub-policies。每經過 T 時間步,controller 選擇一個 sub-policy 與環境交互,並獲得 fair-efficient reward。1 號 sub-policy 獲得環境外部獎勵,專注於學習如何佔據資源。而對於其他 sub-policies 來說,作者提出一種資訊理論優化目標,用於探索多樣的公平行為。目標包括兩項,第一項是 sub-policy 的序號與 sub-policy 下觀察的互信息,第二項是動作的熵正則。
對於 controller 來說,避免了與環境的直接交互,能夠實現長遠規劃;對於 sub-policy 來說,只需要專注於自己易於優化的目標,降低了學習難度。
Hierarchy 架構
實驗
作者在三個情景中進行了實驗
在實驗中,相比其他的 baselines,FEN 取得了接近最高的資源利用率和最低的 CV,並且在第三個實驗中取得了最高的產量,這說明 FEN 智能體學會了兼顧效率與公平。
Job Scheduling
Manufacturing Plant
對比使用或者不使用 hierarchy 結構的 FEN,發現使用了 hierarchy 以後學習速度更快且收斂到更高的 fair-efficient reward,證明 hierarchy 能夠顯著降低學習難度。
隨後作者分析了 controller 的行為模式,發現當智能體效用低於平均效用時,controller 傾向於選擇 1 號 sub-policy 來佔據更多資源,否則傾向於選擇其他 sub-policy 來保持公平。這說明 controller 能夠理智地切換策略使 fair-efficient reward 最大化。
為了分析除去 1 號之外其他 sub-policies 的行為,作者將三個 ghosts 置於環境中央,可視化三個 sub-policies 的分布(左)和隨機策略的分布(右),可以發現:
下面是在實驗 Job Scheduling 中,「分」智能體(上)和獨立決策智能體(下)的行為可視化比較。