引言:2020年9月,由中國科學院自動化研究所主辦的首屆智能決策論壇成功舉辦,20餘位專家學者齊聚線上,圍繞智能決策相關研究和應用方向進行了精彩的學術報告與交流研討。其中深度強化學習理論和算法是本次論壇的熱點話題之一,吸引了許多學者的關注。
深度強化學習(Deep Reinforcement Learning, DRL)是機器學習的一個分支,相較於機器學習中經典的監督學習和無監督學習問題,其最大特點是在交互中學習(Learning from Interaction),也可認為是一種自監督學習方式。智能體在與環境的交互中根據獲得的獎勵或懲罰不斷學習新知識,進而更加適應環境。深度強化學習的範式非常類似於我們人類學習知識的過程,也正因此,深度強化學習被視為實現通用AI的重要途徑。
深度強化學習將具有環境「感知」能力的深度學習和具有策略「決策」能力的強化學習融合,形成能夠直接處理高維複雜信息作為輸入的優化決策方法。深度學習不僅能夠為強化學習帶來端到端優化的便利,而且使得強化學習不再受限於低維的空間中,極大地拓展了強化學習的使用範圍。利用深度強化學習方法,智能體在與環境的交互過程中,根據獲得的獎勵或懲罰不斷地學習知識、更新策略以更加適應環境。
目前深度強化學習已經取得了一系列舉世矚目的成就,包括在49個Atari視頻遊戲上得分超越人類職業玩家水平的DQN算法、完全信息博弈下的圍棋AI-AlphaGo,對稱開局博弈的西洋棋與日本將棋AI-AlphaZero、部分可觀測信息下的第一人稱團隊協作射擊類(FPS)任務、不完全信息即時戰略遊戲星際爭霸II AI-AlphaStar、多人實時在線競技遊戲Dota2 AI-OpenAI Five,以及非完全多人信息博弈麻將AI-Suphx等。在上述複雜環境下的決策任務中,以深度強化學習方法作為核心決策優化算法均已達到甚至超越人類頂尖玩家水平。
除遊戲之外,近年來深度強化學習正被逐漸應用於許多工程領域,如機器人控制、自然語言處理、自動駕駛、推薦搜索系統等。到目前為止,深度強化學習仍處於興起階段,屬於人工智慧方向的新興研究領域,擁有廣闊的發展前景。
現有的深度強化學習方法,如取得矚目成果的AlphaGo、AlphaStar等,大都是無模型(model-free)的。這類方法在訓練時,需要從系統環境中採集大量的樣本數據,訓練效果也不一定理想,容易產生數據效率低的問題,可能導致對計算資源與時間成本的浪費。針對這些問題,一些基於模型(model-based)的強化學習方法被提出,基於模型的方法一般先從數據中學習模型,然後再基於學到的模型對策略進行優化,其過程和控制論中的系統參數辨識類似。在實際應用中,這兩種方法互有利弊。
在本次智能決策論壇中,上海交通大學副教授張偉楠對這兩種方法進行了一些比較:基於模型的強化學習具有on-policy、高數據效率等優點,與環境進行較少交互即可達到很好的效果,但它受到模型複合誤差的影響,訓練結果的最優性不一定能夠得到保證;而無模型的強化學習具有最優漸進性能、更適合大數據的優點,卻存在著off-policy導致訓練不穩定以及較低的數據效率需要大量的交互樣本支持等問題。
對基於模型的強化學習,張偉楠也給出了一些模型建模的改進方法,如PETS(Probabilistic Ensembles with Trajectory Sampling):通過一組輸出為高斯分布均值和方差的神經網絡來建模,採樣時先隨機採樣一個高斯分布,再在高斯分布基礎上進行採樣得到下一個狀態。PETS方法提升了在新數據上的泛化性能,同時也能夠捕捉環境輸出採樣本身的隨機性。為了減小基於模型強化學習方法的複合誤差,張偉楠提出了一種基於雙向建模的BMPO算法(Bidirectional Model-based Policy Optimization),其利用正反雙向建模更有效地約束複合誤差,然後通過基於玻爾茲曼分布的採樣策略和模型預測控制方法來得到更有價值的軌跡,並在理論與實驗中證明了BMPO方法在訓練速度、採樣效率和模型複合誤差上都達到了更好的效果。
張偉楠作報告
在通過深度強化學習方法解決一些問題時,經常會有一些處理類似問題的經驗,如果能夠在學習目標任務時借鑑這些先驗知識,就可以減少所需的數據量,從而提高學習效率。然而當前的深度強化學習算法大多只關注單一任務場景下的決策訓練及模型優化,這就導致學習到的基本策略只適用於當前訓練環境,無法直接採用先前的數據集和訓練模型。如何使強化學習策略利用過去任務中獲得的經驗是目前的研究難點之一,在本次智能決策論壇中,南京大學副教授章宗長就針對這一問題提出了一種解決思路——將遷移學習與強化學習結合。
章宗長在報告中提出了兩種遷移強化學習的方法:第一種是基於策略重用的策略遷移框架PTF(Policy Transfer Framework):在強化學習框架中引入選項模塊,即根據輸入的經驗元組,給智能體輸出有價值的源策略知識,並將其用作目標策略的一個補充優化目標。PTF能夠學習到將源策略重用到目標策略的最優方案,然後將多策略遷移建模為選項學習問題,並學習到何時終止源策略。章宗長介紹的第二種方法就是貝葉斯策略重用BPR(Bayesian Policy Reuse)算法及其拓展。BPR引入了性能模型、信念等概念,使智能體面對未知任務時,可用貝葉斯方法學習最優的響應策略。在此基礎上,還可以將BPR擴展至多智能體系統,使其擁有非穩態環境中的在線學習能力,並能夠發現對手的策略切換,在線調整策略。為了克服BPR+算法中存在的僅採用獎勵信號更新信念模型、無法應對複雜的馬爾可夫博弈過程等問題,章宗長又進一步提出一種深度BPR+算法:採用神經網絡作為值函數的逼近器,使用獎賞信號和對手模型更新信念模型;同時使用蒸餾策略網絡作為在線策略學習的初始策略,並通過策略存儲實現高效空間利用。目前深度BPR+算法已在一些博弈任務中實現了良好的效果。
章宗長作報告
非完全信息博弈在許多方面都有重要應用,如棋牌娛樂、金融市場與拍賣類經濟活動、軍事資源配置與戰場調度等。目前許多強化學習方法已經較完備地解決了在完全信息條件下的決策問題,但在非完全信息場景下,一個子博弈的求解或許會與另外的子博弈產生關聯,其他智能體的位置狀態也會破壞強化學習中馬爾可夫過程的基本假設,因此難以求出納什均衡解。此外,還可能存在一個狀態不可分的信息集,使得傳統方法難以估計狀態值,因而無法區分信息集的狀態。為解決上述問題,中山大學副教授餘超在本次論壇的報告中介紹了一些可行方法。
首先,餘超介紹了反事實後悔最小化方法 CFR(CounterFactual Regret Minimization)。CFR與強化學習類似,不同之處在於其需要計算出反事實後悔值,用來表示某個行為帶來的效用提升,策略則根據每個信息集的後悔值進行更新,後悔值越大,越能選出較好的動作值。為了提高CFR的效率並降低方差,餘超將CFR與神經網絡結合起來:一個網絡作為後悔值網絡,一個網絡作為效用值均值網絡,然後通過深度學習來訓練優勢網絡。隨後,餘老師介紹了我們應如何改進現有的強化學習方法令其適用於非完全信息博弈:首先可以對傳統的強化學習的機制或訓練方式進行提升(如NFSP、RPQ),其次可以將一些搜索和規劃的方法引入進來,最後可以對對手進行建模(如UFO)。
為了實現深度強化學習在不完全信息博弈中的應用,餘超又介紹了一種強化學習的改進算法:NFSP(Neural Fictitious Self Play)。在NFSP中,智能體和博弈中的其他參與者進行交互,並記住自身關於博弈狀態轉移的經驗和行為。NFSP 將這些記憶分成兩個數據集,一個通過深度強化學習訓練Q網絡,一個通過監督學習訓練過去的平均策略。在選取動作時,智能體會以一定概率從Q網絡和平均策略網絡中分別進行策略選擇並更新。因此在博弈過程中,智能體可以從這兩種混合策略中擇優進行選取。
餘超作報告
深度強化學習在遊戲和機器系統上的不斷成功吸引著研究者們思考是否能將關鍵技術和方法應用在更為複雜的決策任務上,例如群體行為的指揮和引導、社會政策的制定和實施等。這類問題典型特點是系統狀態空間巨大、動力學模型巨複雜,直接與之交互很難產生大量的有效訓練數據。然而近年來隨著對這類複雜系統的研究,越來越多的群體模型和社會模型被建立起來,並被證實能夠有效反映真實場景的運行過程和演化機制。因而將基於模型的強化學習方法和現有的模型理論相結合,為解決這些複雜群體和社會決策問題提供了技術上的可能。在本次智能決策論壇中,各位專家學者提出的一些深度強化理論和算法有望在不完全信息博弈、多目標任務、動態場景等條件下實現良好的應用效果,這類算法也會成為下一個十年人工智慧領域的重要研究方向。
掃碼即可查看論壇嘉賓報告回放
向公眾號後臺發送嘉賓姓名,即可獲得相應的PPT下載連結
(部分嘉賓報告視頻及PPT目前暫未公開)