澳門大學講座教授陳俊龍:從深度強化學習到寬度強化學習:結構,算法...

2020-12-25 雷鋒網

雷鋒網 AI 科技評論按:2018 年 5 月 31 日-6 月 1 日,中國自動化學會在中國科學院自動化研究所成功舉辦第 5 期智能自動化學科前沿講習班,主題為「深度與寬度強化學習」。

如何賦予機器自主學習的能力,一直是人工智慧領域的研究熱點。在越來越多的複雜現實場景任務中,需要利用深度學習、寬度學習來自動學習大規模輸入數據的抽象表徵,並以此表徵為依據進行自我激勵的強化學習,優化解決問題的策略。深度與寬度強化學習技術在遊戲、機器人控制、參數優化、機器視覺等領域中的成功應用,使其被認為是邁向通用人工智慧的重要途徑。

本期講習班邀請有澳門大學講座教授,中國自動化學會副理事長陳俊龍,清華大學教授宋士吉,北京交通大學教授侯忠生,國防科技大學教授徐昕,中國中車首席專家楊穎,中科院研究員趙冬斌,清華大學教授季向陽,西安交通大學教授陳霸東,浙江大學教授劉勇,清華大學副教授遊科友等十位學者就深度與寬度強化學習技術在遊戲、機器人控制、參數優化、機器視覺等領域中的成功應用進行報告。雷鋒網 AI 科技評論作為合作媒體針對會議進行報導。會議整體內容請參考雷鋒網報導:

第一天:https://www.leiphone.com/news/201806/GlBY1r2LugLO8Hlo.html

第二天:https://www.leiphone.com/news/201806/UWOi5uIPcwuMZmTi.html

本篇文章為講習班報告第一篇,由澳門大學講座教授,中國自動化學會副理事長陳俊龍講解,報告題目為:從深度強化學習到寬度強化學習:結構,算法,機遇及挑戰。

陳俊龍:澳門大學講座教授,科技學院前院長,中國自動化學會副理事及會士,澳門科學技術協進會副會長,IEEE Fellow,IAPR Fellow,美國科學促進會AAAS Fellow,國家千人學者,國家特聘專家。陳教授現任IEEE系統人機及智能學會的期刊主任。曾任該學會國際總主席。陳教授主要科研在智能系統與控制,計算智能,混合智能,數據科學方向。在2018年「計算機科學學科」高被引用文章數目學者中世界排名在前17名。陳教授或IEEE學會頒發了4次傑出貢獻獎,是美國工學技術教育認證會(ABET)的評審委員。澳門大學工程學科及計算機工程獲得國際【華盛頓協議】的認證是陳教授對澳門工程教育的至高貢獻。擔任院士期間帶領澳門大學的工程學科及計算機學科雙雙進入世界大學學科排名前200名。2016年他獲得母校,美國普渡大學的傑出電機及計算機工程獎。

陳俊龍教授的報告大致可以分為三個部分。首先討論了強化學習的結構及理論,包括馬爾科夫決策過程、強化學習的數學表達式、策略的構建、估計及預測未來的回報。然後討論了如何用深度神經網絡學習來穩定學習過程及特徵提取、如何利用寬度學習結構跟強化學習結合。最後討論了深度、寬度強化學習帶來的機遇與挑戰。

強化學習結構與理論

陳教授用下圖簡單描述強化學習過程。他介紹道所謂強化學習就是智能體在完成某項任務時,通過動作 A 與環境(environment)進行交互, 在動作 A 和環境的作用下,智能體會產生新的狀態,同時環境會給出一個立即回報。如此循環下去, 經過數次迭代學習後,智能體能最終地學到完成相應任務的最優動作。

提到強化學習就不得不提一下 Q-Learning。接著他又用了一個例子來介紹了強化學習 Q-Learning 的原理。

Q-learning

原文地址:https://blog.csdn.net/Maggie_zhangxin/article/details/73481417

假設一個樓層共有 5 個房間,房間之間通過一道門連接,如下圖所示。房間編號為 0~4,樓層外的可以看作是一個大房間,編號 5。

可以用圖來表示上述的房間,將每一個房間看作是一個節點,每道門看作是一條邊。

在任意一個房間裡面放置一個智能體,並希望它能走出這棟樓,也可以理解為進入房間 5。可以把進入房間 5 作為最後的目標,並為可以直接到達目標房間的門賦予 100 的獎勵值,那些未與目標房間相連的門則賦予獎勵值 0。於是可以得到如下的圖。

根據上圖可以得到獎勵表如下,其中-1 代表著空值,表示節點之間無邊相連。

再添加一個類似的 Q 矩陣,代表智能體從經驗中所學到的知識。矩陣的行代表智能體當前的狀態,列代表到達下一狀態的可能動作。

然後陳教授又介紹了 Q-Learning 的轉換規則,即 Q(state, action)=R(state, action) + Gamma * Max(Q[next state, all actions])。

依據這個公式,矩陣 Q 中的一個元素值就等於矩陣 R 中相應元素的值與學習變量 Gamma 乘以到達下一個狀態的所有可能動作的最大獎勵值的總和。

為了具體理解 Q-Learning 是怎樣工作的,陳教授還舉了少量的例子。

首先設置 Gamma 為 0.8,初始狀態是房間 1。

對狀態 1 來說,存在兩個可能的動作:到達狀態 3,或者到達狀態 5。通過隨機選擇,選擇到達狀態 5。智能體到達了狀態 5,將會發生什麼?觀察 R 矩陣的第六行,有 3 個可能的動作,到達狀態 1,4 或者 5。根據公式 Q(1, 5) = R(1, 5) + 0.8 * Max[Q(5, 1), Q(5, 4), Q(5, 5)] = 100 + 0.8 * 0 = 100,由於矩陣 Q 此時依然被初始化為 0,Q(5, 1), Q(5, 4), Q(5, 5) 全部是 0,因此,Q(1, 5) 的結果是 100,因為即時獎勵 R(1,5) 等於 100。下一個狀態 5 現在變成了當前狀態,因為狀態 5 是目標狀態,故算作完成了一次嘗試。智能體的大腦中現在包含了一個更新後的 Q 矩陣。

對於下一次訓練,隨機選擇狀態 3 作為初始狀態。觀察 R 矩陣的第 4 行,有 3 個可能的動作,到達狀態 1,2 和 4。隨機選擇到達狀態 1 作為當前狀態的動作。現在,觀察矩陣 R 的第 2 行,具有 2 個可能的動作:到達狀態 3 或者狀態 5。現在計算 Q 值:Q(3, 1) = R(3, 1) + 0.8 * Max[Q(1, 2), Q(1, 5)] = 0 + 0.8 *Max(0, 100) = 80,使用上一次嘗試中更新的矩陣 Q 得到:Q(1, 3) = 0 以及 Q(1, 5) = 100。因此,計算的結果是 Q(3,1)=80。現在,矩陣 Q 如下。

智能體通過多次經歷學到更多的知識之後,Q 矩陣中的值會達到收斂狀態。如下。

通過對 Q 中的所有的非零值縮小一定的百分比,可以對其進行標準化,結果如下。

一旦矩陣 Q 接近收斂狀態,我們就知道智能體已經學習到了到達目標狀態的最佳路徑。

至此陳教授已經把 Q-learning 簡單介紹完了。通過上文的介紹大致可以總結出強化學習的六個特點:

無監督,只有獎勵信號不需要指導學習者不停的試錯獎勵可能延遲(犧牲短期收益換取更大的長期收益)需要探索和開拓目標導向的智能體與不確定的環境間的交互是個全局性的問題

四個要素:

一、策略:做什麼?

1)確定策略:a=π(s)

2)隨機策略:π(a|s)=p[at=a|st=s],st∈S,at∈A(St),∑π(a|s)=1

二、獎勵函數:r(在狀態轉移的同時,環境會反饋給智能體一個獎勵)

三、累積獎勵函數:V(一個策略的優劣取決於長期執行這一策略後的累積獎勵),常見的長期累積獎勵如下:

四、模型:用於表示智能體所處環境,是一個抽象概念,對於行動決策十分有用。

所有的強化學習任務都是馬爾科夫決策過程,陳教授對 MDP 的介紹如下。

一個馬爾可夫決策過程由一個五元組構成 M =(S,A,p,γ,r)。其中 S 是狀態集,A 是動作集,p 是狀態轉移概率,γ是折扣因子,r 是獎勵函數。

陳教授在介紹強化學習這部分的最後提到了目前強化學習面臨的兩大挑戰。

信度分配:之前的動作會影響當前的獎勵以及全局獎勵探索開拓:使用已有策略還是開發新策略

Q-Learning 可以解決信度分配的問題。第二個問題則可以使用ε-greedy 算法,SoftMax 算法,Bayes bandit 算法,UCB 算法來處理等。

值函數(對未來獎勵的一個預測)可分為狀態值函數和行為值函數。

1.狀態值函數 Vπ(s):從狀態 s 出發,按照策略 π 採取行為得到的期望回報,

也被稱為 Bellman 方程。

2.行為價值函數 Qπ(s,a):從狀態 s 出發採取行為 a 後,然後按照策略 π 採取行動得到的期望回報,

同樣被稱為動作值函數的 Bellman 方程。

類似的給出了相應的最優值函數為

最優值函數 V*(s) 是所有策略上的最大值函數:

最優行為值函數 Q*(s,a) 是在所有策略上的最大行為值函數:

從而的到 Bellman 最優方程:

及對應的最優策略:

陳教授介紹了求解強化學習的方法,可分為如下兩種情況:

模型已知的方法:動態規劃模型未知的方法:蒙特卡洛方法,時間差分算法

陳教授進一步主要介紹了時間差分算法中兩種不同的方法: 異策略時間差分算法 Qlearning 和同策略時間差分算法 Sarsa, 兩者的主要區別在於 at+1 的選擇上的不同,

普通的 Qlearning 是一種表格方法,適用於狀態空間和動作空間是離散且維數比較低的情況; 當狀態空間和動作空間是高維連續的或者出現一個從未出現過的狀態,普通的 Qlearning 是無法處理的。為了解決這個問題,陳教授進一步介紹了深度強化學習方法。

深度強化學習

深度強化學習是深度神經網絡與強化學習的結合方法, 利用深度神經網絡逼近值函數,利用強化學習的方法進行更新,根據解決問題思路的不同可分為:1.基於價值網絡:狀態作為神經網絡的輸入,經過神經網絡分析後,輸出時當前狀態可能執行的所有動作的值函數,即利用神經網絡生成 Q 值。2.基於策略網絡:狀態作為神經網絡的輸入,經過神經網絡分析後,輸出的是當前狀態可能採取的動作(確定性策略), 或者是可能採取的每個動作的概率(隨機性策略)。

陳 教 授 也 提 到 了 Deepmind 公 司 在 2013 年 的 Playing Atari with Deep Reinforcement Learning (DRL) 提出的 DQN 算法,Deep Qlearning 是利用深度神經網絡端到端的擬合 Q 值,採用 Qlearning 算法對值函數更新。DQN 利用經驗回放對強化學習過程進行訓練, 通過設置目標網絡來單獨處理時間差分算法中的 TD 偏差。

基於上面內容,陳教授進一步介紹了另外一種經典的時間差分算法,即 ActorCritic 的方法,該方法結合了值函數(比如 Q learning)和策略搜索算法(Policy Gradients)的優點,其中 Actor 指策略搜索算法,Critic 指 Qlearning 或者其他的以值為基礎的學習方法,因為 Critic 是一個以值為基礎的學習法,所以可以進行單步更新,計算每一步的獎懲值,與傳統的 PolicyGradients 相比提高了學習效率,策略結構 Actor,主要用於選擇動作; 而值函數結構 Critic 主要是用於評價 Actor 的動作,agent 根據 Actor 的策略來選擇動作,並將該動作作用於環境,Critic 則根據環境給予的立即獎賞,根據該立即獎賞來更新值函數,並同時計算值函數的時間差分誤差 TD-error,通過將 TDerror 反饋給行動者 actor,指導 actor 對策略進行更好的更新,從而使得較優動作的選擇概率增加,而較差動作的選擇概率減小。

寬度學習

雖然深度結構網絡非常強大,但大多數網絡都被極度耗時的訓練過程所困擾。首先深度網絡的結構複雜並且涉及到大量的超參數。另外,這種複雜性使得在理論上分析深層結構變得極其困難。另一方面,為了在應用中獲得更高的精度,深度模型不得不持續地增加網絡層數或者調整參數個數。因此,為了提高訓練速度,寬度學習系統提供了一種深度學習網絡的替代方法,同時,如果網絡需要擴展,模型可以通過增量學習高效重建。陳教授還強調,在提高準確率方面,寬度學習是增加節點而不是增加層數。基於強化學習的高效性,陳教授指出可以將寬度學習與強化學習結合產生寬度強化學習方法,同樣也可以嘗試應用於文本生成、機械臂抓取、軌跡跟蹤控制等領域。

報告的最後陳教授在強化學習未來會面臨的挑戰中提到了如下幾點:

安全有效的探索過擬合問題多任務學習問題獎勵函數的選擇問題不穩定性問題

陳教授本次報告深入淺出的介紹了強化學習的相關概念,但對寬度學習的介紹並不多,寬度學習的概念可以參考這兩篇文章:澳門大學陳俊龍 | 寬度學習系統:一種不需要深度結構的高效增量學習系統,澳門大學陳俊龍:顛覆縱向的「深度」學習,寬度學習系統如何用橫向擴展進行高效增量學習?。

以上就是雷鋒網對於陳俊龍教授本次報告的全部報導。

相關焦點

  • 澳門大學陳俊龍:顛覆縱向的「深度」學習,寬度學習系統如何用橫向...
    澳門大學講座教授陳俊龍教授在近年來致力於解決這一問題。結合他在早期所做的單隱層網絡的相關研究,陳俊龍教授提出了一個名為「寬度學習系統」(Broad Learning System,BLS)的網絡結構,並從去年開始在多個場合提及這一概念。
  • 【講習班分享】澳門大學講座教授陳俊龍:從深度強化學習到寬度強化學習 - 結構,算法,機遇及挑戰
    陳教授用下圖簡單描述強化學習過程。他介紹道所謂強化學習就是智能體在完成某項任務時,通過動作 A 與環境(environment)進行交互, 在動作 A 和環境的作用下,智能體會產生新的狀態,同時環境會給出一個立即回報。如此循環下去, 經過數次迭代學習後,智能體能最終地學到完成相應任務的最優動作。提到強化學習就不得不提一下 Q-Learning。
  • 【喜報】祝賀中國自動化學會副理事長、澳門大學講座教授陳俊龍當選歐洲科學院外籍院士!
    陳教授在在2017年的論文他被引的次數是1815次,是整個澳門大學17676次的 十分之一(1/10)。2016年澳門大學45篇期刊文章在Web of Science被列為高被引文章中,其中陳俊龍教授有19篇——是澳大的42% 。2017/2018年陳俊龍教授有32篇高被引論文,是澳門大學82篇的38%。
  • 【深度強化學習】專業解讀「深度強化學習「:從AlphaGo到AlphaGoZero
    環境接收該動作並轉移到下一狀態st+1,智能體接收環境反饋回來的獎賞rt並根據策略選擇下一步動作。強化學習不需要監督信號,在模型未知的環境中平衡探索和利用,其主要算法有Q學習,策略梯度等。Q學習是強化學習最重要的算法之一,其主要更新公式為:其中α是學習率,γ是折扣因子,方括號內表示的是TD誤差。
  • 澳門大學前任校長、阿聯沙迦美國大學副校長趙偉教授一行來...
    西工大新聞網4月26日電(陳帆)4月25日下午2點,阿聯沙迦美國大學副校長趙偉教授,澳門大學工學院院長、歐洲科學院院士陳俊龍教授和英國埃克斯特大學閔革勇教授受邀到訪計算機學院,計算機學院黨委書記於志文和副院長鄧磊陪同參觀院史長廊。
  • 深度強化學習——從DQN到DDPG
    強化學習算法利用產生的數據修改自身的動作策略,再與環境交互,產生新的數據,並利用新的數據進一步改善自身的行為,經過數次迭代學習後,智能體能最終地學到完成相應任務的最優動作(最優策略)。這就是一個強化學習的過程。
  • 深度強化學習算法與應用研究現狀綜述
    概述了基於值函數和策略梯度的兩類深度強化學習算法,詳細闡述了深度Q網絡、深度策略梯度及相關改進算法的原理,並綜述了深度強化學習在視頻遊戲、導航、多智能體協作以及推薦系統等領域的應用研究進展。最後,對深度強化學習的算法和應用進行展望,針對一些未來的研究方向和研究熱點給出了建議。
  • 深度強化學習領域盤點系列 | 大神篇
    關注:決策智能與機器學習,每天學點AI乾貨一個大師級的人物可以推動一個領域的發展,深度強化學習的發展得益於強化學習在深度學習和神經網絡的推動作用下的快速進步,在整個深度強化學習的發展過程中,有那麼一群頂尖學者起到了推動作用,下文將對每一位前沿學者進行介紹。
  • 【學術講座】臺灣中山大學黃國勝教授關於強化學習的講座通知
    臺灣中山大學黃國勝教授關於強化學習的講座通知報告人: 黃國勝 教授(IET Fellow)邀請人: 崔榮鑫時間: 2017年11月4日,下午2:30地點: 航海學院東配樓主題: 強化學習概述及其應用範例內容簡介:強化學習是機器學習中的一個領域,強調如何基於環境而行動,以取得最大化的預期利益。
  • 深度強化學習(一)----深度學習介紹系列
    昨天大致介紹了機器學習與深度學習的基本概念,本系列的目錄,深度學習的優勢等。他們在Stella模擬機上讓機器自己玩了7個Atari 2600的遊戲,結果是玩的衝出美洲,走向世界,超越了物種的局限。不僅戰勝了其他機器人,甚至在其中3個遊戲中超越了人類遊戲專家。
  • 深度強化學習專欄 —— 2.手撕DQN算法實現CartPole控制
    上面的動畫是本篇文章要達到的效果:一開始杆子不能穩定的倒立,經過一會的訓練(自我學習),杆子可以穩定的倒立。這篇文章繼續上文深度強化學習專欄 —— 1.研究現狀中最後提到的使用深度強化學習實現倒立擺的前奏。本節我們從DQN(Deep Q-Network)算法開始說起,會經歷閱讀論文、手撕算法、最後實現CartPole倒立幾個過程。
  • 智能決策論壇系列解讀 | 深度強化學習理論和算法
    其中深度強化學習理論和算法是本次論壇的熱點話題之一,吸引了許多學者的關注。深度學習不僅能夠為強化學習帶來端到端優化的便利,而且使得強化學習不再受限於低維的空間中,極大地拓展了強化學習的使用範圍。利用深度強化學習方法,智能體在與環境的交互過程中,根據獲得的獎勵或懲罰不斷地學習知識、更新策略以更加適應環境。
  • 強化學習應用簡介
    線性組合的係數則需要由學習算法確定。我們也可以用非線性函數近似,尤其是使用深度神經元網絡,也就是最近流行的深度學習所用的網絡結構。如果把深度學習和強化學習結合起來,用深度神經元網絡來表達狀態、值函數、策略、模型等,我們就得到了深度強化學習(deep reinforcement learning, deep RL)。這裡深度神經元網絡的參數需要由學習算法來確定。
  • 專題| 深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附...
    而在最近深度學習的突破性進展之下(LeCun et al., 2015; Goodfellow et al., 2016),得益於大數據的普及、計算能力的提升及新的算法技術,我們正見證著強化學習的復興(Krakovsky, 2016),特別是強化學習及深度學習的結合(也就是深度強化學習(deep RL))。
  • 伯克利Fall2018最新CS294:深度強化學習課程
    【導讀】伯克利在秋季學期開設了《深度強化學習課程》,有6名老師和28節課程,是想學習強化學習的讀者不可錯過的一門課程。機器人會觀測視覺系統數據如何映射到機械臂的電機信號,從而正確地完成任務。此外,機器人還會監督自己的學習過程。
  • UC伯克利出品,深度強化學習最新課程已上線
    當地時間 10 月 11 日,UC 伯克利電氣工程與計算機科學系(EECS)助理教授 Sergey Levine 在推特上宣布,他講授的 CS285 深度強化學習(RL)課程已經放出了部分視頻,並表示之後每周會實時更新後續課程。
  • 深度強化學習從入門到大師:通過Q學習進行強化學習(第二部分)
    https://medium.freecodecamp.org/diving-deeper-into-reinforcement-learning-with-q-learning-c18d0db58efe深度強化學習從入門到大師
  • 臺大李宏毅教授最新課程,深度強化學習有國語版啦!
    大數據文摘出品入坑深度學習的同學肯定都聽過臺灣大學的李宏毅教授,或者是他那本非常受歡迎的課程——《1天搞懂深度學習》。文摘菌今天要給大家推薦的是李老師最近更新的課程:深度強化學習(deep reinforcement learning),目前這門課程在youtobe上更新了4個視頻,分別是策略梯度算法(Policy Gradient)、近端策略優化(Proximal Policy Optimization,PPO
  • 【官方授權】2018 秋季伯克利大學 CS 294-112 《深度強化學習...
    CS 294-112 《深度強化學習》,於本周四(2018 年 12 月 20 日)正式上線中文字幕版。伯克利大學 CS 294-112 《深度強化學習》為官方開源最新版本,由伯克利大學該門課程授課講師 Sergey Levine 授權 AI 研習社翻譯。
  • 深度強化學習核心技術實戰培訓班
    而深度強化學習,作為一種嶄新的機器學習方法,同時具有感知能力和決策能力,它是深度學習與強化學習的結合,二者的結合涵蓋眾多算法、規則、框架,並廣泛應用於機器人控制、多智能體、推薦系統、多任務遷移等眾多領域,具有極高的研究與應用價值。