馬爾科夫決策過程之Markov Reward Process(馬爾科夫獎勵過程)

2021-03-02 機器學習算法與自然語言處理

上文介紹了馬爾科夫決策過程之Markov Processes(馬爾科夫過程),可以移步到下面:

馬爾科夫決策過程之Markov Processes(馬爾科夫過程)

本文我們總結一下馬爾科夫決策過程之Markov Reward Process(馬爾科夫獎勵過程),value function等知識點。

馬爾科夫獎勵過程在馬爾科夫過程的基礎上增加了獎勵R和衰減係數γ:<S,P,R,γ>。

R是一個獎勵函數。S狀態下的獎勵是某一時刻(t)處在狀態s下在下一個時刻(t+1)能獲得的獎勵期望,如下:

這裡大家可能有疑問的是為什麼 Rt+1而不是Rt,我們更傾向於理解起來這相當於離開這個狀態才能獲得獎勵而不是進入這個狀態即獲得獎勵。視頻中也有學生請教了David。

David的回答:David指出這僅是一個約定,為了在描述RL問題中涉及到的觀測O、行為A、和獎勵R時比較方便。

他同時指出如果把獎勵改為Rt而不是Rt+1,只要規定好,本質上意義是相同的,在表述上可以把獎勵描述為「當進入某個狀態會獲得相應的獎勵」。大家認為是約定就好。

詳細的定義如下:

下圖是一個「馬爾科夫獎勵過程」圖示的例子,在「馬爾科夫過程」基礎上增加了針對每一個狀態的獎勵。

舉例說明:當學生處在第一節課(Class1)時,他/她參加第2節課(Class2)後獲得的Reward是-1;同時進入到瀏覽facebook這個狀態中獲得的Reward也是-1。

在瀏覽facebook這個狀態時,會有在下一時刻繼續瀏覽獲得的Reward為-1,返回到課堂內容上來的獲得的Reward為-1。

當學生進入到第二節課(Class2)時,繼續參加第三節課(Class3)獲得的Reward為-2,較進行Sleep的Reward為-2。

當學生處於第三節課這個狀態時,他通過考試的Reward為+10,進行到其它狀態的Reward也是同樣道理。

定義:收穫Gt為在一個馬爾科夫獎勵鏈上從t時刻開始往後所有的獎勵的有衰減的收益總和。

定義公式如下:

關於Return的計算為什麼需要 折扣係數。David給出了下面幾條的解釋:

slides如下:

價值函數給出了某一狀態或某一行為的長期價值。

定義:一個馬爾科夫獎勵過程中某一狀態的價值函數從該狀態開始的馬爾可夫鏈收穫的期望:

為什麼會有期望符號,因為Gt我們在上面說過,從t時刻到終止狀態的馬爾科夫鏈不止一條,每一條都有對應的概率和Return收益,所以對應的概率乘以相應的收益自然就會有期望符號,ppt如下:

6Example: Student MRP Returns

我們來看G1的例子:

上圖的計算其實就是對下面這個Markov Reward Process圖的計算:

我們能夠看出G1其實就有4條路徑了,每一條路徑都有對應的概率,那麼從我們就能理解value function在評估某個狀態下的價值的時候,是需要加上期望符號的。

而上面這個例子如果計算value function為(如果總共只有這四條路徑,並且每條的概率為1/4):

v(s) = (-2.25+(-3.125)+(-3.41)+(-3.20))/4 =2.996

暫時總結到這,下一講總結Bellman Equation, Markov Decision Process等知識點~

參考:

David Silver深度強化學習課程 

第2課 - 馬爾科夫決策過程葉強:《強化學習》第二講 馬爾科夫決策過程

推薦閱讀:

馬爾科夫決策過程之Markov Processes(馬爾科夫過程)

【深度學習實戰】pytorch中如何處理RNN輸入變長序列padding

【機器學習基本理論】詳解最大後驗概率估計(MAP)的理解

          歡迎關注公眾號學習交流~         

相關焦點

  • 馬爾科夫決策過程
    有意思的是,在數學學院一門運籌學的課程中,老師將動態規劃作為馬爾科夫決策過程(Markov Decision Process, MDP)的引子,為我們介紹了有限時間步的離散狀態的馬爾科夫決策過程。後來我在與其他同學的討論中,發現馬爾科夫決策過程也是強化學習的一個基本模型。強化學習中的MDP基於一組交互對象,即智能體和環境進行構建,具有狀態、動作、策略和獎勵等要素。
  • 【強化學習入門】馬爾科夫決策過程
    機器學習算法(有監督,無監督,弱監督)中,馬爾科夫決策過程是弱監督中的一類叫增強學習。增加學習與傳統的有監督和無監督不同的地方是,這些方法都是一次性決定最終結果的,而無法刻畫一個決策過程,無法直接定義每一次決策的優劣,也就是說每一次的決策信息都是弱信息,所以某種程度上講,強化學習也屬於弱監督學習。從模型角度來看,也屬於馬爾科夫模型,其與隱馬爾科夫模型有非常強的可比性。
  • 強化學習通俗理解系列二:馬爾科夫決策過程MDP
    前面系列一我把馬爾科夫獎賞過程的全部內容講完了,下面開始分析馬爾科夫決策過程,寫作思路依然是參考Divad Silver強化學習課程ppt,由於本人水平有限,如有問題,歡迎指正,我即時修改,謝謝!        本文思路: 1. 馬爾科夫決策過程的基本定義 2. 策略policy 3. 策略policy進階 4. 值函數 5.
  • 增強學習(一)——馬爾科夫決策過程(MDP)
    「回報(reward)」是一個描述來自外界的反饋的抽象概念。回報可以是正面的或者負面的。當回報是正面的時候,它對應於我們常規意義上的獎勵。當回報是負面的時候,它就對應於我們通常所說的懲罰。       在研究用於尋找策略的算法之前,我們必須充分了解馬爾科夫決策過程(MDP)。馬爾科夫決策過程(MDP)       在面對許多問題時,馬爾科夫決策過程為我們提供了一種對規劃和行動進行推理的形式。
  • 強化學習通俗理解系列一:馬爾科夫獎賞過程MRP
    本文是第一篇,但是最關鍵的一篇是第二篇馬爾科夫決策過程(Markov Decision Process,MDP),只有充分理解了馬爾科夫決策過程,才能遊刃有餘的學習後續知識,所以希望讀者能夠將MDP深入理解後再去學習後續內容。由於本人水平有限,文章寫作順序幾乎是完全按照David Silver強化學習課程講解,但是會補充自己學習心得,所以文章會比較通俗易懂。
  • 馬爾科夫決策過程及其性質-CMU深度強化學習第二講
    , NUS, CS (42-48) 組長&校對:羅瑞琨「機器人學家」授權翻譯/********** 劉越江 (1-12)  **********/本講主要介紹強化學習(Reinforcement Learning,RL)處理的問題模型:馬爾
  • 馬爾科夫邏輯網
    圖(2)4.得到了馬爾科夫網絡之後,就要對各個節點之間的聯合概率進行求解了。7.對於公式中權重的求解就和之前介紹的馬爾科夫網絡的權重求解一樣了:a)首先建立一個最大似然函數。b)然後選擇一種迭代的策略進行求解。c)設置迭代終止的條件,完成求解過程。8.獲得最終的模型之後,就可以根據自己的情況來使用了。對於推理的應用,一種是最大可能性問題的求解:根據給定證據變量集x,求解其對應的應變量y最可能處於的狀態。
  • 強化學習的最基本概念馬爾可夫決策過程簡介
    在本文中我將介紹強化學習的基本方面,即馬爾可夫決策過程。我們將從馬爾可夫過程開始,馬爾可夫獎勵過程,最後是馬爾可夫決策過程。目錄  馬爾可夫過程  馬爾可夫獎勵過程  馬爾可夫決策過程馬爾可夫過程  馬爾可夫決策過程(MDP)代表了一種強化學習的環境。我們假設環境是完全可見的。這意味著我們擁有了當前狀態下做出決定所需的所有信息。然而,在我們討論MDP是什麼之前,我們需要知道馬爾科夫性質的含義。
  • 策劃丨Excel計算馬爾科夫的簡單方法
    首先,我們還是得先看下馬爾科夫鏈的介紹:同馬爾可夫鏈,因安德烈·馬爾可夫(A.A.Markov,1856-1922)得名,是指數學中具有馬爾可夫性質的離散事件隨機過程。該過程中,在給定當前知識或信息的情況下,過去(即當前以前的歷史狀態)對於預測將來(即當前以後的未來狀態)是無關的。(一字不差複製粘貼。)
  • 用馬爾科夫狀態模型分析揭示脂質自組裝的熱力學和動力學
    用馬爾科夫狀態模型分析揭示脂質自組裝的熱力學和動力學 作者:小柯機器人 發布時間:2020/12/19 14:03:04 復旦大學王文寧和徐昕團隊開發了使用
  • 強化學習和馬爾可夫過程的基本概念
    強化學習是系統從環境學習以使得獎勵最大的機器學習。強化學習和有監督學習的不同在於教師信號。強化學習的教師信號是動作的獎勵,有監督學習的教師信號是正確的動作。強化學習算法理論的形成可以追溯到上個世紀七八十年代,近幾十年來強化學習算法一直在默默地不斷進步,真正火起來是最近幾年。
  • 阿爾法狗怎麼用機器學習做決策:馬爾科夫鏈減少搜索空間說起(附PDF公號發「馬鏈搜索」下載)
    阿爾法狗怎麼用機器學習做決策:馬爾科夫鏈減少搜索空間說起(5263字)目錄B 阿爾法狗是怎麼用機器學習做決策的(4151字)1.傳統棋類遊戲算法之窮舉法2.圍棋遊戲算法之馬爾科夫決策法2.圍棋遊戲算法之馬爾科夫決策法而具體到圍棋上,這個策略的核心是根據圍棋的特性:1.在每一步雙方信息完全已知2.每一步的策略只需考慮這一步的狀態這允許機器學習用一個非常兇猛的簡化框架來解決這個問題,馬爾科夫決策過程。