上文介紹了馬爾科夫決策過程之Markov Processes(馬爾科夫過程),可以移步到下面:
馬爾科夫決策過程之Markov Processes(馬爾科夫過程)
本文我們總結一下馬爾科夫決策過程之Markov Reward Process(馬爾科夫獎勵過程),value function等知識點。
馬爾科夫獎勵過程在馬爾科夫過程的基礎上增加了獎勵R和衰減係數γ:<S,P,R,γ>。
R是一個獎勵函數。S狀態下的獎勵是某一時刻(t)處在狀態s下在下一個時刻(t+1)能獲得的獎勵期望,如下:
這裡大家可能有疑問的是為什麼 Rt+1而不是Rt,我們更傾向於理解起來這相當於離開這個狀態才能獲得獎勵而不是進入這個狀態即獲得獎勵。視頻中也有學生請教了David。
David的回答:David指出這僅是一個約定,為了在描述RL問題中涉及到的觀測O、行為A、和獎勵R時比較方便。
他同時指出如果把獎勵改為Rt而不是Rt+1,只要規定好,本質上意義是相同的,在表述上可以把獎勵描述為「當進入某個狀態會獲得相應的獎勵」。大家認為是約定就好。
詳細的定義如下:
下圖是一個「馬爾科夫獎勵過程」圖示的例子,在「馬爾科夫過程」基礎上增加了針對每一個狀態的獎勵。
舉例說明:當學生處在第一節課(Class1)時,他/她參加第2節課(Class2)後獲得的Reward是-1;同時進入到瀏覽facebook這個狀態中獲得的Reward也是-1。
在瀏覽facebook這個狀態時,會有在下一時刻繼續瀏覽獲得的Reward為-1,返回到課堂內容上來的獲得的Reward為-1。
當學生進入到第二節課(Class2)時,繼續參加第三節課(Class3)獲得的Reward為-2,較進行Sleep的Reward為-2。
當學生處於第三節課這個狀態時,他通過考試的Reward為+10,進行到其它狀態的Reward也是同樣道理。
定義:收穫Gt為在一個馬爾科夫獎勵鏈上從t時刻開始往後所有的獎勵的有衰減的收益總和。
定義公式如下:
關於Return的計算為什麼需要 折扣係數。David給出了下面幾條的解釋:
slides如下:
價值函數給出了某一狀態或某一行為的長期價值。
定義:一個馬爾科夫獎勵過程中某一狀態的價值函數為從該狀態開始的馬爾可夫鏈收穫的期望:
為什麼會有期望符號,因為Gt我們在上面說過,從t時刻到終止狀態的馬爾科夫鏈不止一條,每一條都有對應的概率和Return收益,所以對應的概率乘以相應的收益自然就會有期望符號,ppt如下:
6Example: Student MRP Returns
我們來看G1的例子:
上圖的計算其實就是對下面這個Markov Reward Process圖的計算:
我們能夠看出G1其實就有4條路徑了,每一條路徑都有對應的概率,那麼從我們就能理解value function在評估某個狀態下的價值的時候,是需要加上期望符號的。
而上面這個例子如果計算value function為(如果總共只有這四條路徑,並且每條的概率為1/4):
v(s) = (-2.25+(-3.125)+(-3.41)+(-3.20))/4 =2.996
暫時總結到這,下一講總結Bellman Equation, Markov Decision Process等知識點~
參考:
David Silver深度強化學習課程
第2課 - 馬爾科夫決策過程葉強:《強化學習》第二講 馬爾科夫決策過程
推薦閱讀:
馬爾科夫決策過程之Markov Processes(馬爾科夫過程)
【深度學習實戰】pytorch中如何處理RNN輸入變長序列padding
【機器學習基本理論】詳解最大後驗概率估計(MAP)的理解
歡迎關注公眾號學習交流~