在了解Markov Processes之前呢,我們先來介紹一下馬爾科夫性質。
具有馬爾科夫性質的狀態滿足下面公式:
根據公式也就是說給定當前狀態St,將來的狀態與t時刻之前的狀態已經沒有關係。
如下圖解釋:
其中:
* St狀態能夠捕獲歷史狀態的相關信息
* 一旦當前狀態已知St,歷史可以被忽視
可以用下面的狀態轉移概率公式來描述馬爾科夫性:
下面狀態轉移矩陣定義了所有狀態的轉移概率:
其中的每行和為1.為什麼每行和為1。我們可以舉一個例子,比如我們擲骰子遊戲,當前的點數為1,那麼我們再一次擲骰子得到的點數的概率是多少呢?
對應於上面轉移概率來說,即使我們不知道下一個具體點數的概率,但是我們至少知道下一個點數是1,2,3,4,5,6中的某一點,那麼就會有:
這就解釋了為什麼每行和為1。
馬爾科夫過程一個無記憶的隨機過程,是一些具有馬爾科夫性質的隨機狀態序列構成,可以用一個元組<S,P>表示,其中S是有限數量的狀態集,P是狀態轉移概率矩陣。如下:
學生馬爾科夫鏈這個例子基本貫穿了本講內容:
圖中,圓圈表示學生所處的狀態,方格Sleep是一個終止狀態,或者可以描述成自循環的狀態,也就是Sleep狀態的下一個狀態100%的機率還是自己。箭頭表示狀態之間的轉移,箭頭上的數字表示當前轉移的概率。
舉例說明:當學生處在第一節課(Class1)時,他/她有50%的機率會參加第2節課(Class2);同時在也有50%的機率不在認真聽課,進入到瀏覽facebook這個狀態中。
在瀏覽facebook這個狀態時,會有90%的機率在下一時刻繼續瀏覽,也有10%的機率返回到課堂內容上來。
當學生進入到第二節課(Class2)時,會有80%的機率繼續參加第三節課(Class3),也有20%的機率覺得課程較難而退出(Sleep)。
當學生處於第三節課這個狀態時,他有60%的機率通過考試,繼而100%的退出該課程,也有40%的可能性需要到去圖書館之類尋找參考文獻,此後根據其對課堂內容的理解程度,又分別有20%、40%、40%的機率返回值第一、二、三節課重新繼續學習。
Example: Student Markov Chain Episodes
一個可能的學生馬爾科夫鏈從狀態Class1開始,最終結束於Sleep,其間的過程根據狀態轉化圖可以有很多種可能性,這些都稱為Sample Episodes。比如下面四個Episodes都是可能的:
我們可以使用採樣技術來sample一些Episodes。
slides如下:
Example: Student Markov Chain Transition Matrix
該學生馬爾科夫過程的狀態轉移矩陣如下圖:
今天暫時總結到這,下次將總結Markov Reward Processes、Value function等知識點哦,敬請期待~
希望對大家的理解有幫助~歡迎大家指錯交流!
參考:
David Silver深度強化學習課程 第2課 - 馬爾科夫決策過程
知乎專欄:葉強:《強化學習》第二講 馬爾科夫決策過程