什麼是馬爾科夫過程(Markov Processes)

2021-01-14 深度學習這件小事

在了解Markov Processes之前呢,我們先來介紹一下馬爾科夫性質

具有馬爾科夫性質的狀態滿足下面公式:

根據公式也就是說給定當前狀態St,將來的狀態與t時刻之前的狀態已經沒有關係。

如下圖解釋:

其中:

* St狀態能夠捕獲歷史狀態的相關信息

* 一旦當前狀態已知St,歷史可以被忽視

可以用下面的狀態轉移概率公式來描述馬爾科夫性:

下面狀態轉移矩陣定義了所有狀態的轉移概率:

其中的每行和為1.為什麼每行和為1。我們可以舉一個例子,比如我們擲骰子遊戲,當前的點數為1,那麼我們再一次擲骰子得到的點數的概率是多少呢?

對應於上面轉移概率來說,即使我們不知道下一個具體點數的概率,但是我們至少知道下一個點數是1,2,3,4,5,6中的某一點,那麼就會有:

這就解釋了為什麼每行和為1。

馬爾科夫過程一個無記憶的隨機過程,是一些具有馬爾科夫性質的隨機狀態序列構成,可以用一個元組<S,P>表示,其中S是有限數量的狀態集,P是狀態轉移概率矩陣。如下:

學生馬爾科夫鏈這個例子基本貫穿了本講內容:

圖中,圓圈表示學生所處的狀態,方格Sleep是一個終止狀態,或者可以描述成自循環的狀態,也就是Sleep狀態的下一個狀態100%的機率還是自己。箭頭表示狀態之間的轉移,箭頭上的數字表示當前轉移的概率。

舉例說明:當學生處在第一節課(Class1)時,他/她有50%的機率會參加第2節課(Class2);同時在也有50%的機率不在認真聽課,進入到瀏覽facebook這個狀態中。

在瀏覽facebook這個狀態時,會有90%的機率在下一時刻繼續瀏覽,也有10%的機率返回到課堂內容上來。

當學生進入到第二節課(Class2)時,會有80%的機率繼續參加第三節課(Class3),也有20%的機率覺得課程較難而退出(Sleep)。

當學生處於第三節課這個狀態時,他有60%的機率通過考試,繼而100%的退出該課程,也有40%的可能性需要到去圖書館之類尋找參考文獻,此後根據其對課堂內容的理解程度,又分別有20%、40%、40%的機率返回值第一、二、三節課重新繼續學習。

Example: Student Markov Chain Episodes

一個可能的學生馬爾科夫鏈從狀態Class1開始,最終結束於Sleep,其間的過程根據狀態轉化圖可以有很多種可能性,這些都稱為Sample Episodes。比如下面四個Episodes都是可能的:

我們可以使用採樣技術來sample一些Episodes。

slides如下:

Example: Student Markov Chain Transition Matrix

該學生馬爾科夫過程的狀態轉移矩陣如下圖:

今天暫時總結到這,下次將總結Markov Reward Processes、Value function等知識點哦,敬請期待~

希望對大家的理解有幫助~歡迎大家指錯交流!


參考:

David Silver深度強化學習課程 第2課 - 馬爾科夫決策過程

知乎專欄:葉強:《強化學習》第二講 馬爾科夫決策過程

相關焦點

  • 隨機過程筆記(續篇)
    前一篇文章介紹了我們描述不確定性的有利武器概率論,然後引出了隨機過程的精髓-馬爾科夫過程,當一個隨機過程的變化只取決於當下的變化而非歷史的時候,我們得到一個馬爾科夫鏈條。
  • 自然語言處理起源:馬爾科夫和香農的語言建模實驗
    對於不知情的旁觀者來說,馬爾科夫的舉止略顯詭異。為什麼有人會以這種方式解構一部文學天才的作品,而且是解構成這種無法被理解的形式?事實是,馬爾科夫讀這本書並不是為了學習與生活和人性有關的知識,他是在尋找文本中更基本的數學結構。
  • 隨機過程筆記
    而對於更加複雜的分布函數的抽樣, 則有如層出不窮的算法解決它,比如大名鼎鼎的Markov Chain Monte Carlo (MCMC)方法,將在之後的章節介紹。* 離散的時間序列是清晰表述隨機過程的入門方式,雖然更一般的表述是時間是連續的因此,能否研究一個隨機過程的關鍵就是減少問題的維度-這也是物理的核心思想。
  • 用馬爾科夫狀態模型分析揭示脂質自組裝的熱力學和動力學
    用馬爾科夫狀態模型分析揭示脂質自組裝的熱力學和動力學 作者:小柯機器人 發布時間:2020/12/19 14:03:04 復旦大學王文寧和徐昕團隊開發了使用馬爾科夫狀態模型分析來揭示脂質自組裝的熱力學和動力學
  • 馬爾科夫轉移矩陣法模擬
    最近有朋友諮詢「馬爾科夫轉移矩陣法」中轉移概率矩陣問題,在解釋過程中順便編了個小程序,供大家參考。
  • 白白說算法:相親中的馬爾科夫模型
    因此,本文以相親為例,介紹了什麼是馬爾科夫模型。大家好,我是白白,第一時刻來講講算法系列。產品經理是否需要懂技術,對於這個問題網際網路圈看法各不相同。白白看來,隨著未來網際網路的發展,按照正常的產品經理職業發展路徑,還是需要了解一些技術的內容。
  • 馬爾科夫:機器人與人類是夥伴 中國落後美國5年(全文)
    訪華期間,馬爾科夫接受了網易科技的專訪,回答了諸多人工智慧領域的關鍵問題。巨頭布局人工智慧未來趨勢是什麼根據馬爾科夫的觀點,人工智慧的概念從1956年達特茅斯會議被提出,迄今已經有60年的發展歷程。這期間經歷了從爆發到寒冬再到野蠻生長的過程,如今時間到了2016年,機器人與人工智慧將成為下一個產業的新風口。
  • 自控貓專欄:馬爾科夫計算PFDavg原理
    狀態轉移矩陣P馬爾科夫轉移概率:在固定時長內系統某一個狀態轉移到其他狀態的概率,狀態轉移矩陣用P表示。系統狀態矩陣(Si):系統在t時刻處在其各個狀態的概率組成的向量。系統初始矩陣(So):系統OK狀態元素為1時的矩陣。
  • ACS Catalysis|馬爾科夫模型在糖基轉移酶模擬中的應用
    但研究未能揭示loop打開/閉合的完整動態過程,這個過程可能發生在數十微秒甚至更長的時間尺度內。本項研究中,研究人員採用了長時間的分子模擬(約20μs),來研究模擬過程中UDP-GalNAc結合後T2中完整的catalytic loop打開/閉合的過程,模擬的結果捕捉到3個關鍵的構象變化中間態。
  • ...channel processes: New progress in plate tectonic theory
    In the 2013 (36) issue of Chinese Science Bulletin, a paper highlights the role of subduction channel processes in developing the plate tectonic theory.
  • 強化學習的最基本概念馬爾可夫決策過程簡介
    在本文中我將介紹強化學習的基本方面,即馬爾可夫決策過程。我們將從馬爾可夫過程開始,馬爾可夫獎勵過程,最後是馬爾可夫決策過程。目錄  馬爾可夫過程  馬爾可夫獎勵過程  馬爾可夫決策過程馬爾可夫過程  馬爾可夫決策過程(MDP)代表了一種強化學習的環境。我們假設環境是完全可見的。這意味著我們擁有了當前狀態下做出決定所需的所有信息。然而,在我們討論MDP是什麼之前,我們需要知道馬爾科夫性質的含義。
  • 隨機過程(十)[Markov過程(D)]:Markov鏈的平穩分布(補充)以及其轉移概率的極限性質
    Markov過程, 過程一致(8)中引入的一個中間過程有關, 當時為了指出常返態的含義是指無窮次返回這個態, 我們引入了概率考慮到一般的可約鏈總可以通過將過程局限在某個不可約閉集中, 於是每個正常返不可約閉集就會生成一個平穩分布, 這是我們在上一節, 也就是隨機過程(9)裡平穩分布定義的注4中談到的. 這個小節我們來徹底解決平穩分布的存在性問題, 並給出一般的構造.
  • 藥物經濟學模型之Markov模型(三):手把手教如何進行研究設計
    上一期(藥物經濟學模型之Markov模型(二):從一篇文章講研究問題和研究設計(含操作))我們通過一篇文章[1]簡要介紹了什麼是藥物經濟學研究和
  • 馬爾科夫:機器人與人類是夥伴 中國落後美國5年(二)
    以下為馬爾科夫對於人工智慧的觀點匯總:既然無法解決人類分心的問題,谷歌的工程師決定:將人類完全排除在駕駛過程之外。3、軟體助手,數位化生存之道20世紀 90 年代初,儘管正處於人工智慧的冬天,斯坦福研究所仍然是一個蓬勃發展的商業、軍事和學術人工智慧研究的樞紐。Shakey 問世幾十年以後, 機器人仍在大廳裡遊蕩。
  • Journal of Hazardous Materials:甲烷相關生物過程對淹水水稻土中...
    【歡迎您關注--農業環境科學】浙江大學環境與資源學院何豔教授團隊研究了CH4相關的生物過程在添加林丹的淹水水稻土自淨化過程中的作用,相關成果發表於Journal of Hazardous Materials(IF=9.038)。閱讀論文全文請點擊文末閱讀原文。