隨機過程筆記(續篇)

2021-01-14 混沌巡洋艦

前一篇文章介紹了我們描述不確定性的有利武器概率論,然後引出了隨機過程的精髓-馬爾科夫過程,當一個隨機過程的變化只取決於當下的變化而非歷史的時候,我們得到一個馬爾科夫鏈條。它的優良性質使得巨大的計算瞬時簡化。


進一步降維:


markov鏈的思維用一組前一步和後一步的條件概率關係衍生整個過程,具有巨大的簡化威力。對於更加特殊的問題,維度還可以繼續降低,問題得意更徹底的簡化。 例如:


穩態過程-stationary process :


如果說markov過程每一步與前一步的關係是與時間無關的,或符合

這個過程就是穩態的,這個時候我們只需要這樣一個關係就描述整個過程。


在這個極度簡化的模型下,markov process 可歸結為一個在態空間裡的躍遷軌跡。下圖的隨機變量是橫軸(a,b,c,d四個態),時間是縱軸。系統從此刻的態躍遷到下一刻的態都是隨機的,而且躍遷的概率由一個數字決定,這個數字不由軌跡的歷史決定,因而markov。從此刻任一狀態到達下一刻任意狀態包含4x4個概率,因此可以寫作一個4x4的躍遷矩陣。躍遷矩陣Pij涵蓋了過程的全部信息。


穩態過程顧名穩態, 是因為在一段時間後系統會進入一個平衡狀態,或者說系統的分布函數不隨時間變化。 如同上文提到的人口中男女比例問題, 男女比例在各個國家都在1:1 左右, 就是因為生成它的過程是一個穩態過程。


穩態過程含有兩個個重要的特徵量: 平均值和自相關函數(Auto-correlation),穩態(stationary)的含義正是在平均值附近擾動,在這個情況下隨機性換以另外一個名詞-fluctuation(擾動)。 而在非穩態下,擾動和平均值的概念變得模糊,失去意義。


平均值自然重要,但擾動卻往往包含著平均值所沒有的信息。 首先我們計算方差,來看擾動的劇烈程度,但是這遠遠不夠。


Auro-correlation和之前描述的相關性具有內在的聯繫,事實上它描述的就是此時的擾動和彼時的擾動的相關性。

這個量可以理解為你手裡有一個信號,首先你減去平均值,這樣信號就在0附近擾動。 你把這個信號平行移動一個時間差, 然後把它和原來的信號乘起來,如果說信號本身代表的過程在時間上胡亂跳躍無跡可尋, 那麼這個量就很接近0),因為正和負的部分無序的乘起來,正負互相抵消,你的期望就是0。反之,如果你的信號內包含內在的構造(pattern),就會得到不為0的值。


因此,日常生活中你手裡具有的往往是數據,你什麼都不知道的時候,計算這個量就是起點,這個東西在幫你尋找無序中的結構(pattern),它將告訴我們系統噪音的性質。


比如我們經常說的白色噪聲(white noise)的定義就是自關聯性為0, 因為它要的是絕對的無序, 毫無記憶,毫無結構。這種信號就是最基本的噪聲形態。


而如果我們發現一個隨時間差變化很慢的自相關函數,往往顯示系統具有記憶的特性,因而產生了更複雜的結構, 或者系統臨近相變。


自相關性的計算告訴我們的是, 你不要只看表面的無序有序,因為人眼喜歡在無序中尋找有序,而一個有力的計算就可以告訴你比你的眼睛更準確的信息。



Master Equation:


剛才描述離散的markov過程,如果一個過程是連續的,不再分為第一步第二步第三步, 我們就可以用微分方程描述一個馬爾科夫過程。 這就是master equation - 所謂大師方程。 這是物理,化學,經濟學,得到一些給力結果經常用到的微分方程。


master equation直接關注的是隨機過程的全貌。剛才所說的躍遷軌跡是一次實驗的結果,而Master Equation 描述的卻是無數實驗者同時入場,進行馬爾科夫過程,你會看到一個新的圖像。系統每一個時刻的狀態不再是態空間一個具體的點,而是一大團點(一大叢實驗者),它們慢慢的在態空間裡運動,我們可以統計站在不同的狀態上的實驗者個數,因而得到的是一個概率分布,正是之前說的分布函數的概念。 物理經常用概率雲,概率波一類的詞描述這種情境。 其實都是在說我們不再用一個數字描述世界,比如速度,位置,而是這個值的分布函數。變化的不再是某個特定的值而是它的分布函數。


態空間的分布函數,又可稱作場。由此,場的物理學可以徐徐入場。


之前說的馬爾科夫過程的關鍵-聯繫此刻與下一刻的條件概率,在這裡以躍遷矩陣A表示。


剛才講到牛頓力學和馬爾科夫過程有著內在的聯繫,Master equation就是隨機過程裡的牛頓第二定律。這個方程對於解釋很多物理化學裡的隨機過程有神一般的效力。他就是概率場的動力學方程。

A就是躍遷矩陣,而向量P即概率場,就是經過時間t,系統狀態的分布函數。該方程是概率會怎麼變。


由此我們看到用Maser方程研究問題的好處,轉不確定為確定。當你站在縱覽所有可能性的制高點,把所有可能性看做高維空間的「概率場」。 不確定性的隨機遊走變成了概率分布函數(概率場)的確定性演化。- 這也是為什麼場物理在近代物理後成為主導,所研究對象多為隨機過程。


* 量子力學大名鼎鼎的薛丁格方程,其實說的也是這回事,我們無法同時確定電子的位置和動量,因為我們轉而求其概率分布函數, 得到一個類似Master equation的微分方程,只不過數學形式更複雜,但思維都是轉而研究概率的動力學。 這個方程卻幹掉了一個物理史上的超級難題, 如果在考慮微觀世界的不可確定下預測它們的運動。



圖:薛丁格方程的形式和Master Equation 十分類似。只不過這裡的用波函數而不用概率場,但兩者其實由一個簡單關係一一對應。


* 隨機事件的重要方程,無論是物理裡的郎之萬方程,還是金融期權定價的方程,都直接與Master Equation 相關。


穩態解:master equation 指導系統演化,如果A(t)不含時間, 就得到剛才說的穩態過程,系統會演化成一個穩定狀態,即分布函數不再隨時間變化。A*P=0 我們通常稱為平衡態。


*熵:對應一個平衡態,我們可以定義系統的熵,或者說系統的不確定性,可能性的選項越多,可能性越均勻,這個值就越大。



經典的markov例子:


Branching process:

分叉過程 ,一個祖先繁衍的後代, 會出現多少個家庭, 每個家庭人口是怎麼分布的?

所有家族的演化,生物種群的繁殖,都可以用這個模型研究。一個個體可以繁殖出的子嗣數量是一個隨機變量,經過n代之後將形成一個由大小迥異的家族組成的群體。

如果對應為一個隨機過程:-每一代的人口數就是就是隨機變量,我們要研究的就是與這個隨機變量對應的分布函數。

這個過程具有的典型性質是迭代: 如果上一代的人口數Gn,下一代就是Gn+1=G(Gn),給定第n代的家族人口分布,那麼下一代的家族人口分布只與上代有關。所以這個是典型的Markov process


這個問題可以退出一些有趣的問題, 比如人口中各大姓氏的比例。 一般情況下,各大姓氏的比例在各個種群中符合相同的統計規律(冪律),就是Branching Process 的結果。


Poisson Process:

高中黨皆知的隨機過程,比如一個小旅店裡一晚上到來的客人數量隨時間的變化,或者光子槍噴出的光子數, 一個帖子兩分鐘內的訪問次數,都是再經典不過的例子了。


泊松分布由二項分布演化而來。二項分布十分好理解,給你n次機會拋硬幣,硬幣正面向上概率為p,那麼n此拋出有k次朝上的概率有多少? 這是一個經典的二項分布。當這裡的概率p趨於0,而n趨於無窮,我們就得到一個泊松分布。泊松分布多用於連續時間上的問題, 如果概率在連續的時間上是均勻不變的(任意時候發生的概率為P),我們就有一個泊松過程。這也極好理解,只要你把時間切割成小段。 比如打開一個帖子的兩分鐘訪問者的概率分布問題,你把兩分鐘分成120秒, 每秒上有訪問者進入的概率是確定的,那麼這無非就是投120次硬幣多少次向上的問題, 由於微小時間尺度上一件事情發生的概率通常很小,因此,泊松分布通常成立。


圖: 泊松分布的形式,x及事件發生的次數。




圖:泊松分布一般的形狀,三條曲線代表了平均值不同的三個泊松分布。


泊松過程,恐怕是最簡單的隨機過程,也是所有隨機過程的參考系-好比物理的慣性定律。我們研究一個隨機過程時候,第一個做的就是與泊松做比較。


為什麼泊松是一切隨機過程的參考系?因為泊松是一個此時的變化和彼時毫無聯繫的過程,或者說此刻和下一刻是完全獨立的,markov說的是與此時只允許與上一個時刻有聯繫,而泊松就更近一步,把這種聯繫也取消掉。


如果我們假定每件事件的發生都與其它時刻事件的發生無關,我們就可以試圖用泊松分布表述它。比如一個商店前臺顧客的光臨,一般情況下,每一個顧客的到來都與前一個顧客無關,因此一段時間內前臺顧客的數量符合泊松分布。


反過來,判斷一個隨機過程的前後事件是否獨立,也可以通過它是否符合泊松分布判別,如果你得到的統計分析偏離了泊松,通過是前後事件相關聯的標誌。 事實上生活中的事情都偏離泊松,而是具有強大的關聯性。 比如你一周內收到的郵件,通過在周一早上爆發而來,而在周末減少到零。你在一段時間會不停叫桃花運,而後一段十分冷清等。 這些都告訴你要找找背後的原因。


Wiener Process:


Wiener Process, 其原型就是大名鼎鼎的布朗運動。這恐怕是在自然科學以及經濟金融裡用的最廣泛的隨機過程。也是隨機過程的靈魂基礎。

關於Wiener Process, 最有趣的比喻是隨機遊走的醉漢。醉漢在一條直線上移動,往左或往右的概率相等。醉漢走出去的距離與時間的關係,就是Winner Process。


圖:Wiener Process, 上上下下的隨機遊走表現的美麗軌跡,也是眾多股市愛好者經常看到的形狀。


Wiener Process 所依賴的假設特別簡單: 醉漢走出的每一步的距離和上一步無關(依然在說馬氏性),而這一步走出的長度是由一個確定的高斯分布產生的隨機數。 如果這個高斯分布的期望為0,那麼這個過程就是一個純粹的隨機遊走,反之則是一個但有漂移(drift)的隨機遊走。

股票和期貨等的價格規律,最基本的假設就是隨機遊走,在此之上可以得到一些簡單的定價模型。 但是事實上, 這種規律只在短期內成立,一旦金融危機爆發, 模型就終止了。 而金融危機,依然是過程內部的長程關聯的表現。 因為市場的交易畢竟不是隨機的,股市的漲落引起人們心情和預期的變化,從而以正反饋的形式給股市,所謂漲則瘋買,低則瘋賣,這種關聯性打破了隨機遊走的夢。



信息在哪裡?


說了這么半天隨機過程,起核心的應用卻還沒有談,如何在一個隨機性的變化過程中,提取信息?

首先,變化過程從來都是一些數據記錄的,dirty data, 骯髒混亂的數據, 你要把這些data輸入到一個電腦程式中,用我說的前面那套東西搞它。隨機過程的重要性就在這個數據裡提取信息的過程。


怎麼搞,分兩步,正問題和反問題:


反問題-數據出發


1. 數據可視化。因為數據雜亂無章,你幾乎看不到任何信息,你要做的第一個工作就是讓雜亂的數據平均化,平均,才容易觀察趨勢。那麼何為平均化?-低通濾鏡,去掉不必要的高頻信息。 這裡的關鍵是時間窗口,時間窗口就是你用來作平局的數據尺度,時間窗口內的數據你都用其平均數代替。 時間窗口的選擇學問很大,一般越大容易看整體變化的趨勢,越小則可以精細統計細節信息。 而最好的做法是在平均時候變化時間窗口,觀察數據鏈是如何隨時間窗口大小變化的。


2. 計算分布函數。選擇恰當的變量計算分布函數。隨機過程的關鍵信息就在分布函數裡。每一種特定的隨機過程,都有特定分布函數對應。因此,從分布函數識別隨機過程,就是反向判斷的關鍵。


3. 尋找相關性: 信息就是那些多次重複中隨機過程中不變的數據信息。所以提取信息首先要足夠數據。然後計算不同次試驗數據之間的相關性,相關性大小是數據信息含量的直接指示。


4. 統計學習: 基於貝葉斯分析的統計學習將在後續篇章敘述。他是目前從數據裡提取信息的大勢所趨(state of art)。


正問題-模型出發:


要判斷由數據推測出來的隨機過程對不對,就反過來進行模型模擬, 模型將產生與試驗類似的數據,這個時候我們就可以看我們猜測的模型正確了多少。 比如剛才說的泊松過程就是最簡單的模型。 往往我們可以先假定一個過程是泊松過程,然後就可以推得一組分布函數,把推得的分布函數和實際從數據中觀測的分布函數比較,我們就可以知道我們和這個最簡單的模型的偏差。 模型也是一個循序漸進不斷修正的過程, 這點依然和時下流行的統計學習有關。


具體詳見後續篇章。


歡迎關注 混沌巡洋艦 追尋自然界複雜下的簡單,帶你跨界學習各路乾貨


長按該圖片,掃描二維碼,即可以一鍵關注本公眾號。


歡迎加小編鐵哥個人微信562763765



相關焦點

  • 隨機過程筆記
    研究這些花粉的微小運動似乎有點天然呆,我們卻從中找到了分子世界重要的信息。而花粉那無序與多變的軌道,也為我們提供了隨機運動的範式(隨機遊走)。 計算機生成的十個粒子的布朗運動軌跡如果給隨機過程打個比方,它就像是一個充滿交叉小徑的花園。
  • 隨機過程(二) 隨機過程的基本概念
    在隨機過程(一) 中我們回顧了概率論中的一些基本知識, 當然, 裡面有些東西是按照測度論的語言進行表述的, 不過在這份筆記中我們不會用到太多的測度論知識, 大部分情況下僅僅是借用其名詞. 在這一節, 我們將定義隨機過程(stochastic process, SP), 並介紹研究隨機過程時會用到的一些基本的概念和方法.
  • 隨機過程筆記(一)概率論複習(1)特殊分布
    隨機過程筆記(一)概率論複習(1)特殊分布一些重要的概念1.
  • 《隨機漫步的傻瓜》讀書筆記
    本書的翻譯簡直是災難性的,因此這個筆記是參考了原文(注1)後做的。塔勒布寫書比較碎碎念,雖然邏輯展開很有層次,但是想一眼看出其中的邏輯主線還是不太容易。這裡的筆記主要是幫助回顧全書的核心內容。導言:「雲中的清真寺」本書討論的是隨機性。
  • 隨機過程學習筆記——SDE隨機微分方程(1)
    一、innovation term/noise 幹擾項注意,這裡用 ΔWk 代指幹擾項,務必要和下面說的維納過程的符號區分開
  • 隨機過程
    隨機過程論與其他數學分支如位勢論、微分方程、力學及複變函數論等有密切的聯繫,是在自然科學、工程科學及社會科學各領域研究隨機現象的重要工具。隨機過程論目前已得到廣泛的應用,在諸如天氣預報、統計物理、天體物理、運籌決策、經濟數學、安全科學、 人口理論、可靠性及計算機科學等很多領域都要經常用到隨機過程的理論來建立數學模型。  一般來說,把一組隨機變量定義為隨機過程。
  • 隨機過程(三) Poisson過程的基本理論
    在這一節中我們開始處理一個常見的隨機過程: Poisson過程, 這是一個典型的離散型的隨機過程, 藉此我們可以了解離散型隨機過程研究的基本範式. 從理論價值來看, Poisson過程本身也是隨機過程的核心之一, 它從分類上屬於計數過程、獨立平穩增量過程(可加過程)、Markov過程這三個過程的交集, 藉助Poisson過程我們也可以進一步了解這三類過程.
  • 《死亡筆記》真人電影續篇2016年上映
    新浪遊戲訊 9月14日消息,由窪田正孝與山崎賢人所演出的漫畫改編日劇《死亡筆記》9月13日正式劇終,與此同時2006年由藤原龍也與松山研一、戶田惠梨香等人演出的改編電影《死亡筆記》正統續集《死亡筆記2016(暫稱)》公布。該片是劇情方面完全原創的一部新作,確定將於2016年上映。
  • 極簡隨機過程
    教材裡,隨機過程屬於概率論的一部分,但隨機過程對抗震抗風來講,很重要,所以單寫一篇。
  • 人氣哥特蘿莉漫畫<薔薇少女>全新續篇將開連載
    在這樣的情況下,同屬集英社旗下的少女漫畫雜誌《Ribon》將在12月1日發行的正月超特大號中開始連載《薔薇少女》的續篇。看到這裡,相信很多動漫迷都會抱有疑問:「不是說《薔薇少女》尚在連載中麼,那麼這個續篇又是怎麼回事呢?」原來,這個續篇並非真正意義上的續篇,它只是在PEACH-PIT創作的《薔薇少女》既有內容的基礎上延展出另一支線的劇情,其名為《薔薇少女 dolls talk》。
  • 漫畫《出雲傳奇》確定連載續篇 - 出雲傳奇 灼
    漫畫《出雲傳奇》確定連載續篇 - 出雲傳奇 灼
  • 《蘋果核戰記續篇》:超猛超酷超空
    《2077日本鎖國》(Vexille)在繪畫風格上,可以說完全繼承了《蘋果核戰記》(Appleseed)第一集的衣缽,而《蘋果核戰記續篇》(Appleseed Ex Machina)則不負眾望,在第一集的基礎上更進了一步。
  • 應用統計系列三|隨機過程
    今天小統和大家一起來學習應用統計,今天先來學習一下應用統計中的隨機過程。1907年前後,Α.Α.馬爾可夫研究過一列有特定相依性的隨機變量,後人稱之為馬爾可夫鏈。1923年N.維納給出了布朗運動的數學定義,這種過程至今仍是重要的研究對象。雖然如此,隨機過程一般理論的研究通常認為開始於30年代。
  • 伊藤隨機過程:一個更好的新能源電力系統控制隨機模型
    因此,從滿足新能源電力系統優化控制的角度出發,本文提出了一種基於伊藤隨機過程的建模方法,可以利用隨機微分方程的研究框架,系統性的解決隨機邊界條件下,電力系統的最優控制問題。採用伊藤隨機過程構建隨機優化控制模型的優勢在於:伊藤隨機模型具有良好的數學形態,以及豐富的理論工具,可以滿足不同類型的隨機優化控制模型的構造與求解。
  • 相隔17年《欲望城市》拍續篇 原班人馬「四缺一」
    辛西亞尼克森(右起)、莎拉潔西卡派克和克莉絲汀戴維斯將在《欲望城市》續篇合體飆戲,並擔任監製。《欲望城市》曾拍過六季劇集及兩部電影版,據報導,HBO Max將拍攝全新10集、每集半小時的《欲望城市》續篇「And Just Like That……」,Sarah Jessica Parker(莎拉傑西卡派克)、Kristin Davis(克莉絲汀戴維斯)和Cynthia Nixon(辛西亞尼克森)確定合體飆戲,新一季內容將講述三人50歲後的感情生活與友誼,並由三人聯合擔任監製。
  • 原小點科普·從隨機過程到馬爾可夫鏈
    每丟一次硬幣,便產生一個隨機變量X,那麼,我們一次又一次地丟下去,便產生出一系列的隨機變量X1、X2……Xi……。一般而言,數學家們將一系列隨機變量的集合,稱之為「隨機過程」。   丟硬幣   隨機過程中的隨機變量Xi,在上例中是第i次投丟硬幣的結果
  • 真人版「火星異種」因為票房慘澹而中止拍攝續篇?
    真人版「火星異種」因為票房慘澹而中止拍攝續篇?   「看電影的人應該知道,拍攝電影的時候一直想著要拍續篇。結果觀眾很少,現在續篇的計劃也被中止了。」   公開的電影被中止了的也只有有大澤隆夫主演的「築地魚河岸三代目」和EXILE・AKIRA主演的「HEAT」。對主演的伊藤英明來說,火星異種簡直是一個黑歷史。
  • 危機四伏《R2》之革命王朝續篇開啟
    本周《R2》革命王朝續篇將再度開啟,石墨島上混亂的局面能否有所轉機?四組老伺服器「、、、」的用戶,快來準備保衛石墨島大陸的和平與安定吧!《R2》三組新服的用戶正在努力練級,天使們十分希望能夠幫助這些可愛的玩家們,他們將精心準備的禮物藏在石墨島大陸上,能夠挑戰勝利的用戶,就會得到這些神秘的禮物。
  • 樹夏實漫畫《出雲傳奇》續篇明年開始連載
    日本漫畫家樹夏實的漫畫作品《出雲傳奇》「八雲立つ」的續篇「八雲立つ 灼(あらた)」將於2018年2月28日發售的白泉社《メロディ》4月號開始連載。
  • 利用隨機數完成公司年會抽獎過程
    在統計學的不同技術中需要使用隨機數,比如在從統計總體中抽取有代表性的樣本的時候,或者在將實驗動物分配到不同的試驗組的過程中等等。產生隨機數有多種不同的方法。這些方法被稱為隨機數發生器。隨機數最重要的特性是:它所產生的後面的那個數與前面的那個數毫無關係。