前一篇文章介紹了我們描述不確定性的有利武器概率論,然後引出了隨機過程的精髓-馬爾科夫過程,當一個隨機過程的變化只取決於當下的變化而非歷史的時候,我們得到一個馬爾科夫鏈條。它的優良性質使得巨大的計算瞬時簡化。
進一步降維:
markov鏈的思維用一組前一步和後一步的條件概率關係衍生整個過程,具有巨大的簡化威力。對於更加特殊的問題,維度還可以繼續降低,問題得意更徹底的簡化。 例如:
穩態過程-stationary process :
如果說markov過程每一步與前一步的關係是與時間無關的,或符合
這個過程就是穩態的,這個時候我們只需要這樣一個關係就描述整個過程。
在這個極度簡化的模型下,markov process 可歸結為一個在態空間裡的躍遷軌跡。下圖的隨機變量是橫軸(a,b,c,d四個態),時間是縱軸。系統從此刻的態躍遷到下一刻的態都是隨機的,而且躍遷的概率由一個數字決定,這個數字不由軌跡的歷史決定,因而markov。從此刻任一狀態到達下一刻任意狀態包含4x4個概率,因此可以寫作一個4x4的躍遷矩陣。躍遷矩陣Pij涵蓋了過程的全部信息。
穩態過程顧名穩態, 是因為在一段時間後系統會進入一個平衡狀態,或者說系統的分布函數不隨時間變化。 如同上文提到的人口中男女比例問題, 男女比例在各個國家都在1:1 左右, 就是因為生成它的過程是一個穩態過程。
穩態過程含有兩個個重要的特徵量: 平均值和自相關函數(Auto-correlation),穩態(stationary)的含義正是在平均值附近擾動,在這個情況下隨機性換以另外一個名詞-fluctuation(擾動)。 而在非穩態下,擾動和平均值的概念變得模糊,失去意義。
平均值自然重要,但擾動卻往往包含著平均值所沒有的信息。 首先我們計算方差,來看擾動的劇烈程度,但是這遠遠不夠。
Auro-correlation和之前描述的相關性具有內在的聯繫,事實上它描述的就是此時的擾動和彼時的擾動的相關性。
這個量可以理解為你手裡有一個信號,首先你減去平均值,這樣信號就在0附近擾動。 你把這個信號平行移動一個時間差, 然後把它和原來的信號乘起來,如果說信號本身代表的過程在時間上胡亂跳躍無跡可尋, 那麼這個量就很接近0),因為正和負的部分無序的乘起來,正負互相抵消,你的期望就是0。反之,如果你的信號內包含內在的構造(pattern),就會得到不為0的值。
因此,日常生活中你手裡具有的往往是數據,你什麼都不知道的時候,計算這個量就是起點,這個東西在幫你尋找無序中的結構(pattern),它將告訴我們系統噪音的性質。
比如我們經常說的白色噪聲(white noise)的定義就是自關聯性為0, 因為它要的是絕對的無序, 毫無記憶,毫無結構。這種信號就是最基本的噪聲形態。
而如果我們發現一個隨時間差變化很慢的自相關函數,往往顯示系統具有記憶的特性,因而產生了更複雜的結構, 或者系統臨近相變。
自相關性的計算告訴我們的是, 你不要只看表面的無序有序,因為人眼喜歡在無序中尋找有序,而一個有力的計算就可以告訴你比你的眼睛更準確的信息。
Master Equation:
剛才描述離散的markov過程,如果一個過程是連續的,不再分為第一步第二步第三步, 我們就可以用微分方程描述一個馬爾科夫過程。 這就是master equation - 所謂大師方程。 這是物理,化學,經濟學,得到一些給力結果經常用到的微分方程。
master equation直接關注的是隨機過程的全貌。剛才所說的躍遷軌跡是一次實驗的結果,而Master Equation 描述的卻是無數實驗者同時入場,進行馬爾科夫過程,你會看到一個新的圖像。系統每一個時刻的狀態不再是態空間一個具體的點,而是一大團點(一大叢實驗者),它們慢慢的在態空間裡運動,我們可以統計站在不同的狀態上的實驗者個數,因而得到的是一個概率分布,正是之前說的分布函數的概念。 物理經常用概率雲,概率波一類的詞描述這種情境。 其實都是在說我們不再用一個數字描述世界,比如速度,位置,而是這個值的分布函數。變化的不再是某個特定的值而是它的分布函數。
態空間的分布函數,又可稱作場。由此,場的物理學可以徐徐入場。
之前說的馬爾科夫過程的關鍵-聯繫此刻與下一刻的條件概率,在這裡以躍遷矩陣A表示。
剛才講到牛頓力學和馬爾科夫過程有著內在的聯繫,Master equation就是隨機過程裡的牛頓第二定律。這個方程對於解釋很多物理化學裡的隨機過程有神一般的效力。他就是概率場的動力學方程。
A就是躍遷矩陣,而向量P即概率場,就是經過時間t,系統狀態的分布函數。該方程是概率會怎麼變。
由此我們看到用Maser方程研究問題的好處,轉不確定為確定。當你站在縱覽所有可能性的制高點,把所有可能性看做高維空間的「概率場」。 不確定性的隨機遊走變成了概率分布函數(概率場)的確定性演化。- 這也是為什麼場物理在近代物理後成為主導,所研究對象多為隨機過程。
* 量子力學大名鼎鼎的薛丁格方程,其實說的也是這回事,我們無法同時確定電子的位置和動量,因為我們轉而求其概率分布函數, 得到一個類似Master equation的微分方程,只不過數學形式更複雜,但思維都是轉而研究概率的動力學。 這個方程卻幹掉了一個物理史上的超級難題, 如果在考慮微觀世界的不可確定下預測它們的運動。
圖:薛丁格方程的形式和Master Equation 十分類似。只不過這裡的用波函數而不用概率場,但兩者其實由一個簡單關係一一對應。
* 隨機事件的重要方程,無論是物理裡的郎之萬方程,還是金融期權定價的方程,都直接與Master Equation 相關。
穩態解:master equation 指導系統演化,如果A(t)不含時間, 就得到剛才說的穩態過程,系統會演化成一個穩定狀態,即分布函數不再隨時間變化。A*P=0 我們通常稱為平衡態。
*熵:對應一個平衡態,我們可以定義系統的熵,或者說系統的不確定性,可能性的選項越多,可能性越均勻,這個值就越大。
經典的markov例子:
Branching process:
分叉過程 ,一個祖先繁衍的後代, 會出現多少個家庭, 每個家庭人口是怎麼分布的?
所有家族的演化,生物種群的繁殖,都可以用這個模型研究。一個個體可以繁殖出的子嗣數量是一個隨機變量,經過n代之後將形成一個由大小迥異的家族組成的群體。
如果對應為一個隨機過程:-每一代的人口數就是就是隨機變量,我們要研究的就是與這個隨機變量對應的分布函數。
這個過程具有的典型性質是迭代: 如果上一代的人口數Gn,下一代就是Gn+1=G(Gn),給定第n代的家族人口分布,那麼下一代的家族人口分布只與上代有關。所以這個是典型的Markov process
這個問題可以退出一些有趣的問題, 比如人口中各大姓氏的比例。 一般情況下,各大姓氏的比例在各個種群中符合相同的統計規律(冪律),就是Branching Process 的結果。
Poisson Process:
高中黨皆知的隨機過程,比如一個小旅店裡一晚上到來的客人數量隨時間的變化,或者光子槍噴出的光子數, 一個帖子兩分鐘內的訪問次數,都是再經典不過的例子了。
泊松分布由二項分布演化而來。二項分布十分好理解,給你n次機會拋硬幣,硬幣正面向上概率為p,那麼n此拋出有k次朝上的概率有多少? 這是一個經典的二項分布。當這裡的概率p趨於0,而n趨於無窮,我們就得到一個泊松分布。泊松分布多用於連續時間上的問題, 如果概率在連續的時間上是均勻不變的(任意時候發生的概率為P),我們就有一個泊松過程。這也極好理解,只要你把時間切割成小段。 比如打開一個帖子的兩分鐘訪問者的概率分布問題,你把兩分鐘分成120秒, 每秒上有訪問者進入的概率是確定的,那麼這無非就是投120次硬幣多少次向上的問題, 由於微小時間尺度上一件事情發生的概率通常很小,因此,泊松分布通常成立。
圖: 泊松分布的形式,x及事件發生的次數。
圖:泊松分布一般的形狀,三條曲線代表了平均值不同的三個泊松分布。
泊松過程,恐怕是最簡單的隨機過程,也是所有隨機過程的參考系-好比物理的慣性定律。我們研究一個隨機過程時候,第一個做的就是與泊松做比較。
為什麼泊松是一切隨機過程的參考系?因為泊松是一個此時的變化和彼時毫無聯繫的過程,或者說此刻和下一刻是完全獨立的,markov說的是與此時只允許與上一個時刻有聯繫,而泊松就更近一步,把這種聯繫也取消掉。
如果我們假定每件事件的發生都與其它時刻事件的發生無關,我們就可以試圖用泊松分布表述它。比如一個商店前臺顧客的光臨,一般情況下,每一個顧客的到來都與前一個顧客無關,因此一段時間內前臺顧客的數量符合泊松分布。
反過來,判斷一個隨機過程的前後事件是否獨立,也可以通過它是否符合泊松分布判別,如果你得到的統計分析偏離了泊松,通過是前後事件相關聯的標誌。 事實上生活中的事情都偏離泊松,而是具有強大的關聯性。 比如你一周內收到的郵件,通過在周一早上爆發而來,而在周末減少到零。你在一段時間會不停叫桃花運,而後一段十分冷清等。 這些都告訴你要找找背後的原因。
Wiener Process:
Wiener Process, 其原型就是大名鼎鼎的布朗運動。這恐怕是在自然科學以及經濟金融裡用的最廣泛的隨機過程。也是隨機過程的靈魂基礎。
關於Wiener Process, 最有趣的比喻是隨機遊走的醉漢。醉漢在一條直線上移動,往左或往右的概率相等。醉漢走出去的距離與時間的關係,就是Winner Process。
圖:Wiener Process, 上上下下的隨機遊走表現的美麗軌跡,也是眾多股市愛好者經常看到的形狀。
Wiener Process 所依賴的假設特別簡單: 醉漢走出的每一步的距離和上一步無關(依然在說馬氏性),而這一步走出的長度是由一個確定的高斯分布產生的隨機數。 如果這個高斯分布的期望為0,那麼這個過程就是一個純粹的隨機遊走,反之則是一個但有漂移(drift)的隨機遊走。
股票和期貨等的價格規律,最基本的假設就是隨機遊走,在此之上可以得到一些簡單的定價模型。 但是事實上, 這種規律只在短期內成立,一旦金融危機爆發, 模型就終止了。 而金融危機,依然是過程內部的長程關聯的表現。 因為市場的交易畢竟不是隨機的,股市的漲落引起人們心情和預期的變化,從而以正反饋的形式給股市,所謂漲則瘋買,低則瘋賣,這種關聯性打破了隨機遊走的夢。
信息在哪裡?
說了這么半天隨機過程,起核心的應用卻還沒有談,如何在一個隨機性的變化過程中,提取信息?
首先,變化過程從來都是一些數據記錄的,dirty data, 骯髒混亂的數據, 你要把這些data輸入到一個電腦程式中,用我說的前面那套東西搞它。隨機過程的重要性就在這個數據裡提取信息的過程。
怎麼搞,分兩步,正問題和反問題:
反問題-數據出發:
1. 數據可視化。因為數據雜亂無章,你幾乎看不到任何信息,你要做的第一個工作就是讓雜亂的數據平均化,平均,才容易觀察趨勢。那麼何為平均化?-低通濾鏡,去掉不必要的高頻信息。 這裡的關鍵是時間窗口,時間窗口就是你用來作平局的數據尺度,時間窗口內的數據你都用其平均數代替。 時間窗口的選擇學問很大,一般越大容易看整體變化的趨勢,越小則可以精細統計細節信息。 而最好的做法是在平均時候變化時間窗口,觀察數據鏈是如何隨時間窗口大小變化的。
2. 計算分布函數。選擇恰當的變量計算分布函數。隨機過程的關鍵信息就在分布函數裡。每一種特定的隨機過程,都有特定分布函數對應。因此,從分布函數識別隨機過程,就是反向判斷的關鍵。
3. 尋找相關性: 信息就是那些多次重複中隨機過程中不變的數據信息。所以提取信息首先要足夠數據。然後計算不同次試驗數據之間的相關性,相關性大小是數據信息含量的直接指示。
4. 統計學習: 基於貝葉斯分析的統計學習將在後續篇章敘述。他是目前從數據裡提取信息的大勢所趨(state of art)。
正問題-模型出發:
要判斷由數據推測出來的隨機過程對不對,就反過來進行模型模擬, 模型將產生與試驗類似的數據,這個時候我們就可以看我們猜測的模型正確了多少。 比如剛才說的泊松過程就是最簡單的模型。 往往我們可以先假定一個過程是泊松過程,然後就可以推得一組分布函數,把推得的分布函數和實際從數據中觀測的分布函數比較,我們就可以知道我們和這個最簡單的模型的偏差。 模型也是一個循序漸進不斷修正的過程, 這點依然和時下流行的統計學習有關。
具體詳見後續篇章。
歡迎關注 混沌巡洋艦 追尋自然界複雜下的簡單,帶你跨界學習各路乾貨
長按該圖片,掃描二維碼,即可以一鍵關注本公眾號。
歡迎加小編鐵哥個人微信562763765