概率論 漫談

2021-01-14 算法與數學之美

出自笑對人生,傲立寰宇 的博客。

原文地址:https://dahuasky.wordpress.com/2008/09/23/%E6%A6%82%E7%8E%87%E6%BC%AB%E8%B0%88/

前一段時間,隨著研究課題的深入,逐步研習現代概率理論,這是一個令人耳目一新的世界。

概率論要解決的問題

概率論是很古老的數學分支了——探討的是不確定的問題,就是說,一件事情可能發生,也可能不發生。然後,我們要預計一下,它有多大機會會發生,這是概率論要解決的問題。這裡面要特別強調概率和統計的區別,事實上這個區別在很多文章裡面被混淆了。舉一個簡單的例子,比如拋硬幣。那麼我們可以做兩件事情:

1.我們預先知道拋硬幣的過程是「平衡的」,也就是說出現正面的機會和出現背面的機會都是50%,那麼,這就是我們的概率模型——這個簡單的模型有個名字——伯努利試驗(Bernoulli trial)。然後,我們可以預測,如果我們拋10000次硬幣,那么正面和背面出現的次數大概各在5000次左右。這種執因「測」果的問題是概率論要解決的,它在事情發生之前進行。


2.我們預先不知道拋硬幣的過程遵循什麼法則。於是,我們先去做個實驗,拋10000次硬幣,數一下正面和反面各出現了多少次。如果各出現了5000次,那麼我們可以有很高的信心去認為,這是一個「平衡的」硬幣。如果正面出現9000次,反面出現1000次,那麼我們就可以基本認為這個硬幣遵循一個嚴重偏向正面的非平衡法則——正面出現的概率是10%。這種執果溯因的事情是統計要解決的,它在事情發生之後進行,根據觀察到的情況歸納背後的模型(Model)或者法則(Law)。

這篇文章只討論概率論的問題。

經典概率的困難

什麼是概率呢?長期以來,一個傳統而直到今天還被廣泛運用的概念是:概率就是一個事情發生的機會——這就是經典概率論的出發點和基礎。大部門的初等概率論教科書,給出一個貌似頗為嚴謹的定義:我們有一個樣本空間(sample space),然後這個樣本空間中任何一個子集叫做事件(event),我們給每個事件A賦一個非負實數P(A)。如果P(A)滿足

那麼我們就稱P為概率。這個定義,以及由此而演繹出來的整個經典概率體系,廣為接受並被成功用在無數的地方。

但是,這樣的定義藏著一個隱蔽很深的漏洞——使得從這個定義出發能在數學上嚴格導出互相矛盾的結果。假設樣本空間是S=[0, 1],裡面的實數依循均勻分布,我們構造這樣一個集合。首先,建立一個等價關係:相差值是有理數的實數是等價的。依據這個等價關係,把0到1之間的實數劃分為等價類,這樣我們有無數個等價類。從每個等價類中隨便抽出一個實數作為代表,這些代表構成一個集合,記為H。(注意:我們有不可數無限個等價類,因此這個集合的存在依賴於選擇公理(Axiom of Choice))

那麼P(H) 是什麼呢?如果P(H)等於零,那麼P(S) = 0;如果P(H) > 0,那麼P(S) = 無窮大。無論如何,都和P(S) = 1的要求矛盾。這下麻煩大了,我們一直依賴的概率定義竟然是自相矛盾的!

也許,從數學家的眼光看來,這個問題很嚴重。但是,這對於我們有什麼意義呢。我們一輩子都用不著這種只存在於數學思辨中的特殊構造的集合!不過,即使我們從實用出發不顧及這類邏輯漏洞,傳統概率論還是會給我們帶來一定程度的麻煩。

一個問題,可能大家都有所感覺。那就是,我們在本科學習的概率論中有著兩套系統:離散分布和連續分布,基本什麼定理都得提供這兩種形式,但是它們的推導過程似乎沒什麼太大差別,一個用求和一個用積分而已。幾乎一樣的事情,為什麼要幹兩遍呢。

還有,那種離散和連續混合的分布又怎麼處理呢?這種「離散連續混合的分布」不僅僅是一種理論可能,在實際上它的應用也在不斷增長。一個重要的例子就是狄裡克萊過程(Dirichlet Process)——它是learning中的無限混合模型的核心——這種模型用於解決傳統有限混合模型中(比如GMM)子模型個數不確定的難題。這種過程,在開始時(t = 0)通常是連續分布, 隨著時間演化,在t > 0時變成連續和離散混合分布,而且離散部分比例不斷加重,最後(幾乎必然)收斂到一個離散分布。這種模型用傳統的連續和離散分離的處理方式就顯得很不方便了。

事實上,我們是可以把對連續模型,離散模型,以及各種既不連續也不離散的模型,使用一種統一的表達。這就是現代概率論採取的方式。

現代概率論——從測度開始

現代概率論是前蘇聯大數學家Kolmogorov在上世紀30年代基於測度理論(Measure theory)的基礎上重新建立的,它是一個非常嚴密的公理化體系。什麼是測度呢?說白了,就是一個東西的大小。測度是非負的,而且符合可數可加性,比如幾塊不相交的區域的總面積,等於各自面積之和。這個屬性和概率的屬性如出一轍。測度理論自從勒貝格(Lebesgue)那個時候開始,已經建立了一套嚴格的數學體系。因此,現代概率論不需要把前輩的路子重新走一遍。基於測度論,概率的定義可以直接給出:

概率就是總測度(整個樣本空間的測度)為1的測度。

測度理論和經典概率論有個很大的不同,不是什麼集合都有一個測度的。比如前面構造的那個奇怪的集合,它就沒有測度。所以,根據測度理論,樣本空間中的集合分成兩種:可測的(measurable)和不可測的。我們只對可測集賦予測度或者概率。特別留意,測度為零的集合也是可測的,叫做零測集。所謂不可測集,就是那種測度既不是零,也不是非零,就是什麼都不能是的集合。

因此,根據測度理論,我們描述一個概率空間,需要三個要素:一個樣本空間,所有可測集(它們構成sigma-代數:可測集的交集,併集和補集都是可測的),還有就是一個概率函數,給每個可測集賦一個概率。

通過引入可測性的概念,那種給我們帶來麻煩的集合被排除在外了。不過,可測性的用處遠不僅僅是用於對付那些「麻煩集合」。它還表達了一個概率空間能傳達什麼樣的信息。這裡暫時不深入這個問題,以後要有機會寫到條件概率(conditional probability)和鞅論(Martingale theory)時,再去討論這個事情。這裡只是強調一下(雖然有點空口說白話),可測性是討論隨機過程和隨機分析的非常重要的概念,在實際計算和推導中也非常有用。

我們看到,這套理論首先通過可測性解決了邏輯上的漏洞。那怎麼它又是怎麼統一連續和離散的表達的呢?這裡面,測度理論提供了一個重要的工具——勒貝格積分(Lebesgue Integral)。噢,原來是積分,那不也是關於連續的麼。不過,這裡的勒貝格積分和在大學微積分課裡面學的傳統的積分(也叫黎曼積分)不太一樣,它對離散和連續通吃,還能處理既不離散又不連續,或者處處有定義而又處處不連續的各種各樣的東西)。

舉一個簡單例子,比如定義在[0, 1]的函數,它在[0, 0.5)取值為1,在[0.5, 1]取值為2。這是一個簡單的階梯函數,期望是1.5。按照傳統的黎曼積分求期望,就是把定義域[0, 1]分成很多小段,然後把每小段加起來。勒貝格積分反其道而行之,它不分定義域,而是去分值域,然後看看每個值對應的那塊的面積(測度)是多大。這個函數取值只有兩個:1和2。那麼值為1那塊的面積為0.5, 值為2的那塊的面積也是0.5,積分就是以這些值為係數,把對應的面積加起來:0.5 x 1 + 0.5 x 2 = 1.5。

上面是連續的情況,離散的呢?假設我們在一個離散集[0, 1, 2]上定義一個概率,P(0) = 0.5, P(1) = P(2) = 0.25。對一個函數f(x) = x,求均值。那麼,我們看到,值為0, 1, 2對應的測度分別是0.5, 0.25, 0.25,那麼我們按照「面積加權法」可以求出:0 x 0.5 + 1 x 0.25 + 2 x 0.25 = 0.75。

對於取值範圍連續的情況,它通過取值有限的階梯函數逼近,求取上極限來獲得積分值。

總體來說,勒貝格積分的idea很簡單:劃分值域,面積加權。不過卻有效解決了連續離散的表達的統一問題。大家如果去翻翻基於測度理論建立起來的現代概率論的書,就會看到:所謂「離散分布」和「連續分布」的劃分已經退出歷史舞臺,所有定理都只有一個版本——按照勒貝格積分形式給出的版本。對於傳統的離散和連續分布的區別,就是歸結為它們的測度函數的具體定義不同的區別。

那我們原來學的關於離散分布的點概率函數,或者連續分布的概率密度函數,也被統一了——積分的反操作就是求導,所以那兩個函數都叫成了測度積分的「導數」,有一個名字Radon-Nikodym Derivative。它們的區別歸結為原測度的具體不同,點概率函數是概率測度相對於計數測度的導數,而概率密度函數則是概率測度相對于勒貝格測度的導數。

我們看到,現代概率論建立了測度概念和概率概念的聯繫:

誰是基礎?概率 vs. 期望

從上面的介紹看來,似乎概率(測度)是一個更基本的概念,而期望(積分)是從那引申出來的概念。實事上,整個過程可以反過來,我們可以把期望作為基本概念,演繹出概率的概念。整個概率論,也由此基於期望而展開——其實,如果不是歷史慣性,整套理論叫做「期望論」也挺合適的,呵呵。關於這個事情,以後有機會,再做一個更詳細的探討。這裡,由於篇幅原因,只提出兩個關鍵點:

有了這麼三條,我們可以拋開概率,先定義「期望」這個概念:定義在可測集合上的單調線性實函數。然後,再把指示函數的期望定義成概率。那麼,期望就變成了一個更為基本的概念。

事實上,某些新出來的現代概率論的教科書已經處理得更為簡潔:直接把「期望」和「概率」看成同一個概念——同時,把幾個集合的指示函數和那個集合本身看成一回事。相比於把期望和概率分成兩個不同的東西來處理,很多事情的描述和演繹變得非常簡潔,而又不損失任何嚴密性(預先給出期望和概率的一致性的一個嚴格證明,大概思路是上面三點,不過數學上有一些處理)。由於,把期望視為線性函數,因此對於某個隨機變量的期望就變成了有點類似於隨機變量和測度的一種類似於「內積」的雙線性運算結構。很多本來複雜的概率推演就轉化為線性代數演算——不但使得演繹更為方便簡潔,而且有助於對於結果的代數特性的更深刻的理解。

總而言之,從經典概率論到現代概率論,發生了兩個非常重要的變化:

1.測度的引入——解決了基礎邏輯的難題,統一了離散分布和連續分布。

2.期望的基礎地位——一定程度上消弭了概率和期望的區別,同時把很多概率問題「代數化」。


交流分享、謝謝支持!

<如果你覺得本文還不錯,對你的學習帶來了些許幫助,請幫忙掃描二維碼,支持本公眾號的運營>



相關焦點

  • 概率論大師
    他對積分理論、行星運動理論、熱物理、彈性理論、電磁理論、位勢理論和概率論都有重要貢獻。泊松也是19世紀概率統計領域裡的卓越人物。他改進了概率論的運用方法,特別是用於統計方面的方法,建立了描述隨機現象的一種概率分布──泊松分布。他推廣了「大數定律」,並導出了在概率論與數理方程中有重要應用的泊松積分。
  • 概率論的起源與發展
    這本書迄今為止被認為是概率論中最早的論著。因此可以說早期概率論的真正創立者是帕斯卡、費爾馬和惠更斯。這一時期被稱為組合概率時期,計算各種古典概率。 在他們之後,對概率論這一學科做出貢獻的是瑞士數學家族——貝努利家族的幾位成員。
  • 概率論與數理統計之事件與概率
    CDA數據分析師 出品摘要本文作為學習概率論的前導知識,主要是為了幫助大家了解以下知識點:什麼是隨機事件和隨機變量?什麼是頻率和概率?事件之間有哪些基本關係?事件之間有哪些基本運算?隨機現象概率論是研究隨機現象的數量規律的數學分支,那麼什麼是隨機現象呢?
  • 概率論概述
    ,而研究概率的性質的學科概率論也應運而生。而早期的概率論用於描述的事情很是簡單,比如說擲硬幣的概率,抽彩的概率所以早期的概率稱之為「古典概率」,是基於這樣兩個事實的:1、基本事件是等可能發生的2、組成全體的基本事件是有限的。而後隨著對於隨機現象的進一步的深入的認識我們發現很多的事情的基本事件是無法窮舉的所以產生了,但是為了,描述上的形象形成了基於幾何性質的概率——幾何概率。
  • 以概率論的方式理解世界
    「概率」這兩個字,除了課本以外,最常出現的地方也許就是天氣預報中的「降水概率」,也就是未來幾天下雨的可能性有多大。在數學中,概率論是專門研究「可能性」的一門分支。它涉及的問題非常廣泛,內容遠遠超出了中學課本裡那些刻板的習題。一切隨機或者不確定的事件,都是概率論研究的範疇。上至氣象下至金融,甚至連「磁鐵的磁性怎麼來的」這種物理問題,都可以用概率的方法來研究。
  • 概率論入門:從古典到現代
    研究隨機過程的統計特性,計算與過程有關的某些事件的概率,特別是研究與過程樣本軌道(即過程的一次實現)有關的問題,是現代概率論的主要課題。總之,概率論與實際有著密切的聯繫,它在自然科學、技術科學、社會科學、軍事和工農業生產中都有廣泛的應用。概率論還是數理統計學的理論基礎。發展簡史概率論有悠久的歷史,它的起源與博弈問題有關。
  • 【高等概率論】離散時間鞅
    本次的內容是鞅理論基礎~ 向Doob獻上膝蓋 _(:з」∠)_在測度論的基礎上,概率論的靈魂是獨立性,而相依結構中最吸引人的當然是鞅。市面上的入門教材(如Durrett的PTE)並不讓人足夠滿意,所以稍微梳理了一下知識邏輯,完善和補充了一些鞅的應用。
  • 沒想到賭博、擲骰子產生了概率論!
    這本書迄今為止被認為是概率論中最早的論著。因此可以說早期概率論的真正創立者是帕斯卡、費爾馬和惠更斯。這一時期被稱為組合概率時期,計算各種古典概率。  在他們之後,對概率論這一學科做出貢獻的是瑞士數學家族——貝努利家族的幾位成員。
  • 複習概率論後,有一些關於概率論前三章的看法
    考研的概率論是在我看來是考研數學三部分裡最簡單的一部分,因為它考查的內容比較少,並且考查難度在我看來不高,大題小題的考查形式比較常規,特別是大題的考查比較形式固定,思路清晰,會結合高等數學的內容考查部分知識點的應用。
  • 費馬的副業:說說賭博和概率論
    被譽為「業餘數學家之王」的費馬(Feimat,1601-1665)是法國的律師兼議會議員,直到他近30歲時才開始業餘研究數學,卻成為17世紀最傑出的數學家之一.他的成就主要是對解析幾何、微積分、數論和概率論等方面的傑出貢獻.他在概率論方面的成就還歸功於賭博問題呢。
  • 從貝葉斯定理到概率分布:綜述概率論基本定義
    本文從最基礎的概率論到各種概率分布全面梳理了基本的概率知識與概念,這些概念可能會幫助我們了解機器學習或開拓視野。這些概念是數據科學的核心,並經常出現在各種各樣的話題上。重溫基礎知識總是有益的,這樣我們就能發現以前並未理解的新知識。簡介在本系列文章中,我想探討一些統計學上的入門概念,這些概念可能會幫助我們了解機器學習或開拓視野。
  • 論概率論和金融學的結合
    論文關鍵詞:金融數學;概率論;鞅理論;最優停時理論   一、引言   現代金融理論伴隨著金融市場的發展大量應用概率統計,這是經濟數學化的最大成就,從而出現了一個全新的學科—-金融數學。金融數學是以概率統計和泛函分析為基礎,以隨機分析和鞅理論為核心,主要研究風險資產(包括衍生金融產品和金融工具)的定價、避險和最優投資消費策略的選擇。近二十幾年來,金融數學不僅對金融工具的創新和對金融市場的有效運作產生直接的影響,而且對公司的投資決策和對研究開發項目的評估(如實物期權)以及在金融機構的風險管理中得到廣泛應用。現在對它的研究方興未艾,21世紀肯定是它進一步蓬勃發展的時代。
  • 概率論在日常生活中的應用
    概率論在日常生活中的應用概率論是一門與現實生活緊密相連的學科,不過大多數人對這門學科的理解還是很平凡的:投一枚硬幣,0.5的概率正面朝上,0.5的概率反面朝上,這就是概率論嘛。學過概率論的人多以為這門課較為理論化,特別是像大數定律,極限定理等內容與現實脫節很大,專業性很強。
  • 王鳳雨:概率論與相關領域學科綜述
    、倒向隨機方程與非線性期望理論、粒子系統與超過程理論、極限理論與大偏差、隨機控制,以及概率論在遺傳學、經濟與金融、物理化學等其他領域與學科的應用。由此產生以非線性期望為基礎的許多新的研究方向,包括非線性期望下的極限理論、非線性鞅論、隨機最優控制系統的最大值原理等,推動了隨機控制理論、金融數學、隨機分析等相關學科的發展,已形成國際概率論的重要前沿研究領域,引發國際上一批學者的跟蹤研究。
  • 張輝:人生概率論
    對我而言,我只遵循一種理論:人生概率論。我用概率去解釋成功,也去解釋失敗。尊重概率,讓我大大提高了成功的概率,降低了失敗的概率。按概率行事是行之有效的,也是枯燥的。但尊重概率的人,一般都有更好的運氣。「微習慣」,就是一種枯燥,但尊重概率的習慣。微習慣,是指即使被壓縮到極致,依然可以堅持的習慣。所以,微習慣是為了「沒有任何藉口的堅持」而存在的。
  • 「神童」帕斯卡與概率論
    不僅如此,帕斯卡對數學還有一個大的貢獻:與費馬一起開拓了概率論這一數學分支。概率論的誕生期望值是用概率加權後得到的「期望」的平均值。如圖5b所示,帕斯卡計算出從甲方的觀點,「期望」能得到的賭注分配為$13.75,與費馬計算的結果一致。期望是概率論中的重要概念,期望值則是概率分布的重要特徵之一。它常被用在與賭博相關的計算中【7】。
  • 漫談博弈論
    「博弈論」大家肯定都聽說過,印象中,這可是個「高大上」的理論。儘管一項具體的研究「究竟屬於實然性研究還是應然性研究」並不總是個好回答的問題(因為有時候是混在一起的),但是經常問問這個問題,也還是很有意義的。我們前文介紹的內容,大致局限於實然性研究的範圍。粗略劃分,博弈論有兩大研究分支,即「非合作博弈論」(也稱策略博弈論)與「合作博弈論」(也稱聯盟博弈論)。
  • 2021考研概率論與數理統計衝刺:隨機事件和概率考試要求
    概率論與數理統計是考研數學中尤其重要的一門,在這個階段大家一定不要放鬆,持續備戰方可戰勝困難,下面中公考研小編為大家整理概率論與數理統計相關內容,希望對各位考生有所幫助。隨機事件和概率考試要求1.了解樣本空間(基本事件空間)的概念,理解隨機事件的概念,掌握事件的關係及運算。
  • 教資乾貨|中學數學概率論考點分布梳理
    概率論部分是選擇題和簡答題常考題型,難度適中,這部分重要的還是區分事件類型,掌握對應的公式計算。下面羅列概率論相關重要考點分布梳理:抽獎分析也是依據的概率論喲~古典概型;(拋硬幣實驗)幾何概型;(平面內面積佔比)互斥事件:兩個事件不可能同時發生,但可以都不發生,重要公式:P(A + B) = P(A) + P(B);舉例:擲骰子,出現1和出現2數字朝上的事件
  • 2018年概率論與數理統計考研大綱解析
    2018年考試大綱重磅來襲,為了保證各位考生能夠正確解讀大綱要求,中公考研數學團隊帶你以最快的速度,最有效的方式解讀概率論與數理統計的大綱內容。   首先,通過與往年考研大綱對比不難發現,概率概率論與數理統計這一科目秉承往年的穩定性,考查知識點沒有發生任何變化。