無所不在的概率分布鍾型曲線 | 張天蓉專欄

2021-01-14 知識分子

►小球從釘板落下的遊戲,都玩過吧?圖片來自flickr


撰文 | 張天蓉 (美國德州大學奧斯汀分校理論物理博士)

責編 | 呂浩然


2017-03-16 上帝教人擲骰子——「神童」帕斯卡與概率論

2017-03-31  似是而非的答案:概率論悖論

2017-04-18  別相信直覺:概率論幫助偵破「財務造假」

2017-05-15  賭徒謬誤:賭博與大數定律


● ● ●


上一篇中,通過賭徒謬誤介紹了概率論中的大數定律。大數定律說的是當隨機事件重複多次時頻率的穩定性,隨著試驗次數的增加,事件發生的頻率趨近於預期的「概率」。但大數定律並未涉及概率分布問題,所以本文就來說說概率分布。首先,用如下例子來說明「概率分布」是什麼意思。 


高爾頓釘板試驗


弗朗西斯·高爾頓(Sir Francis Galton,1822-1911)是英國著名的統計學家、心理學家和遺傳學家。他是達爾文的表弟,雖然不像達爾文那樣聲名顯赫,但也並非無名之輩。不僅如此,高爾頓幼年是神童,長大是才子,九十年的人生可謂豐富多彩,是個名副其實的博學家。其涉獵範圍廣泛,研究水平頗深,縱觀科學史,在其同時代科學家中,能望其項背之人寥寥可數【1】。


在達爾文發表了《物種起源》之後,高爾頓也將研究方向轉向生物及遺傳學,他第一個對同卵雙胞胎進行研究,論證了指紋的永久性和獨特性;他從遺傳的角度研究人類智力並提出「優生學」,也是第一個強調把統計學方法應用到生物學中去的人;他還設計了一個釘板實驗,希望從統計的觀點來解釋遺傳現象。


►圖1:高爾頓釘板實驗


如圖1中所示,木板上訂了數排(n排)等距排列的釘子,下一排的每個釘子恰好在上一排兩個相鄰釘子中間,從入口中處放入若干直徑略小於釘子間距的小球,小球在下落的過程中碰到任何釘子後,都將以1/2的概率滾向左邊,也以 1/2的概率滾向右邊。如此反覆地繼續下去,直到小球下落到底板的格子裡為止。試驗表明,只要小球足夠多,它們在底板堆成的形狀將近似於一個鐘形的高斯曲線(圖1左下黑色曲線)。


為什麼這兒出現了一個鐘形曲線呢?這與古典概率論中最重要的「中心極限定理」有關。


中心極限定理


事實上,中心極限定理不是一個定理,而是一組定理,分別適用於不同的條件。但基本可以用一句話來概括它們:大量相互獨立的隨機變量,其求和後的平均值以正態分布(即鐘形曲線)為極限。


以上所述的高爾頓釘板實驗顯示的「鐘形曲線」便可以用中心極限定理來解釋。

考慮釘板中的某一個小球下落的過程:小球在下落過程中碰到n個釘子上,每次都等效於一次「拋硬幣」類型的隨機變量。也就是說,一個小球從頂部到底部的過程,等效於n次拋硬幣之和。n個釘子中的每一個釘子,將小球以同等的概率彈向左邊或右邊,小球最後到達的位置,是這n個「左/右」隨機變量相加後的平均位置。不難看出,這個平均值落在中心處的概率最大(即小球聚集最多),但也可能向左或向右偏離1格、2格……偏離越大,小球的數目越少,不同位置的小球數便形成了一個「分布」,中心極限定理則是從數學上證明了,這個分布的極限是正態分布。


中心極限定理最早由法國數學家棣莫弗(de Moivre, 1667-1754)在1718年左右發現。他為解決朋友提出的一個賭博問題而去認真研究二項分布(每次試驗只有「是/非」兩種可能的結果,且兩種結果發生與否互相對立)。他發現:當實驗次數增大時,二項分布(成功概率p=0.5)趨近於一個看起來呈鐘形的曲線。後來,著名法國數學家拉普拉斯對此作了更詳細的研究,並證明了p不等於0.5時二項分布的極限也是高斯分布。之後,人們將此稱為棣莫弗-拉普拉斯中心極限定理【2】。


再後來,中心極限定理的條件逐漸從二項分布推廣到獨立同分布隨機序列(指隨機過程中,任何時刻的取值都為隨機變量,如果這些隨機變量服從同一分布,且互相獨立,那麼這些隨機變量就是獨立同分布),以及不同分布的隨機序列。因此,中心極限定理不是只有一個定理,而是成為研究某種條件下獨立隨機變量之和的極限分布為正態分布的一系列命題的統稱。 


不得不承認中心極限定理的奇妙。在一定條件下,各種隨意形狀概率分布生成的隨機變量,它們加在一起的總效應,是符合正態分布的。這點在統計學實驗中特別有用,因為實際上的隨機生物過程或物理過程,都不是只由一個單獨的原因產生的,它們受到各種各樣隨機因素的影響。然而,中心極限定理告訴我們:無論引起過程的各種效應的基本分布是什麼樣的,當實驗次數 n 充分大時,所有這些隨機分量之和近似是一個正態分布的隨機變量(圖2)。


在實際問題中,常常需要考慮許多隨機因素所產生的總影響。例如,許多因素決定了人的身高:營養、遺傳、環境、族裔、性別等等,這些因素的綜合效果,使得人的身高基本滿足正態分布。另外,在物理實驗中,免不了有誤差,而誤差形成的原因五花八門,各種各樣。如果能夠分別弄清楚產生誤差的每種單一原因,誤差的分布曲線可能不是高斯的。但是,當所有的誤差加在一起時,實驗者通常得到一個正態分布。


►圖2:中心極限定理


為了更為直觀地理解大數定律和中心極限定理,在圖3中,將拋硬幣所得的結果用數值表示(正面=1,反面=-1)。如此賦值以後,大數定律指的是:拋丟硬幣多次(n趨近無限大)後,結果的平均值將趨近於0,即正反面出現次數相等,其數值相加而互相抵消了;中心極限定理則除了考慮平均值(等於零)之外,還考慮結果的分布情形:如圖3b所示,如果只拋1次,出現正面(1)和反面(-1)的概率相等,對應於公平硬幣的等概率分布,平均值為0。當投擲次數n增加,平均值的極限值仍然保持為0,但點數和之分布情形變化了,n趨近無限時,分布趨於正態分布,這是中心極限定理的內容。


►圖3:大數定律和中心極限定理


大量的統計實驗結果告訴我們:鐘形曲線隨處可見。我們的世界似乎被代表正態分布的「鐘形」包圍著,很多事物都是服從正態分布:人的高度、雪花的尺寸、測量誤差、燈泡的壽命、IQ分數、麵包的重量、學生的考試分數等等。十九世紀的著名數學家龐加萊(Jules Henri Poincaré,1854-1912)曾經說過【3】:「每個人都相信正態法則,實驗家認為這是一個數學定理,數學家認為這是一個實驗事實。」大自然造物的美妙深奧,鬼斧神工,往往使人難以理解。鐘形分布曲線無處不在,其奧秘便是來自於中心極限定理。


中心極限定理從理論上證明了,對於大量獨立隨機變量來說,不論其中各個隨機變量的分布函數是什麼形狀,也不論它們是已知還是未知,當獨立隨機變量的個數充分大時,它們的和的分布函數都可以用正態分布來近似。這使得正態分布既成為統計理論的重要基礎,又是實際應用的強大工具。


就理論而言,正態分布有不少優越性:1. 兩個正態分布的乘積仍然是正態分布;2. 兩個正態分布的和是正態分布;3. 正態分布的傅立葉變換仍然是正態分布。正態分布只需要兩個參數μ和σ就完全決定了分布的性質(見圖2)。這點給實際計算帶來許多方便之處,再一次體現了中心極限定理的威力。


中心極限定理的應用


正態分布在應用上非常有效,下面便舉兩個簡單例子予以說明。


例1:小王到某保險公司應聘,經理給他出了一道考題:如果讓你設計一項人壽保險,假設客戶的數目有1萬左右,被保險人每年交200元保費,保險的賠償金額為5萬元,估計當地一年的死亡率(自然+意外)為0.25%左右,那麼,你會如何計算公司的獲利情況?


小王在經理面前緊張地估算了一下:從1萬個客戶得到的保費是200萬,然後1萬人乘以死亡率,可能有25人死亡,賠償金額為25×5萬,等於125萬。所以,公司可能的收益應該是200萬減去125萬,等於75萬左右。這是小王的答案。


經理面露滿意的笑容,但又繼續問:75萬隻是一個大概可能的數目,如果要你大略地估計一下,公司一年內從這個項目得到的總收益為50-100萬元的概率是多少,或者需要估計公司虧本的概率,你怎麼算呢?


►圖4:正態分布用於估計人壽保險


這下難倒了小王:要真正計算概率需要用到分布,這是什麼分布啊?小王腦袋裡突然冒出了「中心極限定理」,1萬個客戶的數目足夠大了,可以用正態分布:首先需要計算平均值μ和方差σ。人壽保險近似於一個像拋硬幣的「二項分布」問題:受保人死亡,保險公司賠償,反之則不賠償。只不過,這兒死亡的概率比較小,p=0.25%。用正態分布來近似的話,只要知道了期望和方差,概率便不難計算。小王回想起正態分布的簡單圖像以及幾個關鍵數值(見圖4),算出均值μ=E(X)=np=10000*0.25%=25,方差σ2=Var(X)=np(1-p)=25 ,由此得到σ=5。


然後,要計算公司賺50-100萬元的概率,從圖4可知,也就是死亡人數在20到30之間的概率,剛好就是從(μ-σ )到(μ+σ )之間的面積,大約68.2%左右。至於公司何種情況下會虧本呢?直觀而言,如果死亡的人數多於40,公司便虧本了,概率到底是多少呢?同樣可用圖4進行估計,40和25之間相差15,等於3σ,因而得到概率大約等於0.1%,所以,保險公司虧本的概率幾乎為零。


例2:圖5a是美國2010年1,547,990個SAT考試成績的原始數據,其中有1,313,812個分數在1850之下,有74,165個成績是在2050以上。由此我們從原始數據可以算出:分數在1850之下的百分比是0.849,分數在2050之上的百分比是0.0479。


►圖5:SAT成績


另一方面,原始的結果可以用一個平均分數μ=1509,標準方差的平方根σ=312的正態曲線來近似。因此,我們也可以從正態分布曲線來計算分數低於1850及高於2050的百分比,它們分別對應於圖5b和圖5c中陰影部分的面積。根據高斯積分求出兩個圖中的面積分別為0.8621和0.0418。對照從原始數據的計算結果0.849和0.0479,相差非常小。


由此可以看出,中心極限定理在現實生活中的應用非常廣泛。大數定律和中心極限定理,都是基於多次實驗結果的古典概率觀點,屬於頻率學派。下一篇中將介紹概率論中極端的兩大派別:頻率學派和貝葉斯學派。


參考文獻:

【1】"Sir Francis Galton F.R.S: 1822-1911". galton.org. Retrieved 9 January 2017.

【2】維基百科:中心極限定理

https://zh.wikipedia.org/wiki/%E4%B8%AD%E5%BF%83%E6%9E%81%E9%99%90%E5%AE%9A%E7%90%86

【3】Gabriel Lippmann (French physicist ,16 Aug 1845 - 13 Jul 1921), Conversation with Henri Poincaré. In Henri Poincaré, Calcul ds Probabilités (1896), 171


製版編輯:呂浩然丨


本頁刊發內容未經書面許可禁止轉載及使用

公眾號、報刊等轉載請聯繫授權

copyright@zhishifenzi.com

歡迎轉發至朋友圈


▼點擊查看相關文章

朱清時|國家實驗室|琥珀裡的鳥|高考選專業

達爾文的進化論|可燃冰|西湖|農場|學術辯|琥珀中的小鳥

屠呦呦|王曉東|張啟發|崔維成|張鋒|楊振寧|李佩

盧煜明|王小凡|吳文俊|袁鈞瑛|張純如|數學教皇




授權:copyright@zhishifenzi.com




▼▼▼點擊「閱讀原文」,牽手科學隊長~~

相關焦點

  • 從貝葉斯定理到概率分布:綜述概率論基本定義
    以表示一個時間間隔 t 內平均事件發生的次數,則 =λ*t;X 的概率分布函數為:泊松分布的概率分布圖示如下,其中為泊松分布的參數:下圖展示了均值增加時的分布曲線的變化情況:如上所示,當均值增加時,曲線向右移動。
  • 鄉鎮統計基礎知識——編制次數分布數列:次數分布的主要類型
    各種不同性質的社會經濟現象都有著不同的次數分布。常見的次數分布有鍾型分布、U型分布和J型分布。(一)鍾型分布鍾型分布的特徵是「兩頭小,中間大」,即靠近中間的變量值分布的次數多,靠近兩端的變量值分布的次數少。其分布曲線圖宛如一口古鐘。鍾型分布可分為以下兩種。
  • 密度函數、分布函數與生存函數
    依據密度函數的形狀,可以將數據分布大致分為四種,需要分析師能夠做到、看到每種分布圖就能解讀出分布背後所隱含的信息,以下是我對這四種密度函數分布形態的理解:鍾型分布生活中正常、平常的事件,基本上都服從鍾型分布,分布特徵為兩頭小中間大,即靠近中間的變量值分布的次數多、靠近兩端的變量值分布次數少,宛如鍾型。
  • 方差、標準差、正態分布、超幾何分布、卡方檢驗、t檢驗基礎概念
    方差方差是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。方差是衡量源數據和期望值相差的度量值.
  • 抽樣分布:t分布
    基礎準備抽樣分布:解釋「大數據」及推斷性統計學:抽樣分布t分布:連續型隨機變量概率分布— —T分布和F分布
  • scipy 常見統計檢驗與概率分布
    常用函數cdf:隨機變量的累積分布函數,是概率密度函數的積分,即概率值pfit:對一組隨機取樣進行擬合,找出最適合取樣數據的概率密度函數的係數二項分布伯努利試驗(Bernoulli experiment)是在同樣的條件下重複地、相互獨立地進行的一種隨機試驗,其特點是該隨機試驗只有兩種可能結果:發生或者不發生。
  • 正態分布和高斯分布的作用_高斯分布的定義_誤差服從高斯分布
    打開APP 正態分布和高斯分布的作用_高斯分布的定義_誤差服從高斯分布 發表於 2017-12-04 16:38:44   正態分布
  • 為什麼數據科學家都鍾情於最常見的正態分布?
    正態曲線呈鍾型,兩頭低,中間高,左右對稱因其曲線呈鐘形,因此人們又經常稱之為鐘形曲線。   一般來說,如果一個量是由許多微小的獨立隨機因素影響的結果,那麼就可以認為這個量具有正態分布。從理論上看,正態分布具有很多良好的性質,許多概率分布可以用它來近似;還有一些常用的概率分布是由它直接導出的,例如對數正態分布、t分布、F分布等。
  • 常見數據分布-機器學習與數據分析常用術語(三)
    1.BernoulliDistribution/Binomial(貝努利分布/二項分布)在概率論和統計學中,二項分布是n個獨立的是/非試驗中成功的次數的離散概率分布,其中每次試驗的成功概率為p。這樣的單次成功/失敗試驗又稱為伯努利試驗。
  • 概率論和統計學中重要的分布函數
    隨機變量在概率空間中遵循不同類型的分布,這決定了它們的特徵並有助於預測。利用核密度估計對這些直方圖進行平滑處理,得到了一條很好的曲線。這條曲線被稱為「分布函數」。
  • 神奇的正態分布
    正態分布不但其曲線優雅,而且其密度函數也很有數學美感,特別是其標準化後的概率密度函數非常簡潔漂亮。更令人驚訝的是,兩個最重要的數學常量π,e都出現在了公式之中,使得其具有一些神秘色彩。生物統計學家高爾頓對正態分布推崇備至:「我幾乎不曾見過像誤差呈正態分布這麼激發人們無窮想像的宇宙秩序」。 正態分布因其分布形狀似同古代鑄鐘,故也稱為鍾型分布。
  • 高中就開始學的正態分布,原來如此重要
    所作曲線就是概率分布曲線,目標變量得到一個值的概率就是該變量的概率分布。理解了值的分布方式後,就可以開始估計事件的概率了,甚至可以使用公式(概率分布函數)。因此,我們可以更好地理解它的行為。概率分布依賴於樣本的矩,比如平均值、標準差、偏度及峰度。如果對所有概率求和,總和為 100%。
  • 小知識:高斯概率分布的數學解釋
    研究這樣一個非常常見的隨機變量的連續概率分布,稱為正態分布,又稱為高斯概率分布,高斯在研究測量誤差時從另一個角度導出了它,研究了它的性質,是一個在數學、物理及科技工程等領域都非常重要的概率分布,在統計學的許多方面有著重大的影響力。正態曲線兩頭低、中間高,左右對稱因其曲線如鐘形,因此又經常稱之為鐘形曲線。
  • 最接近神的數學公式—正態分布
    為什麼那麼多關於數據科學和機器學習的文章都圍繞正態分布展開?本文作者專門寫了一篇文章,試著用易於理解的方式闡明正態分布的概念。機器學習的世界是以概率分布為中心的,而概率分布的核心是正態分布。本文說明了什麼是正態分布,以及為什么正態分布的使用如此廣泛,尤其是對數據科學家和機器學習專家來說。我會從最基礎的內容開始解釋,以便讀者們理解為什么正態分布如此重要。
  • 統計學入門級:常見概率分布+python繪製分布圖
    相應的概率分布有二項分布,泊松分布。連續型隨機變量如果隨機變量X的所有取值無法逐個列舉出來,而是取數軸上某一區間內的任一點,則稱X為連續型隨機變量。相應的概率分布有正態分布,均勻分布,指數分布,伽馬分布,偏態分布,卡方分布,beta分布等。
  • Z=XY分布的概率密度函數的證明
    在考研中,儘管很少需要用到二維連續型隨機變量函數Z=XY的概率密度公式,但清楚其證明過程有二利:一、有利於了解樣本空間、概率密度、分布函數的本質;二、有利於加強對反常積分的運算技巧。設(X,Y)是二維連續型隨機變量,概率密度為f(x,y),則Z=XY仍為連續型隨機變量,其概率密度為:在證明前,大家首先要牢記一點的是,求解隨機變量函數的概率密度時,大多數情況下,先求分布函數,再求概率密度。首先求分布函數。根據分布函數的定義有Fz(z)=P{Z≤z}=P{XY≤z}。當進行到這一步時,正確理解隨機變量及概率的含義是能夠繼續進行證明的關鍵。
  • 文克玲:關於真實得病概率問題
    原文中的問題是,如果X=B=99,王宏檢驗結果是陽性,問王宏是真正有病(金標準病人)的概率是多少? 我們知道X,B,是對正問題有了確定的答案,我們對測試方法的性能有完全的了解。現在要解決的是逆問題,如果我們知道結果,我們能知道輸入參數(有病,無病)的概率分布嗎? 「常識」告訴王宏,他真正有病的概率就是X%(=99%)。
  • 聊聊高斯概率分布的數學公式
    高斯概率分布(Gaussian probability distributions)描述了許多噪聲過程,我們應該看看它的數學公式。MzPEETC-電子工程專輯從一個非常簡單的公式開始,考慮高斯概率分布的「鐘形曲線(bell curve)」公式:MzPEETC-電子工程專輯
  • 常用概率分布——二項分布分布
    廢話不多說,除了最為常見的正態分布,今天我們來講講二項分布!
  • 「策划進階」遊戲設計中常用的概率分布
    因此在遊戲設計中不能完全遵守某一種既定概率分布,需要對概率模型進行不斷的調試。本文就來介紹幾種常見的概率分布,及其在遊戲中的應用。本文偏數值理論,了解即可。其計算也有一個通式:二項分布在遊戲中使用的很多,比如抽卡系統。一般策劃會設定抽到xx卡的概率是多少,這個進行n次抽卡,抽到幾張xx卡的概率分布函數就是二項分布。根據定義可知,在二項分布中,n次試驗中正好得到k次成功的概率由概率質量函數給出:那麼怎麼測試這張卡被抽中的概率呢?