在概率統計的學習或使用過程中,經常有人會提到大數定律和中心極限定理,它們也恰恰是概率論、統計學和理論科學的基石。但是肯定有人在突然聽到它們的名字時,還會很訝異,心裡嘀咕這到底是什麼意思。為了讓大家對這兩個概念時有所了解,今天我們就一起來聊一下這兩個問題。
上面就是大數定律(Law Of Large Numbers)的數學表達形式,它描述了在隨機事件大量重複出現時,結果往往呈現幾乎必然的規律。說人話就是,在試驗不變的條件下,隨機事件出現的頻率近似於它的概率,也就是樣本量很大的時候,樣本統計量與總體參數充分接近。
對於大數定律,舉個例子就更明白了。重複投擲一枚硬幣,多次重複後出現正面的頻率逐漸正面的概率(1/2);又如稱量某物體的重量,假如秤沒有問題(即不存在系統誤差),對同一物體多次稱量求均數代表物體的重量,如果稱量次數越多,結果越接近物體的真實重量。
大數定律有不同的數學家對其進行證明並以數據家的名字命名,常見的有:伯努利大數定律、辛欽大數定律、柯爾莫哥洛夫強大數定律和重對數定律。有了大數定律,我們就可以確信,為求一個隨機變量的期望,我們只需要把它測量多次,然後取均數便可。但是需要注意的是,這個定律並沒有告訴我們需要測量多少次才算可以。
大數定律揭示了大量隨機變量的平均結果,但是沒有涉及到隨機變量的分布問題,而中心極限定理說明在一定條件下,大量獨立隨機變量的均數以正態分布為極限。下面再來看看中心極限定理(Central Limit Theorem)的簡單數學表達:
上面就是中心極限定理的數學表達,其中獨立同分布是指隨機序列/變量有相同的概率分布,並且之間相互獨立。同樣中心極限定理也不止一個,它們是闡述大量的相互獨立的隨機變量的線性組合在一定條件下近似服從正態分布的一系列定理。
簡單地說,中心極限定理是指在大樣本條件下,不論總體的分布如何,樣本均值的分布總是近似地服從正態分布,且樣本均數的均數等於原總體的均數,樣本均數的標準差等於原標準差/根號n。
那麼什麼才叫大樣本呢?有模擬顯示每次抽樣30例及以上,樣本均數的分布就近似於正態分布。如下圖(第1行為總體分布,第2行為n=2的均數分布,第3行為n=5的均數分布,第4行為n=30的均數分布):