閱讀大概需要5分鐘
作者 朱曦熾
編輯 zenRRan
連結 https://www.zhuxichi.com/2017/02/14/CentralLimitTheorem/
中心極限定理是統計學中比較重要的一個定理。 本文將通過實際模擬數據的形式,形象地展示中心極限定理是什麼,是如何發揮作用的。
什麼是中心極限定理(Central Limit Theorem)
中心極限定理指的是給定一個任意分布的總體。我每次從這些總體中隨機抽取 n 個抽樣,一共抽 m 次。 然後把這 m 組抽樣分別求出平均值。 這些平均值的分布接近正態分布。我們先舉個慄子🌰
現在我們要統計全國的人的體重,看看我國平均體重是多少。當然,我們把全國所有人的體重都調查一遍是不現實的。所以我們打算一共調查1000組,每組50個人。 然後,我們求出第一組的體重平均值、第二組的體重平均值,一直到最後一組的體重平均值。中心極限定理說:這些平均值是呈現正態分布的。並且,隨著組數的增加,效果會越好。 最後,當我們再把1000組算出來的平均值加起來取個平均值,這個平均值會接近全國平均體重。
其中要注意的幾點:
1.總體本身的分布不要求正態分布
上面的例子中,人的體重是正態分布的。但如果我們的例子是擲一個骰子(平均分布),最後每組的平均值也會組成一個正態分布。(神奇!)
2.樣本每組要足夠大,但也不需要太大
取樣本的時候,一般認為,每組大於等於30個,即可讓中心極限定理髮揮作用。
話不多說,我們現在來一步步看到中心極限定理是如何起作用的。
第一步, 生成數據
假設我們現在觀測一個人擲骰子。這個骰子是公平的,也就是說擲出1~6的概率都是相同的:1/6。他擲了一萬次。我們用python來模擬投擲的結果:
生成出來的平均值:3.4927(每次重新生成都會略有不同)
生成出來的標準差:1.7079
平均值接近3.5很好理解。 因為每次擲出來的結果是1、2、3、4、5、6。 每個結果的概率是1/6。所以加權平均值就是3.5。
第二步,畫出來看看
我們把生成的數據用直方圖畫出來直觀地感受一下:
可以看到1~6分布都比較平均,不錯。
第三步,抽一組抽樣來試試
我們接下來隨便先拿一組抽樣,手動算一下。例如我們先從生成的數據中隨機抽取10個數字:
這10個數字的結果是: [3, 4, 3, 6, 1, 6, 6, 3, 4, 4]
平均值:4.0
標準差:1.54
可以看到,我們只抽10個的時候,樣本的平均值(4.0)會距離總體的平均值(3.5)有所偏差。
有時候我們運氣不好,抽出來的數字可能偏差很大,比如抽出來10個數字都是6。那平均值就是6了。 為什麼會出現都是6的情況呢?因為我比較6…哦不是,因為這就是隨機的魅力呀!
不過不要擔心,接下去就是見證奇蹟的時刻。
第四步,見證奇蹟的時刻
我們讓中心極限定理髮揮作用。現在我們抽取1000組,每組50個。
我們把每組的平均值都算出來。
這一共1000個平均值大概是這樣的:[3.44, 3.42, 3.22, 3.2, 2.94 … 4.08, 3.74] (我肯定不會把1000個數字都寫完,又沒有稿費可以騙)
然後,我們把這1000個數字用直方圖畫出來:
TADA! 完美地形成了正態分布。
結果列印如下:
平均值:3.48494
標準差:0.23506
在實際生活當中,我們不能知道我們想要研究的對象的平均值,標準差之類的統計參數。中心極限定理在理論上保證了我們可以用只抽樣一部分的方法,達到推測研究對象統計參數的目的。
在上文的例子中,擲骰子這一行為的理論平均值3.5是我們通過數學定理計算出來的。而我們在實際模擬中,計算出來的樣本平均值的平均值(3.48494)確實已經和理論值非常接近了。
adrenaline n. 腎上腺素
analogous adj. 類似的
precipitate v. 促使,導致 adj. 倉促的,匆忙的
alienate v. 使疏遠
permanent adj. 永久的,永恆的
推薦閱讀:
精彩知識回顧
深度學習之激活函數詳解
深度學習之卷積神經網絡CNN理論與實踐詳解
深度學習之RNN、LSTM及正向反向傳播原理
TreeLSTM Sentiment Classification
一分鐘搞懂的算法之BPE算法
【乾貨】神經網絡SRU
基於attention的seq2seq機器翻譯實踐詳解
【乾貨】基於注意力機制的seq2seq網絡
【乾貨】GRU神經網絡
歡迎關注深度學習自然語言處理公眾號,我會每天更新自己在機器學習,深度學習,NLP,linux,python以及各種數學知識學習的一點一滴!再小的人也有自己的品牌!期待和你一起進步!
長按識別二維碼