跟我學-大數據的統計學基礎07 統計學的哲學基礎:大數定律、中心極限定理與抽樣分布
回復「大數據基礎」得到大數據的統計學基礎
回復「大數據」得到大數據學習資料
回復「經典」下載經典影音
回復「關注」得到更多資料的下載索引
統計學的哲學基礎:大數定律、中心極限定理與抽樣分布
定理定義
編輯
大數定律有若干個表現形式。這裡僅介紹高等數學概率論要求的常用的三個重要定律:
設
,....是一列相互獨立的隨機變量(或者兩兩不相關)[2] ,他們分別存在期望
和方差
。若存在常數C使得:
則對任意小的正數 ε,滿足公式一:
將該公式應用於抽樣調查,就會有如下結論:隨著樣本容量n的增加,樣本平均數將接近於總體平均數。從而為統計推斷中依據樣本平均數估計總體平均數提供了理論依據。
特別需要注意的是,切比雪夫大數定理並未要求
同分布,相較於後面介紹的伯努利大數定律和辛欽大數定律更具一般性。
設μ是n次獨立試驗中事件A發生的次數,且事件A在每次試驗中發生的概率為P,則對任意正數ε,有公式二:
該定律是切比雪夫大數定律的特例,其含義是,當n足夠大時,事件A出現的頻率將幾乎接近於其發生的概率,即頻率的穩定性。
在抽樣調查中,用樣本成數去估計總體成數,其理論依據即在於此。
辛欽大數定律:常用的大數定律
設
為獨立同分布的隨機變量序列,若
的數學期望存在,則服從大數定律:
即對任意的ε>0,有公式三:
大數定律的四種證法
對於一般人來說,大數定律的非嚴格表述是這樣的:
是獨立同分布隨機變量序列,期望為
,則
收斂到u.
如果說「弱大數定律」,上述收斂是指依概率收斂(in probability),如果說「強大數定律」,上述收斂是指幾乎必然收斂(almost surely/with probability one)。
大數定律通俗一點來講,就是樣本數量很大的時候,樣本均值和真實均值充分接近。這一結論與中心極限定理一起,成為現代概率論、統計學、理論科學和社會科學的基石。(有趣的是,雖然大數定律的表述和證明都依賴現代數學知識,但其結論最早出現在微積分出現之前。而且在生活中,即使沒有微積分的知識也可以應用。例如,沒有學過微積分的學生也可以輕鬆利用excel或計算器計算樣本均值等統計量,從而應用於社會科學。)
最早的大數定律的表述可以追溯到公元1500年左右的義大利數學家Cardano。1713年,著名數學家James (Jacob) Bernouli正式提出並證明了最初的大數定律。不過當時現代概率論還沒有建立起來,測度論、實分析的工具還沒有出現,因此當時的大數定律是以「獨立事件的概率」作為對象的。後來,歷代數學家如Poisson(「大數定律」的名字來自於他)、Chebyshev、Markov、Khinchin(「強大數定律」的名字來自於他)、Borel、Cantelli等都對大數定律的發展做出了貢獻。直到1930年,現代概率論奠基人、數學大師Kolmogorov才真正證明了最後的強大數定律。
下面均假設
是獨立同分布隨機變量序列,數學期望為u。獨立同分布隨機變量和的大數定律常有的表現形式有以下幾種。
初等概率(1) 帶方差的弱大數定律:若
小於無窮,則
依概率收斂到0。
證明方法:Chebyshev不等式即可得到。這個證明是Chebyshev給出的。
(2) 帶均值的弱大數定律:若u存在,則
依概率收斂到0。
證明方法:用Taylor展開特徵函數,證明其收斂到常數,得到依分布收斂,然後再用依分布收斂到常數等價於依概率收斂。