最常用的描述分布特徵的統計量有期望(E)和方差(Var),在對總體進行樣本抽樣時,如果按照特定樣本量n,按照特定的抽樣方式進行反覆抽樣Xi,所有Xi的特定統計量組合在一起就會得到一些特定的分布。這些分布就是我們常用到的抽樣分布:
卡方分布最早由恩斯特·卡爾·阿貝(Ernst Karl Abbe)在1863年首先提出,後經海爾墨特(Hermert)和卡爾·皮爾森(Karl Person)分別於1875年和1900年推導出來。
Ernst Karl Abbe(1840-1905)
恩斯特·卡爾·阿貝(德國物理學家、光學家)
卡爾·蔡司公司創始人之一
Karl Pearson(1857-1936)
卡爾·皮爾遜(英國數學家、現代統計學之父)
將統計學和概率論兩者融為一體
[注]:海爾墨特Hermert的資料度娘上實在搜不到,等啥時候不用翻牆上Google再補上了。
相互獨立的樣本X1、X2、……Xn均來源於總體為N~ (0, 1)分布,則
稱為服從自由度(degree of freedom,縮寫df,符號ν)為n的卡方分布Chi-SquareDistribution (χ2), 表達示為X ~ χ2(n)。
其特點有:
期望E(X) = n,方差Var(X) = 2n;
具有可相加性。如Z1 ~ χ2(n1), Z2 ~ χ2(n2),則Z3 = (Z1+Z2) ~ χ2(n1+n2)
當n→∞時,卡方分布近似於正態分布。
卡方分布的這些特點是可以通過公式來推導出來的,這裡就不列了,有興趣的可以自行結合標準正態分布的E(X) = 0和Var(X) = 1以及概率密度公式來推導。下面我們來按卡方分布的定義來生成樣本數據來近似驗證這些特點:
用Excel生成11列樣本量為1000且服從標準正態分布Xi ~N(0,1)的數據列X1 ~ X11,Excel命令:數據>> 數據分析 >> 隨機數據發生器,並修正為E(X`i) = 0,數據列X`1 ~ X`11:
根據卡方分布的定義變量Yi = ∑(Xi2), i=1, 2 … n對X`1 ~ X`11進行轉換得到數據列Y1 ~ Y11,則這些樣本數據分別為服從自由度為1 ~ 11的卡方分布:
上面表的第2行和第3行分別為期望和方差,可以看得到卡方分布的期望E(Yi)是近似於n(自由度ν);方差Var(Yi)是近似於2n(之所以強調近似於是因為生成的數據為樣本數據,且X並不是嚴格意義的標準正態分布)。
將上述卡方數據Y1 ~ Y11複製到Minitab裡,與Minitab生成的卡方數據進行比較(Minitab命令:Calc >> Random Data >> Chi-Square分別生成1000行自由度為1 ~ 11的卡方數據列):
狀圖對比(Graph >> Histogram),在相同的自由度下Excel生成的數據與Minitab直接生成的Chi-square數據分布近似;而且可以看出自由度越大,柱狀圖的形態越來越接近正態分布。
再通過概率密度圖(Graph >> Probability Plot)進行對比,亦是高度重合的。說明Excel轉換公式是正確的:
前面的步驟驗證了卡方分布的期望E(X)和方差Var(X)的特點,而且自由度越大越接近於正態分布。我們再通過Minitab生成自由度更高(ν = 100, 500,1000)的卡方數據列來檢驗正態性:
從正態性檢驗可以看到生成的樣本數據:
a) df = 500時,p-value = 0.058;
b) df = 1000時,p-value = 0.184
在df越大時,卡方分布的正態性檢驗P-value值就越大了。
由英國統計學家皮爾遜在1900年用來檢驗實際分布與理論分布的配合程度時提出。也叫做皮爾遜統計量。
其中:
fo為實際觀測的頻度ObservedFrequency
fe為理論值ExpectedFrequency
方差、標準偏差的區間估計 (ConfidenceInterval for Variance, Standard Deviation)
單樣本方差的假設檢驗 (1Variance)
擬合度檢驗 (Goodness-of-fitTest)
定性數據不同分類的獨立性檢驗 (列聯表Contingency Table)
。。。
- Jeff整理於2020/01/18
[完]