統計學中最重要的提取信息的方式就是對原始數據進行一定的運算,得出某些代表性的數字,以反映數據某些方面的特徵,這種數字稱為統計量。用統計學語言表述就是:統計量是樣本的函數,它不依賴於任何未知參數。
常用統計量
① 樣本均值
它反映出總體X數學期望的信息。樣本均值是最常用的統計量。
② 樣本方差
它反映的是總體X方差的信息。樣本方差和樣本標準差也是最常用的統計量。
③ 樣本變異係數
變異係數
樣本變異係數反映出變異係數的信息。變異係數反映出隨機變量在以它的均值為單位時取值的離散程度。此統計量消除了均值不同對不同總體的離散程度的影響,常用來刻畫均值不同時不同總體的離散程度。
④ 樣本k階矩
反映出總體k階矩的信息。顯然,k=1時就是樣本均值。
⑤ 樣本k階中心矩
反映出總體k階矩的信息。顯然,k=2時就是樣本方差。
⑥ 樣本偏度
反映出總體偏度的信息。偏度反映了隨機變量密度函數曲線在眾數(密度函數在這一點達到最大值)兩邊的偏斜性。如果
,則偏度為0。
⑦ 樣本峰度
它反映出總體峰度的信息。峰度反映了密度函數曲線在眾數附近的「峰」的尖峭程度。如果滿足
,則峰度為0。
統計三大分布
精確的抽樣分布大多是在正態總體情況下得到的。在正態總體條件下,主要有卡方分布,t分布,F分布,常稱為統計三大分布。
χ2分布
χ2分布即卡方分布。若隨機變量X,X,… , Xn相互獨立,且數學期望為0,方差為1(即服從標準正態分布),則隨機變量X
稱為服從自由度為n的卡方分布。
卡方分布的示意圖:
由圖中可以看出,當自由度足夠大時,卡方分布的概率密度曲線趨於對稱。當n—> +∞ 時,卡方分布的極限分布是正態分布。
卡方分布的數學期望為:
卡方分布的方差為:
χ2分布具有可加性,即若
獨立,則
t分布
t分布也稱為學生氏分布。設隨機變量X ~ N(0,1),Y~χ2(n),且X與Y獨立,則
其分布稱為t分布,記為t(n),其中n為自由度。
t分布的示意圖:
由上圖可以看出:
t分布的密度函數曲線與標準正態分布N(0,1)的密度函數曲線非常相似,都是單峰偶函數。t(n)的密度函數的兩側尾部要比N(0,1)的兩側尾部要粗一些。t(n)的方差比N(0,1)的方差要大一些。自由度為1 的分布稱為柯西分布,隨著自由度n的增加,t分布的密度函數越來越接近標準正態分布的密度函數。一般當n≥30時,t分布與標準正態分布就非常接近。
當n≥2時,t分布的數學期望:E(t) = 0 當n≥3時,t分布的方差:D(t) = n/(n-2)F分布
F分布有著廣泛的應用,在方差分析、回歸方程的顯著性檢驗中有著重要的地位。
設隨機變量Y與Z相互獨立,且Y和Z分別服從自由度為m和n的χ2分布,隨機變量X有如下表達式:
則稱X服從第一自由度為m,第二自由度為n的F分布,記為F(m, n),簡記為X ~ F(m, n)。
F分布的密度函數的圖形如圖:
隨機變量X服從F(m, n)分布,則數學期望和方差分別為:
中心極限定理
中心極限定理:設從均值為μ,方差為σ(有限)的任意一個總體中抽取樣本量為n的樣本,當n充分大時,樣本均值x的抽樣分布近似服從均值為μ,方差為σ/n 的正態分布。
我們常把證明其極限分布為正態分布的定理統稱為中心極限定理。中心極限定理要求n必須充分大,究竟要多大才算充分大呢?這和總體的分布形狀有關。總體離正態越遠,要求n越大。
推薦:統計學入門級-描述性統計理論