前言 在學習統計學的時候,我遇到過這麼一個問題,也就是說,樣本的標準差公式,如下所示:
很多統計學書上都提到,在樣本標準差的計算公式中,平方根中的分子是 ,而總體標準差則是 。其理由是為了校正樣本變異性而做出的調整,這是對總體標準差的無偏估計。但是,為什麼說這是一種無偏估計,很多書中並沒有提及,或者說是只用了很粗略的語言簡單地說了一下,其實也沒必過於糾結這個問題,記住就行。但是,如果實在是想弄明白這個問題,網上也有人給出了證明過程,但是證明過程對於沒有數學基礎的人來講,還是有點難的,這個完整的證明過程的可以參考知乎上的這個帖子《為什麼樣本方差(sample variance)的分子是n-1》。最近我看到了一本統計學的書《行為科學統計》(第七版)作者:[美]FrederickJ Gravetter,這本書中對這個問題的描述很清楚,通過用舉例子的方式說明了一下(並非嚴格證明),為什麼在樣本標準差中,使用 是對總體方差的無偏估計。另外說明一下,《行為科學統計》這本書原本就是給社會學的學生學習統計學準備的,裡面的語言淺顯易懂,沒有複雜的公式,對於數學功底差的學生來說,非常友好,最新一版已經到了第9版。
背景知識離差:數據到平均數的距離,例如對於一個 的分布來說,如果你的一個數據是 ,那麼離差就是 。如果數據是45,那麼離差就是 。
離均差平方和(SS,sum of squares of deviation from mean):由於離差有正有負,最終所有離均差的和即 為0,因此離均差的和無法描述一組數據的變異大小。因此將離均差平方後相加得到平方和,這就是離均差平方和(sum of squares of deviations from mean, SS)。
計算過程
先來看一組數據,即1, 9, 5, 8, 7,我們把這個數據當作是總體,現在我們計算它的離差,離差的平方等,如下所示:
a <- c(1,9, 5, 8, 7) # 原始數據
a - mean(a) # 離差
(a- mean(a))^2 # 離差的平方
sum((a- mean(a))^2) # 離均差平方和
sum((a- mean(a))^2)/length(a) # 方差
sqrt(sum((a- mean(a))^2)/length(a)) #標準差
> a <- c(1,9, 5, 8, 7) # 原始數據
> a - mean(a) # 離差
[1] -5 3 -1 2 1
> (a- mean(a))^2 # 離差的平方
[1] 25 9 1 4 1
> sum((a- mean(a))^2) # 離差的平方和
[1] 40
> sum((a- mean(a))^2)/length(a) # 方差
[1] 8
> sqrt(sum((a- mean(a))^2)/length(a)) #標準差
[1] 2.828427
總體方差與樣本方差樣本方差與總體方差有所不同,為了校正樣本變異性,我們需要對方差和標準有效期的公式做出調整,此時樣本方差公式中的分母是 , 如下所示:
這裡要注意的是,公式使用了 來代替 ,這是為了校正樣本變異性的偏誤做出的調整,調整的結果使所得的結果變大,從而使樣本方差成為對總體方差精確的無偏估計(如果是n,則是有偏估計)。下面我們用不太嚴謹的一個案例來說明一下為什麼樣本方差中的分母是 。舉例說明為什麼是n-1現在我們設計一個N=6的總體,它的元素為0, 0, 3, 3, 9, 9,現在我們計算可知它的總體均數為 , 方差 。現在我們從這個總體中選擇一個 的樣本,我們選出所有可能的組合,並計算出其平均數,有偏方差,無偏方差,如下所示:
![]()
在我們觀察平均數這一列,原始的總體均數為 。雖然沒有一個樣本的均數恰好為4,但是如果考慮整組樣本,將會發現,9個樣本的平均數總和為36,因此樣本均數數的平均數為 36/9=4,此時樣本平均數恰好等於總體平均數。根據定義,這是一個無偏的統計量,也就是說,樣本精確地代表了總體。
現在我們考慮用除以n得到的存在偏誤的樣本方差這一列。原始的總體方差是 。然而,9個樣本方差的總和為63, 這使得63/9=7。注意,這些樣本方差的平均值不等於總體方差,也就是說,如果用除以n得到的樣本方差,得出的結果不能精確估計總體方差, 也就是說,這些樣本方差低估了總體方差,因此是存在偏誤的統計量。現在我們再考慮除了n-1得到的樣本詳這一列,雖然總體方差為,然而沒有一個樣本的方差恰好等於14。但是,如果考慮整組樣本方差,將會發現這9個值總和為126,因此方差的平均值為126/9=14。因此,樣本方差的平均值恰好等於總體方差。也就是說,樣本方差(此時是使用了n-1來代替n)是對總體方差的一個精確的、無偏的估計。結論就是,樣本平均數和樣本方差(使用n-1)都是無偏估計的例子。這個事實使樣本平均數和樣本方差在推論統計方面變得非常重要。雖然沒有單個樣本恰好具有與總體一樣的平均數和方差,但是,樣本平均數和樣本方差的平均值確實提供了對相應總體參數的精確估計。
參考資料行為科學統計 作者: [美] F. J. Gravetter / [美] L. B. Wallnau,出版社: 中國輕工業出版社,原作名: Statistics for the behavioral sciences,譯者: 王愛民 / 李悅,出版年: 2008-7