標準差,我們都不陌生,它表示一組數據的變異性,實際的含義是與平均值的平均距離。標準差越大,每一個數據點與數據分布的均值的平均距離越大。標準差的計算公式為:
公式中可以看到每一個數值和均值之間的差(),每一個差的平方,並且計算所有平方值的總和。然後用平方和除以樣本規模(減去1),最後求平方根。
大家可能會注意到,為什麼公式中的分母要減去1呢?為什麼我們除以n-1而不只是n呢?這是個很好的問題,那我們就探討一下為什麼除以n-1而不除以n的道理。
我們知道的是標準差是總體標準差的估計值,只有我們用n-1的情況下才是無偏估計。我們把分母減去1會使得標準差大於實際的大小。為什麼我們要這樣做呢?因為最優秀的科學家一般都是保守的。保守的含義是,如果我們不得不出錯,我們出錯也是由於過高估計了總體的標準差。除以較小的分母可讓我們做到這一點。因此我們除以n-1而不是n。從另外一個角度上來說,n-1稱為偏差平方差和的自由度。其含義是:在確定後,n個偏差,,...,中只有n-1個偏差可以自由變動,而第n個則不能自由取值,因為
但如果你的目的是描述樣本的特徵,有偏估計也可以。但如果你想用樣本的估計總體參數,最好要計算無偏統計值。
為了大家能夠更加清晰的了解有偏估計和無偏估計的差異。看看下面的數據表,你就會明白其中的道理。
樣本規模
公式中分子的值
總體標準差的有偏估計(除以n)
總體標準差的無偏估計(除以n-1)
有偏估計和無偏估計的差異
10
500
7.07
7.45
0.38
100
500
2.24
2.25
0.01
1000
500
0.7071
0.7075
0.0004
從上表的數據中不難看出,樣本的規模越大,標準差的有偏估計和無偏估計的差異越小。而樣本規模越小,標準差的有偏估計和無偏估計的差異比較大。這個時候為了保守起見,應該採用標準差的無偏估計值來估計總體的標準差。那麼其中的規律是什麼呢?顯然,當你計算樣本的標準差用於估計總體的參數值時,樣本規模越接近總體規模,估計就會越準確。