樣本標準差的公式中為什麼是n-1

2021-02-08 讀研筆記
前言
        在學習統計學的時候,我遇到過這麼一個問題,也就是說,樣本的標準差公式,如下所示:

        很多統計學書上都提到,在樣本標準差的計算公式中,平方根中的分子是 ,而總體標準差則是 。其理由是為了校正樣本變異性而做出的調整,這是對總體標準差的無偏估計。但是,為什麼說這是一種無偏估計,很多書中並沒有提及,或者說是只用了很粗略的語言簡單地說了一下,其實也沒必過於糾結這個問題,記住就行。但是,如果實在是想弄明白這個問題,網上也有人給出了證明過程,但是證明過程對於沒有數學基礎的人來講,還是有點難的,這個完整的證明過程的可以參考知乎上的這個帖子《為什麼樣本方差(sample variance)的分子是n-1》。最近我看到了一本統計學的書《行為科學統計》(第七版)作者:[美]FrederickJ Gravetter,這本書中對這個問題的描述很清楚,通過用舉例子的方式說明了一下(並非嚴格證明),為什麼在樣本標準差中,使用 是對總體方差的無偏估計。另外說明一下,《行為科學統計》這本書原本就是給社會學的學生學習統計學準備的,裡面的語言淺顯易懂,沒有複雜的公式,對於數學功底差的學生來說,非常友好,最新一版已經到了第9版。

背景知識

離差:數據到平均數的距離,例如對於一個 的分布來說,如果你的一個數據是 ,那麼離差就是 。如果數據是45,那麼離差就是 。離均差平方和(SS,sum of squares of deviation from mean):由於離差有正有負,最終所有離均差的和即 為0,因此離均差的和無法描述一組數據的變異大小。因此將離均差平方後相加得到平方和,這就是離均差平方和(sum of squares of deviations from mean, SS)。

計算過程


先來看一組數據,即1, 9, 5, 8, 7,我們把這個數據當作是總體,現在我們計算它的離差,離差的平方等,如下所示:


a <- c(1,9, 5, 8, 7) # 原始數據
a - mean(a) # 離差
(a- mean(a))^2 # 離差的平方
sum((a- mean(a))^2) # 離均差平方和
sum((a- mean(a))^2)/length(a) # 方差
sqrt(sum((a- mean(a))^2)/length(a)) #標準差

> a <- c(1,9, 5, 8, 7) # 原始數據
> a - mean(a) # 離差
[1] -5 3 -1 2 1
> (a- mean(a))^2 # 離差的平方
[1] 25 9 1 4 1
> sum((a- mean(a))^2) # 離差的平方和
[1] 40
> sum((a- mean(a))^2)/length(a) # 方差
[1] 8
> sqrt(sum((a- mean(a))^2)/length(a)) #標準差
[1] 2.828427

總體方差與樣本方差

樣本方差與總體方差有所不同,為了校正樣本變異性,我們需要對方差和標準有效期的公式做出調整,此時樣本方差公式中的分母是 , 如下所示:

這裡要注意的是,公式使用了 來代替 ,這是為了校正樣本變異性的偏誤做出的調整,調整的結果使所得的結果變大,從而使樣本方差成為對總體方差精確的無偏估計(如果是n,則是有偏估計)。下面我們用不太嚴謹的一個案例來說明一下為什麼樣本方差中的分母是 。舉例說明為什麼是n-1現在我們設計一個N=6的總體,它的元素為0, 0, 3, 3, 9, 9,現在我們計算可知它的總體均數為 , 方差 。現在我們從這個總體中選擇一個 的樣本,我們選出所有可能的組合,並計算出其平均數,有偏方差,無偏方差,如下所示:

在我們觀察平均數這一列,原始的總體均數為 。雖然沒有一個樣本的均數恰好為4,但是如果考慮整組樣本,將會發現,9個樣本的平均數總和為36,因此樣本均數數的平均數為 36/9=4,此時樣本平均數恰好等於總體平均數。根據定義,這是一個無偏的統計量,也就是說,樣本精確地代表了總體。
現在我們考慮用除以n得到的存在偏誤的樣本方差這一列。原始的總體方差是 。然而,9個樣本方差的總和為63, 這使得63/9=7。注意,這些樣本方差的平均值不等於總體方差,也就是說,如果用除以n得到的樣本方差,得出的結果不能精確估計總體方差, 也就是說,這些樣本方差低估了總體方差,因此是存在偏誤的統計量。現在我們再考慮除了n-1得到的樣本詳這一列,雖然總體方差為,然而沒有一個樣本的方差恰好等於14。但是,如果考慮整組樣本方差,將會發現這9個值總和為126,因此方差的平均值為126/9=14。因此,樣本方差的平均值恰好等於總體方差。也就是說,樣本方差(此時是使用了n-1來代替n)是對總體方差的一個精確的、無偏的估計。結論就是,樣本平均數和樣本方差(使用n-1)都是無偏估計的例子。這個事實使樣本平均數和樣本方差在推論統計方面變得非常重要。雖然沒有單個樣本恰好具有與總體一樣的平均數和方差,但是,樣本平均數和樣本方差的平均值確實提供了對相應總體參數的精確估計。
參考資料行為科學統計 作者: [美] F. J. Gravetter / [美] L. B. Wallnau,出版社: 中國輕工業出版社,原作名: Statistics for the behavioral sciences,譯者: 王愛民 / 李悅,出版年: 2008-7

相關焦點

  • 標準差的公式中分母為何用n-1而不用n?
    ),每一個差的平方,並且計算所有平方值的總和。然後用平方和除以樣本規模(減去1),最後求平方根。大家可能會注意到,為什麼公式中的分母要減去1呢?為什麼我們除以n-1而不只是n呢?這是個很好的問題,那我們就探討一下為什麼除以n-1而不除以n的道理。我們知道的是標準差是總體標準差的估計值,只有我們用n-1的情況下才是無偏估計。我們把分母減去1會使得標準差大於實際的大小。為什麼我們要這樣做呢?因為最優秀的科學家一般都是保守的。
  • 為什麼樣本方差的分母是 n-1?
    先說結論,樣本標準差的分母寫成n-1,是為了對自由度進行校正,這叫貝塞爾校正(Bessel's Correction)[1]。注意這個貝塞爾不是貝塞爾曲線(Bézier curve)那個貝塞爾。為了讓中學水平的讀者就能理解,我儘量不用公式,用淺顯的語言和生活中的案例,來敘述這個問題的來龍去脈。
  • 標準差的計算公式是什麼?
    標準差公式是一種數學公式。標準差也被稱為標準偏差,或者實驗標準差,公式如下所示:兩種證券形成的資產組合的標準差=(W12σ12+W22σ22+2W1W2ρ1,2σ1σ2)開方,當相關係數ρ1,2=1時,資產組合的標準差σP=W1σ1+W2σ2;當相關係數ρ1,2=-1時,資產組合的標準差σP=W1σ1-W2σ2。
  • 方差的計算公式 方差和標準差公式等
    >方差的計算公式 平方差及方差和標準差公式例1 兩人的5次測驗成績如下:X:50,100,100,60,50 ,平均成績為E(X )=72;Y:73, 70, 75,72,70 ,平均成績為E(Y )=72。
  • 為什麼樣本方差要除以n-1?
    首先,學過統計學的童鞋,都學過這樣1個公式,就是樣本方差我相信肯定有讀者和我一樣問過,為啥代表樣本的方差分母是n-1?我也相信你肯定被回答過,這是因為自由度的緣故。樣本方差主要因為樣本均值已知,所以只要知道了n-1個樣本後,利用樣本均值,就可求出最後1個樣本。這樣一來n個樣本只有n-1個可以自由變化的樣本了。
  • 方差的計算公式 平方差及方差和標準差公式
    方差的計算公式 平方差及方差和標準差公式例1 兩人的5次測驗成績如下:X:50,100,100,60,50 ,平均成績為E(X )=72;Y:73, 70, 75,72,70 ,平均成績為E(Y )=72。
  • 【小課堂】Excel標準差公式的區別
    在SPC中大量要用到標準差,比如Ppk,Pp的計算,一般都會使用Excel公式計算,在輸入公式時,你用對了嗎?
  • 標準差還是標準誤?
    標準差( standard deviation) 作為隨機誤差( 或真差) 的代表,是隨機誤差絕對值的統計均值 。大白話解釋,就是衡量一組數據的離散程度。在國家計量技術規範中,標準差的正式名稱是標準偏差,簡稱標準差,用符號 σ表示:式中 xi 為一組樣本變量( 從總體中抽取的一部分個體的集合)。
  • 【考研真題】標準差與標準誤的關係
    的正態分布。)因此樣本均數的標準誤的計算公式為:=在實際工作中,可以通過適當的增加樣本含量n來減少標準誤,降低抽樣誤差。在統計學結果表達中常有「均數±標準差"來描述正態或近似正態分布的特徵。標準差描述的是樣本中各個體觀察值間的變異;標準誤表示樣本均數間的變異程度,描述樣本均數的抽樣誤差,即樣本均數與總體均數的接近程度。
  • 第二講 n次方差公式
    本探究答案由楊彥清同學提供1、背景分析與知識串聯:n次方差公式在課本中是沒有要求掌握的
  • 統計學中算變異量為什麼要除以n-1?什麼是「自由度」?
    這個公式的分子是所謂「差方和」(sum of squared deviations) , 還不算太難懂。真正難懂的地方是分母:如果要求 「平均差方」(mean squared deviations),應該把差方和除以n,為什麼要除以n-1?
  • 【知識】標準差與標準誤差的區別和用法
    當數據呈正態分布的時候,使用標準差是一個很好的選擇,經驗法則告訴我們觀測值落入(μ±2σ)的比例約為95%。然而,當數據分布為偏態或U型,J型等其他非正態分布情況下,使用標準差來表示數據的分散程度可能並不是一個最佳選擇(當然你依然可使用切比雪夫法則解釋),使用其他度量如極差、百分位數等可能是一個更好地選擇。
  • 林澤民 | 統計學中算變異量為什麼要除以n-1?什麼是「自由度」?
    這個公式的分子是所謂「差方和」(sum of squared deviations) , 還不算太難懂。真正難懂的地方是分母:如果要求 「平均差方」(mean squared deviations),應該把差方和除以n,為什麼要除以n-1?
  • 只有均值、標準差、樣本量可以進行獨立樣本t檢驗和方差分析嗎?
    在實際工作和學習中,經常有非統計學專業的審稿老師諮詢,沒有原始數據只有樣本量、均值和標準差可以進行兩組獨立樣本t檢驗,方差分析以及組間兩兩比較嗎
  • 「經驗分享」怎麼計算樣本總體標準偏差
    ['下面用wps中的excel通過分步計算和STDEVPA函數一步計算分別計算樣本總體標準偏差,方便大家理解算法。']['工具/原料']wps-excel,office-excel類同['方法/步驟']1打開wps,建立excel文檔,先建立待計算總體標準偏差的樣本數據,如圖以身高數據X為例。
  • 只有均數標準差和樣本量做方差分析
    最近發現經常有同學問我只有均數、標準差和樣本量,怎麼進行統計檢驗?
  • 標準誤和標準差,傻傻分不清?
    在介紹中心極限定理時,我們知道:在大樣本情況下,如果已知總體的標準差σ,那麼樣本均值分布的標準差為σ/√n,稱為樣本均值的標準差(StandardDeviation)。 因此,我們可以用總體的標準差σ估計樣本均值分布的標準差。但,現實生活中考察的總體通常都會很大,調查總體中的每一個個體不太現實,並且成本巨大。
  • 砂漿抗壓強度標準差計算公式
    【學員問題】砂漿抗壓強度標準差計算公式?  【解答】根據近期相同抗壓強度、相同生產工藝和配合比的同品種砂漿抗壓強度資料,砂漿抗壓強度標準差б按下式計算:  б= {[∑(`?_(m,i)`)2 ― n(`m_(?m)`)2] / (n―1)}-2  式中:  `?
  • 實習九 均數、標準差、標準誤
    實習九 均數、標準差、標準誤   一、目的要求   1.明確平均數、標準差、標準誤的概念的意義。   2.學會平均數、標準差、標準誤計算的基本方法。   3.正確應用平均數、標準差、標準誤進行統計分析。
  • 貌合神離的標準差與標準誤
    其實標準誤和標準差並不是很難區別,只是不知道為什麼書上總是不喜歡講清楚。儘管統計教科書上也分別介紹了二者的區別,而且還將其作為考試重點,但淨是說些不疼不癢的話,讓人摸不著頭腦。本文主要從理解的角度來介紹一下二者的概念。先說簡單的概念標準差。標準差反映了數據的波動情況,標準差越大,表明數據之間差別越大。