樣本標準差的公式中為什麼是n-1

2021-02-19 讀研筆記
前言
        在學習統計學的時候,我遇到過這麼一個問題,也就是說,樣本的標準差公式,如下所示:

        很多統計學書上都提到,在樣本標準差的計算公式中,平方根中的分子是 ,而總體標準差則是 。其理由是為了校正樣本變異性而做出的調整,這是對總體標準差的無偏估計。但是,為什麼說這是一種無偏估計,很多書中並沒有提及,或者說是只用了很粗略的語言簡單地說了一下,其實也沒必過於糾結這個問題,記住就行。但是,如果實在是想弄明白這個問題,網上也有人給出了證明過程,但是證明過程對於沒有數學基礎的人來講,還是有點難的,這個完整的證明過程的可以參考知乎上的這個帖子《為什麼樣本方差(sample variance)的分子是n-1》。最近我看到了一本統計學的書《行為科學統計》(第七版)作者:[美]FrederickJ Gravetter,這本書中對這個問題的描述很清楚,通過用舉例子的方式說明了一下(並非嚴格證明),為什麼在樣本標準差中,使用 是對總體方差的無偏估計。另外說明一下,《行為科學統計》這本書原本就是給社會學的學生學習統計學準備的,裡面的語言淺顯易懂,沒有複雜的公式,對於數學功底差的學生來說,非常友好,最新一版已經到了第9版。

背景知識

離差:數據到平均數的距離,例如對於一個 的分布來說,如果你的一個數據是 ,那麼離差就是 。如果數據是45,那麼離差就是 離均差平方和(SS,sum of squares of deviation from mean):由於離差有正有負,最終所有離均差的和即 為0,因此離均差的和無法描述一組數據的變異大小。因此將離均差平方後相加得到平方和,這就是離均差平方和(sum of squares of deviations from mean, SS)。

計算過程

先來看一組數據,即1, 9, 5, 8, 7,我們把這個數據當作是總體,現在我們計算它的離差,離差的平方等,如下所示:

a <- c(1,9, 5, 8, 7) # 原始數據
a - mean(a) # 離差
(a- mean(a))^2 # 離差的平方
sum((a- mean(a))^2) # 離均差平方和
sum((a- mean(a))^2)/length(a) # 方差
sqrt(sum((a- mean(a))^2)/length(a)) #標準差

> a <- c(1,9, 5, 8, 7) # 原始數據
> a - mean(a) # 離差
[1] -5 3 -1 2 1
> (a- mean(a))^2 # 離差的平方
[1] 25 9 1 4 1
> sum((a- mean(a))^2) # 離差的平方和
[1] 40
> sum((a- mean(a))^2)/length(a) # 方差
[1] 8
> sqrt(sum((a- mean(a))^2)/length(a)) #標準差
[1] 2.828427

總體方差與樣本方差

樣本方差與總體方差有所不同,為了校正樣本變異性,我們需要對方差和標準有效期的公式做出調整,此時樣本方差公式中的分母是 , 如下所示:

這裡要注意的是,公式使用了 來代替 ,這是為了校正樣本變異性的偏誤做出的調整,調整的結果使所得的結果變大,從而使樣本方差成為對總體方差精確的無偏估計(如果是n,則是有偏估計)。下面我們用不太嚴謹的一個案例來說明一下為什麼樣本方差中的分母是 。舉例說明為什麼是n-1現在我們設計一個N=6的總體,它的元素為0, 0, 3, 3, 9, 9,現在我們計算可知它的總體均數為 , 方差 。現在我們從這個總體中選擇一個 的樣本,我們選出所有可能的組合,並計算出其平均數,有偏方差,無偏方差,如下所示:

在我們觀察平均數這一列,原始的總體均數為 。雖然沒有一個樣本的均數恰好為4,但是如果考慮整組樣本,將會發現,9個樣本的平均數總和為36,因此樣本均數數的平均數為 36/9=4,此時樣本平均數恰好等於總體平均數。根據定義,這是一個無偏的統計量,也就是說,樣本精確地代表了總體。
現在我們考慮用除以n得到的存在偏誤的樣本方差這一列。原始的總體方差是 。然而,9個樣本方差的總和為63, 這使得63/9=7。注意,這些樣本方差的平均值不等於總體方差,也就是說,如果用除以n得到的樣本方差,得出的結果不能精確估計總體方差, 也就是說,這些樣本方差低估了總體方差,因此是存在偏誤的統計量。現在我們再考慮除了n-1得到的樣本詳這一列,雖然總體方差為,然而沒有一個樣本的方差恰好等於14。但是,如果考慮整組樣本方差,將會發現這9個值總和為126,因此方差的平均值為126/9=14。因此,樣本方差的平均值恰好等於總體方差。也就是說,樣本方差(此時是使用了n-1來代替n)是對總體方差的一個精確的、無偏的估計。結論就是,樣本平均數和樣本方差(使用n-1)都是無偏估計的例子。這個事實使樣本平均數和樣本方差在推論統計方面變得非常重要。雖然沒有單個樣本恰好具有與總體一樣的平均數和方差,但是,樣本平均數和樣本方差的平均值確實提供了對相應總體參數的精確估計。
參考資料行為科學統計 作者: [美] F. J. Gravetter / [美] L. B. Wallnau,出版社: 中國輕工業出版社,原作名: Statistics for the behavioral sciences,譯者: 王愛民 / 李悅,出版年: 2008-7

相關焦點

  • 標準差的公式中分母為何用n-1而不用n?
    ),每一個差的平方,並且計算所有平方值的總和。然後用平方和除以樣本規模(減去1),最後求平方根。大家可能會注意到,為什麼公式中的分母要減去1呢?為什麼我們除以n-1而不只是n呢?這是個很好的問題,那我們就探討一下為什麼除以n-1而不除以n的道理。我們知道的是標準差是總體標準差的估計值,只有我們用n-1的情況下才是無偏估計。我們把分母減去1會使得標準差大於實際的大小。為什麼我們要這樣做呢?因為最優秀的科學家一般都是保守的。
  • 標準差的計算公式是什麼?
    標準差公式是一種數學公式。標準差也被稱為標準偏差,或者實驗標準差,公式如下所示:兩種證券形成的資產組合的標準差=(W12σ12+W22σ22+2W1W2ρ1,2σ1σ2)開方,當相關係數ρ1,2=1時,資產組合的標準差σP=W1σ1+W2σ2;當相關係數ρ1,2=-1時,資產組合的標準差σP=W1σ1-W2σ2。
  • 方差的計算公式 方差和標準差公式等
    >方差的計算公式 平方差及方差和標準差公式例1 兩人的5次測驗成績如下:X:50,100,100,60,50 ,平均成績為E(X )=72;Y:73, 70, 75,72,70 ,平均成績為E(Y )=72。
  • 樣本方差的分母為什麼是n-1?
    而實際工作中,μ往往未知,只能用樣本均數代替之,此時的樣本方差需要用n-1代替n,即:兩邊同時除以n:上式左側即為總體均值未知時,分母為n的表達式,因此若以左側的式子計算樣本方差,它就不是總體方差的無偏估計,而是恆小於或等於總體方差,即低估總體方差,那麼既然它會低估,該怎麼解決這個問題呢?唯一的方法就是從分母下手,把分母變小,整個式子的值就會變大。那麼為什麼是變成n-1呢?數理統計學家證明:
  • 標準差計算公式
    這種情況下,仍可以計算標準差But when we use the sample as an estimate of the whole population, the Standard Deviation formula changes to this:但我們用樣本數據來對整個數據的情況進行估算,對樣本數據的標準差計算公式做一些調整
  • 方差的計算公式 平方差及方差和標準差公式
    方差的計算公式 平方差及方差和標準差公式例1 兩人的5次測驗成績如下:X:50,100,100,60,50 ,平均成績為E(X )=72;Y:73, 70, 75,72,70 ,平均成績為E(Y )=72。
  • 標準差還是標準誤?
    標準差( standard deviation) 作為隨機誤差( 或真差) 的代表,是隨機誤差絕對值的統計均值 。大白話解釋,就是衡量一組數據的離散程度。在國家計量技術規範中,標準差的正式名稱是標準偏差,簡稱標準差,用符號 σ表示:式中 xi 為一組樣本變量( 從總體中抽取的一部分個體的集合)。
  • 統計起源 第四講:黑暗中誕生的天才——自由度與標準差
    即使後來上學時,他的數學導師也在黑暗中教他數學,黑暗使人強大,長期在黑暗中腦補使得費歇爾形成了強大的幾何能力。這也是為什麼費歇爾可以很輕易的解決t檢驗的證明等一系列問題,因為這些問題本質上就是數形結合的問題。費歇爾的黑暗能力使他看到了別人都沒有注意到的新概念——自由度。在t檢驗中,我們首先要計算一個t值,t值的計算方法就是用均值的差值除以標準誤(這個我們後面會講到)。
  • 002衡量系統偏離的算法:方差,標準差與變異係數
    分母n-1稱為自由度,(df,degree of free)。S2表示樣本方差(總體方差用σ2表示)。在計算樣本方差時,希望它是總體方差的一個無偏估計,即樣本方差=總體方差,S2=σ2。再舉個例子,便於理解樣本和總體這兩個概念:比如我們的研究對象是老鼠,樣本測量可以指你多次生物學重複實驗中的1組老鼠(1-n只),隨著抽樣的無限增多(n組老鼠),理論上測量值會等於地球上全部老鼠的測量值,當然你希望你的樣本測量結果等同於地球上全部老鼠的測量結果,即取樣值等於真值。
  • 回歸標準差的計算公式 - CSDN
    (2)標準差標準差項列出了係數估計的標準差.估計係數的協方差矩陣是由以下公式計算得到的:,,二、統計量總結(1)R-squared統計量統計量衡量在樣本內預測因變量值的回歸是否成功。EViews 計算的公式為:
  • 【知識】標準差與標準誤差的區別和用法
    當數據呈正態分布的時候,使用標準差是一個很好的選擇,經驗法則告訴我們觀測值落入(μ±2σ)的比例約為95%。然而,當數據分布為偏態或U型,J型等其他非正態分布情況下,使用標準差來表示數據的分散程度可能並不是一個最佳選擇(當然你依然可使用切比雪夫法則解釋),使用其他度量如極差、百分位數等可能是一個更好地選擇。
  • 統計學中算變異量為什麼要除以n-1?什麼是「自由度」?
    這個公式的分子是所謂「差方和」(sum of squared deviations) , 還不算太難懂。真正難懂的地方是分母:如果要求 「平均差方」(mean squared deviations),應該把差方和除以n,為什麼要除以n-1?
  • 砂漿抗壓強度標準差計算公式
    【學員問題】砂漿抗壓強度標準差計算公式?  【解答】根據近期相同抗壓強度、相同生產工藝和配合比的同品種砂漿抗壓強度資料,砂漿抗壓強度標準差б按下式計算:  б= {[∑(`?_(m,i)`)2 ― n(`m_(?m)`)2] / (n―1)}-2  式中:  `?
  • 標準誤和標準差,傻傻分不清?
    在介紹中心極限定理時,我們知道:在大樣本情況下,如果已知總體的標準差σ,那麼樣本均值分布的標準差為σ/√n,稱為樣本均值的標準差(StandardDeviation)。 因此,我們可以用總體的標準差σ估計樣本均值分布的標準差。但,現實生活中考察的總體通常都會很大,調查總體中的每一個個體不太現實,並且成本巨大。
  • 實習九 均數、標準差、標準誤
    實習九 均數、標準差、標準誤   一、目的要求   1.明確平均數、標準差、標準誤的概念的意義。   2.學會平均數、標準差、標準誤計算的基本方法。   3.正確應用平均數、標準差、標準誤進行統計分析。
  • 為啥方差的計算公式分母為n-1
    ,為什麼不是首先我們解釋下自由度的定義,自由度在英文中是這麼解釋的,In statistics, the number of degrees of freedom is the number of values in the final calculation of a statistic that are free to vary.通俗的來說就是,
  • 回歸模型中f檢驗公式 - CSDN
    已知甲樣本株產量均值μ0=100,樣本標準差σ【標準差未知】;     乙樣本n,樣本株產量均值X=120,樣本標準差s,公式的xi是乙的單株產量【可以把乙的每個單株產量看作是單株均值產量】,x均值是甲的均值,因為甲的總體不知,又因為我們h0假設認為甲乙來自一個總體,所有用乙的單株產量暫代甲的單株常量。
  • 「經驗分享」怎麼計算樣本總體標準偏差
    ['下面用wps中的excel通過分步計算和STDEVPA函數一步計算分別計算樣本總體標準偏差,方便大家理解算法。']['工具/原料']wps-excel,office-excel類同['方法/步驟']1打開wps,建立excel文檔,先建立待計算總體標準偏差的樣本數據,如圖以身高數據X為例。
  • 標準差與標準誤的區別
    在日常的統計分析中,標準差和標準誤是一對十分重要的統計量,兩者有區別也有聯繫。
  • 標準差和標準誤差,你懂嗎?
    對於等精度測量來說,還有一種更好的表示誤差的方法,就是標準誤差。  標準誤差定義為各測量值誤差的平方和的平均值的平方根,故又稱為均方誤差。  設n個測量值的誤差為ε1、ε2……εn,則這組測量值的標準誤差σ等於: