林澤民 | 統計學中算變異量為什麼要除以n-1?什麼是「自由度」?

2021-02-15 統計師

這個公式的分子是所謂「差方和」(sum of squared deviations) , 還不算太難懂。真正難懂的地方是分母:如果要求 「平均差方」(mean squared deviations),應該把差方和除以n,為什麼要除以n-1?

一般老師對這個問題通常會回答說因為分子使用了樣本平均數,失去了一個「自由度」(degrees of freedom),所以除以n-1。有的老師還會進一步說如果計算差方和使用的不是樣本平均數而是母體平均數,則除以n即可。至於為何使用樣本平均數會失去一個「自由度」,有點耐心的老師會解釋:樣本平均數是原來n個數算出來的,有了樣本平均數,原來n個數就被「限制」住了,只有n-1個是「自由」的。學生聽到這裡常常滿頭霧水。他們會想:原來n個數不是已經知道了嗎,說他們是「自由」究竟是什麼意思?而且就算「自由度」的概念懂了,又為什麼要把差方和除以自由度,除以n得到平均差方不是更直接了當嗎?

如果學生那樣反問,沒有耐心的老師可能會幹脆說:當n很大的時候,其實除以n和除以n-1是差不多的,照著公式做就對了。學過數理統計學又超有耐心的老師則會說:這與統計推論有關,當我們用樣本變異量來估計母體變異量時,為了避免估計上的偏差,必須要除以n-1。剛開始學基本統計學的學生聽了當然毫無頭緒,此時老師可能會說:你們以後去修數理統計學就會明白了,這個除以n-1而不是除以n的方法喚作「貝索校正」(Bessel’s correction)。學生聽到這裡,大概也只好知難而退等以後再說了。不過誨人不倦的老師還會進一步說:其實這要看你用哪一種估計方法,如果你用「最大概似估計法」(MLE),除以n才是對的;有人選擇「最小均方誤差估計法」(MMSE)還除以n+1呢。說到這裡,學生恐怕已經決定退選了。

我教基本統計學教了20幾年,常被學生追問這個問題,逼得自己也只好認真想出一些可以讓學生稍感滿意的答案。本文嘗試在不用高深數學的原則下來回答這個問題。

變異量的概念

首先,我們假設有一組n個數目的數據:x1, x2, …, xn,它們的樣本平均數是x̅。

變異量所要測量的是這一組數據彼此間差異的程度,它告訴我們數據的同構型或一致性。我們可以先想像這組數據全部相同的情況:數據彼此之間完全沒有差異,也就是同構型高到不能再高了,一致性也大到不能再大了,此時變異量為0。如果數據彼此間差異極大,也就是同構型或一致性極低,此時變異量極大。

想像一個大聯盟球隊的球員,我們有這些球員上個球季打擊率的數據。如果這些數據的變異量極小,這代表球員們打擊能力大致相同,同構型極高;反之,如果變異量極大,則能力參差不齊,同構型低。再想像我們特別關注其中一位球員,我們有他參加大聯盟以來每個球季的打擊率。如果這些數據的變異量極小,這代表這球員每年打擊表現的一致性極高;反之,如果變異量極大,則一致性低。

然則為何變異量要用上面的公式計算?要算數據彼此間差異的程度,不是算出數目兩兩之間差異的總和或其平均值就好了嗎?這樣說雖然不無道理,但實際上大有問題。

設想我們把數據中所有數目依其大小標在一直在線,一共有n個點,則這些點兩兩之間一共會有C(n,2)=n!/(n-2)!2!個距離,例如n=3會有3個距離,n=4會有6個距離,n=5會有10個距離,等等。但這些距離並不是相互獨立的,因為除了相鄰兩點之間的距離外,其它的距離都可以算出來。舉例來說,若n=3而三點為x1<x2<x3,則共有|x1-x2|、| x2-x3|、|x1- x3|三個距離,但|x1-x2|+| x2-x3|=|x1- x3|,也就是3個距離中只有2個是獨立的,第三個可以由這兩個獨立的距離算出來。推而廣之,直線上n個點x1<x2<…<xn,雖然可有C(n,2)個距離,只有|x1-x2|、| x2-x3|、|x3- x4|、…、|xn-1- xn|這n-1個相鄰兩點之間的距離是獨立的;這n-1個距離知道之後,其它的距離也就知道了。這n-1個相鄰兩點的「獨立」距離,包含了樣本變異量所有的信息,因此我們不妨暫且把n-1喚作「自由度」。換句話說,「自由度」就是樣本變異量所含獨立信息的數目。

如果我們把總變異量定義為數據中這些獨立信息的總和,則當我們把總變異量除以自由度n-1,我們就得到這些獨立信息的平均變異量了。但這樣的定義有一個問題,我們看下式就明白了:

相關焦點

  • 統計學中算變異量為什麼要除以n-1?什麼是「自由度」?
    這個公式的分子是所謂「差方和」(sum of squared deviations) , 還不算太難懂。真正難懂的地方是分母:如果要求 「平均差方」(mean squared deviations),應該把差方和除以n,為什麼要除以n-1?
  • 統計計量丨統計學中算變異量為什麼要除以n-1?什麼是「自由度」?
    因此(xi-µ)(xj-µ)的值有時候為正,有時候為負;雖然大小不一,但「平均來說」,他們加起來會互相取消。此所以我們知道在理論上Σall i≠j(xi-µ)(xj-µ)≈0。以上證明參考了:R.A. Fisher, 1912.
  • 為什麼樣本方差要除以n-1?
    因此,這次我對林澤民教授的文章的解讀,我是咀嚼嚼爛之後,統一換成我們內地的叫法。這樣讀者閱讀起來就不容易頭暈!首先,學過統計學的童鞋,都學過這樣1個公式,就是樣本方差我相信肯定有讀者和我一樣問過,為啥代表樣本的方差分母是n-1?我也相信你肯定被回答過,這是因為自由度的緣故。
  • 統計學中自由度的理解和應用
    眾所周知,很多統計量的計算公式中都有自由度的概念,可為什麼同樣是計算標準差,總體標準差的自由度是n,而樣本標準差的自由度就是n-1?為什麼其它公式中的自由度還有n-2、n-3呢?它到底是什麼含意?
  • 如何理解統計學中的自由度?
    【在統計學中,自由度(degree of freedom)指的是計算某一統計量時,取值不受限制的變量個數。df為自由度,n為樣本數量,k為被限制的條件數或變量個數,或計算某一統計量時用到其它獨立統計量的個數。——百度百科】限制的條件越多,自由度就越低這和我們對實際生活的理解也是一致的。2.
  • 樣本標準差的公式中為什麼是n-1
    其理由是為了校正樣本變異性而做出的調整,這是對總體標準差的無偏估計。但是,為什麼說這是一種無偏估計,很多書中並沒有提及,或者說是只用了很粗略的語言簡單地說了一下,其實也沒必過於糾結這個問題,記住就行。最近我看到了一本統計學的書《行為科學統計》(第七版)作者:[美]FrederickJ Gravetter,這本書中對這個問題的描述很清楚,通過用舉例子的方式說明了一下(並非嚴格證明),為什麼在樣本標準差中,使用 是對總體方差的無偏估計。
  • 自由度統計學和計量經濟學
    統計學上的自由度是指當以樣本的統計量來估計總體的參數時,樣本中獨立或能自由變化的資料的個數,稱為該統計量的自由度。統計學上的自由度包括兩方面的內容:  首先,在估計總體的平均數時,由於樣本中的n個數都是相互獨立的,從其中抽出任何一個數都不影響其他數據,所以其自由度為n.
  • 統計學——常用統計量以及統計三大分布
    統計學中最重要的提取信息的方式就是對原始數據進行一定的運算,得出某些代表性的數字,以反映數據某些方面的特徵,這種數字稱為統計量。用統計學語言表述就是:統計量是樣本的函數,它不依賴於任何未知參數。設隨機變量X ~ N(0,1),Y~χ2(n),且X與Y獨立,則其分布稱為t分布,記為t(n),其中n為自由度。
  • 標準差的公式中分母為何用n-1而不用n?
    標準差,我們都不陌生,它表示一組數據的變異性,實際的含義是與平均值的平均距離。標準差越大,每一個數據點與數據分布的均值的平均距離越大。
  • 統計學常用概念|T檢驗、F檢驗、卡方檢驗、P值、自由度
    會不會總體中男女生根本沒有差別,只不過是你那麼巧抽到這2樣本的數值不同?為此,我們進行t檢定,算出一個t檢定值。與統計學家建立的以「總體中沒差別」作基礎的隨機變量t分布進行比較,看看在多少%的機會(亦即顯著性sig值)下會得到目前的結果。
  • 以離均差為基礎的變異量數
    (例如機率的運算就是一種面積的概念),因此SS可以說是統計學的重要統計量。在統計學的概念中,N-1稱為自由度(degree of freedom;df),表示一組分數當中,可以自由變動的分數的個數。在離均差的計算上,自由度為樣本數減1,表示在N個觀察值中,只有N-1個數字可以自由運用於離均差的計算。
  • 協方差(covariance)與相關係數(2)|統計學專題
    「(左圖)強相關」:如果基於gene x的表達量能夠無偏差地預測gene y的表達量,說明二者之間有很強的聯繫;「(右圖)弱相關」:如果基於genex的表達量不能較準確地預測gene y的表達量,說明二者之間僅有較弱的聯繫。
  • 醫學統計學|知識總結(1)
    一、緒論1、醫學統計學的研究對象是醫學中具有不確定性結果的事物,通過數據的偶然性來揭示其內在規律。2、總體與樣本(1)總體:根據研究目的所確定的同質觀察單位的全體,描述總體特徵的統計學指標為參數,如μ(2)樣本:從總體中隨機抽取的部分觀察單位,由樣本計算產生的特徵指標為統計量,3、變量,即隨機變量,其類型分別為:(1)定量數據(計量資料
  • 統計和數學的自由度
    在統計學中,自由度用於定義可以分配給統計分布的獨立數量的數量。這個數字通常是指一個正整數,表示一個人從統計問題計算缺失因素的能力沒有限制。
  • 在統計中自由度是什麼?
    一位讀者問我是否可以試著解釋自由度在統計學中的意義。從那時起,我一直在思考因為請求非常謹慎,像某種野獸,我不確定我是否可以安全地把它打倒在地。自由度不容易解釋,他們在統計中的一些先進和複雜的許多不同的情況下出現。  在數學方面,他們在技術上定義為一個隨機向量域的維數。
  • 統計學中「固定效應 vs. 隨機效應」
    隨機效應(random effect, RE)是統計學中躲不開的一對重要概念,也是統計學思想的一個非常核心的理念:真實世界的複雜現象 = 確定的統計模型 + 不確定的隨機誤差。你既可以只納入隨機斜率成分而不對斜率的差異作出具體解釋,也可以再納入一個Level 2的自變量與這個Level 1自變量發生交互作用(即跨層交互),從而解釋為什麼X的效應依組而變、是什麼因素導致了這種變化。
  • 方差分析想用好,步驟原理要知道!
    所以,為了得到結論,我們所要探討的就是組間變異和組內變異之間究竟誰大誰小。而要比較他們之間的大小,當然還得憑數據說話,我們可以通過計算來定量描述。離均差平方和(SS):每個觀察值與平均值之差的平方和。離均差平方和越大,數據變異程度越大。
  • 數據分析必掌握的統計學知識
    把樣本值排序,分布在最中間的值;樣本總數為奇數時,中位數為第(n+1)/2個值;樣本總數為偶數時,中位數是第n/2個,第(n/2)+1個值的平均數;3.平均數所有數的總和除以樣本數量;現在大家接觸最多的概念應該是平均數,但有時候,平均數會因為某些極值的出現收到很大影響
  • 變異分解——架起各種統計方法之間的鵲橋(寫在七夕)
    實際上,離均差平方和除以例數(實際中一般除以自由度,但是差不多的意思)就是方差,一般統計教材中也稱為均方,但實際上也就是方差。所以最後就變成了分別用組間方差與組內方差作為組間和組內變異的大小,二者比較,看看哪個大。組間均方除以組內均方就是通常所說的F值,實際上代表了這樣一個含義:如果組間變異遠遠大於組內變異,那麼組間均方除以組內均方的值肯定很大,反之,這一值就會很小。