如何理解統計學中的自由度?

2022-01-09 金融科技與大數據

1.【關於自由度】

我的理解,自由的程度。

【在統計學中,自由度(degree of freedom)指的是計算某一統計量時,取值不受限制的變量個數。——百度百科】

舉個例子,

①這裡有5個變量 X₁,X₂,X₃,X₄,X₅

請你計算它們的平均值

μ=(X₁+X₂+X₃+X₄+X₅)/5

因為,【沒有條件限制】這5個變量的取值

所以5個變量可以任意取值

μ=f( X₁,X₂,X₃,X₄,X₅)

根據自由度的定義,此時這5個數的自由度是5。

②這裡有5個數,平均值為 10

易知,X₁+X₂+X₃+X₄+X₅=50

⇒ X₅=50 -(X₁+X₂+X₃+X₄)

根據經驗我們知道,在總和為50的限制下,先任意取4個數,最後一個值是固定的。

5個數可寫為:

X₁,X₂,X₃,X₄,[50 -(X₁+X₂+X₃+X₄)]

在平均值已知的情況下,5個數裡面實際上可自由變動(任意取值)的數只有有4個

所以,這5個數的自由度為4

我們發現,多了1個限制條件, 「平均值為10」,自由度就 -1

【通常df=n-k。df為自由度,n為樣本數量,k為被限制的條件數或變量個數,或計算某一統計量時用到其它獨立統計量的個數。——百度百科】

限制的條件越多,自由度就越低

這和我們對實際生活的理解也是一致的。

2.【關於樣本方差中的自由度】

舉個例子,

研究,某中學整個高三年級學生的IQ

我們研究的總體是

【整個高三年級的每一位學生的IQ】

情況①:我們精確調查每一位學生IQ,

我們可以算出,

μ=∑x / N

σ²=∑(X-μ)² / N

解釋一下 σ² :

(X-μ)是原始分數到均值的距離,也就是,原始分數相對於均值的【偏離程度】

那麼(X-μ)²是一個【放大的偏離程度】,實質上就是【偏離程度】

所以,σ²=∑(X-μ)² / N 

就是一個【平均偏離程度】

分母為N是因為

全體學生IQ都是

【取值不受限制的】即【自由度為N】

【它們共同的影響了μ的大小】

即每個人都對當前的偏離程度做出了貢獻

情況②,我們偷懶,抽樣調查。

我們研究一部分人來代表總體情況。

我們抽取了一個樣本容量為n的樣本。

此時,

樣本平均數=n個學生IQ之和 / n

【注意】

此時【樣本自由度】不再為n

因為,樣本是從總體中抽取的,

【總體的情況限制了樣本】

具體來說,就是

【樣本均值受限】

雖然你可能直觀的感受是:

每一次抽樣,算出的樣本均值都不同啊,

哪裡被限制了???

理由如下:

從直覺上我們都認同:

樣本可以代替總體,

樣本均值可以代替總體均值,

【樣本均值是圍繞總體均值上下波動的】

(是這樣的直覺吧?)

不僅是直覺,書上也是這麼說的

「中心極限定理 :對於任何均值為μ,標準差為σ的總體,樣本大小為n的[樣本均值的分布]的均值為μ,標準差為σ/√n,並且當n趨於無窮大時,接近正態分布」

——行為科學統計精要,第八版,p114

它告訴我們,【樣本均值】圍繞總體均值上下波動。【樣本均值分布的均值】與μ相等

所以

【樣本均值雖然沒被限制為一個具體值,但它被限制在一個範圍內】

【樣本均值是趨近 μ 的】

所以此時參考前面的,

【X₁+X₂+X₃+X₄+X₅=50】

得出,X₁+X₂+X₃+X₄+……+Xₙ≈nμ

Xₙ≈nμ-(X₁+X₂+X₃+X₄+……Xₙ₋₁)

n個數裡,只有n-1個數是可以任意取值

所以,我們得出 

【樣本自由度】=n-1

此時,樣本方差為:

S²=∑(X-μ)² / n-1

因為,

樣本裡真正在自由變動的只有(n-1)個數

【所有的偏離程度】,都是,且僅是,那

(n-1)個數造成的。

所以【所有的偏離程度】全算在在他們頭上

所以,∑(X-μ)² / n-1

這樣才能精確算出每個【做出貢獻的變量】的平均偏離程度,若除以n會導致

【實際在變動的變量】的偏離程度偏小

即,會導致要估計的 σ² 偏小。

【這麼說吧】

一個樣本裡,共有n個數,你除以n,的的確確是可以精確的算出了,這n個值的方差。

但是,你的【目的】,並不是為了求某一個特定樣本的方差,你是想通過樣本方差來估算總體方差。

正是因為你有了這一目的,才有「總體」和「樣本」概念,才會讓樣本受限,從而導致自由度減小

如果你沒有這一目的,你抽出來的n個值就不再是一個樣本了,而是一個總體

就像,

【某一個學校高三年紀全體學生IQ】可以是一個總體,自由度為N

當你研究【全省高三學生的IQ】時,

【某一個學校高三年紀全體學生IQ】

就包含在了【全省高三學生的IQ】裡

它就受制於【全省高三學生的IQ】

相對的,自由度就會改變。

相關焦點

  • 統計學中自由度的理解和應用
    下面引入一些數理統計中的術語:抽樣、抽樣分布、總體與樣本、統計量、自由度、幾個常用的分布、正態總體統計量的分布……但是大多數數理統計教材中介紹自由度時,往往一筆帶過,沒有給出明確的定義或足夠的解釋,增加了自由度理解學習具有的難度,尢其對於初學者來說,自由度就像一個黑箱子,難以捉摸。數學中的自由度一般是指能夠自由取值的變量個數。
  • 自由度統計學和計量經濟學
    統計學上的自由度是指當以樣本的統計量來估計總體的參數時,樣本中獨立或能自由變化的資料的個數,稱為該統計量的自由度。統計學上的自由度包括兩方面的內容:  首先,在估計總體的平均數時,由於樣本中的n個數都是相互獨立的,從其中抽出任何一個數都不影響其他數據,所以其自由度為n.
  • 統計學中算變異量為什麼要除以n-1?什麼是「自由度」?
    至於為何使用樣本平均數會失去一個「自由度」,有點耐心的老師會解釋:樣本平均數是原來n個數算出來的,有了樣本平均數,原來n個數就被「限制」住了,只有n-1個是「自由」的。學生聽到這裡常常滿頭霧水。他們會想:原來n個數不是已經知道了嗎,說他們是「自由」究竟是什麼意思?而且就算「自由度」的概念懂了,又為什麼要把差方和除以自由度,除以n得到平均差方不是更直接了當嗎?
  • 怎樣理解SEM中的自由度?
    結構方程模型中的自由度的含義比較明確,就是樣本數據所提供的信息數量與待估計參數個數的差。以Amos為例,如果模型成功收斂(顯示「OK:Default model」,而不是「XX:Default model」),那麼我們就可以在結果報告中看到如下界面:
  • 林澤民 | 統計學中算變異量為什麼要除以n-1?什麼是「自由度」?
    至於為何使用樣本平均數會失去一個「自由度」,有點耐心的老師會解釋:樣本平均數是原來n個數算出來的,有了樣本平均數,原來n個數就被「限制」住了,只有n-1個是「自由」的。學生聽到這裡常常滿頭霧水。他們會想:原來n個數不是已經知道了嗎,說他們是「自由」究竟是什麼意思?而且就算「自由度」的概念懂了,又為什麼要把差方和除以自由度,除以n得到平均差方不是更直接了當嗎?
  • 統計學常用概念|T檢驗、F檢驗、卡方檢驗、P值、自由度
    2,統計學意義(P值或sig值) 結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯 是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成 的。
  • 在統計中自由度是什麼?
    一位讀者問我是否可以試著解釋自由度在統計學中的意義。從那時起,我一直在思考因為請求非常謹慎,像某種野獸,我不確定我是否可以安全地把它打倒在地。自由度不容易解釋,他們在統計中的一些先進和複雜的許多不同的情況下出現。  在數學方面,他們在技術上定義為一個隨機向量域的維數。
  • 機械系統自由度的計算
    回想起當年小編來基地面試,被學長問起一個胳膊上有幾個自由度的時候,真是一臉蒙蔽。進入到基地以後,才知道了自由度這個概念的重要性。分析機械結構,設計舞蹈機器人,都要用到自由度。而機械原理這門課程最先介紹的內容也是機械的自由度。那麼自由度到底是什麼呢?自由度的定義很廣泛,在統計學、物理學、機械等方面對這個詞都有不同的定義,而我們今天主要針對機械上的自由度來進行介紹。
  • 統計計量丨統計學中算變異量為什麼要除以n-1?什麼是「自由度」?
    統計學中算變異量為什麼要除以n-1?什麼是「自由度」?[EB/OL].
  • 學好統計學與計量經濟學假設檢驗縱貫線
    統計學中客觀事物平均水平的假設檢驗為雙側、左側或右側檢驗;統計學中客觀事物離散水平的假設檢驗通常為右側檢驗。計量經濟學中係數的顯著性檢驗通常為雙側檢驗;計量經濟學中服從卡方分布、F分布的假設檢驗通常為右側檢驗。
  • 如何利用excel工作軟體計算統計學相關數據
    這篇文章主要介紹用Excel軟體計算統計學數據的方法步驟,就不過多介紹每個統計學概念的具體意義了,如果大家感興趣,後續我會慢慢整理一些快速掌握統計學的方法
  • 統計和數學的自由度
    在統計學中,自由度用於定義可以分配給統計分布的獨立數量的數量。這個數字通常是指一個正整數,表示一個人從統計問題計算缺失因素的能力沒有限制。
  • 統計學知識闖關
    你可以隨便報出49個人的成績,但是最後一個人的你不能瞎說,因為平均分已經固定下來,自由度少一個。第2關:正態分布檢驗中自由度問題答:在正態分布檢驗中,這裡的M(三個統計量)為:N(總數)、平均數和標準差。
  • 如何讓統計學幫助你理解世界?
    在統計學領域,常識有多大用?乍一看,用處不大。這個學科可能至關重要,但也非常技術性,充滿陷阱和違反直覺的東西。統計學感覺就像數字鍊金術,「麻瓜」無法理解,甚至像黑魔法。這也是一件幸事,因為這個世界上的很多事情——從美國選舉民調數據到新型冠狀病毒(Sars-Cov-2)的傳播,再到經濟復甦的希望——都能從統計數據的角度最準確地理解。有用的第一步是找出這些數字衡量的對象到底是什麼。統計學家有時被不屑地稱為「數豆子的人」,但這個世界上大多數我們可能想數的東西都不像豆子那麼清楚。一個例子:一些研究顯示,打暴力電子遊戲導致暴力行為。
  • 如何理解統計學中的「估計」,用Excel來幫助你學習
    為了理解這一點,我們接下來探討一下抽樣誤差和抽樣分布。抽樣誤差抽樣(統計)誤差的發生,是由於樣本只是整個母體的一個子集。抽樣誤差在任何抽樣過程中都是固有的,雖然可以使之最小化,但並不能完全避免。為了從樣本中得出好的推斷,分析師必須消除非樣本誤差,並理解樣本誤差的特性。樣本誤差取決於樣本相對於母體的容量。因此,確定要抽取的樣本的個數,基本上是一個統計學上的問題,它為估計的準確性並因此得出有益的推斷結論而奠定基礎。另外,從實際的角度看,必須考慮抽樣的成本,有時候還得在成本和獲得的信息之間折中考慮。
  • 【愛上統計學】看科學家是如何使用被叫做「統計學」的工具的
    現在給我幾分鐘的時間向你展示一些非常成功的科學家如何使用被廣泛使用的叫做統計學的工具。米歇爾·蘭普爾是艾莫裡大學的兒科專家和人類學家。她和朋友喝咖啡的時候,朋友談到她的孩子長得多麼多麼的快。實際上,這個初為人母的朋友幾乎是說她的兒子「像野草一樣瘋長。」蘭普爾博士十分的好奇(像所有的科學家對事物感到好奇一樣),她想她應該實際測量這個孩子以及其他孩子在嬰兒期的生長速度。
  • 統計學基礎知識的總結
    其應用範圍幾乎覆蓋了社會科學和自然科學的各個領域,因此紮實的統計學基礎是一個優秀的數據分析師必備的技能。統計學是如此重要,那麼如何掌握它的基礎知識呢?這裡有七大點,是每個專業人士必須要學懂學會的!在統計學中,自由度指的是計算某一統計量時,取值不受限制的變量個數。在總體平均數未知時,用樣本平均數去計算離差(常用小s)會受到一個限制而樣本平均數和n都知道的情況下,數據的總和就是一個常數了。所以,「最後一個」樣本數據就不可以變了,因為它要是變,總和就變了,而這是不允許的。
  • 統計學第7版(賈俊平)—— 參數估計與樣本量估算原理
    問題或建議,請公眾號留言;目錄前言1. 參數估計2. 一個總體參數的區間估計2.1 總體均值的區間估計2.1.1 正態總體,方差已知2.1.2 非正態總體,大樣本2.1.3 正態總體,小樣本2.1.4 小結2.3 總體比例的區間估計2.4 總體方差的區間估計2.5 置信區間分布小結3.
  • 方差分析中深層次統計學問題
    1、關於正態性檢驗的問題     正態性檢驗是統計學分析中非常基礎的一個問題,但也很關鍵,它牽扯到你應該使用什麼樣的方法 2、關於方差分析兩兩比較方法的選擇     進行方差分析時,如果多組間比較認為總的有統計學差異,通常還可進一步做組間多重比較。 多重比較的方法比較多,這裡主要介紹sas軟體中常用的方法,主要有Tukey法、Scheffe法、Bonferroni法、Dunnett法等。
  • 《結構力學》課程教學系列之二:計算自由度w和實際自由度s
    w=3×8-3×10-2×1-3=-11計算自由度w和實際自由度s是一對姊妹概念,在理解這兩個概念之前,先要弄明白什麼叫「自由度」