抽樣分布之T分布

2021-02-19 生活統計學


以下文章內容,來自草堂君的新書《人人都會數據分析-從生活實例學統計》。因為新書中增添和細化了很多知識點,所以草堂君會逐步將這些內容補充到統計基礎導航頁中來,幫助大家建立數據分析思維。限於篇幅,只截取書中部分內容

基礎準備

之前的幾篇統計基礎文章,草堂君介紹了抽樣分布的概念及Z分布的內容,大家可以點擊下方文章連結回顧:

從「均值抽樣分布適用條件表」可知,Z分布只能覆蓋部分均值抽樣分布的情況,它特別適合總體標準差已知的正態分布總體或樣本容量大於30的任意分布總體的抽樣情況。對於總體標準差未知的情況,我們引入另一個重要的均值抽樣分布類型:T分布。今天草堂君將向大家介紹第二種常用的抽樣分布T分布的含義及作用。

T統計量

在介紹T分布的概率密度函數之前,需要明確該函數的隨機變量,即統計量。回顧Z統計量,因為Z分布實質上是標準正態分布,所以Z統計量的計算公式就是普通正態分布轉換成標準正態分布的公式:

T統計量在結構上與統計量類似,只不過成分稍有不同:

對比Z統計量和T統計量的計算公式可知,Z統計量需要事先知道總體的標準差,而T統計量只需要知道樣本標準差即可,因此T分布能夠覆蓋Z分布不能覆蓋的部分。現實情況中,總體標準差往往難以求取,因此T分布的應用範圍比分布更廣。

T分布的定義

如果已知等待分析的總體服從正態分布,從總體中抽取容量為n的所有可能樣本,對每個樣本都計算出它們相應的T統計量,則所有T統計量的值將組成一個連續型概率分布,這個分布就是T分布,T分布的概率密度函數為:

從T分布的概率密度函數可以知道T分布也是一個概率分布族,每個自由度對應一個分布曲線。如下圖所示,所有T分布曲線都呈倒置的鐘形,並且關於y=0的縱軸對稱,T分布曲線從負無窮到正無窮無限延伸,且越來越接近於x軸,但永遠不會與x軸相交。隨著自由度的增大,分布曲線逐漸靠近於標準正態分布曲線,當自由度等於或大於30時,T分布曲線已經幾乎與標準正態分布曲線重合。普遍認為自由度等於30是T分布與標準正態分布能夠相互替代的分界點,自由度小於30時,T分布與標準正態分布相差較大。

自由度的含義

T分布的自由度與樣本標準差的自由度一樣,都等於樣本容量減去1,即v=n-1。自由度為什麼等於樣本容量n減去1呢?這個問題相信困擾了很多學習數據分析的朋友,在這裡我們做出解釋。自由度指的是計算統計量時用到的無限制、可以自由變換的數值個數。如下圖(左)所示,如果已知樣本容量為5的樣本均值等於6,那麼前4個樣本個案都是可以自由變換的,但是一旦前4個樣本個案的數值被確定(下圖確定了前四個樣本個案的數值分別為9,7,3,2),那麼第5個樣本個案就不能夠自由變換了,它需要滿足最後的均值等於6,因此第5個樣本個案就只能等於9。樣本均值使樣本的自由度由5減少到4。樣本標準差的自由度等於n-1也是這個道理。如下圖(右)所示,因為計算樣本標準差前,需要先使用n個樣本個案計算樣本均值,待到再次用這n個樣本個案計算樣本標準差時,必然有一個樣本個案不能自由變換,所以樣本標準差的自由度等於n-1。同樣的原理,計算T統計量時,需要用到樣本標準差,所以T統計量的自由度和樣本標準差一樣,都等於樣本容量減去1。

均值抽樣分布適用條件表

綜上所述,可以這樣定義T分布:如果總體服從正態分布,總體標準差未知,樣本容量小於30,那麼樣本均值的抽樣分布服從T~t(n-1)的T分布;如果總體服從正態分布,總體標準差未知,樣本容量大於30時,那麼樣本均值的抽樣分布不僅服從T~t(n-1)的分布,而且還可以用Z分布來近似表達。根據T分布的特性,可以繼續完善「均值抽樣分布適用條件表」。

T分布的作用

從T統計量的計算公式可知,T分布能夠在部分已知條件下,用於總體均值的推斷分析,它與Z分布是適用範圍互相補充的關係。接下來會具體介紹如何使用Z分布和T分布進行總體均值的推斷分析。

溫馨提示:

數據分析課程私人定製,一對一輔導,添加微信(possitive2)諮詢!

生活統計學QQ群:577312904134373751用於分享文章提到的各種案例資料、軟體、數據文件等。支持各種資料的直接下載和百度雲盤下載。

生活統計學微信交流群,用於各自行業的數據研究項目及其成果交流分享;由於人數大於100人,請添加微信possitive2,拉您入群。

數據分析諮詢,請點擊首頁下方「互動諮詢」板塊,獲取諮詢流程!

草堂君的統計基礎導航頁文章已經整理發表,可以前往任意電商網站購買

相關焦點

  • 抽樣分布之卡方分布&F分布
    基礎準備前面草堂君系統介紹了抽樣分布的含義,以及兩種常見的抽樣分布類型:Z分布和T分布,大家可以點擊下方文章連結回顧:結束Z分布、T分布以及切比雪夫不等式的介紹之後,關於均值抽樣分布的類型就介紹完了。均值抽樣分布是樣本參數信息與總體均值之間的橋梁,為下一步推斷總體均值做好了準備。下面將介紹關於方差這個參數的抽樣分布:卡方分布和F分布。
  • 有問有答5——什麼叫t分布
    圖中較矮的正態分布為原總體分布,較高的正態分布為樣本均值的抽樣分布。σ為原總體的標準差,二者的均值都是μ。但是,要得到上述抽樣分布,必須要知道總體標準差σ。如果不知道總體標準差σ怎麼辦呢?這就需要用樣本標準差S代替,但σ換成S後,樣本均值的抽樣分布還是正態分布嗎?統計學家研究發現,此時的抽樣分布不再是正態分布,而變成了t分布。之所以叫t分布是因為發現這種分布的人以Student的筆名發表了一篇論文介紹了這種分布,所以人們把這種分布命名為t分布。T分布和正態分布有什麼異同點呢?先看兩張圖:
  • 六西格瑪管理基礎-t分布和卡方分布
    T分布是一種抽樣分t分布是一種抽樣分布。它是區間估計,和假設檢驗的理論基礎,也是六西格瑪管理中,統計分析方法的基礎。它是這樣定義的,說從正態總體中進行抽樣,形成樣本,那麼,當總體標準差已知時,樣本均值的分布與總體分布完全一致,通過標準變換,可以轉換為標準正態分布;當總體標準差未知時,樣本均值的分布就構成了自由度為(n-1) 的t分布。t分布的概率密度函數也是兩頭低,中間高的鐘形曲線。其自由度越小,曲線越平坦,自由度越大,曲線越高企,當自由度大於30的時候,曲線與正態分布接近。
  • t分布簡介| 統計學
    t分布是統計學的四大主要分布之一,在統計學上有重要的意義。本文主要介紹t分布的來源,並介紹其試圖解決的問題和應用,一共分如下四個部分:一 t分布的由來1908年,在愛爾蘭吉尼斯啤酒廠上班的格賽特( William Sealy Gosset)發表了一篇以「學生」為筆名的統計學論文。(這個酒廠的名字之所以耳熟,是因為這個酒廠的老闆寫編了一本《金氏世界紀錄》的書)。
  • 2016考研數學:正態總體的抽樣分布及題型分析
    在考研數學概率論與數理統計這門課程中,正態分布是最重要的一個分布,它在生產實踐活動中有著廣泛的應用,同時在考研數學中也考得較多。不論是在概率論基礎部分,還是在數理統計的抽樣數據分析中,它都處於所有概率分布的中心位置,因此大家需要充分理解正態分布的概念和性質,並掌握其計算方法。
  • 抽樣分布之中心極限定理(Central Limit Theorem)
    在認識抽樣分布之前,要先了解一下中心極限定理。
  • 抽樣分布:如何進行參數的點估計和區間估計?
    置信區間的建立就與中心極限定理和抽樣分布有關了,在給定置信度的條件下,置信區間的寬度決定於抽樣分布。下面介紹分別介紹單總體均值、方差和單總體比例的置信區間。更複雜的如雙總體均值差、雙總體比率差等置信區間的建立請參與相關教科書。
  • 如何通過抽樣分布估計你的模型的不確定性
    由於測試集是我們整個數據集的隨機樣本(它扮演統計總體的角色),我們從它計算的所有統計數據都是隨機變量,它們具有一些潛在的分布。與其說「我們的模型有一個精度為x」,我們應該說「「我們的模型的平均精度為μ,標準差為σ」,其中σ表示統計估計的不確定性。通過在許多隨機生成的測試集上評估你的模型並記錄結果,你可以估計你的統計數據的抽樣分布,從而估計μ和σ。
  • R統計學(12): 卡方分布
    抽樣分布對於數據,我們可以從三個維度(集中趨勢(均值)、離散程度(方差)和分布形態(概率分布))來描述,它們是了解數據和進行下一步數據分析的基礎。遺憾的是,數據總體有時很難獲得(比如全市居民的身高數據),即使能夠得到,成本也很高且效率很低,因此,通過樣本推導總體往往成為分析者的首選。
  • 統計學——常用統計量以及統計三大分布
    統計三大分布精確的抽樣分布大多是在正態總體情況下得到的。在正態總體條件下,主要有卡方分布,t分布,F分布,常稱為統計三大分布。χ2分布χ2分布即卡方分布。>t分布也稱為學生氏分布。設隨機變量X ~ N(0,1),Y~χ2(n),且X與Y獨立,則其分布稱為t分布,記為t(n),其中n為自由度。
  • 第二節 t分布
    第二節 t分布   從數理統計的理論上講,並且上節的實例也已說明,在總體均數為μ,總體標準差為σ的正態總體中隨機抽取n相等的許多樣本,分別算出樣本均數,這些樣本均數呈正態分布。而當樣本含量n不太小時,即使總體不呈正態分布,樣本均數的分布也接近正態。
  • 抽樣分布篇之十:再談參數的點估計和區間估計
    首先要說明一下,在通常的概率論與數理統計課本中,會將概率理論(含概率論基礎和隨機變量分布)、抽樣理論(含抽樣方法、中心極限定理和抽樣分布)、估計理論(含點估計和區間估計)、假設檢驗這四部分內容當作數理統計學的基礎,其後的統計方法都是基於這些基礎由不同的統計學家從不同的角度發展演化而來的。
  • 常見數據分布-機器學習與數據分析常用術語(三)
    它是幾何分布的連續模擬,它具有無記憶的關鍵性質。除了用於分析泊松過程外,還可以在其他各種環境中找到。指數分布與分布指數族的分類不同,後者是包含指數分布作為其成員之一的大類概率分布,也包括正態分布,二項分布,伽馬分布,泊松分布等等。
  • 【教育統計答疑】如何理解正態分布、均值分布、χ^2分布、t分布和F分布
    其中橫坐標表示卡方函數的取值x,,縱坐標表示x所對應的p(x)概率大小,概率密度圖像與橫坐標圍成的面積之和為1。卡方分布是一個正偏態分布(一般看函數圖像均值偏向小的一邊為正,偏向大的一邊為負)。(t-distribution)從卡方分布開始,我們就是通過構造統計量,從而得到相應的分布規律;同樣的,t分布的產生也是如此。
  • 有問有答7——什麼叫F分布
    有朋友在微信群中提問:要說清楚這個問題,先要從兩個獨立正態樣本方差之比的抽樣分布說起。 式中,n-1稱為分子自由度,m-1稱為分母自由度。由於是兩個樣本方差之比,每個樣本的樣本量分別減1得到分子和分母的自由度,所以F分布有2個自由度。F 分布的概率密度函數在正半軸上呈正偏態分布:
  • 搞定統計學必知:P值、T檢驗、卡方檢驗、假設檢驗……
    t檢驗適用於兩個變量均數間的差異檢驗,多於兩個變量間的均數比較要用方差分析。無論哪種類型的t檢驗,都必須在滿足特定的前提條件下: 正態性和方差齊性,應用才是合理的。這是因為必須在這樣的前提下所計算出的t統計量才服從t分布,而t檢驗正是以t分布作為其理論依據的檢驗方法。t檢驗是目前醫學研究中使用頻率最高,醫學論文中最常見到的處理定量資料的假設檢驗方法。在最後結論中判斷什麼樣的顯著性水平具有統計學意義,不可避免地帶有武斷性。
  • 筆記|複習計量隨筆3,t分布表與正態分布表的關聯
    下面有兩張表的附圖,第一張是正態分布,第二張是t分布。
  • 巧用excel製作t-分布和卡方分布的臨界值表
    巧用Excel製作臨界值表02:05來自LearningYard學苑本篇推送將介紹如何用Excel製作t-分布和卡方分布臨界值表A.t-分布t-分布是用於根據小樣本來估計呈正態分布且方差未知的總體的均值步驟一:打開excel,橫軸為置信水平,豎軸為自由度,填好相應的值,做一個框架步驟二:點擊菜單欄的公式
  • 方差、標準差、正態分布、超幾何分布、卡方檢驗、t檢驗基礎概念
    統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。方差是衡量源數據和期望值相差的度量值.標準差標準差(Standard Deviation) ,中文環境中又常稱均方差,是離均差平方的算術平均數的平方根,用σ表示。標準差是方差的算術平方根。標準差能反映一個數據集的離散程度。