以下文章內容,來自草堂君的新書《人人都會數據分析-從生活實例學統計》。因為新書中增添和細化了很多知識點,所以草堂君會逐步將這些內容補充到統計基礎導航頁中來,幫助大家建立數據分析思維。限於篇幅,只截取書中部分內容。
基礎準備
之前的幾篇統計基礎文章,草堂君介紹了抽樣分布的概念及Z分布的內容,大家可以點擊下方文章連結回顧:
從「均值抽樣分布適用條件表」可知,Z分布只能覆蓋部分均值抽樣分布的情況,它特別適合總體標準差已知的正態分布總體或樣本容量大於30的任意分布總體的抽樣情況。對於總體標準差未知的情況,我們引入另一個重要的均值抽樣分布類型:T分布。今天草堂君將向大家介紹第二種常用的抽樣分布T分布的含義及作用。
T統計量
在介紹T分布的概率密度函數之前,需要明確該函數的隨機變量,即統計量。回顧Z統計量,因為Z分布實質上是標準正態分布,所以Z統計量的計算公式就是普通正態分布轉換成標準正態分布的公式:
T統計量在結構上與統計量類似,只不過成分稍有不同:
對比Z統計量和T統計量的計算公式可知,Z統計量需要事先知道總體的標準差,而T統計量只需要知道樣本標準差即可,因此T分布能夠覆蓋Z分布不能覆蓋的部分。現實情況中,總體標準差往往難以求取,因此T分布的應用範圍比分布更廣。
T分布的定義
如果已知等待分析的總體服從正態分布,從總體中抽取容量為n的所有可能樣本,對每個樣本都計算出它們相應的T統計量,則所有T統計量的值將組成一個連續型概率分布,這個分布就是T分布,T分布的概率密度函數為:
從T分布的概率密度函數可以知道T分布也是一個概率分布族,每個自由度對應一個分布曲線。如下圖所示,所有T分布曲線都呈倒置的鐘形,並且關於y=0的縱軸對稱,T分布曲線從負無窮到正無窮無限延伸,且越來越接近於x軸,但永遠不會與x軸相交。隨著自由度的增大,分布曲線逐漸靠近於標準正態分布曲線,當自由度等於或大於30時,T分布曲線已經幾乎與標準正態分布曲線重合。普遍認為自由度等於30是T分布與標準正態分布能夠相互替代的分界點,自由度小於30時,T分布與標準正態分布相差較大。
自由度的含義
T分布的自由度與樣本標準差的自由度一樣,都等於樣本容量減去1,即v=n-1。自由度為什麼等於樣本容量n減去1呢?這個問題相信困擾了很多學習數據分析的朋友,在這裡我們做出解釋。自由度指的是計算統計量時用到的無限制、可以自由變換的數值個數。如下圖(左)所示,如果已知樣本容量為5的樣本均值等於6,那麼前4個樣本個案都是可以自由變換的,但是一旦前4個樣本個案的數值被確定(下圖確定了前四個樣本個案的數值分別為9,7,3,2),那麼第5個樣本個案就不能夠自由變換了,它需要滿足最後的均值等於6,因此第5個樣本個案就只能等於9。樣本均值使樣本的自由度由5減少到4。樣本標準差的自由度等於n-1也是這個道理。如下圖(右)所示,因為計算樣本標準差前,需要先使用n個樣本個案計算樣本均值,待到再次用這n個樣本個案計算樣本標準差時,必然有一個樣本個案不能自由變換,所以樣本標準差的自由度等於n-1。同樣的原理,計算T統計量時,需要用到樣本標準差,所以T統計量的自由度和樣本標準差一樣,都等於樣本容量減去1。
均值抽樣分布適用條件表
綜上所述,可以這樣定義T分布:如果總體服從正態分布,總體標準差未知,樣本容量小於30,那麼樣本均值的抽樣分布服從T~t(n-1)的T分布;如果總體服從正態分布,總體標準差未知,樣本容量大於30時,那麼樣本均值的抽樣分布不僅服從T~t(n-1)的分布,而且還可以用Z分布來近似表達。根據T分布的特性,可以繼續完善「均值抽樣分布適用條件表」。
T分布的作用
從T統計量的計算公式可知,T分布能夠在部分已知條件下,用於總體均值的推斷分析,它與Z分布是適用範圍互相補充的關係。接下來會具體介紹如何使用Z分布和T分布進行總體均值的推斷分析。
溫馨提示:
數據分析課程私人定製,一對一輔導,添加微信(possitive2)諮詢!
生活統計學QQ群:577312904或134373751,用於分享文章提到的各種案例資料、軟體、數據文件等。支持各種資料的直接下載和百度雲盤下載。
生活統計學微信交流群,用於各自行業的數據研究項目及其成果交流分享;由於人數大於100人,請添加微信possitive2,拉您入群。
數據分析諮詢,請點擊首頁下方「互動諮詢」板塊,獲取諮詢流程!
草堂君的統計基礎導航頁文章已經整理發表,可以前往任意電商網站購買