t分布是統計學的四大主要分布之一,在統計學上有重要的意義。本文主要介紹t分布的來源,並介紹其試圖解決的問題和應用,一共分如下四個部分:
一 t分布的由來1908年,在愛爾蘭吉尼斯啤酒廠上班的格賽特( William Sealy Gosset)發表了一篇以「學生」為筆名的統計學論文。(這個酒廠的名字之所以耳熟,是因為這個酒廠的老闆寫編了一本《金氏世界紀錄》的書)。這篇論文中,格賽特揭示了在啤酒釀造質量控制中,試圖解決小樣本均值所服從的分布的問題,這就是統計學現在大名鼎鼎的四大分布之一,t-分布,也稱學生分布。
不過格賽特老兄也算是個悲劇。他發表這篇牛叉論文後並沒有一鳴驚人。相反,文章發表後幾乎馬上被忽略了。雖然發表的刊物很有名,也有一些調查對這篇文章做了引用,但直到20世紀20年代,沒人真正使用這個檢驗,包括他本人的備忘錄裡似乎也把它遺忘了。
直到1925年,統計學界一個天才大佬級人物,羅納德·費希爾,在他的書中提及這一理論,才奠定了學生分布在統計學的地位。費希爾通過觀察田間試驗,區分了總體與樣本兩個概念,並提出了研究兩者間關係的方法,被譽為「推斷統計學的創始人」。而可惜的是,雖然學生」分布名聲鵲起,由于吉尼斯酒廠當年要求員工匿名發表論文的規定,世人只知學生分布,他的名字幾乎無人提及。
言歸正傳,作為一篇嚴肅的科普小文,除了八卦,我們談談它能夠解決的問題。
二 t分布試圖解決的問題格賽特在論文中想要回答的問題是:如果從一個大規模總體中抽取少數幾個樣本,那麼其樣本均值的抽樣分布是什麼樣子?
為什麼這是一個問題呢?這要從我們提到的統計學四大分布的超級大師兄說起。其知名度和應用場景秒殺其他分布,那就是正態分布。正態分布幾乎無處不在,也深深紮根在我們的直覺裡。雖然很多總體的分布並不是正態分布,但是大樣本統計量一般符合正態分布,該現象被稱為中心極限定理。
什麼是樣本統計量?比如上面提出的這個問題中的樣本均值。這個概念可以這麼理解,如果對總體進行多輪次的樣本抽樣,每輪計算該輪次樣本的均值,這些均值落在圖上就會形成一條曲線。
當每輪的樣本足夠大的時候,這條樣本均值曲線的形態是正態分布曲線。其分布有兩個核心參數,樣本均值和標準差。在已知總體均值和方差的情況下,這兩個參數是很好計算的,並不需要實際抽樣進行驗證。
在總體均值和方差未知時,大樣本情況下,可以用樣本的均值期望來代替總體均值期望,樣本標準差(s)代替總體標準差,來估計樣本均值分布的均值和標準差。比如總體有一億人,樣本有1000人,這時候樣本分布跟總體分布的形狀非常相似。根據正態分布公式,我們可以得到樣本均值的分布為:
而當樣本比較少時,這時樣本分布和總體分布的差距可能很大,樣本統計量的方差就和總體方差表現出一定的偏差。此時同樣用s替換,那麼需要什麼樣的修正?這時用這種替換計算出來的變量服從什麼樣的分布?
格賽特從重抽樣實驗著手,在一個包括3000名罪犯的身高和左手中指長度的觀測數據集中,隨機地抽取了4個樣本,描繪出了下面這條曲線。
這應該是世界上第一條t分布曲線。它沿中心軸對稱,跟正態分布非常接近,但兩端比正態分布更厚。t分布的自由度(這裡可以理解為每輪抽取的樣本數-1)越大,其曲線跟正態分布的曲線就越接近。
T分布的推導和嚴格的數學證明非常複雜,這裡暫且不討論,只給出其一般的數學形式:
總而言之,t分布解決了在小樣本實驗中均值的分布問題,廣泛的應用在檢驗樣本均值差異上。接下來我們介紹t分布的應用-t檢驗
三 t分布的應用-t檢驗千言萬語不如一例。t檢驗也是假設檢驗方法的一種。
我們先簡單回顧一下假設檢驗的一般思路。假設檢驗可以認為是非嚴格意義下的反證法,我們通常稱為:"概率反證法"。統計學中的假設包括零假設
原假設是研究者想要通過收集證據證明發生概率過低予以否認的假設,從而論證備擇假設的正確性。而收集證據這個過程,一般就是通過某事件A出現概率小,但是進行一次實驗,結果出現了,如下圖所示。
如果使用T分布做假設檢驗,我們稱為T檢驗。看下面這個例子。
假定大學生的平均體重為50kg,現在某高校隨機抽取590名大學生並測其體重數據,體重均數是55.2kg,標準差8.5,問該校大學生的體重與一般大學生是否有差異?
解決思路
樣本統計量是由抽樣而來,抽樣必然會發生抽樣誤差。所以,就抽樣簡單的判斷其總體特性,並不是科學的思維方法。我們可以採取假設檢驗進行驗證,一證明是否可以足夠下比較正確的結論。
這個例子在T檢驗的模型中稱為單樣本t檢驗。單樣本t檢驗的模式圖如下,已知一個總體(B),現在在一個未知的總體(A)中隨機抽取了一個已知的樣本(C),而所問的問題是總體A與總體B之間有無差異?
零假設為該高校大學生與一般大學生體重均數相同;備擇假設為兩者不同。我們試圖通過小概率事件的原理,證明零假設不可能發生。在零假設前提下,計算t分布曲線。在這種曲線下,我們計算t統計量,從而計算P值,發現P值落在
例二再看下面這個T檢驗的例子,這是T檢驗的另外一種應用,叫做兩獨立樣本t檢驗。
比如現在有兩片試驗田,一片採用工藝A種植的麥子,另一片採用工藝B種植的麥子,兩邊各種100株麥子。現在發現A麥田中平均每株麥穗上有100粒麥子,B麥田平均每株麥穗上有120粒麥子,能說明B工藝高於A工藝嗎?
解決思路
兩獨立樣本t檢驗的思想是在兩個未知的總體中分別抽取一個樣本,然後比較兩個總體之間是否有差異。
同樣的,需要設置零假設和備擇假設。並且構造統計量:
四 總結t分布的核心是描述了小樣本情況下的樣本統計量的分布,我們通常認為總體數量較大時,抽樣數量在30以內就可以用t分布。但是t分布在大量樣本抽樣也是可用的。t分布最常用的情況是假設檢驗的t檢驗,分為單樣本檢測和雙樣本檢測,模式都比較固定。但是無論是什麼假設檢驗,都只是概率反證法,並不是確定無疑的正確結論。
這期t分布就介紹到這了,謝謝大家關注ARGO,關注數據科學。
參考文獻:
《統計學原理和應用》《SPSS實戰與統計思維》《面向數據科學加的統計學思維》