t分布簡介| 統計學

2021-03-01 ARGO Finance創新實驗室

t分布是統計學的四大主要分布之一,在統計學上有重要的意義。本文主要介紹t分布的來源,並介紹其試圖解決的問題和應用,一共分如下四個部分:

一 t分布的由來

1908年,在愛爾蘭吉尼斯啤酒廠上班的格賽特( William Sealy Gosset)發表了一篇以「學生」為筆名的統計學論文。(這個酒廠的名字之所以耳熟,是因為這個酒廠的老闆寫編了一本《金氏世界紀錄》的書)。這篇論文中,格賽特揭示了在啤酒釀造質量控制中,試圖解決小樣本均值所服從的分布的問題,這就是統計學現在大名鼎鼎的四大分布之一,t-分布,也稱學生分布。

不過格賽特老兄也算是個悲劇。他發表這篇牛叉論文後並沒有一鳴驚人。相反,文章發表後幾乎馬上被忽略了。雖然發表的刊物很有名,也有一些調查對這篇文章做了引用,但直到20世紀20年代,沒人真正使用這個檢驗,包括他本人的備忘錄裡似乎也把它遺忘了。

直到1925年,統計學界一個天才大佬級人物,羅納德·費希爾,在他的書中提及這一理論,才奠定了學生分布在統計學的地位。費希爾通過觀察田間試驗,區分了總體與樣本兩個概念,並提出了研究兩者間關係的方法,被譽為「推斷統計學的創始人」。而可惜的是,雖然學生」分布名聲鵲起,由于吉尼斯酒廠當年要求員工匿名發表論文的規定,世人只知學生分布,他的名字幾乎無人提及。

言歸正傳,作為一篇嚴肅的科普小文,除了八卦,我們談談它能夠解決的問題。

二 t分布試圖解決的問題

格賽特在論文中想要回答的問題是:如果從一個大規模總體中抽取少數幾個樣本,那麼其樣本均值的抽樣分布是什麼樣子?

為什麼這是一個問題呢?這要從我們提到的統計學四大分布的超級大師兄說起。其知名度和應用場景秒殺其他分布,那就是正態分布。正態分布幾乎無處不在,也深深紮根在我們的直覺裡。雖然很多總體的分布並不是正態分布,但是大樣本統計量一般符合正態分布,該現象被稱為中心極限定理。

什麼是樣本統計量?比如上面提出的這個問題中的樣本均值。這個概念可以這麼理解,如果對總體進行多輪次的樣本抽樣,每輪計算該輪次樣本的均值,這些均值落在圖上就會形成一條曲線。

當每輪的樣本足夠大的時候,這條樣本均值曲線的形態是正態分布曲線。其分布有兩個核心參數,樣本均值和標準差。在已知總體均值和方差的情況下,這兩個參數是很好計算的,並不需要實際抽樣進行驗證。

在總體均值和方差未知時,大樣本情況下,可以用樣本的均值期望來代替總體均值期望,樣本標準差(s)代替總體標準差,來估計樣本均值分布的均值和標準差。比如總體有一億人,樣本有1000人,這時候樣本分布跟總體分布的形狀非常相似。根據正態分布公式,我們可以得到樣本均值的分布為:

而當樣本比較少時,這時樣本分布和總體分布的差距可能很大,樣本統計量的方差就和總體方差表現出一定的偏差。此時同樣用s替換,那麼需要什麼樣的修正?這時用這種替換計算出來的變量服從什麼樣的分布?

格賽特從重抽樣實驗著手,在一個包括3000名罪犯的身高和左手中指長度的觀測數據集中,隨機地抽取了4個樣本,描繪出了下面這條曲線。

這應該是世界上第一條t分布曲線。它沿中心軸對稱,跟正態分布非常接近,但兩端比正態分布更厚。t分布的自由度(這裡可以理解為每輪抽取的樣本數-1)越大,其曲線跟正態分布的曲線就越接近。

T分布的推導和嚴格的數學證明非常複雜,這裡暫且不討論,只給出其一般的數學形式:

總而言之,t分布解決了在小樣本實驗中均值的分布問題,廣泛的應用在檢驗樣本均值差異上。接下來我們介紹t分布的應用-t檢驗

三 t分布的應用-t檢驗

千言萬語不如一例。t檢驗也是假設檢驗方法的一種。

我們先簡單回顧一下假設檢驗的一般思路。假設檢驗可以認為是非嚴格意義下的反證法,我們通常稱為:"概率反證法"。統計學中的假設包括零假設

原假設是研究者想要通過收集證據證明發生概率過低予以否認的假設,從而論證備擇假設的正確性。而收集證據這個過程,一般就是通過某事件A出現概率小,但是進行一次實驗,結果出現了,如下圖所示。

例一

如果使用T分布做假設檢驗,我們稱為T檢驗。看下面這個例子。

假定大學生的平均體重為50kg,現在某高校隨機抽取590名大學生並測其體重數據,體重均數是55.2kg,標準差8.5,問該校大學生的體重與一般大學生是否有差異?

解決思路

樣本統計量是由抽樣而來,抽樣必然會發生抽樣誤差。所以,就抽樣簡單的判斷其總體特性,並不是科學的思維方法。我們可以採取假設檢驗進行驗證,一證明是否可以足夠下比較正確的結論。

這個例子在T檢驗的模型中稱為單樣本t檢驗。單樣本t檢驗的模式圖如下,已知一個總體(B),現在在一個未知的總體(A)中隨機抽取了一個已知的樣本(C),而所問的問題是總體A與總體B之間有無差異?

零假設為該高校大學生與一般大學生體重均數相同;備擇假設為兩者不同。我們試圖通過小概率事件的原理,證明零假設不可能發生。在零假設前提下,計算t分布曲線。在這種曲線下,我們計算t統計量,從而計算P值,發現P值落在

例二

再看下面這個T檢驗的例子,這是T檢驗的另外一種應用,叫做兩獨立樣本t檢驗。

比如現在有兩片試驗田,一片採用工藝A種植的麥子,另一片採用工藝B種植的麥子,兩邊各種100株麥子。現在發現A麥田中平均每株麥穗上有100粒麥子,B麥田平均每株麥穗上有120粒麥子,能說明B工藝高於A工藝嗎?

解決思路

兩獨立樣本t檢驗的思想是在兩個未知的總體中分別抽取一個樣本,然後比較兩個總體之間是否有差異。

同樣的,需要設置零假設和備擇假設。並且構造統計量:

四 總結

t分布的核心是描述了小樣本情況下的樣本統計量的分布,我們通常認為總體數量較大時,抽樣數量在30以內就可以用t分布。但是t分布在大量樣本抽樣也是可用的。t分布最常用的情況是假設檢驗的t檢驗,分為單樣本檢測和雙樣本檢測,模式都比較固定。但是無論是什麼假設檢驗,都只是概率反證法,並不是確定無疑的正確結論。

這期t分布就介紹到這了,謝謝大家關注ARGO,關注數據科學。

參考文獻:

《統計學原理和應用》《SPSS實戰與統計思維》《面向數據科學加的統計學思維》

   

相關焦點

  • 統計學——常用統計量以及統計三大分布
    統計學中最重要的提取信息的方式就是對原始數據進行一定的運算,得出某些代表性的數字,以反映數據某些方面的特徵,這種數字稱為統計量。用統計學語言表述就是:統計量是樣本的函數,它不依賴於任何未知參數。>t分布也稱為學生氏分布。
  • 統計學基礎-t檢驗基本原理
    單樣本t檢驗也可以理解為是一個樣本平均數與一個已知的總體平均數的差異是否顯著。      當總體分布是正態分布,如總體標準差未知且樣本容量小於30,那麼樣本平均數與總體平均數的離差統計量呈t分布。單樣本t檢驗的統計量計算公式為:其中分子表示樣本均數與總體均值的差值,分母表示樣本均數的標準誤。t統計量用標準誤來度量樣本均數與總體均值的差距,沒有量綱。
  • 統計中重要的檢驗:T檢驗、F檢驗及其統計學意義
    F值和t值就是這些統計檢定值,與它們相對應的概率分布,就是F分布和t分布。統計顯著性(sig)就是出現目前樣本這結果的機率。結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。為此,我們進行t檢定,算出一個t檢定值。與統計學家建立的以「總體中沒差別」作基礎的隨機變量t分布進行比較,看看在多少%的機會(亦即顯著性sig值)下會得到目前的結果。
  • 抽樣分布之T分布
    如下圖所示,所有T分布曲線都呈倒置的鐘形,並且關於y=0的縱軸對稱,T分布曲線從負無窮到正無窮無限延伸,且越來越接近於x軸,但永遠不會與x軸相交。隨著自由度的增大,分布曲線逐漸靠近於標準正態分布曲線,當自由度等於或大於30時,T分布曲線已經幾乎與標準正態分布曲線重合。普遍認為自由度等於30是T分布與標準正態分布能夠相互替代的分界點,自由度小於30時,T分布與標準正態分布相差較大。
  • R統計學(12): 卡方分布
    推斷性統計學就是通過樣本的描述性統計指標,來推斷出總體的描述性統計指標,從而掌握數據總體的特徵,並對總體做出其他分析和預測等操作。在這裡,描述性統計指標也被簡稱為參數。連接樣本參數和總體參數的橋梁就是抽樣分布。
  • 【教育統計答疑】如何理解正態分布、均值分布、χ^2分布、t分布和F分布
    (t-distribution)從卡方分布開始,我們就是通過構造統計量,從而得到相應的分布規律;同樣的,t分布的產生也是如此。結合參數估計的實際應用,對於t分布的由來,我更想將其與參數估計聯繫在一起。由前面的u分布可知,當總體方差σ^2未知時,要對總體的均值u進行估計,就需要利用u分布的基本性質,利用標準正態分布的轉化方法構造出統計量 Z=(X ̅-μ)/(σ⁄√n),從而可以得到對總體均值進行區間估計的方法。而如果總體方差σ^2未知,同樣要對總體的均值μ進行估計,那麼又應該如何解決這個問題呢?
  • 搞定統計學必知:P值、T檢驗、卡方檢驗、假設檢驗……
    t檢驗適用於兩個變量均數間的差異檢驗,多於兩個變量間的均數比較要用方差分析。無論哪種類型的t檢驗,都必須在滿足特定的前提條件下: 正態性和方差齊性,應用才是合理的。這是因為必須在這樣的前提下所計算出的t統計量才服從t分布,而t檢驗正是以t分布作為其理論依據的檢驗方法。t檢驗是目前醫學研究中使用頻率最高,醫學論文中最常見到的處理定量資料的假設檢驗方法。在最後結論中判斷什麼樣的顯著性水平具有統計學意義,不可避免地帶有武斷性。
  • 方差、標準差、正態分布、超幾何分布、卡方檢驗、t檢驗基礎概念
    幾個非常常見的統計學概念,簡單粗暴的基礎概念,初步理解。方差方差是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。方差是衡量源數據和期望值相差的度量值.
  • 統計學常用概念|T檢驗、F檢驗、卡方檢驗、P值、自由度
    F值和t值就是這些統計檢定值,與它們相對應的概率分布,就是F分布和t分布。統計顯著性(sig)就是出現目前樣本這結果的機率。2,統計學意義(P值或sig值) 結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯 是總體中各變量關聯的可靠指標。
  • 統計學知識闖關
    所以在正態分布檢驗中,自由度為K-3。第3關:t檢驗答:t檢驗適用於兩個變量均數間的差異檢驗,多於兩個變量間的均數比較要用方差分析。無論哪種類型的t檢驗,都必須在滿足特定的前提條件下: 正態性和方差齊性,應用才是合理的。這是因為必須在這樣的前提下所計算出的t統計量才服從t分布,而t檢驗正是以t分布作為其理論依據的檢驗方法。t檢驗是目前醫學研究中使用頻率最高,醫學論文中最常見到的處理定量資料的假設檢驗方法。
  • 小白學Python數據分析-Python初識和t分布實例
    在本期專欄中,我們先熟悉一下Python,然後用Python的庫來實現一個t分布,這可是概率和統計學中的一個非常有用的知識哦!下面我們開始學習吧! Python是一種面向對象的解釋型電腦程式設計語言,與其他解釋性語言相比,它擁有一個巨大而活躍的科學計算社區。
  • 中山大學《醫學統計學》中英文雙語公開課
    模塊一 《衛生統計學》理論課(中文授課)第1講緒論第2講定量變量的統計描述第3講定性變量的統計描述第4講常用概率分布第5講參數估計基礎第6講假設檢驗基礎第7講方差分析基礎第8講卡方檢驗第9講基於秩次的非參數檢驗第10講兩變量關聯性分析
  • 《漫畫統計學》
    《漫畫統計學》圖書英文名裝幀    平裝,全彩出版時間    2015.9 內容簡介(中文)       本書是一本漫畫形式的統計科普讀物,通過漫畫形式的情景說明,將一個個統計學知識點串聯起來,使讀者邊看故事邊學知識。
  • 數據分析統計學基礎
    統計學在數據分析的地位不言而喻,作為數據分析師必備入門基礎知識,小編本次推文,就給大家介紹幾種在統計學中常見的假設檢驗。
  • 第二節 t分布
    第二節 t分布   從數理統計的理論上講,並且上節的實例也已說明,在總體均數為μ,總體標準差為σ的正態總體中隨機抽取n相等的許多樣本,分別算出樣本均數,這些樣本均數呈正態分布。而當樣本含量n不太小時,即使總體不呈正態分布,樣本均數的分布也接近正態。
  • 學好統計學與計量經濟學假設檢驗縱貫線
    下面對其中的一些關鍵問題做一簡要的規律性總結:假設檢驗存在的必要性是什麼;假設檢驗為何有雙側、單側之分;假設檢驗為何有0.1%、1% 和 5% 三種顯著水平;客觀事物平均水平、離散水平的假設檢驗如何設置雙側和單側;計量經濟學中 t分布、卡方分布與 F 分布如何設置假設檢驗的雙側和單側。
  • 小結|醫學統計學各種資料比較選擇方法
    (1)若方差齊性,則作成組t檢驗(2)若方差不齊,則作t』檢驗或用成組的Wilcoxon秩和檢驗2)小樣本偏態分布資料,則用成組的Wilcoxon秩和檢驗2.多組資料:1)若大樣本資料或服從正態分布,並且方差齊性,則作完全隨機的方差分析。
  • StatQuest生物統計學專題 - tSNE的基礎概念
    t-SNE同PCA的簡單區別一個t-SNE的例子t-SNE(t-distributed stochastic neighbor embedding
  • 10分鐘讓你理解泊松分布、指數分布
    大學時,我一直覺得統計學很難,還差點掛科。工作以後才發現,難的不是統計學,而是我們的教材寫得不好。
  • 曼徹斯特大學統計學理學碩士專業
    曼徹斯特大學統計學理學碩士專業課程結構允許您選擇從統計學的更多理論方面(包括研究課題的模塊)到涵蓋真實世界統計學應用的材料的選項。在攻讀學位課程時,您將培養關鍵的可轉移技能,例如書面和口頭交流,統計軟體的使用和一些編程,時間管理和基礎研究技能。