z檢驗和t檢驗 - CSDN

2021-01-15 CSDN技術社區

#「閃光時刻」主題徵文 二期#

均值對比是數據分析中最重要的內容之一,應用廣泛。

對比試驗前後病人的症狀,證明某種藥是否有效;對比某個班級兩次語文成績,驗證是否有提高;對比某個產品在投放廣告前後的銷量,看廣告是否有效。

這些都屬於兩均值對比的應用。

均值對比的假設檢驗方法主要有 Z 檢驗和 T 檢驗,它們的區別在於 Z 檢驗面向總體數據和大樣本數據,而 T 檢驗適用於小規模抽樣樣本。下面分別介紹 Z 檢驗和 T 檢驗。

Z 檢驗

需要事先知道總體方差,另外,如果總體不服從正態分布,那麼樣本量要大於等於 30 ;如果總體服從正態分布,那麼對樣本量沒有要求。

Z 檢驗用於比較樣本和總體的均值是否不同或者兩個樣本的均值是否不同。檢驗統計量 z 值的分布服從正態分布。

1.單樣本 Z 檢驗

使用單樣本 Z 可以在知道總體的標準差時,估計總體的均值並將它與目標值或參考值進行比較。使用此分析,可以執行以下操作:確定總體均值是否不同於您指定的假設均值。計算可能包括總體均值的值範圍。

例子:

質量分析員使用單樣本 Z 檢驗來確定螺栓的平均螺紋長度是否不同於目標值 39 毫米。如果均值不同於目標值,分析員將使用置信區間來確定差值有可能為多大以及差值是否有實際意義;

實現代碼:

import statsmodels.stats.weightstats as sw

arr = [

23,36,42,34,39,34,35,42,53,28,

49,39,46,45,39,38,45,27,43,54,

36,34,48,36,47,44,48,45,44,33,

24,40,50,32,39,31

]

tstats, pvalue = sw.ztest(arr, value=39)

print(tstats, pvalue)

# 輸出:0.3859224924939799 0.6995540720244979

# 假設置信度為 0.05 ,由於 p 值大於置信度,接受原假設。所以平均螺紋長度等於 39 。

2.雙樣本 Z 檢驗

在兩個總體標準差(s1 和 s2)已知的情況下,檢驗基於獨立樣本的兩個總體平均值(m1 和 m2)是否相等(或大於/小於)。

實現代碼:

import statsmodels.stats.weightstats as sw

arr1 = [

23,36,42,34,39,34,35,42,53,28,

49,39,46,45,39,38,45,27,43,54,

36,34,48,36,47,44,48,45,44,33,

24,40,50,32,39,31

]

arr2 = [

41,34,36,32,32,35,33,31,35,34,

37,34,31,36,37,34,33,37,33,38,

38,37,34,36,36,31,33,36,37,35,

33,34,33,35,34,34,34,35,35,34

]

tstats, pvalue = sw.ztest(arr1, arr2, value=0, alternative='two-sided')

print(tstats, pvalue)

# 3.775645601380307 0.0001595937672736755

# 假設置信度為 0.05 ,由於 p 值小於置信度 0.05 ,拒絕原假設,接受備選假設。所以兩個獨立樣本的總體均值相等。

T 檢驗

T 檢驗,亦稱 student t 檢驗(Student's t test),主要用於樣本含量較小(例如 n < 30),總體標準差 σ 未知的正態分布資料。T 檢驗是用 T 分布理論來推論差異發生的概率,從而比較兩個平均數的差異是否顯著。

事先不知道總體方差,另外,如果總體不服從正態分布,那麼樣本量要大於等於 30 ,如果總體服從正態分布,那麼對樣本量沒有要求。

Z 檢驗雖然能夠進行均值差異性檢驗,但是,它要求總體標準差已知或者樣本容量足夠大,這是很難做到甚至無法達成的。這時候t檢驗就粉墨登場了,只需從正態總體中抽取小規模的樣本數據,並計算均值與標準差,用來代替正態總體的均值和標準差即可。

1.單樣本 T 檢驗

單樣本 T 檢驗確定樣本均值是否與已知或假設的總體均值具有統計學差異。

例子:

你有 10 個年齡,你正在檢查平均年齡是否為 30 歲;已知一般嬰兒出生體重 μ0 ,現有n個難產兒出生重量數量,檢驗難產兒與一般嬰兒體重的總體均數是否相等(檢驗難產兒體重與一般嬰兒體重有沒有顯著性差異);媒體報導某大學的學生平均學習時間是 2.5h ,為了證實這報導的數據是否正確,隨機抽樣 16 人,平均學習時間是 3.2h ,方差是 0.57 ,檢驗這所學校學生學習時長與媒體報導中的時長是否顯著不同;

實現代碼:

from scipy import stats

arr = [31, 35, 28, 29, 27, 34, 32, 33, 30, 26]

statistic, pvalue = stats.ttest_1samp(arr, 30)

print('statistic={}, pvalue={}'.format(statistic, pvalue))

# 輸出:statistic=0.5222329678670935, pvalue=0.614117254808394

# 假設置信度為 0.05 ,由於 p 值大於置信度 0.05 ,接受原假設。所以 arr 的均值與 30 差異不顯著。

2.雙樣本 T 檢驗

獨立樣本 T 檢驗或雙樣本 T 檢驗比較兩個獨立組的平均值,以確定是否有統計證據表明相關的人口均值存在顯著差異。獨立樣本 T 檢驗是參數檢驗。該測試也稱為:獨立 T 檢驗。

1)獨立均值 T 檢驗

例子:

研究表達性寫作對創傷事件的治癒效果(ABTest);用T檢驗比較下列男、女兒童身高的均值是否一樣;

實現代碼:

import statsmodels.stats.weightstats as st

arr1 = [8, 7, 9, 6, 8]

arr2 = [6, 7, 7, 6, 6]

# usevar='unequal'兩個總體方差不一樣

t, p, df = st.ttest_ind(arr1, arr2, alternative='two-sided', usevar='unequal')

print('t值={},p值={},自由度={}'.format(t, p, df))

# 輸出:t值=2.1213203435596415,p值=0.08011884223003829,自由度=5.752808988764045

# 假設置信度為 0.05 ,由於 p 值大於置信度 0.05 ,接受原假設。所以 arr1 與 arr2 的均值沒有差異。

2)非獨立(配對樣本)均值 T 檢驗

例子:

檢驗運動前和運動後同一批人的體重是否有變化。檢驗 5 位丈夫結婚前後交流質量是否有變化。

實現代碼:

from scipy import stats

arr1 = [8, 7, 9, 6, 8]

arr2 = [6, 7, 7, 6, 6]

statistic, pvalue = stats.ttest_rel(arr1, arr2)

print('statistic={}, pvalue={}'.format(statistic, pvalue))

# 輸出:statistic=2.449489742783178, pvalue=0.07048399691021993

# 假設置信度為 0.05 ,由於 p 值大於置信度 0.05 ,接受原假設。所以 arr1 與 arr2 所代表的總體均值相等。

註:Z 分布與 T 分布,是兩個分布,概率函數公式的存在差異,T 分布較 Z 分布多了一個自由度的變量,懲罰小樣本,增加其拒絕 H0 的難度,因而小樣本採用 T 檢驗,優於 Z 檢驗。

0x03 比例檢驗

1.單比例檢驗

計算未知成功比例 (prop) 的檢驗。它將樣本 x 中的成功計數和樣本 n 中的觀察計數作為輸入,比較樣本(p0)和總體(prop)的比率是否相同,以此來檢驗樣本和總體之間的差異性。

零假設:

H0: prop=p0H0: propH0: prop>p0

例子:

汽車製造商聲稱不安全的汽車不超過 10% ,檢查了 15 輛汽車的安全性,發現 3 輛不安全,通過假設檢驗判斷不安全汽車的概率是否不超過 10% 。

實現代碼:

# 顯著性水平 α = 0.05 ,原假設 H0 :汽車不安全性小於 0.1 ;備擇假設 H1 :汽車不安全性大於 0.1

from statsmodels.stats.proportion import proportions_ztest

stat, pval = proportions_ztest(3, 15, 0.1, alternative='larger')

print('{0:0.4f}'.format(pval))

# 輸出:0.1664

# 由於p大於0.05,接受原假設。

2.雙比例檢驗

計算檢驗以比較兩個總體的成功比例(p1 和 p2)。它將每個樣本中的成功計數(x1 和 x2)和每個樣本中的觀察計數(n1 和 n2)作為輸入。

零假設:

H0: p1 = p2H0: p1 < p2H0: p1 > p2

例子:

實現代碼:

from statsmodels.stats.proportion import proportions_ztest

# H0:假設南方人和北方人愛吃甜豆花的比例沒有差異;H1:假設南方人和北方人愛吃甜豆花的比例有差異;

z_score, p_value = sp.proportions_ztest(

[81, 48], [180, 150], alternative='two-sided')

print('p_value={}'.format(p_value))

print(z_score, p_value)

# 輸出:0.0160

# 由於 p 小於 0.05 ,接受備選假設,南方人與北方人在喜愛吃甜豆花的比例上有顯著差別,南方人愛吃甜豆花比例更高。

總結

1. Z 分布和 T 分布

Z 分布,標準正態分布。T 分布,正態分布,v為自由度,隨著v增加,形態最終趨向標準正態分布。

T 分布較 Z 分布多了一個自由度的變量,懲罰小樣本,增加其拒絕 H0 的難度,因而小樣本採用 T 檢驗,優於 Z 檢驗。

2. Z 檢驗和 T 檢驗的區別

Z 檢驗用於大樣本(n > 30),或總體方差已知;T 檢驗用於小樣本(n < 30),且總體方差未知時,適用性優於 Z 檢驗,而在大樣本時,Z 檢驗和 T 檢驗的結論趨同。

相關焦點

  • 假設檢驗、Z檢驗與T檢驗
    單樣本t檢驗雙樣本t檢驗Z檢驗和t檢驗的決定案例研究:Python冠狀病毒的假設檢驗假設檢驗基礎讓我們舉一個例子來理解假設檢驗的概念。一個人因刑事犯罪正在接受審判,法官需要對他的案件作出判決。什麼是t檢驗?t檢驗是檢驗假設的一種統計方法,當:我們不知道總體方差我們的樣本量很小,n < 30一個樣本的t檢驗當我們想要比較樣本均值和總體均值時,我們執行一個單樣本t檢驗。
  • t檢驗 機器學習專題及常見問題 - CSDN
    均值對比的假設檢驗方法主要有 Z 檢驗和 T 檢驗,它們的區別在於 Z 檢驗面向總體數據和大樣本數據,而 T 檢驗適用於小規模抽樣樣本。下面分別介紹 Z 檢驗和 T 檢驗。Z 檢驗需要事先知道總體方差,另外,如果總體不服從正態分布,那麼樣本量要大於等於 30 ;如果總體服從正態分布,那麼對樣本量沒有要求。
  • r語言 t檢驗 假設 - CSDN
    假設檢驗 -T檢驗 -F檢驗 -卡方檢驗 -正太性檢驗T檢驗2兩樣本的T檢驗 -有原始數據的獨立兩樣本T檢測 -有原始數據的配對T檢測 實例如下: Wage 數據中大學學歷的收入和中學一樣嗎
  • t檢驗 機器學習_機器學習 t 檢驗 - CSDN
    假設檢驗常見的假設檢驗有:T檢驗(Student’s t Test),F檢驗(方差齊性檢驗),卡方驗證等。特徵X和目標Y的數值類型經常會出現兩類:1. 連續型數值,2. 離散性數值(類別特徵可以編碼成離散型特徵)。特徵X和目標Y在不同數值類型的組合下,應該採用不同的假設檢驗手段去做特徵相關性分析。下圖羅列了特徵X和目標Y在各種數值類型組合時最適合的假設檢驗方法。
  • t檢驗的目的_單樣本t檢驗的目的 - CSDN
    T檢驗和F檢驗的關係另一種解釋:t檢驗有單樣本t檢驗,配對t檢驗和兩樣本t檢驗。單樣本t檢驗:是用樣本均數代表的未知總體均數和已知總體均數進行比較,來觀察此組樣本與總體的差異性。若兩總體方差相等,則直接用t檢驗,若不等,可採用t』檢驗或變量變換或秩和檢驗等方法。 其中要判斷兩總體方差是否相等,就可以用F檢驗。
  • 假設檢驗的區別 - CSDN
    目錄假設檢驗基礎基本概念-零假設、替代假設、類型1錯誤、類型2錯誤和顯著性水平進行假設檢驗的步驟定向假設非定向假設檢驗什麼是Z檢驗?什麼是t檢驗?Z檢驗和t檢驗的決定案例研究:Python冠狀病毒的假設檢驗假設檢驗基礎
  • excel假設檢驗 - CSDN
    大樣本總體均值的檢驗方法,在大樣本情況下,無論總體服從什麼分布,樣本均值服從正態分布。那是依賴查表時代的產物;如今,計算機軟體中,t分布隨機變量在大樣本時自然就近似正態分布了。---統計學家吳喜之2. 總體比例的檢驗對於總體比例的檢驗,通常是在大樣本條件下進行的,而小樣本得到的結果是極不穩定的;所以對總體比例進行檢驗時,通常用正態分布來確定臨界值,即採用Z統計量,Z統計量計算公式:
  • matlab t檢驗_matlab t檢驗p值 - CSDN
    2012建模的題目是要求對葡萄酒品質進行評價,第一問是兩組葡萄酒的評價有沒有顯著性差異,用的是統計學中的假設T檢驗。', 2)title('白酒顯著性檢驗結果','fontsize',14)legend('T檢驗值', 'T(0.05)值', 'T(0.01)值')xlabel('樣品號'), ylabel('T檢驗值')% 顯示平均檢驗結果disp(['兩組品酒師對紅酒的平均顯著性T檢驗值:' num2str(M_AT_R)]);disp(['兩組品酒師對白酒的平均顯著性T檢驗值:' num2str(M_AT_W
  • 兩樣本t檢驗 - CSDN
    方差分析與兩樣本T檢驗。1。首先可以看到方差分析(ANOVA)包含兩樣本T檢驗,把兩樣本T檢驗作為自己的特例。因為ANOVA可以比較多個總體的均值,當然包含兩個總體作為特例。實際上,T的平方就是F統計量(m個自由度的T分布之平方恰為自由度為(1,m)的F 分布。因此,這時候二者檢驗效果完全相同。
  • t檢驗中t值的意義 - CSDN
    參數檢驗在下文中,我們給出了兩個樣本,它們可以來自相同或不同的分布,我們想檢驗這些樣本是否具有相同的統計特性:比較均值t檢驗t檢驗適用於:正態分布、方差具有齊性的兩組間小樣本比較;對於大樣本不滿足正態分布的數據而言t-檢驗還是相當精確有效的手段。檢驗:兩個平均數的差異是否顯著。
  • t檢驗 方差分析 - CSDN
    一.T檢驗1.T檢驗分類T檢驗是通過比較不同數據的均值,研究兩組數據之間是否存在顯著差異。單總體檢驗:單總體t檢驗是檢驗一個樣本平均數與一個已知的總體平均數的差異是否顯著。當總體分布是正態分布,如總體標準差未知且樣本容量小於30,那麼樣本平均數與總體平均數的離差統計量呈t分布。
  • matlab t檢驗值_matlab t檢驗p值 - CSDN
    2012建模的題目是要求對葡萄酒品質進行評價,第一問是兩組葡萄酒的評價有沒有顯著性差異,用的是統計學中的假設T檢驗。', 2)title('白酒顯著性檢驗結果','fontsize',14)legend('T檢驗值', 'T(0.05)值', 'T(0.01)值')xlabel('樣品號'), ylabel('T檢驗值')% 顯示平均檢驗結果disp(['兩組品酒師對紅酒的平均顯著性T檢驗值:' num2str(M_AT_R)]);disp(['兩組品酒師對白酒的平均顯著性T檢驗值:' num2str(M_AT_W
  • 回歸係數顯著性t檢驗 - CSDN
    回歸方程的顯著性檢驗  t 檢驗(回歸係數的檢驗)  F 檢驗(回歸方程的檢驗)  相關係數的顯著性檢驗  樣本決定係數  三種檢驗的關係(方便檢驗計算)t 檢驗  用t 檢驗來檢驗回歸係數的顯著性。,計算|t|,|t| ≥ tα/2  , 拒絕 H0|t| < tα/2  , 接受 H0
  • 卡方檢驗,T檢驗和F檢驗
    t檢驗為了確定從樣本(sample)統計結果推論至總體時所犯錯的概率,一般是小樣本,n<30。t檢驗可分為單總體檢驗和雙總體檢驗,以及配對樣本檢驗。這裡主要舉例說明雙總體檢驗(即獨立樣本t檢驗),雙總體t檢驗是檢驗兩個樣本平均數與其各自所代表的總體的差異是否顯著。獨立樣本t檢驗統計量為:
  • 在回歸分析中t檢驗_回歸分析的t檢驗如何做 - CSDN
    (3)t分布(3)F分布三大分布的用途:卡方分布:常用於擬合優度檢驗t分布:       多用於比例的估計和檢驗,用於方差分析,協方差分布和回歸分析t分布:       在信息不足的情況下,只能用t分布,比如在整體方差不知道的情況下,對總體均值的估計和檢驗常用
  • 回歸分析t檢驗公式_線性回歸t檢驗公式 - CSDN
    第二:T檢驗2.1、兩塊麥田,甲和乙,甲麥田傳統工藝,乙麥田改進工藝。          為了在公式中體現樣本個數的n的影響,所以我們讓分母的s,除以根號n,從而減小分母值,最終使t值增大,來體現樣本n的影響。2.4、t分布   以上我們求出了t值,那麼如何知道t值對應的p值?
  • f檢驗的p值大於 - CSDN
    就是因為要評估兩個總體的方差(Variances)是否相等,要做Levene"s Test for Equality of Variances,要檢驗方差,故所以就有F值。另一種解釋:t檢驗有單樣本t檢驗,配對t檢驗和兩樣本t檢驗。單樣本t檢驗:是用樣本均數代表的未知總體均數和已知總體均數進行比較,來觀察此組樣本與總體的差異性。
  • f檢驗求p值 - CSDN
    就是因為要評估兩個總體的方差(Variances)是否相等,要做Levene"s Test for Equality of Variances,要檢驗方差,故所以就有F值。另一種解釋:t檢驗有單樣本t檢驗,配對t檢驗和兩樣本t檢驗。單樣本t檢驗:是用樣本均數代表的未知總體均數和已知總體均數進行比較,來觀察此組樣本與總體的差異性。
  • 第三節 u檢驗和t檢驗
    第三節 u檢驗和t檢驗   u檢驗和t檢驗可用於樣本均數與總體均數的比較以及兩樣本均數的比較。理論上要求樣本來自正態分布總體。但在實用時,只要樣本例數n較大,或n小但總體標準差σ已知時,就可應用u檢驗;n小且總體標準差σ未知時,可應用t檢驗,但要求樣本來自正態分布總體。
  • r語言檢驗序列相關 - CSDN
    ,則進行模式識別畫自相關圖和非自相關圖,根據兩圖的結尾性和拖尾性進行AR、MA、ARMA的模式識別對識別後模式中的位置參數進行參數估計arima()模型檢驗分為:①殘差的白噪聲檢驗;②過度擬合檢驗pt()模型檢驗通過則進行模型優化,否則重新進行模式識別模型優化中得到AIC和BIC值,進行模型的優化然後進行預測與控制2.