t檢驗中t值的意義 - CSDN

2021-01-15 CSDN技術社區

顯著性檢驗

抽樣實驗會產生抽樣誤差,對實驗資料進行比較分析時,不能僅憑兩個結果(平均數或率)的不同就作出結論,而是要進行統計學分析,鑑別出兩者差異是抽樣誤差引起的,還是由特定的實驗處理引起的。

顯著性檢驗(significance test)就是事先對總體(隨機變量)的參數或總體分布形式做出一個假設,然後利用樣本信息來判斷這個假設(備擇假設)是否合理,即判斷總體的真實情況與原假設是否有顯著性差異。或者說,顯著性檢驗要判斷樣本與我們對總體所做的假設之間的差異是純屬機會變異,還是由我們所做的假設與總體真實情況之間不一致所引起的。 顯著性檢驗是針對我們對總體所做的假設做檢驗,其原理就是「小概率事件實際不可能性原理」來接受或否定假設。

下文簡述各種差異性檢驗思想(兩組樣本差異),同時結合scipy.stats文檔中的描述進行python實踐。

參數檢驗

在下文中,我們給出了兩個樣本,它們可以來自相同或不同的分布,我們想檢驗這些樣本是否具有相同的統計特性:

比較均值t檢驗

t檢驗適用於:正態分布、方差具有齊性的兩組間小樣本比較;對於大樣本不滿足正態分布的數據而言t-檢驗還是相當精確有效的手段。
檢驗:兩個平均數的差異是否顯著。

均值相同的兩組樣本測試:

from scipy import statsrvs1 = stats.norm.rvs(loc=5, scale=10, size=500)rvs2 = stats.norm.rvs(loc=5, scale=10, size=500)stats.ttest_ind(rvs1, rvs2)

均值不同的兩組樣本測試:

rvs3 = stats.norm.rvs(loc=8, scale=10, size=500)stats.ttest_ind(rvs1, rvs3)

note:如果我們觀察來自相同或不同人群的兩個獨立樣本,例如男孩和女孩或兩個種族的考試分數,我們可以使用該測試。該測試測量樣本之間的平均(預期)值是否顯著不同。如果我們觀察到大的p值,例如大於0.05或0.1,那麼我們不能拒絕相同平均分數的零假設。如果p值小於閾值,例如1%,5%或10%,那麼我們拒絕相等平均值的零假設。

import numpy as npfrom scipy import statsnp.random.seed(12345678)rvs1 = stats.norm.rvs(loc=5,scale=10,size=500)rvs2 = stats.norm.rvs(loc=5,scale=10,size=500)stats.ttest_ind(rvs1,rvs2)stats.ttest_ind(rvs1,rvs2, equal_var = False)rvs3 = stats.norm.rvs(loc=5, scale=20, size=500)stats.ttest_ind(rvs1, rvs3)stats.ttest_ind(rvs1, rvs3, equal_var = False)rvs4 = stats.norm.rvs(loc=5, scale=20, size=100)stats.ttest_ind(rvs1, rvs4)stats.ttest_ind(rvs1, rvs4, equal_var = False)rvs5 = stats.norm.rvs(loc=8, scale=20, size=100)stats.ttest_ind(rvs1, rvs5)stats.ttest_ind(rvs1, rvs5, equal_var = False)

擬合優度檢驗Kolmogorov-Smirnov test (KS檢驗)

適用:連續分布,擬合優度
思想:依據總體分布狀況,計算出分類變量中各類別的期望頻數,與分布的觀察頻數進行對比,判斷期望頻數與觀察頻數是否有顯著差異,從而達到從分類變量進行分析的目的。

對於兩個樣本都來自同一分布的例子,

stats.ks_2samp(rvs1, rvs2)

pvalue=0.9954119517306488,我們不能拒絕零假設,因為pvalue很高。

不同均值的兩個分布為例,

stats.ks_2samp(rvs1, rvs3)

pvalue低於1%,,拒絕零假設。

非參數檢驗

以上的參數檢驗都基於共同的兩個假設:正態性假定和方差齊性假定 。但是,我們在實際工作中,不可能總是遇到滿足這兩個假定的統計數據,這時候,如果強行採用參數檢驗就會造成錯誤。此時,可以採用基於秩和的非參數檢驗,如Kruskal-Wallis檢驗。

Wilcoxon符號秩檢驗(t檢驗的非參數版本)

點擊Wilcoxon符號秩檢驗詳細了解。
非參數原假設(零假設):檢驗了兩個相關配對樣本x,y來自同一分布的。
非參數檢驗具有無需對總體分布作假定的優點,而就成對觀察值作的參數方式的T檢驗,必須假定有關的差別總體服從正態分布。
思想:

檢驗x-y的分布是否關於零對稱。它是兩樣本t檢驗的非參數版本。

使用條件:

由於正態近似用於計算,因此使用的樣本應該很大。一般是要求n> 20。成對檢驗,數據是配對的。(x,y長度一致)。

scipy.stats函數:wilcoxon(x[, y, zero_method, correction])

from scipy import statsx = [1, 3, 5, 7, 9]y = [2, 4, 6, 8, 10]stats.wilcoxon(x,y)

規則是要求n> 20,樣本過少會告警。

Kruskal-Wallis H檢驗(它是ANOVA的非參數版本)

點擊Kruskal-Wallis H檢驗詳細了解。
思想:假設兩個分布的樣本中位數相等,用於檢驗樣本是否來源於相同的分布。它用於比較兩個或多個相同或不同樣本大小的獨立樣本。它擴展了Mann-Whitney U檢驗,該檢驗僅用於比較兩組。Kruskal-Wallis檢驗的參數等價物是單因素方差分析 (ANOVA)。

使用條件:

具有卡方分布的假設,每組中的樣本數量不能太小。(n>5)比較沒有配對的兩個獨立樣本,樣本可具有不同的大小。(x,y長度可以不一致)

scipy.stats函數:kruskal(*args, **kwargs)

from scipy import statsx = [1, 3, 5, 7, 9]y = [2, 4, 6, 8, 10]stats.kruskal(x, y)

Mann-Whitney秩檢驗

點擊Mann-Whitney秩檢驗,U檢驗詳細了解。
它假設兩個樣本分別來自除了總體均值以外完全相同的兩個總體,目的是檢驗這兩個總體的均值是否有顯著的差別。
思想:

首先,混合兩組數據,對所有數據排序。按照數值大小給定一個值叫做秩。最小的值秩為1,最大的為N(假定兩個樣本總共有N個觀察值)。 如果有相同的值,就得到相同的秩。相同的值的秩是他們的秩的平均值。如果兩組的秩的和差距比較大,就會得出較小的p值,認為這兩組間有顯著差異。

使用條件:

比較沒有配對的兩個獨立樣本,樣本可具有不同的大小。(x,y長度可以不一致)僅在每個樣本中的觀察次數> 20且您有2個獨立的等級樣本時使用。

scipy函數:mannwhitneyu(x, y[, use_continuity, alternative])

from scipy import statsx = [1, 3, 5, 7, 9]y = [2, 4, 6, 8, 10]stats.mannwhitneyu(x, y)

P值的意義

不得不提的P值
P 值(pvalue),就是當原假設為真時所得到的樣本觀察結果或更極端結果出現的概率。如果 P 值很小,說明這種情況的發生的概率很小,而如果出現了,根據小概率原理,我們就有理由拒絕原假設,P 值越小,我們拒絕原假設的理由越充分。
總之,P 值越小,表明結果越顯著。但是檢驗的結果究竟是 「顯著的」、「中度顯著的」 還是 「高度顯著的」 需要我們自己根據 P 值的大小和實際問題來解決。

Scipy.stats中關於兩樣本差異假設檢驗的API匯總

API匯總

T檢驗: ttest_ind(a, b[, axis, equal_var, nan_policy])

Kolmogorov-Smirnov檢驗擬合優度: kstest(rvs, cdf[, args, N, alternative, mode])

Mann-Whitney秩檢驗,U檢驗: mannwhitneyu(x, y[, use_continuity, alternative])

Wilcoxon符號秩檢驗: wilcoxon(x[, y, zero_method, correction]) 執行

Kruskal-Wallis H檢驗: kruskal(*args, **kwargs)

相關焦點

  • matlab t檢驗值_matlab t檢驗p值 - CSDN
    2012建模的題目是要求對葡萄酒品質進行評價,第一問是兩組葡萄酒的評價有沒有顯著性差異,用的是統計學中的假設T檢驗。','fontsize',14)legend('T檢驗值', 'T(0.05)值', 'T(0.01)值')xlabel('樣品號'), ylabel('T檢驗值')% 白酒結果for i=1:K2 Ta2(i)=a; Tb2(i)=b;endt2=1:K2;subplot(2,1,2);plot(t2,AT_W,'*k-',t2,Ta2,'r-',t2,Tb2,'-.b', 'LineWidth
  • t檢驗的目的_單樣本t檢驗的目的 - CSDN
    2,統計學意義(P值或sig值) 結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。會不會總體中男女生根本沒有差別,只不過是你那麼巧抽到這2樣本的數值不同?為此,我們進行t檢定,算出一個t檢定值。
  • matlab t檢驗_matlab t檢驗p值 - CSDN
    2012建模的題目是要求對葡萄酒品質進行評價,第一問是兩組葡萄酒的評價有沒有顯著性差異,用的是統計學中的假設T檢驗。','fontsize',14)legend('T檢驗值', 'T(0.05)值', 'T(0.01)值')xlabel('樣品號'), ylabel('T檢驗值')% 白酒結果for i=1:K2 Ta2(i)=a; Tb2(i)=b;endt2=1:K2;subplot(2,1,2);plot(t2,AT_W,'*k-',t2,Ta2,'r-',t2,Tb2,'-.b', 'LineWidth
  • r語言 t檢驗 假設 - CSDN
    假設檢驗 -T檢驗 -F檢驗 -卡方檢驗 -正太性檢驗T檢驗2兩樣本的T檢驗 -有原始數據的獨立兩樣本T檢測 -有原始數據的配對T檢測 實例如下: Wage 數據中大學學歷的收入和中學一樣嗎
  • t檢驗 機器學習_機器學習 t 檢驗 - CSDN
    顯著性值的選擇是個經驗值:一般和樣本量有關,樣本量越大,顯著性值越大,一般幾百左右的樣本量P值一般選擇0.05,樣本量在兩千左右時P值一般選擇0.001,樣本量再大,P值就沒有作用了,所以做假設檢驗時樣本量一般不會超過5千,樣本量超過5千時P值就沒什麼意義了。收集證據:用手頭的數據去驗證第一步定義的假設。這一步就是對樣本進行統計計算等操作。
  • t檢驗的檢驗值是什麼_t檢驗t值大小的意義 - CSDN
    以貴州中嶺煤礦一井3#煤層為例,通過實驗室基本參數測定和瓦斯吸附解吸實驗,建立W-P和W-(K1或Δh2)關係...採用該方法確定的3#煤層瓦斯含量臨界值為10.0m3/t,後期生產表明,該臨界值
  • z檢驗和t檢驗 - CSDN
    Z 檢驗雖然能夠進行均值差異性檢驗,但是,它要求總體標準差已知或者樣本容量足夠大,這是很難做到甚至無法達成的。這時候t檢驗就粉墨登場了,只需從正態總體中抽取小規模的樣本數據,並計算均值與標準差,用來代替正態總體的均值和標準差即可。1.單樣本 T 檢驗單樣本 T 檢驗確定樣本均值是否與已知或假設的總體均值具有統計學差異。
  • t值_t值相對應的p值表 - CSDN
    t檢驗、t分布、t值其實都是同一個數學概念中的不同部分。
  • 在回歸分析中t檢驗_回歸分析的t檢驗如何做 - CSDN
    (3)t分布(3)F分布三大分布的用途:卡方分布:常用於擬合優度檢驗t分布:       多用於比例的估計和檢驗,用於方差分析,協方差分布和回歸分析t分布:       在信息不足的情況下,只能用t分布,比如在整體方差不知道的情況下,對總體均值的估計和檢驗常用
  • 回歸係數顯著性t檢驗 - CSDN
    (方便檢驗計算)t 檢驗  用t 檢驗來檢驗回歸係數的顯著性。採用的假設如下:原假設     H0 : β1 = 0   (x 與 y 不存在線性關係)對立假設  H1 : β1 ≠ 0  回歸係數的顯著性檢驗就是要檢驗自變量 x 對因變量 y 的影響程度是否顯著。下面我們分析接受和拒絕原假設的意義。
  • t檢驗 方差分析 - CSDN
    一.T檢驗1.T檢驗分類T檢驗是通過比較不同數據的均值,研究兩組數據之間是否存在顯著差異。單總體檢驗:單總體t檢驗是檢驗一個樣本平均數與一個已知的總體平均數的差異是否顯著。當總體分布是正態分布,如總體標準差未知且樣本容量小於30,那麼樣本平均數與總體平均數的離差統計量呈t分布。
  • t檢驗 機器學習專題及常見問題 - CSDN
    Z 檢驗用於比較樣本和總體的均值是否不同或者兩個樣本的均值是否不同。檢驗統計量 z 值的分布服從正態分布。1. 單樣本 Z 檢驗使用單樣本 Z 可以在知道總體的標準差時,估計總體的均值並將它與目標值或參考值進行比較。使用此分析,可以執行以下操作:確定總體均值是否不同於您指定的假設均值。計算可能包括總體均值的值範圍。
  • t檢驗回歸方程專題及常見問題 - CSDN
    (方便檢驗計算)t 檢驗  用t 檢驗來檢驗回歸係數的顯著性。採用的假設如下:原假設     H0 : β1 = 0   (x 與 y 不存在線性關係)對立假設  H1 : β1 ≠ 0  回歸係數的顯著性檢驗就是要檢驗自變量 x 對因變量 y 的影響程度是否顯著。下面我們分析接受和拒絕原假設的意義。
  • 回歸分析t檢驗公式_線性回歸t檢驗公式 - CSDN
    為了在公式中體現樣本個數的n的影響,所以我們讓分母的s,除以根號n,從而減小分母值,最終使t值增大,來體現樣本n的影響。2.4、t分布   以上我們求出了t值,那麼如何知道t值對應的p值?
  • 統計學常用概念|T檢驗、F檢驗、卡方檢驗、P值、自由度
    F值和t值就是這些統計檢定值,與它們相對應的概率分布,就是F分布和t分布。統計顯著性(sig)就是出現目前樣本這結果的機率。2,統計學意義(P值或sig值) 結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。
  • 實習十 t檢驗
    實習十 t檢驗   一、目的要求   1.明確t檢驗的意義。   2.學會t檢驗的計算方法,並正確運用假設檢驗對資料進行分析評價。   [是非題]   1.t 檢驗是對兩個樣本不同樣本均數的差別進行假設檢驗的方法之一。( )   2.T檢驗結果t=1.5,可認為兩總體均數送別無意義。( )   3.兩次t檢驗都是對兩個不同樣本均數的差別進行假設檢驗,一次P<0.01,一次0.01<P<0.05,就表明前者兩樣本均數差別大,後者兩樣本均數差別小。
  • 理解 t 檢驗與 F 檢驗的區別
    F值和t值就是這些統計檢定值,與它們相對應的概率分布,就是F分布和t分布。統計顯著性(sig)就是出現目前樣本結果的機率。統計學結果的意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。
  • 多元線性回歸t檢驗專題及常見問題 - CSDN
    1.t檢驗t檢驗是對單個變量係數的顯著性檢驗,一般看p值; 如果p值小於0.05表示該自變量對因變量解釋性很強。2.F檢驗F檢驗是對整體回歸方程顯著性的檢驗,即所有變量對被解釋變量的顯著性檢驗
  • 通俗理解T檢驗與F檢驗的區別
    F值和t值就是這些統計檢定值,與它們相對應的概率分布,就是F分布和t分布。統計顯著性(sig)就是出現目前樣本這結果的機率。 2,統計學意義(P值或sig值)結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。
  • f檢驗的p值大於 - CSDN
    F值和t值就是這些統計檢定值,與它們相對應的概率分布,就是F分布和t分布。統計顯著性(sig)就是出現目前樣本這結果的機率。2,統計學意義(P值或sig值)結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯 是總體中各變量關聯的可靠指標。