檢驗功效(Power)與樣本量

2021-02-15 精益質量

在進行完假設檢驗後,我們得到了P值小於0.05的結論,那麼我們可以就此拒絕原假設嗎?其實是不行的,因為我們還必須要對這個假設檢驗的檢出力和功效進行考察。

在假設檢驗中,β代表第二類錯誤(當原假設為假,而我們卻接受了原假設)發生的概率。那麼,當原假設為假,我們正確拒絕原假設的概率就是1-β,這個值就叫做檢驗功效(Power)。

顯著性水平α是允許犯第一類錯誤的概率,當這個概率我們設置的很小時(比如從0.05設置為0.01後),Z值(在t檢驗中那就是t值)就會向右移動,從而使得犯第二類錯誤的概率β增大。

在樣本量n一定的情況下,α減小,β就會增大;β增大,α就會減小;要想同時減小α和β,只有增大樣本量n才行*。

*因為增大樣本量會使得樣本均值的置信區間變窄,從而使得均值的正態分布曲線變得更窄。

假設檢驗的功效(Power)受到以下三個因素的影響:

樣本量:其他條件保持不變時,樣本量越大,功效越大。

顯著性水平(α):其他條件保持不變,顯著性水平越小,功效越小。

兩總體之間的差異(difference):其他條件不變,兩個總體參數之間的差異越大,功效就越大。特別要注意的是這個差異是總體均值的差異,而非樣本均值的差異。

由於功效的大小由樣本量,顯著性水平和差異決定,所以在實際工作中,我們會通過功效來決定樣本量的大小。

比如我們要比較兩家供應商的棒材長度有無差異,這個差異在0.1mm以內我們是可以接受的否則就是不可接受的。我們希望正確拒絕原假設的概率是80%,並且通過採樣,知道了樣本的標準差是0.15,那麼我們就可以計算,進行雙樣本t檢驗,在顯著性水平α為0.05時所需要多少樣本數了。

在minitab的「Power and Sample Size」菜單中,有著根據不同假設檢驗估算樣本量的功能。

現在我們就實際計算一下上面這個例子需要的樣本量吧。

選擇「2-Sample t「後,出現如下輸入框。

Sample sizes,Differences和Power values,這三個變量輸入其中任意兩個變量,就可以得到剩餘的變量的值。

比如我們可以輸入樣本量和差異值來求得功效,也可以通過樣本量和功效求得假設檢驗可以檢驗出的差異值。

我們將例子中的信息輸入窗口中,如下所示。

並且在「Option」中輸入顯著性水平。

這樣我們就可以得到功效曲線,以及樣本量的大小。

在會話框中也會顯示實際的功效值。

寫在最後。

為什麼要估算樣本量?前幾天在六西格瑪的交流群中,有小夥伴做雙樣本t檢驗時發現兩個樣本之間差異很小,這樣的差異只在統計學上有意義,而無實際意義,但是由於樣本量很大,導致假設檢驗的結果為差異顯著。

數據文件連結:

https://pan.baidu.com/s/1znzGNmmmkZam2ONG6KdwTQ 

提取碼: 2qns

雙樣本t檢驗的結果如下:

這兩個樣本的均值分別為-153.85和-153.11,對於實際的生產加工來說,毫無差別。但是雙樣本t檢驗的結果P值為0.000,差異顯著。

之所以出現這樣的結果,原因就在於樣本量過大,功效太大,檢出力太強了。

在樣本量256,功效0.8的情況下,兩個樣本的總體均值只要有0.57的差異,就會被判斷是有顯著差異的。

所以在假設檢驗前,如果不對功效和樣本量做出定義,很有可能導出錯誤的結論。

這就是這幾天在六西格瑪交流群中我的收穫和領悟吧。

感謝各位老師和同行的指導和交流。

長按二維碼關注我們吧

相關焦點

  • G.Power教程 | 樣本量估計
    那麼,你可以採取另外一種辦法:使用G.Power進行先驗分析,估計出所需要的樣本量,然後看看你的數據量能否大於估計的樣本量。或者使用事後分析,說明你現目前的數據量可以達到什麼樣的效應量和統計功效水平,是足夠讓人信服的。其實,這一步應該在實驗之前就應該進行。
  • 實驗設計最小樣本量測算
    【測算公式】關於t檢驗樣本量的測算公式:    關於比率檢驗樣本量的測算公式
  • r語言卡方檢驗和似然比檢驗_r語言似然比檢驗代碼 - CSDN
    假設檢驗回顧:首先對總體分布參數作零假設H0, 從總體分布中抽樣,通過樣本計算統計量對總體參數進行推斷。假定H0為真,如果計算獲得的觀測樣本的統計量的概率非常小,便可以拒絕原假設,接受備擇假設H1。效應值的表達式依賴於假設檢驗中使用的統計方法 這四個量緊密相關,給定其中任意三個量,便可推算第四個量。本章就是利用這一點進行各種各樣的功效分析。
  • 精益六西格瑪管理-技術人員最常使用的工具-假設檢驗效力及樣本量
    但是,再確定樣本容量之前,必須對發生兩類錯誤所允許的概率做出明確規定。再假設檢驗中還常用到一個詞,檢出力(power of test)。他的定義就是1-β。其意義相當於「在備擇假設成立時不犯第二類錯誤」的概率。
  • 樣本量n>30時,還能繼續使用T檢驗嗎?
    我的意見很簡單:只要是兩個樣本平均數的差異性檢驗,假定總體正態,不管樣本容量是否大於30,就直接使用t檢驗,而不用費心地想是採用t檢驗還是採用z檢驗。這大概也叫做「認知經濟論」吧!兩個樣本平均數的差異性檢驗,實際上是針對樣本平均數差異量的分布來展開的。
  • 兩樣本t檢驗 - CSDN
    方差分析與兩樣本T檢驗。1。首先可以看到方差分析(ANOVA)包含兩樣本T檢驗,把兩樣本T檢驗作為自己的特例。因為ANOVA可以比較多個總體的均值,當然包含兩個總體作為特例。實際上,T的平方就是F統計量(m個自由度的T分布之平方恰為自由度為(1,m)的F 分布。因此,這時候二者檢驗效果完全相同。
  • 非參數檢驗 之 k個相關樣本檢驗
    K個相關樣本檢驗簡介  在參數檢驗中,我們常常對三個或三個以上的總體的均值進行相等性檢驗,使用的方法是方差分析,在非參數分析中也會遇到同樣的問題,檢驗多個總體的分布是否相同。方差分析過程需要假定條件,F檢驗才有效。
  • 兩獨立樣本的T檢驗
    在前面幾次更新中,小編已經連續推送單樣本T檢驗和配對設計T檢驗,詳情看這裡:單樣本資料的t檢驗(案例篇),配對設計的t檢驗    兩獨立樣本T檢驗是利用來自兩個總體的獨立樣本,去推斷兩個總體的均值是否存在顯著差異。(現實生活中,我們想比較兩個班級之間的成績;比較城市和農村的幸福指數等。)
  • 樣本量是自變量的10倍?
    微信公眾號:醫學統計與R語言如果你覺得對你有幫助,歡迎轉發在非常多的中文文獻中關於多重線回歸分析的樣本量是這樣描述的
  • 多個獨立樣本的非參數檢驗
    多個獨立樣本的非參數檢驗多組定量數據的比較用什麼檢驗方法?
  • 科普| 細節決定A/B測試的成敗:有底線的樣本量
    但是令他疑惑的是,對於這個實驗結果的p-value和power檢驗均不達標。也就是說,這個結果並不可信。兩大檢測指標A先生深感困惑。還是因為檢驗不達標而做其他的補救措施?針對A先生的問題,我們進行了一系列分析,最後確定了癥結所在:樣本量不足。A先生的實驗實際上需要至少1500人,但是目前只有1000人進入實驗,也就是說樣本量的缺口達到了500。若想解決這個問題,只要繼續讓流量進入實驗,達到最低需要的樣本量,即可。
  • r語言兩樣本檢驗 - CSDN
    t檢驗也稱為student t檢驗,可以用來比較兩個均值的差異是否顯著,可分為單總體檢驗、雙總體檢驗、配對樣本檢驗。1.1歷史要了解t檢驗,就不得不提及他的發明者威廉·西利·戈塞特(William Sealy Gosset)。戈塞特先生作為一個擁有化學和數學兩個學位的牛津大學新秀,於1899年因化學專長進入愛爾蘭都柏林的吉尼斯釀造公司工作。
  • SPSS科研統計:獨立樣本T檢驗
    兩獨立樣本T檢驗的目的是利用來自兩個總體的獨立樣本,推斷兩個總體的均值是否存在顯著差異。這個檢驗的前提要求是:(1)獨立。
  • 統計:如何用Excel完成雙樣本假設檢驗
    這種檢驗可以確認不同供應商的績效、不同地點的工廠績效、新舊兩種不同工作方法的差別,或者不同獎勵和嘉獎機制之間的區別。和單樣本檢驗類似,計算母體參數的區間的雙樣本檢驗,有下列幾種形式。假設檢驗的程序,與我們剛剛討論過的計算檢驗統計量和對比臨界值的程序相類似。不過雙樣本檢驗的檢驗統計量比單樣本檢驗更為複雜,我們不能陷入那些數學細節之中。
  • 第十三講 R-配對樣本Wilcoxon檢驗
    在第十二講 R-配對樣本t檢驗中,我們講到了配對樣本t檢驗的假設條件是兩組間差值分布需要符合正態性。但是,當樣本差值分布非正態,且經過一定的數值轉換嘗試後,仍然無法滿足正態性要求時,配對樣本的Wilcoxon符號秩檢驗成為備選方法,它將非正態樣本的差值的中位數與0進行比較。它是一種非參數樣本檢驗,基於樣本差值的秩次排列,而非平均值。
  • 一文看懂spss-獨立樣本t檢驗,非參數檢驗
    首先對數據進行正態性檢驗,符合正態性的使用獨立樣本t檢驗;不符合正態性地使用非參數秩和檢驗。將數據導入spss中,首先正態性檢驗。分析--描述統計--探索,將指標全部放進因變量列表裡,將組放進因子列表裡,單擊 圖 ,勾選含檢驗的正態圖--繼續--確定。輸出結果,看正態性檢驗。一般情況下(樣本量比較少)看夏皮諾威爾克檢驗結果。
  • 精益六西格瑪管理-非參檢驗-大樣本量時的符號檢驗如何處理?
    前面我們說明了小樣本時符號檢驗的實例;下面我們繼續了解大樣本時,符號檢驗時如何實施的;當樣本容量n>30,則「+」號個數的抽樣分布可以用正態概率分布來近似。當p=0的原假設成立時,+號個數的抽樣分布可以用下面正態近似。
  • 兩樣本t檢驗原理與R語言實現
    t檢驗也稱為student t檢驗,可以用來比較兩個均值的差異是否顯著,可分為單總體檢驗、雙總體檢驗、配對樣本檢驗。1.1歷史要了解t檢驗,就不得不提及他的發明者威廉·西利·戈塞特(William Sealy Gosset)。
  • 觀察性療效比較研究的樣本量計算,研究實例及注意事項
    觀察性療效比較研究樣本量的計算 影響非隨機對照試驗中檢驗效能計算的因素往往比RCT研究中的多。例如研究者在使用傾向評分或配對分析等統計分析前,可能很難獲得人群中結局指標比較的效應值大小。除此之外,在研究者進行傾向評分或配對的過程中可能會人為地排除一些研究對象。