在進行完假設檢驗後,我們得到了P值小於0.05的結論,那麼我們可以就此拒絕原假設嗎?其實是不行的,因為我們還必須要對這個假設檢驗的檢出力和功效進行考察。
在假設檢驗中,β代表第二類錯誤(當原假設為假,而我們卻接受了原假設)發生的概率。那麼,當原假設為假,我們正確拒絕原假設的概率就是1-β,這個值就叫做檢驗功效(Power)。
顯著性水平α是允許犯第一類錯誤的概率,當這個概率我們設置的很小時(比如從0.05設置為0.01後),Z值(在t檢驗中那就是t值)就會向右移動,從而使得犯第二類錯誤的概率β增大。
在樣本量n一定的情況下,α減小,β就會增大;β增大,α就會減小;要想同時減小α和β,只有增大樣本量n才行*。
*因為增大樣本量會使得樣本均值的置信區間變窄,從而使得均值的正態分布曲線變得更窄。
假設檢驗的功效(Power)受到以下三個因素的影響:
樣本量:其他條件保持不變時,樣本量越大,功效越大。
顯著性水平(α):其他條件保持不變,顯著性水平越小,功效越小。
兩總體之間的差異(difference):其他條件不變,兩個總體參數之間的差異越大,功效就越大。特別要注意的是這個差異是總體均值的差異,而非樣本均值的差異。
由於功效的大小由樣本量,顯著性水平和差異決定,所以在實際工作中,我們會通過功效來決定樣本量的大小。
比如我們要比較兩家供應商的棒材長度有無差異,這個差異在0.1mm以內我們是可以接受的否則就是不可接受的。我們希望正確拒絕原假設的概率是80%,並且通過採樣,知道了樣本的標準差是0.15,那麼我們就可以計算,進行雙樣本t檢驗,在顯著性水平α為0.05時所需要多少樣本數了。
在minitab的「Power and Sample Size」菜單中,有著根據不同假設檢驗估算樣本量的功能。
現在我們就實際計算一下上面這個例子需要的樣本量吧。
選擇「2-Sample t「後,出現如下輸入框。
Sample sizes,Differences和Power values,這三個變量輸入其中任意兩個變量,就可以得到剩餘的變量的值。
比如我們可以輸入樣本量和差異值來求得功效,也可以通過樣本量和功效求得假設檢驗可以檢驗出的差異值。
我們將例子中的信息輸入窗口中,如下所示。
並且在「Option」中輸入顯著性水平。
這樣我們就可以得到功效曲線,以及樣本量的大小。
在會話框中也會顯示實際的功效值。
寫在最後。
為什麼要估算樣本量?前幾天在六西格瑪的交流群中,有小夥伴做雙樣本t檢驗時發現兩個樣本之間差異很小,這樣的差異只在統計學上有意義,而無實際意義,但是由於樣本量很大,導致假設檢驗的結果為差異顯著。
數據文件連結:
https://pan.baidu.com/s/1znzGNmmmkZam2ONG6KdwTQ
提取碼: 2qns
雙樣本t檢驗的結果如下:
這兩個樣本的均值分別為-153.85和-153.11,對於實際的生產加工來說,毫無差別。但是雙樣本t檢驗的結果P值為0.000,差異顯著。
之所以出現這樣的結果,原因就在於樣本量過大,功效太大,檢出力太強了。
在樣本量256,功效0.8的情況下,兩個樣本的總體均值只要有0.57的差異,就會被判斷是有顯著差異的。
所以在假設檢驗前,如果不對功效和樣本量做出定義,很有可能導出錯誤的結論。
這就是這幾天在六西格瑪交流群中我的收穫和領悟吧。
感謝各位老師和同行的指導和交流。
長按二維碼關注我們吧