從假設檢驗問題的本身來看呢,假設檢驗可以分為兩大類。一類是參數問題的假設檢驗,另一類是非參數問題的假設檢驗;
參數問題的假設檢驗包括
對於均值的檢驗方差齊性的檢驗對比率的檢驗;非參數問題的假設檢驗包括
分布的正態性檢驗;這個通常在進行分析前,需要對數據進行的一個檢測。用以判斷分析需要採用那種方法,或者需要對數據進行什麼樣的處理或變換。數據的獨立性檢驗;這個就是前幾節講的列聯表的獨立性檢驗。兩總體分布是否相同的檢驗;大樣本時,用統計分布方法;小樣本時,用非參數方法。下面我們要討論的所謂非參數檢驗方法,其實仍是參數問題;特別是有關均值的檢驗。但使用的方法是非參數的。普通的參數檢驗所使用的方法常常是求平均值,標準差等統計量。但這些統計量的性質特別是分布,強烈的依賴於原始數據是否服從正態分布這個前提條件。這些方法的使用條件,除了要求各數據間相互獨立之外,一定還要求數據為正態分布。如果原始數據非正態,則原來使用的Z, t, F及x^2檢驗就都不再適用。為了獲得檢驗結果,只能使用不依賴於分布的非參數方法。
我們還是從一個實際的例子開始了解;
說某企業生產一種在市場上名為A的食品。該企業的競爭對手也已開始生產一種新的名為B的食品。在一項關於消費者對這兩個品牌的偏愛的研究中,給12個人未貼標籤的每種食品樣本。每個人首先品嘗哪個品牌是隨機挑選出來的。在品嘗過兩種食品之後,這些人被要求說出在兩個品牌中所偏愛的那個品牌。結果是2人喜歡A品牌,10人喜歡B品牌。
問;
能否確定消費者確實偏愛兩種食品中的一種。
分析解答;
假設p為消費者總體中,對A食品偏愛的比率;則問題轉化為:當p=0.5時,認為消費者對A/B的偏好無差別,若p<>0.5時,則認為消費者對A/B的偏好有差別。基於此,建立假設如下;
H0: p = 0.50; H1: p <> 0.50
我們把消費者對食品A的偏好用「+」號表示;相應的,對B的喜好用「-」表示;這是一個兩狀態函數,也就時二項分布函數;那麼「+」號出現的概率,應該符合樣本量為12, p為0.5的二項分布;若取顯著性水平α=0.05,則下圖中,位於二項分布兩端各0.025的區域應處於拒絕區域;
在上圖的左側,我們將「+」個數為0,1,2的概率加起來後,其值為0.0192;當加上「+」個數為3的概率時,其值就變成了0.0729;這個值大於了0.025的要求。因此,在左側,我們說「+」個數為0,1,2的數,落入了拒絕區域;以同樣的邏輯,再確定右側的拒絕區域,確定了「+」個數為10,11,12的數,落入了拒絕區域。綜合起來,我們說對應的「+」號數為小於3個,或大於9個時,可以拒絕原假設。
在本例中,「+」號個數為2, 小於3。所以應拒絕原假設,接受備擇假設;也就時說,消費者對A/B的偏好有顯著差異。具體來說,消費者更加偏好B食品。
上面所說明的是符號檢驗的基本原理。但每次都這樣計算,顯然比較繁瑣。下面介紹一個比較簡單直接的方法。
符號檢驗查表法
建立假設,求n,s;查表得到Sa,若S<=Sa時,拒絕原假設;
在本例中,n=12, s=2, 查表得Sa=2; s<=Sa;所以拒絕原假設。
非參數方法的使用範圍廣,簡便易行,但我們必須明確指出,如果一組數據符合正態分布,那麼對這些數據使用非參數方法效果如何?實際上,同組數據,同樣問題用非參數檢驗效果是不如參數方法的,更準確的說就是,非參數檢驗的檢出力會比參數方法稍小,換言之,非參數檢驗所犯的第二類錯誤概率會比參數方法稍大。因此,應該再條件允許的情況下(確認為正態分布)儘量使用前面介紹過的參數方法。
本文提到了小樣本,什麼是小樣本呢?還有如何在MINITAB中處理符號檢驗呢?歡迎關注留言,了解更多
精益六西格瑪管理思想,方法,工具。純乾貨知識分享。歡迎關注討論。和大家一起探討科學管理方法。為提升中國製造業水平儘自己的薪火之力!謝謝。