01方差齊性的檢驗
我們前面講到過,理解商業過程中的變異十分重要。例如,某個地方的員工或者某一群員工,是不是比其他地方的員工或別的群的員工,表現出更大的變異性?我們可以用一種新型的檢驗——F檢驗來檢驗兩個樣本之間的方差齊性。為了運用這一檢驗,我們必須假定這兩個樣本都是從正態分布的母體中抽取的。我們檢驗的假設是:
為了檢驗這些假設,我們從母體1中選擇了包含n1個觀察值的樣本,從母體2中選擇了包含n2個觀察值的樣本。檢驗使用F檢驗統計量,它是兩個樣本的方差的比率:
這一統計量的抽樣分布稱為F分布。與t分布相類似,F分布也用自由度來描述;然而F分布有兩個自由度,一個與F統計量的分子n1-1相關,另一個與F統計量的分母n2-1相關。
如果方差相互之間存在顯著差異,我們將預期F比1大很多,而F越是接近1,則兩個方差越有可能相同。因此,我們只需要將F的值與右尾臨界值進行對比。當F統計量超過了臨界值時,我們拒絕原假設。要注意,我們使用α/2來找臨界值,而不是α,這是因為我們只使用了右尾的信息來形成我們的推斷。
02對方差齊性運用F檢驗
為了例證F檢驗,假設我們希望確定「採購訂單」表格中 Alum Sheeting和 Durrable Products這兩家供應商的交付周期的方差是不是相同。F檢驗可以運用 Excel「數據分析」工具中的「F-檢驗」來檢驗方差齊性。對話框提示你鍵入每個變量的樣本數據區域(可以參考下圖)。
如我們提到過的那樣,你應當確保第一個變量有較大的方差,這可能需要你在運用該工具之前,事先計算兩個變量的方差。在這一例子中,供應商 Alum Sheeting交付周期的方差大於供應商 Durrable Products交付周期的方差,因此,它可以規定為變量1。還要注意的是,如果我們選擇α=0.05,那麼,在Excel對話框中必須鍵入0.025作為顯著性水平。其結果如下圖所示
F統計量的值F為3.467.我們將這個值與右尾臨界值(F單尾臨界)相比較,F單尾臨界值為3.607。由於其小於單尾臨界,所以,我們不能拒絕原假設並推斷相互之間的方差不存在明顯的差異。注意,p值P(F<=f)單尾=0.0286,雖然顯著性水平為0.05,要記住的是,我們必須把這個與α/2=0.025進行比較,因為我們只使用了右尾信息。
03方差分析
到這個時候,我們已經討論了將母體參數與常數數值進行比較,或者將兩個不同母體的平均值進行比較的假設檢驗。通常,我們希望比較幾個不同組的平均值,以確定它們是否全都相等,或者任何組的平均值與其他組的明顯不同。
「保險調查」數據中的區別
在 如下的 「保險調查」表格中,
我們感興趣的是,觀察擁有不同受教育程度的個人的滿意度之間是否存在顯著差別。我們可以將「受教育程度」數據進行排序,然後創建一個類似於下表的表格。
雖然每個組的平均滿意度某種程度上存在差別,而且似乎擁有研究生學位的個人的平均滿意度更高一些,但是,由於抽樣誤差的存在,我們不能推斷這些差別是否顯著。
在統計學術語中,關注的變量稱為因素。在這一例子中,因素是受教育程度,而這一因素有三個類別,分別是大學畢業、研究生學位和其他學院畢業。因此,似乎我們必須進行三次不同的兩-兩檢驗,才能確定它們之間是否存在顯著的差別。隨著因素的增加,你會發現兩-兩檢驗的次數將迅速增多。
幸運的是,我們不需要進行這樣繁雜的任務,而是可以使用其他一些統計工具。方差分析ANOVA就是其中的一種。方差分析的原假設是所有組的母體平均值全都相等,備擇假設是至少有一個組的平均值不同於其他組:
顧名思義,方差分析就是我們分析數據中的方差。本質上講,方差分析計算了每個組的平均值之間的方差的量數,以及各組之內的方差的量數,並研究一個檢驗統計量:這些量數的比例。這一檢驗統計量顯示了具有F分布(類似於方差齊性的檢驗)。如果根據選定的顯著性水平, F-統計量足夠大,超過了臨界值,我們將拒絕原假設。Excel提供了「數據分析」工具——方差分析:單因素方差分析。
04運用 Excel的方差分析工具
在如上的Excel表格文件「保險調查」中,為了檢驗「所有受教育程度的平均滿意度全都相等」原假設與「至少有一個平均值與其他平均值不同」的備擇假設,從「數據分析」選項中選擇「方差分析:單因素方差分析」。在下圖所示的對話框中,規定數據的輸入範圍(它必須處在連續的列之中)以及它到底是按行還是按列來排序的(即各因素的水平或組是否處在區域中的一行或列)。各因素水平的樣本容量不需要相同,但輸入區域必須是一個包含所有數據的矩形區域,此外還必須規定顯著性水平。
這個例子中的結果如下圖所示。輸出報告首先是每個組的基本統計量數。方差分析部分報告了假設檢驗的細節。你不必擔心所有這些數學細節。
解釋這一檢驗的重要信息是標註為F(F-統計量)、P值(檢驗的p值)和 F crit(F-分布的臨界值)的列中。在這個例子中,F=3.92,而來自F分布的臨界值為3.4668.在這裡,F> F crit;因此我們必須拒絕原假設,並推斷各組的平均值之間存在顯著差別。也就是說,在三種受教育程度不同的人群中,滿意度的平均值是不同的。作為選擇,我們發現p值比選定的0.05的顯著性水平低,從而得出相同的結論。
05方差分析的假設
方差分析需要做出以下假設:將要研究的m個組或因素水平代表了母體,其結果量數:
1.是隨機地而且獨立地獲得的。2.是呈正態分布的。3.方差相等。如果違反了這些假設,那麼,顯著性水平和檢驗效能可能受到影響。通常情況下,當我們為數據選擇了隨機樣本時,容易驗證第一條假設。方差分析是相當可靠的,不會偏離正態分布,因此,大多數情況下,第二條假設也不是一個嚴重的問題。如果樣本容量相等,違反第三條假設,不會對統計推斷產生嚴重影響。不過,如果樣本容量不相等,那就對統計推斷產生嚴重影響。
當違反了方差分析根本的假設時,你可以用一種不需要這些假設的非參數檢驗。