簡述:
假設檢驗(Hypothesis Testing)是推斷統計的最後一步,是依據一定的假設條件由樣本推斷總體的一種方法。假設檢驗的基本思想是小概率反證法思想,小概率思想認為小概率事件在一次試驗中基本上不可能發生,在這個方法下,我們首先對總體作出一個假設,這個假設大概率會成立,如果在一次試驗中,試驗結果和原假設相背離,也就是小概率事件竟然發生了,那我們就有理由懷疑原假設的真實性,從而拒絕這一假設。詳述:
假設檢驗的步驟
提出假設
假設檢驗的第一步是提出假設,提出的假設包括兩個:
原假設
(null hypothesis),一般用符號
表示;
備擇假設
(alternative hypothesis),一般用符號
表示。當假設檢驗只涉及一個總體參數的檢驗時,原假設和備擇假設的形式有以下三種:
在這種形式下,μ可能大於
,也可能小於
,稱為雙邊備擇假設,這裡需要用到的假設檢驗是雙邊假設檢驗或
雙尾檢驗
(two-sided hypothesis test or two-tailed hypothesis test)。
有些時候,我們只關心總體均值是否大於某一個數,例如,為檢驗某網站經過改版後點擊量是否比以前多,那麼我們可以通過對比改版前和改版後的日均點擊量來判斷改版的效果,這時,所考慮的總體均值應該越大越好,如果我們能判斷某網站改版後的日均點擊量超過以往的日均點擊量,那就可以證明改版是有效果的。這種形式的假設檢驗稱為右邊檢驗。
當然,在某些時候,我們也會關心總體均值是否小於某一個數,這種情況下的假設檢驗稱為左邊檢驗。右邊檢驗和左邊檢驗統稱為
單邊檢驗
或者
單尾檢驗
(one-sided hypothesis test or one-tailed hypothesis test)。在提出假設後,我們就要確定合適的
檢驗統計量
(test statistic)。檢驗統計量是一個隨機變量,服從一定的概率分布,它是基於樣本以及總體特徵計算出來的數值,它是我們決定是否拒絕原假設的基礎。(檢驗統計量通常服從四種分布:標準正態分布(z分布)、t分布、卡方分布以及F分布)。檢驗統計量的公式如下:
檢驗統計量=(樣本統計量-總體參數的假設值)/樣本統計量的標準誤差
(2-7-1)(註:此公式僅適用於z分布和t分布。)
確定顯著性水平α
當檢驗統計量計算出來後,我們可以採取兩種措施:1)拒絕原假設;2)不拒絕原假設。我們具體採取哪種措施是基於檢驗統計量與某一個特定的值的對比結果,而這一個特定值取決於給定的顯著性水平α,它代表了拒絕正確的原假設的概率,在概率分布圖中,顯著性水平反映了拒絕域的面積,例如,α=0.05表示有5%的概率拒絕正確的原假設。最常見的顯著性水平有三個:0.10、0.05和0.01,顯著性水平越小,拒絕正確的原假設的概率越小(犯錯的概率減小),我們就越有信心拒絕原假設。此外,我們把(1﹣α)稱為置信度,它可以理解為對一個假設檢驗結果的把握程度。假設檢驗是依據樣本特徵推斷總體特徵,但是,並不是所有的樣本都能夠代表總體,因此,基於樣本的判斷也可能出現錯誤或偏差。假設檢驗的過程可能會出現以下兩類錯誤(表2-7-1):
第一類錯誤(type I error)
:去真,當原假設為真的時候,檢驗結果拒絕了原假設。前面說了,犯這種錯誤的概率用希臘字母α表示,等於顯著性水平。P(第一類錯誤)=檢驗的顯著性水平α
第二類錯誤(type II error)
:取偽,當原假設為假的時候,檢驗沒有能夠拒絕原假設。犯第二類錯誤的概率用希臘字母β表示。
檢驗的勢(power of test)
就是當原假設為假的時候,拒絕掉原假設的概率。檢驗的勢=1- P(第二類錯誤)=1-β第一類錯誤和第二類錯誤之間是互斥的,也就是說第一類錯誤和第二類錯誤是此消彼長的關係,如果犯第一類錯誤的概率在增加,那麼犯第二類錯誤的概率就會減小;犯第二類錯誤的概率在增加,那麼犯第一類錯誤的概率就會減小。如果想同時減小犯這兩種錯誤的概率,就必須增加樣本容量,當樣本容量和總體容量一樣時,就不會犯錯誤了。
臨界值的確定
前面說了,當我們要決定是否拒絕原假設時,我們要用計算出來的檢驗統計量與某一個值進行對比,這個值就稱為
臨界值(critical value)
。在這裡應該注意的是,臨界值是在給定的顯著性水平和一定的概率分布下通過查找相應的概率分布表確定的,而不是通過計算得到的。例如,在正態分布雙尾檢驗中,如果顯著性水平
α=0.05,那麼臨界值就是±1.96,這裡的±1.96就是通過查表所得。1.1.1 那麼什麼時候用t分布,什麼時候用z分布呢?選擇標準如下表所示。
決策法則
決策法則(decision rule)是指接受或者拒絕原假設的法則。當我們確定了假設檢驗是雙尾檢驗還是單尾檢驗,確定了顯著性水平α,確定了檢驗統計量服從的概率分布,確定了檢驗統計量以及所對應的臨界值時,我們就可以確定決策法則:如果計算出來的檢驗統計量的絕對值大於臨界值的絕對值,我們就拒絕原假設
;如果計算出來的檢驗統計量的絕對值小於臨界值的絕對值,我們就不能拒絕原假設
圖2-7-1 雙尾檢驗的拒絕域如上圖所示,對於雙尾檢驗來說,當顯著性水平
α=0.05,並且檢驗統計量服從正態分布時,如果檢驗統計量的絕對值大於等於1.96,那我們就可以拒絕原假設。
圖2-7-2 單尾檢驗的拒絕域如圖2-7-2所示,對於單尾檢驗來說,當顯著性水平α=0.05,並且檢驗統計量服從正態分布時,如果檢驗統計量的絕對值>1.645,那我們就可以拒絕原假設。
抽取樣本
假設檢驗的最後一步就是從總體中抽取相應數量的樣本,根據樣本觀測值計算出檢驗統計量,然後作出決策,是接受
還是拒絕
【例題2-7-1】
某車間用一臺包裝機包裝食鹽。袋裝食鹽的重量是一個隨機變量,服從正態分布。當包裝機器運作正常時,食鹽重量的均值為500g,標準差為 10.5g。為檢驗包裝機是否正常,隨機地抽取它所包裝的食鹽10袋,稱得重量分別為(g):498 505 495 515 520 518 496 525 513 508問:機器是否正常?解答:首先根據問題,我們提出兩個相互對立的假設:
和
假設在本例中顯著性水平α=0.05,從題中可知,袋裝食鹽的重量服從正態分布,所以臨界值為±1.96。
檢驗統計量落在拒絕域內,所以拒絕
,機器運作不正常。
置信區間和假設檢驗
在第6節中我們學習了置信區間的概念,它是指這樣一個區間範圍,它以1-
的給定概率包含了我們所要估計的總體參數的真實值。一個具體的置信區間的形式如下:
(樣本統計量-標準誤
臨界值,樣本統計量+標準誤臨界值)
通過上述表達式,我們可以把置信區間與這節的假設檢驗問題聯繫起來:當我們假設的參數值被置信區間所包含時,那麼我們就不能拒絕原假設
。相反,如果假設的參數值落在置信區間外面,那麼我們就可以拒絕原假設
【例題2-7-2】
在前面的例題中,總體符合正態分布且總體方差已知,在這種情況下總體均值的置信區間的形式是:
將數據代入,我們可以得到在95%的置信度下的置信區間為:
所以總體均值有95%的概率被包含在這個區間內,但我們發現500並沒有落在這個區間內,所以我們可以拒絕原假設
:
假設檢驗問題的p值法
假設檢驗的p值(probability value)是由檢驗統計量的樣本觀測值得出的原假設可以被拒絕的最小顯著性水平。在概率密度曲線中,p值為大於檢驗統計量絕對值的數值所對應的概率,也即檢驗統計量在尾部所截得的面積。
按p值的定義,對於任意指定的顯著性水平
α,就有
有了這兩條結論就能很方便地確定是否拒絕
。這種利用p值來確定是否拒絕
的方法,稱為p值法。
圖2-7-3 p值法
在圖2-7-3中有一個雙尾檢驗,顯著性水平
α=0.05,p值為
1.07%×2=2.14%,小於顯著性水平α
,所以這時就可以拒絕原假設了。用臨界值法來確定
的拒絕域時,例如當α=0.05取
時知道要拒絕
,再取α=0.01
也要拒絕
,但不能知道將
再降低一些是否也要拒絕
。而p值法給出了拒絕
的最小顯著性水平。因此p值法比臨界值法給出了有關拒絕域更多的信息。P值表示反對原假設
的依據的強度,p值越小,反對
的依據越強、越充分(例如對於某個檢驗問題的檢驗統計量的觀測值的p值=0.0006,p值如此的小,以至於幾乎不可能在
為真的情況下出現目前的觀測值,這說明拒絕
的理由是非常充分的)。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.