最近開學了,公眾號也該重新開張了,今天帶來一篇似然比檢驗的一篇推文。最大似然估計想必大家都學過,而似然比檢驗(likelihood ratio test,LR test)在文獻中也是常客,但一直沒有對其深入理解,因此本文希望對其有一個相對完整的闡述。
一、似然函數
說到似然函數,就不得不說一下似然性,似然性和概率是一組相對的概念。概率用於在總體參數已知的情況下,預測觀測發生的可能性;而似然性則是根據某些觀測值,對總體的參數進行估計。
我們知道正態分布的概率密度函數有兩個重要參數:均值和標準差。當我們知道數據服從正態分布,且同時知道分布中的均值和標準差,我們便可計算每個值發生的可能性。而如果我們不知道分布中的均值和標準差,但是可以觀測到已經發生的一些值,我們便可通過構建統計量去計算分布中的均值和標準差。
將觀測值x與要估計的參數θ之間構造一個函數,這個函數就是似然函數:L(θ|x),似然函數L(θ|x)在數值上等於每一個x取值的概率乘積。
二、最大似然估計
極大似然估計是求使似然函數L(θ|x)最大化時參數θ的取值,求解一個函數的極大值往往需要求解該函數關於未知參數的偏導數。由於對數函數是單調遞增的,因此通常將似然函數取對數,在求解極大值較為簡便。
例如:求解Gamma分布中參數的最大似然估計
Gamma分布總體中兩個參數a和b,有如下似然函數:
直接對上式求偏導計算極大值未免有些難度,因此可以對上式取對數,得:
進而求偏導數等於0的解。
三、似然比檢驗
設 的分布密度函數是 ,其中未知參數 可以是向量。我們知道,簡單原假設 ;簡單備擇假設 的檢驗問題的似然比為
現考慮複合假設的檢驗問題。原假設 ;備擇假設 。在複合假設的檢驗問題中,很自然地定義似然比 為
其中, 和 分別是 和 成立時, 的MLE。 是原假設 成立時,觀察到樣本點 的可能性的一個度量(似然),而 是備擇假設 成立時,觀察到樣本點 的可能性的一個度量。在 比較大時,備擇假設成立觀察到樣本點 的可能性比較大,因此很自然地,在 比較大時拒絕原假設。故取檢驗的拒絕域為 。綜上可以看出,似然比檢驗常用於區分樣本來自這類分布,還是那類分布的檢驗問題。
舉例:
設有樣本 。考慮檢驗問題,原假設和備擇假設分別是
:樣本來自正態分布 ,其密度函數為
:樣本來自雙參數指數分布族 ,其密度函數為
或
其中 , 。
原假設成立時, 和 的MLE分別為
,
而備擇假設成立時 和 的MLE分別為
,
所以該檢驗問題的似然比為
其中,
由於 關於 嚴格增加,所以拒絕域可取為 。由於
其中 , 。所以不論原假設為真,還是備擇假設為真, 的分布皆與 和 無關。對不同的樣本容量 ,求得原假設為真時 的分位數值,從而得到了檢驗的臨界值 。
這裡,需要補充一句,似然比檢驗中似然比統計量在原假設H0成立的條件下,確定臨界值是一個難點,一般是根據H0和H1來確定統計量服從何種分布。在補充材料中提到了一些臨界值確定的過程,供今後參考。
四、參考資料
似然比檢驗(https://zhuanlan.zhihu.com/p/104583619)
似然函數及似然比檢驗(https://zhuanlan.zhihu.com/p/63736936)