統計學筆記|最大似然估計以及似然比檢驗

2021-03-02 組學時代

    最近開學了,公眾號也該重新開張了,今天帶來一篇似然比檢驗的一篇推文。最大似然估計想必大家都學過,而似然比檢驗(likelihood ratio test,LR test)在文獻中也是常客,但一直沒有對其深入理解,因此本文希望對其有一個相對完整的闡述。

一、似然函數

    說到似然函數,就不得不說一下似然性,似然性和概率是一組相對的概念。概率用於在總體參數已知的情況下,預測觀測發生的可能性;而似然性則是根據某些觀測值,對總體的參數進行估計。

    我們知道正態分布的概率密度函數有兩個重要參數:均值和標準差。當我們知道數據服從正態分布,且同時知道分布中的均值和標準差,我們便可計算每個值發生的可能性。而如果我們不知道分布中的均值和標準差,但是可以觀測到已經發生的一些值,我們便可通過構建統計量去計算分布中的均值和標準差。

    將觀測值x與要估計的參數θ之間構造一個函數,這個函數就是似然函數:L(θ|x),似然函數L(θ|x)在數值上等於每一個x取值的概率乘積。

二、最大似然估計

    極大似然估計是求使似然函數L(θ|x)最大化時參數θ的取值,求解一個函數的極大值往往需要求解該函數關於未知參數的偏導數。由於對數函數是單調遞增的,因此通常將似然函數取對數,在求解極大值較為簡便。

    例如:求解Gamma分布中參數的最大似然估計

Gamma分布總體中兩個參數a和b,有如下似然函數:

直接對上式求偏導計算極大值未免有些難度,因此可以對上式取對數,得:

進而求偏導數等於0的解。

三、似然比檢驗

    設  的分布密度函數是  ,其中未知參數  可以是向量。我們知道,簡單原假設  ;簡單備擇假設   的檢驗問題的似然比為

    

    現考慮複合假設的檢驗問題。原假設  ;備擇假設  。在複合假設的檢驗問題中,很自然地定義似然比  為

    其中,  和  分別是  和  成立時,  的MLE。  是原假設  成立時,觀察到樣本點  的可能性的一個度量(似然),而  是備擇假設  成立時,觀察到樣本點  的可能性的一個度量。在  比較大時,備擇假設成立觀察到樣本點  的可能性比較大,因此很自然地,在  比較大時拒絕原假設。故取檢驗的拒絕域為  。綜上可以看出,似然比檢驗常用於區分樣本來自這類分布,還是那類分布的檢驗問題。

舉例:

設有樣本  。考慮檢驗問題,原假設和備擇假設分別是

  :樣本來自正態分布  ,其密度函數為

 :樣本來自雙參數指數分布族  ,其密度函數為

 或 

其中  ,  。

原假設成立時,  和  的MLE分別為

 , 

而備擇假設成立時  和  的MLE分別為

 , 

所以該檢驗問題的似然比為

其中,

由於  關於  嚴格增加,所以拒絕域可取為  。由於

其中  ,  。所以不論原假設為真,還是備擇假設為真,  的分布皆與  和  無關。對不同的樣本容量  ,求得原假設為真時  的分位數值,從而得到了檢驗的臨界值  。

這裡,需要補充一句,似然比檢驗中似然比統計量在原假設H0成立的條件下,確定臨界值是一個難點,一般是根據H0和H1來確定統計量服從何種分布。在補充材料中提到了一些臨界值確定的過程,供今後參考。

四、參考資料

似然比檢驗(https://zhuanlan.zhihu.com/p/104583619)

似然函數及似然比檢驗(https://zhuanlan.zhihu.com/p/63736936)



相關焦點

  • 最大似然法估計二項式分布參數
    今天我們再來看看最大似然法如何求解二項式分布參數。1.二項式分布與似然值估計公式如在人們對兩種口味飲料無偏好時,即人們喜歡香橙口味的概率p=0.5,喜歡葡萄口味的概率p=0.5,那麼7個人中4個人喜歡香橙口味的概率為0.273。計算公式如下:
  • 最大似然估計
    的取值就成為了關鍵之處。一個簡單的想法就是從這個分布中隨機抽取樣本  的最可能的值,也就是說參數的選擇會使得這個採樣的概率最大化。 的最大似然估計。Remark. 最大似然函數不一定是唯一的,甚至不一定是存在的。
  • 提前一年的押題——最大似然估計
    今天要給大家講的,是統計學中的一個核心理念,也是考研數學中的一個核心考點,核心到,我起了個驚悚的標題「提前一年的押題——最大似然估計」,因為自09年起,09、11、12、13、14、15、17、18、19、20年考試中,均出現了本考點,就在試卷第23題,想必倒過來說大家更容易印象深刻,除了10年和16年,年年都考了。有同行玩笑,不會押題怎麼辦,就押最大似然估計吧,反正十年八中。
  • 似然比檢驗 - CSDN
    關於似然函數,可以參考: 似然與極大似然估計似然函數及最大似然估計及似然比檢驗 似然比檢驗LRT的應用廣泛,包括:均值(包括均值向量)的比較、重複度量、因此根據似然值的高低來判斷模型的適合度是不準確的。LRT提供了一個客觀的標準來選擇合適的模型。LRT檢驗的公式: LR = 2*(InL1- InL2)其中L1為複雜模型最大似然值,L2為簡單標準模型最大似然值LR近似的符合卡方分布。為了檢驗兩個模型似然值的差異是否顯著,我們必須要考慮自由度。LRT 檢驗中,自由度等於在複雜模型中增加的模型參數的數目。
  • 從最大似然估計開始,你需要打下的機器學習基石
    而這些討論或多或少都離不開最大似然估計,因為它是參數估計的基礎之一,也是構建模型的基石。在本文中,我們從最大似然估計到貝葉斯推理詳細地討論了機器學習的概率論基石,並希望能為讀者的預習與複習提供優秀的參考資源。什麼是參數?在機器學習中,我們經常使用一個模型來描述生成觀察數據的過程。
  • 似然比檢驗、Wald檢驗和拉格朗日檢驗的Stata實現 討論
    似然比檢驗(LR)、Wald檢驗、拉格朗日檢驗(LM)都基於最大似然估計(MLE),本文以logit模型為例討論三類檢驗的
  • 何為似然函數?
    似然和概率在統計學中是經常見到的兩個術語,有時候這兩個概念是一個意思,有時候卻有很大區別。這裡梳理下這兩個術語所代表的具體含義。      wiki中關於「似然」和「概率」的解釋     在頻率推論中,似然函數(常常簡稱為似然)是一個在給定了數據以及模型中關於參數的函數。在非正式情況下,「似然」通常被用作「概率」的同義詞。
  • r語言 似然比檢驗_對數似然比檢驗的r語言實現 - CSDN
    學習目標使用LRT提取結果,並與Wald檢驗進行比較從LRT顯著基因列表中識別共享表達譜似然比檢驗(LRT)結果探索DESeq2還提供了似然比檢驗作為跨兩個以上組別評估表達變化
  • [257]先驗概率、似然函數與後驗概率(1)
    (2)[148]清高與小我:談技術人員的優越感(1)[112]扯點密碼學:可證明安全隨筆[250]機器學習成長筆記(1)[251]機器學習三要素:機器學習成長筆記(2)[253]為什麼需要機器學習:機器學習筆記(3)[254]有監督學習和無監督學習:機器學習筆記(4)
  • 夢裡也能見到她,你大概是喜歡這個姑娘:從貝葉斯到極大似然估計
    「最像」就是「極大似然」的意思。這就暗含了極大似然估計估計的思想:已經發生的事情,就是最可能會發生的。嚴格的說,極大似然估計的目的是:利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的參數值。看完這個例子,大家對貝葉斯公式的理解有沒有更加具體呢?來道習題檢驗一下吧。這是IFoA2016年4月的第四道真題,也是2017年慕再精算競賽裡的題源之一。
  • 生成式模型入門:訓練似然模型的技巧 - 機器之心Pro
    機器之心編譯參與:李志偉、Geek AI生成模型不止有 GAN,本教程討論了數學上最直接的生成模型(易處理的密度估計模型)。讀罷本文,你將了解如何定量地比較似然模型。句子的英語翻譯 | 法語句子)字幕 p(字幕 | 圖像)像最小化均方誤差 min{1/2(xμ)^2} 這樣的回歸目標函數在數學上等價於具有對角協方差的高斯分布的最大對數似然估計:max{1/2(xμ)^2}
  • R語言:Newton法、似然函數
    hello,大家好,上一篇分享了如何用R語言實現蒙特卡洛模擬,並用蒙特卡洛模擬計算了分布的均值和方差,今天給大家分享如何用R語言來進行矩估計和似然函數的求解。因為在求解矩估計和似然函數時,可能會遇到非線性方程組,所以先給大家介紹一下如何用Newton法來求解非線性方程組。
  • 經管學部博士生首次以第一作者身份在統計學頂級期刊JRSSB發表論文
    ▲論文摘要在漁業資源評估、野生動物研究、人口學、生態學、流行病學以及可靠性研究等多個領域中,有限總體所包含個體總數的多少(abundance, 簡稱豐度)是一個至關重要的參數。豐度的例子包括某魚類或者野生動物種群的總數目,人口學中某類人群的總數目,軟體可靠性研究中瑕疵或缺陷的總數,流行病研究中某疾病的患者總數等等。
  • r語言 似然比檢驗置信區間_r語言 模型似然比檢驗 - CSDN
    我們還可以看到.sig01,這是我們對隨機效應變化的估計,是非常大且非常廣泛的定義。這表明我們的團隊之間可能缺乏精確性 - 要麼是因為群體之間的群體影響很小,要麼得到更精確的估計的群體太少,我們每個群體中的單位太少,或者所有群體的組合都是以上。另一個常見的需求是提取殘餘標準誤差,這是計算效果大小所必需的。
  • 【原創】參數估計與假設檢驗(一)-- 參數估計之點估計
    那麼,這裡的樣本均值15.18就可以作為整個湖中所有Bream魚的寬度均值的一個估計。在統計中,進行點估計的方法有多種,例如矩估計法、最小二乘法、極大似然法,其中極大似然估計又有很多改進的形式,比如限制極大似然等。SAS/STAT的PROC步中允許用戶在進行參數估計的時候指定不同的參數估計方法。
  • 【康普森GS專欄】混合線性模型系列之三:似然函數
    如何寫出似然函數,如何使用R語言編程實現:◆正態分布數據似然函數◆線性回歸似然函數◆用R語言自帶的函數計算極值1.1 正態分布函數2.2 聯合密度的似然函數當n個觀測值相互獨立,他們的似然函數(等價於聯合密度函數)為:
  • r語言卡方檢驗和似然比檢驗_r語言似然比檢驗代碼 - CSDN
    評估假設檢驗:單因素多元方差分析的假設前提,一個是多元正態性,一個是方差-協方差矩陣同質性。多元正態性假設即指因變量組合成的向量服從一個多元正態分布,可以用Q-Q圖來檢驗該假設條件。方差-協方差矩陣同質性即指各組的協方差矩陣相同,通常可用Box’s M檢驗來評估該假設。最後可使用mvoutlier包中的aq.plot()函數來檢驗多元離群點。
  • 沈俠團隊開發出用於估計遺傳相關的「高精度似然函數」新方法
    然而,遺傳相關的現有估計方法存在著局限,或因必須使用大量個體基因組數據而很難高效分析大樣本[1,2],或雖使用非個體數據但達不到理想的估計準確度[3-5]。該研究開發了一種用於估計遺傳相關的」高精度似然函數」 新方法(High-Definition Likelihood; HDL),大大提高了我們對遺傳相關進行估計的能力。遺傳相關的本質是全基因組DNA變異的聯合作用機制。人類的基因組中有大量的變異,正是這些變異讓人類的外貌多種多樣。
  • 統計學是什麼?| 統計學七支柱
    將這七個原則稱作「統計學的七大支柱」之前,我先強調,它們是七根「支撐」的柱子,是統計學的學科基礎,而不是完整的體系。一方面,這七根支柱都有古老的起源;另一方面,現代學科通過自身結構的偉大獨創性,以及華麗承諾不斷產生的精彩的新思想,將統計學構建為多元化的科學。在不脫離現代工作的前提下,我希望在統計學核心中建立跨時代和跨應用領域的連接和統一。