「未經允許,禁止轉載」
【寫在前面】
當一些美國名校研究生院生物統計和計量經濟學類課程進行到中後期,不少同學發現課程當中引入了極大(最大)似然估計法和似然值(Likelihood)這兩個相對比較陌生的概念。但問題是,出於美國眾所周知的「素質教育」體系,除了數學類專業的研究生教學會涉及到這些統計學概念的本質,其餘學院的教學似乎都是停留在理解(interpretation)和解讀(presentation)這一層面。然而我一貫堅持,數學是一個嚴密的網絡,許多看起來不相關的知識點的背後都有著嚴謹的數學推導作橋梁,如果想要真正地學懂、學好、學通數學,適當加強對數學本質的理解尤為必要。但矛盾的是,並不是所有學生對數學本質都有著出眾的天賦和可觀的熱情,許多人愛數學,但是似乎數學並不愛他(她)。過去在當我為別人講解某一個數學知識點時,往往需要先為聽眾補充大量的「天書」一般的預備知識,這就使得許多同學懷有「數學之難,難於上青天」的感慨。所以在本節,我努力用最樸實的語言,最簡單的案例,來給讀者初步地講解極大似然估計法和似然值這兩個概念。
【預備知識】
如果事件A1, A2, … , An相互獨立,並記其概率分別為P(A1), P(A2), … , P(An),那麼新定義事件「A1、A2、…、An同時發生」的概率為P(A1A2…An) = P(A1)·P(A2)·…·P(An)。
在標準線性回歸分析中,我們有LINE四大先決假設:線性模型(Linear)、殘差獨立(Independent)、殘差正態(Normal)和方差(殘差)同質(齊性)(Equal)。
函數極大值(最大值)的求解法:偏微分(導數)。
二項分布的定義和概率計算式。
【極大似然估計法】
簡單來說,極大似然估計法的目的可以理解為「估計概率函數模型中的參數」。因此,概率(Probability)和極大似然估計(Maximum Likelihood Estimation, MLE)在定義和過程上恰恰互為對立面:概率是用已知的概率模型參數來求算目標事件發生的可能性,而極大似然估計則是用已觀察到的事件的概率反過來推測概率模型中的參數。我們可以針對特定問題構造一個似然函數,其函數值是一個概率,表徵著實測值與模型預測值的吻合程度;這個函數通常把實際觀測值作為已知參數,把獨立於觀測值得參數作為待估計的未知參數,藉助數學方法計算出使得似然函數值最大的參數值,進而得到一個「最可能使得實際觀測狀況發生」的估計模型。
【案例1:不規則骰子的最大似然驗證】
如果是一枚質地均勻的骰子,那麼根據古典概型基本原則,投擲出6點的概率應當為1/6. 現在假設我們有三枚次品,通過之前的試驗結果得知骰子A擲出6點的概率為1/10,骰子B擲出6點的概率為1/8,骰子C擲出6點的概率為1/4。後來有實驗者用三枚次品中的其中一枚做了重複投擲100次的實驗,卻未記錄骰子的編號。實驗記錄顯示擲出6點的總次數為14次(記為事件X),我們可用通過「逐個分析」來推測該實驗者當時所使用究竟是哪一枚骰子。這裡,不均勻骰子擲出6點的概率,就是我們需要通過實際擲出6點的次數來估計的未知參數。
假設實驗者當時用的是骰子A,那麼他擲出14次6點的概率為:
假設實驗者當時用的是骰子B,那麼他擲出14次6點的概率為:
假設實驗者當時用的是骰子C,那麼他擲出14次6點的概率為:
其中,以下形式的函數即為此問題(模型)的似然函數,其值越大,就代表在當前參數下,已觀測到的目標事件發生的概率就越大:
根據以上三個計算結果,我們發現B骰子對應的似然值最大,我們因而「合理」推斷,當時該實驗者使用的應為骰子B(其實根據直觀,骰子B擲出6點的次數理論上為12.5,而該理論的次數和實際觀測到的14次最為接近)。
為什麼以上形式的函數是似然函數?怎樣針對特定問題構造似然函數?如果要解答這類問題,就我目前的知識儲備來看,需要用到「指數分布簇」(甚至一部分「泛函分析」)的知識,會佔用很大的篇幅,而且其背後的數學體系略顯龐大,故我在此文中暫時略去,有興趣的讀者可以和我私下交流,或不妨看看案例二(我本人並不確定是否有更簡單的通俗性解釋方法)。
【案例2:正態分布的極大似然估計】
案例一針對的是離散分布,案例二中我們不妨來看一看連續分布。大家最熟悉的連續分布當屬正態分布,所以我們以其作為研究模板加以解讀。
任何正態分布的密度函數都由兩個參數限定:μ和σ. 但是現在我們並不知道這兩個參數代表了什麼(我當然明白大家知道μ代表樣本均值,σ代表某標準差,但是現在假設我們不知道,我們要用極大似然估計去找到「最有可能的」,或者說「最合理」的這兩個參數)。
針對每一個觀測到的樣本值xi,其在正態分布中的密度值如下表示:
那麼此正態分布模型的似然函數是什麼呢?一般情況下,當各觀測之間相互獨立,且都來自同一總體(也即分布型一致時),由該觀測所服從的概率分布型所構造形成的似然函數為所有觀測值獨立分布(邊緣分布)的累積(聯合分布),一般記作F或L(中美兩國習慣不是太相同),如下所示:
其中,μ和σ是未知量,xi是常量。還是同樣的原則,我們要讓似然函數值最大。
當所有的xi都已知時,取什麼樣的μ和σ值能夠使得似然函數值最大呢?或者我這麼問:取什麼樣的自變量能夠使函數值最大呢?
一個我們在高中就已經掌握的強大的方法,便是求導!(記住,微積分永遠都是最重要的高數基礎!)
對於含有高次項的函數,直接求導不是非常方便。考慮到以上似然函數恆正且處處連續(可微),我們可以用對數微分法來使計算簡便化(關於對數微分法,請複習鏈式法則和隱式微分法):
累積式被轉化成三個部分的和,求導就容易多了!先對於μ求偏導:
極值點(駐點)的必要條件是偏導數為零:
通過一系列等價變換,我們可以得到:
很熟悉吧?對,就是均值!
我們再對σ求偏導:
同理:
所以我們不難得到:
也很熟悉吧?對,這就是觀測數據集的方差!
值得一提的是,極大似然估計法得到的方差估計量卻不是無偏估計量(無偏估計量的定義是該估計量的期望恆等於自身)。所以,極大似然估計雖作為一種很常用也很有用的估計方法,也有著莫大的局限性,在很多模型的估計中常常會有偏差,甚至出現反直觀的結果(這可能也是美國數學課程的主講教授不深入介紹MLE的原因,在我和他們的私下交流中,他們似乎並不看好這一套理論和方法)。因此,likelihood往往不單獨使用,而是結合其他的估計模型,聯合更多的信息為研究者提供參考。
【案例3:標準線性回歸模型數據實驗】
為了方便讀者更好地理解廣義回歸模型中給出的log likelihood指標(以及AIC),我自行設置了十個成對觀測,並且故意將殘差調成±1,力圖通過簡單可感的實際數據來解釋軟體內部隱含的計算過程。此模型的散點圖如下所示:
對應的線性回歸模型如下:
對於每一個觀測數據集中的自變量x,在線性擬合的方程下都必定存在一個估計得到的y,且一一對應。在線性回歸模型的殘差獨立性和方差齊性兩大先決條件的限制下,每一個估計得到的y都應該潛在地服從正態分布:
只不過因為觀測值數據集有限,此估計值的正態性往往很難直觀地體現,但是我們可以大體通過以下這幅圖來直觀地感受一下殘差齊性的涵義(這裡我偷懶了,直接引用Marie Diener-West和Karen Bandeen-Roche兩位教授的課程講稿來加以說明)。
因為每一個(xi,yi)都相互獨立,同時每一個yi又服從正態分布,所以由所有的xi貢獻而成的關於yi的似然函數即可按照如下的方式定義(可以理解為獨立事件的聯合概率模型):
這個案例和案例1、2不同的地方是,我們並沒有打算通過極大似然估計來找到最「合理」的均值和標準差,相反,我們已經通過最小二乘法得到了每一個觀測對應的均值和標準差。因此,這裡的似然函數(值)只是用來表徵「在通過最小二乘法得到的回歸模型下,觀測到實際觀測值的可能性大小」,這個可能性越大,也就意味著對應的回歸模型的擬合效果更好(換句話說,likelihood更適合用於模型之間擬合優良程度的比較)。所以,此回歸模型的似然值,就是將所有的y觀測值與y預測值配對帶入上式計算得到的結果。
最後一個問題,這裡的σ是什麼?或者問,這裡的σ是多少?
在標準回歸模型中,我們可以通過Stata軟體提供的回歸診斷表中得到一個MSE和Root MSE,並且定義MSE為自由度校準下由非線性模型因素造成的波動(方差)由每一個自變量所承擔的均值,即模型殘差平方的近似均值(在ANOVA的跟進分析Bonferroni檢驗中我們假定σ2 = MSE),而RootMSE為MSE的二次根方,即所有自變量造成的殘差的平均波動的等量綱數值——也就是散點圖上所有散點偏離預測值的縱向平均距離(個人認為Root MSE是一個完全不亞於R2的用於檢驗模型擬合度的高含金量指標)。
不過,在似然函數中,Root MSE不可以直接當作σ來使用。為什麼呢?請回到定義!此處σ是每一個y預測值的波動,因為獨立性而無視其他y的存在,自然也就不存在自由度的校正!
所以,很簡單,此處的σ就是:
返璞歸真,葉落歸根,我們又回到了最原始的標準差的定義——出現在初中一年級課本中的有偏估計的標準差!
故此,在此模型中,n = 10,σ2 = 1,σ = 1.
現在可以高枕無憂地計算此回歸模型的似然值了:
由於對稱性,其餘九個y估計值對應的單個正態分布密度函數值均為0.2420. 所以,似然值應為:
同時,對數似然值為:
我們來比對一下Stata給出的結果:
我相信大家已經豁然開朗了!
【結語】
末尾,補充一點,在廣義線性回歸模型中,likelihood是連接最小二乘估計(Optimal Least Square, OLS)和赤池信息準則(Akaike Information Criteria, AIC)的必要橋梁。仔細的大家不妨回想一下課堂上教授所給出的不使用似然值來計算AIC的公式,是不是發現了什麼呢?如果你對概率論初步和初級一元統計學爛熟於心,那麼每當看到統計學公式中有 π 出現,心中對其根源的猜測應該十有八九了吧!這就是數感——數學的素養,與君共勉。