為什麼需要統計建模?
統計學(statistics)是一門嘗試將經驗數據(emperical data)中的結構有效的反映到概率模型 (probabilisic model)中的經驗主義概率形式化科學。
統計模型(statistical model)的效用在於幫助人們從包含不確定性(uncertainty) 的觀察值中提取經驗知識和作出理性決策。統計學上對這兩個目的專有稱呼叫做:估計(estimation)和 推斷(inference)。
成功的統計建模可以儘可能完整的模擬出數據生成過程中變量的隨機性,進而幫助人們有效的估計該過程的核心參數值,並作出針對核心參數值的概率性決策。
什麼是統計模型?
一個統計模型必須關聯於一個統計實驗(statistical experiment)上,統計實驗所對應的觀察值輸出需要是 n 個i.i.d (independent identically distributed) 隨機變量(random variable) 的實現,這些隨機變量也被稱作為樣本(sample)。每個樣本都需要被定義在一個可測量的樣本空間(sample space)E 上,樣本空間必須包含觀察值輸出的所有數值範圍。每個樣本空間都共用一個共同的概率分布 P;P 由一個概率分布家族(family) PΘ 所建模,PΘ 被定義在參數集合(parameter set) Θ 上的參數 θ 所標示。
統計模型的關鍵特徵
基於對統計模型的數學定義,我們可以理解一些常見的形容統計模型特徵的術語:
我們說一個統計模型被 指定(specify), 若且唯若在 Θ 中存在 θ 使得 P = Pθ。 即在參數空間中存在一組參數,使得其所標示的概率分布等同於統計實驗所輸出樣本的概率分布。當一個統計模型被指定時的 θ 被稱作為 真參數(true parameter)或 θ*。一切統計實驗的目的是為了估計 θ*, 或者檢驗 θ* 的性質比如 θ* > 0.
根據參數空間的數學性質,統計模型又可以被分為兩類模型:參數統計模型(parametric statistical model) 和 非參數統計模型 (non-parametric statistical model)。 在參數統計模型中,參數集屬於有限維空間 Rd ;d >= 1,即模型中的所包含的概率分布家族 Pθ 可以被有限數量的參數 θ 所指定,其中參數空間的維度 d 常被稱作參數統計模型的 自由度(degree of freedom);而在非參數參數統計模型中,參數集屬於無窮維空間,即 Pθ 無法被有限數量的分布家族參數所指定。典型的非參數統計模型的例子是樣本中位數(median)估計,此時 Pθ 可以指定任何存在相應的概率密度函數 (pdf) 的概率分布家族,因此其模型的參數空間 Θ 屬於無窮維。
一個統計模型的參數 θ 是可識別的(identifiable),若且唯若參數空間中 θ 對 Pθ 的映射是單射的(injective)。換句話說,可識別性的定義是如果 Pθ = Pθ', 那麼 θ = θ'。用通俗的話來講就是統計模型中不存在兩組不同的參數設定,得到的是完全相同的概率分布。模型的可識別性在實際應用中是非常重要的,通常人們會在參數空間上加入額外的限定將不可識別的模型轉化為可識別的模型。
統計建模的方法
一個成功的統計建模主要有兩種因素:
發現了正確的 PΘ.
選擇了正確的估計量(estimator)去從 Θ 中估計 θ.
在下文中,我會從歸納的角度列舉能有效實現以上兩個要點的理論和方法,而部分技術細節則需要讀者額外參考教科書和文獻。
如何發現正確的PΘ?
1. 嘗試選擇一個有參數的PΘ
在統計建模領域有一句大家常說的話:所有的模型都是錯的,但有些模型更有用。
而相較於無參數 PΘ,有參數的 PΘ 在真實數據中則容易存在更多偏差,更難以指定統計實驗的真實輸出分布 P。但是,有參數概率分布有一個重要的優勢:其可以使用很小的參數空間去建模數據。當模型的參數空間更小的時候,從有限的數據中估計參數的效率(efficiency)會更高。
因此,對數據進行統計建模的第一步,是通過觀察統計實驗樣本的全息圖分布(histogram),並從熟悉的概率分布家族中選擇一個有參數分布 Pθ 作為我們的假設分布。
當我們選定了一個有參數分布的候選者時,該如何知道被選擇的模型分布 Pθ 是否等於樣本分布 P 呢?
「Pθ是否等於P」是統計學上很基礎的問題之一,而這個問題可以用兩個著名的擬合優度檢測(goodness of fit test)方法來解決。
這兩個統計推斷算法都有著較深的理論基礎,尤其是在 KS檢驗 中應用了統計學根本定理(Fudemental theorem of statistics)。然而,這兩種算法在實踐中會面臨兩個嚴重的問題:1. 我們不知道 θ。 2. 在擁有足夠樣本容量的實際數據上,這兩種檢測會對細微的差異非常敏感,幾乎必然駁回分布相同的零假設。
第一個問題的解決方法之一是使用針對特定的θ估計值的檢驗,比如KL檢驗(Kolmogorov-Lilliefors test), 其可以在是 PΘ 為正態分布家族,而且對θ的估計值是樣本平均值和樣本方差的前提下,驗證 P = PΘ 的零假設。
第二個問題的解決辦法是使用基於作圖的擬合診斷方法,比如 Quantile - Quantile plots (QQ plots)。這種作圖法可以通過觀察 P 所對應的樣本分位 與 PΘ 所對應的的理論分位間的線性關係,來判斷樣本分布在模型分布上的擬合程度。這種方法可以從整體上診斷實驗分布和理論分布的擬合,而不會過於拘泥於擬合優度檢測的嚴格結果。
當擁有足夠多的樣本時,也許我們會發現所有的有參數模型都不等於 P ,而此時一個更加實際的問題是:「哪個 PΘ 更加接近 P」。
是否可以通過比較不同模型的擬合優度統計值來選擇更加貼合P的模型呢?不同模型的擬合優度會受到模型參數在當前樣本上的估計值所影響,而擬合優度統計值會因為樣本估計所帶來的過擬合 (over-fitting) 的原因而產生降低保守性的偏差。
在經驗數據上比較擁有不同參數空間 Θ 的概率模型 PΘ 的問題被稱為模型選擇(model selection ) 。其中一個經典的模型選擇指標是貝葉斯模型選擇標準 (Bayesian information criterion / BIC)。
上式為 BIC 的具體定義,其中 n 為樣本容量, d 為模型空間 Θ 的維度,最後一項為模型 PΘ 在樣本上的 極大似然 (maximum likelihood)。BIC 值越小,說明 PΘ 相對越可能接近於真實分布 P。值得注意的是,對於一切有參數概率模型,BIC 值是 在漸進上一致的 (asymptotically consistent), 即當樣本容量足夠大時,指定 P 的 PΘ , 其BIC 值一定是最小的。
2. 通過漸進理論的分析對樣本進行變換
概率論中的漸進理論(asymptotic theory) 是指一個隨機序列(random sequence)在項數趨向正無窮時的收斂性質。對於擁有較為大量樣本單元的數據(或存在潛在的大樣本單元,如大計數值的計數數據),漸進理論所預測的收斂性質通常會得到顯現。人們可以利用漸進理論來預測對樣本進行特定函數變換所得到的統計值的概率分布。
最為核心的漸進理論的應用是中心極限定理(central limit theorem),當實驗樣本來自於 i.i.d 且有限方差的隨機變量 X 時,樣本平均值的隨機序列 Xn bar 會隨著樣本容量 n 的增加而在 分布上收斂於(convergence in distribution) 正態分布。
類似於樣本平均值這種漸進上正態(asymptotically normal)的隨機序列在實踐上很常見,比如建模計數(count)的二項分布(binomial distribution),泊松分布(Poisson distribution),和負二項分布(negative binomial distribution)等。這類統計分布的本質是大量 i.i.d 隨機變量的合變量分布。
對於漸進上正態的隨機序列 Tn,我們可以通過 delta方法(delta method)從分析的角度推導出任何可微分函數 g 對其變換所得到的新隨機序列的漸進方差 (asymptotic variance )。delta 方法在預測參數統計模型中估計值的漸進性質上起到了重要的作用,但基於delta 方法的漸進理論也可以應用於樣本的預處理和變換(transformation)上。
漸進理論可以推導出有價值的樣本變換,即通過某種非線性函數將原始的實驗樣本變換成容易用某種參數分布家族 PΘ 建模的隨機變量。
另外常見的變換是對數變換(log transformation) 或次方根變換 (root transformation) 。這類變換對於偏態分布(skewed distribution)和計數數據(count data)尤其實用;根據 delta 方法的預測,對數函數和次方函數的導函數是倒數函數,因此會極大的減少轉換後的統計量的漸進方差,所以這些變換也被稱作方差穩定變換(variance stabilizing transformation)。
次方根變換的冪 λ 可以作為一個模型參數,並通過對目標分布模型 PΘ 在變換後數據上取極大似然估計值(maximum likelihood estimate)來求解。這個方法在高斯線性模型背景下的泛化算法叫做 Box-Cox 變換 (Box-Cox transformation)。
值得注意的是,對實驗樣本的過濾(filter)通常也能顯著的影響統計模型的應用功效,過濾閾值的選擇通常可以通過delta方法和其它漸進理論方法進行分析得到。
3. 構建貝葉斯生成模型PΘ
為什麼要考慮貝葉斯模型?其中一個原因是實際的統計實驗的樣本輸出常常會顯著的受到其它隨機變量的影響。這些變量有些是已經觀察到的樣本變量,有些可能是沒有被觀察的 潛在變量(latent variable)。在這種情況下,目標樣本分布是一個由多個互相相關的隨機變量所組成的 聯合概率分布(joint distribution)的 邊緣分布(marginal distribution),因此,我們很難在沒有建模其它隨機變量的情況下用單一的參數分布家族來指定樣本分布。
當擁有充足的關於變量間相關性的先驗知識時,我們可以通過定義變量間所有存在的條件概率分布(conditional probability distribution/CPD)來指定多變量間的聯合概率分布,這種概率模型通常被稱作為生成模型(generative model)。
所有的貝葉斯生成模型都是可以用 有向無環圖(directed acyclic graph) 表示的概率圖像模型(probabilistic graphical model)。這種有層級結構的貝葉斯層次模型(hierachical model)可以從上遊節點到下遊節點的順序依次對 CPD 進行採樣來重現數據生成的過程。
將統計實驗輸出的樣本作為條件隨機變量的CPD通常被叫做某變量的 後驗概率分布(posterior distribution) , 後驗概率分布的精確求解可以通過 貝葉斯公式(Bayes Formula)來實現。然而,貝葉斯公式分母位置的歸一化常數在有些模型中是難以求解的,此時我們通常要通過概率理論中的馬爾可夫鏈蒙特卡羅採樣(MCMC sampling)的方法對後驗概率分布進行近似推斷(approximate inference),常用的MCMC採方法包含 MH-採樣 (Metropolis Hasting Sampling)算法以及吉布斯採樣(Gibbs Sampling)算法,哪種算法更加適合取決於概率有向圖模型的結構及後驗概率推斷的具體變量。
如果最顯著影響樣本的上遊隨機變量是隱藏的,不被觀察的潛在變量怎麼辦?這種問題通常可以通過EM算法(EM algorithm)得到比較好的求解。潛在變量貝葉斯模型的一個經典的例子是 高斯混合模型(Gaussian Mixture Model / GMM) ,其也是無監督統計學習(unsupervised statistical learning)和貝葉斯聚類(bayesian clustering )的基礎算法。無監督機械學習中的 K - Means algorithm 其實是對 GMM 參數空間中的協方差進行限定的特殊形式。
在GMM的模型假設中,實驗樣本的分布是由多個高斯分布所混而合成的混合分布,高斯分布的混合組分 (mixture component) 的數量與相應的混合比例是由一個多項分布(multinomial distribution) 的潛在變量來模擬的。在實際應用中,擁有足夠多個混合組分(即多項分布的基數)的 GMM 可以有效的近似絕大多數的樣本分布。混合組分的數量為模型的超參數,一般使用 BIC 的模型選擇方法進行挑選。
生成模型的優勢之一在於當存在數據缺失值 (missing data) 時,其可以利用建模的數據生成過程有效的對缺失數據進行缺失數據填補 (missing data imputation)/但需要注意的是,可填補的缺失值需要是隨機缺失(missing at random) 的;即完整樣本的隨機變量和決定其是否被觀察的隨機變量之間是相互獨立的。
大多數貝葉斯後驗概率推斷算法和EM算法在模型中的隨機變量為 指數分布家族 (exponential distribution family)的時候從計算的角度上更容易實現。最為常見的歸屬於指數分布家族的概率分布有:正態分布,beta分布,gamma分布,多項分布,泊松分布,和負二項分布等。
4. 構建一個無參數的 PΘ
在上述篩選 PΘ 的過程中,我們經歷了一個逐步放大參數空間 Θ 的維數來增加模型表達性的過程。但在缺少數據生成的可靠領域內知識,並且存在實驗來源異質性的非理想數據中,人們通常難以通過構建貝葉斯層次模型完整的指定 P。另外的,當樣本背後的潛在變量是一個連續變量且擁有複雜的 CPD 映射函數時,類似 GMM 的無監督學習方法也不再能輕易的學習數據的生成分布。 此時我們需要將模型參數空間的維度繼續擴充以增加模型的表達性。
基礎的無參數統計模型是 魯棒(robust)模型。常見的魯棒統計模型是以 P 的分位(quantile)作為目標參數的模型。這類模型的優勢在於無需對 P 進行任何結構上的假設。然而,魯棒統計模型的缺點也比較明顯,相對其它的參數統計模型中的 θ, 分位參數缺少與之附和的概率分布函數,因此其難以整合進貝葉斯模型當中。而且當 P 為對稱且不存在離群值時,分位估計的效率會明顯低於期望值估計,即其需要更多的樣本數量來得到更加精確的估計值。
統計模型的魯棒性還可以通過對參數統計模型的離群值檢測(outlier detection) 和隨後的離群值去除來得到提高。離群值檢測算法的目的是尋找不來自於 PΘ 的數據觀察值。例如,在線性回歸的背景下,經典的離群值檢測方法為 Cook 距離(Cook's distance);某觀察值的Cook距離的定義為將某觀察值移除後,用餘下的觀察值重新構建回歸模型的擬合值與之前模型擬合值差異度。因此,在移除 Cook 距離比較大的離群觀察值後,回歸模型的假設則更容易被其擬合數據所滿足。
另外一種功能強大的非參數無監督統計學習模型可以在擁有大量數據的條件下,構建出幾乎所有的樣本分布的生成模型,這種方法是基於人工神經網絡的變分自編碼器(variational autoencoder/VAE)。VAE模型屬於無參數貝葉斯(non-parametric bayes)模型, 即參數空間為無窮維的概率有向圖模型。變分自編碼器的原理是將貝葉斯混合模型如GMM的潛在變量擴展成連續隨機變量,該連續潛在變量與樣本變量間的CPD映射函數是通過深度神經網絡來學習的。
深度神經網絡的革命性優勢在於其可以在參數空間被適當放大的情況下獲得巨大的模型表達性的提升,在擁有一層完整連接的隱藏層(hidden layer)的條件下,前饋神經網絡可以近似出任何數學函數。在擁有能支撐起其參數空間的樣本數量時,神經網絡模型通常可以獲得遠超過其它模型的學習表現。上圖是使用美國中學生手寫數據集MNIST訓練的VAE生成模型的採樣結果,可以看到神經網絡輔助的貝葉斯潛在變量模型近乎完整的再現了人類手寫的概率生成分布。
5. 通過判別模型對 P 中的條件概率分布進行局部建模
和貝葉斯生成模型不同,在一些數據問題的需求下,我們通常不需要定義多個變量間的聯合分布;定義目標變量 Y 與特徵變量 X 的條件分布是一種計算上更為方便的模型。
在多變量統計模型中,我們假設實驗樣本來源自 n 個 i.i.d. 隨機向量 (random vectors) 。
在生成統計模型中,我們嘗試建模隨機向量的完整概率分布 P,即聯合概率分布。在判別統計模型中,我們使用局部建模法(partial modeling),即僅建模隨機向量的某 分量(component)Y 給定其它分量 X 的條件概率分布 (CPD)。通常,在條件概率分布中的分布變量 Y 被稱為目標(target),條件變量 X 被稱為特徵 (feature)。
在實踐中,大部分 預測模型(prediction model)都是判別模型,因為在預測問題中,我們通常沒有必要建模特徵變量 X 的隨機性。但值得注意的是,所有貝葉斯生成模型也都能使用後驗推斷的方法來實現預測,比如在 GMM 中我們可以使用對潛在變量取值的 MAP 方法來預測樣本的聚類標註,這類基於生成模型後驗分類算法被稱做 貝葉斯分類器(bayes classifier)。但在判別模型中,我們通常不需要通過統計推斷來實現預測。
最為經典的判別模型是 回歸模型(regression model),其嘗試建模隨機變量 Y 在給定 X = x 的條件下的 條件期望值(conditional expectation)。
定義了條件期望的函數 f(x) 被稱為回歸函數(regression function), 值得注意的是,廣義上的回歸模型可以定義於其它條件統計量上,比如條件分位(conditonal quantile)條件方差(conditional variance) 等。
最為常用的回歸函數是線性回歸函數(linear regression function),即 f(x)為關於x的線性函數。雖然當 Y|X=x 為正態分布家族時, f(x) 能被直接的被建模為線性函數,但大部分概率分布的期望值並非定義於整個實數軸 R,因此無法直接建模成線性函數。為了將概率分布的期望值映射到整個實數軸,從廣義上來講,線性回歸模型的框架為:
其中 g 被稱作為連結函數 (link function)。對於某一種一個概率分布家族,怎麼提出一個合適的連結函數呢?對於規範指數家族 (canonical exponential family) 的成員,我們可以通過對其概率分布函數的形式分析求得該概率分布在自然狀態下所對應的連結函數。這類連結函數被稱為規範連結函數 (canonical link function)。
上表中列出了常見的規範指數家族分布所對應的規範連結函數:正態分布為本體函數,泊松分布為對數函數,Bernoulli分布為邏輯函數(logit function),Gamma分布為負倒數函數。
在線性回歸模型中,參數 β 的估計值算法通常是極大似然估計(MLE)。值得注意的是,只有正態分布線性回歸模型的 MLE 是有閉式解的,即為最小二估計(least square estimation),其它概率分布的廣義線性模型參數並沒有解析解,需要使用數值方法對似然函數進行梯度上升(gradient ascend)的優化求解。對於規範指數家族的廣義線性模型,如邏輯回歸模型(logistic regresion),其似然函數為凹函數(concave function),因此可以在單次梯度上升優化中找到全局最優解。
當擁有簡單的,具備科學意義的協變量(covariates)或設計矩陣(design matrix)X 的時候,線性回歸模型的係數向量 β 以及其線性組合(contrast)具有很強的科學意義和可解釋性。比如在高斯線性模型中,用因子(facor)作為協作變量時,對線性模型係數的推斷稱被為方差分析(ANOVA)。用一個因子和一個連續變量作為協變量的模型係數推斷被稱為協方差分析(ANOCOVA)。
普遍來講,在設計矩陣的線性獨立性足夠理想,並且模型假設被基本指定的前提下,線性模型的係數估計值具有可靠的交流意義,其可以描繪出協變量 X 對響應變量 Y 的效應量(effect size)。在虛擬協變量(dummy covariate)前的係數可以代表響應變量在虛擬量的兩個水平上的差;在相互作用項前的係數還可以描述多個協變量之間的相互作用效應(interactive effect)。可以說大多數社會科學和自然科學的科學知識都是以某種線性模型係數的形式來交流呈現的。
高斯線性模型普遍使用 t-test 作為模型係數的精確檢驗法,在模型假設被完全滿足的前提下。即模型誤差項為 i.i.d. 正態分布時,t-test 可以準確的控制二型錯誤。當模型的誤差項為 i.i.d. 的其它分布時,高斯線性模型也可以從漸進上得到準確的檢驗結果,不過此時通常需要很大量的樣本觀察值。其它的廣義線性模型普遍使用 Wald 檢驗 和 似然比檢驗 來對模型係數的極大似然估計值做統計推斷。雖然這些檢驗描述都是漸進上的結果,但是在模型被指定的情況下,它們對樣本數量的需求並沒有很高。
線性回歸模型的假設在真實數據中是經常被違反的,這些問題的來源有時是比較技術層面的:比如缺乏已知參數統計分布家族的誤差變量,設計矩陣的共線性(co-linearity),誤差變量的異方差性 (heteroscedasticity), 誤差變量在多水平因子上的相關或聚類性;這些情況下我們可以相應的使用魯棒回歸模型(robust regression),模型選擇,異方差模型,混合效果模型(mixed effect model)等方法逐一解決。
然而在預測問題中,線性回歸模型的最大問題在於參數空間 Θ 被過於限定了,協變量和響應變量間的真實回歸函數 f(x) 在大多數情況下是非線性的,因此線性函數但很難完整的指定真實的條件概率分布。如何在線性模型的基礎上提升模型的表達性,但又不過度的擴張參數自由度而導致模型的過擬合,是構建預測模型的一個最根本的挑戰。
首先,我們可以通過一個映射函數 Φ 將特徵向量 x 映射到更高維度的空間中去,而在特徵擴張(feature expansion)後的更高維度的空間中,我們可以用線性函數 f 來構建整體上非線性的回歸模型 f(Φ(x)),此類通過擴張變量後得到的廣義線性模型被稱作廣義可加模型(generalized additive model/GAM)。
在低維度的特徵上,線性回歸中常用的特徵擴映射 Φ 是自然三次樣條函數(natural cubic splines),其首先在 X 的取值範圍內設置多個必經點(knots),在畢經點間隔中使用三次多項式函數來擬合 Y。
對於更加高維度的 X,特徵擴張通常是使用核函數 (kernal function)來實現的。對於特定的特徵擴張映射 Φ(x) , 其在兩個不同觀察值上的內積可以用一個更加簡單的核函數 K 來表示。核函數的可以只消耗很少的額外計算量就將特徵映射到很高維的空間,比如高斯核函數或RBF對應的特徵映射 Φ(x) 所屬空間的維度為無窮維。
特徵向量內積的運算在很多模型的學習算法中都有出現,此時將核函數替換到內積運算的位置中就可以實現特徵的擴張。比較經典的應用核函數特徵擴張的預測模型是 高斯過程回歸(Gaussian process regression),其為核函數擴張以後的 貝葉斯線性回歸(Bayesian linear regression)。高斯過程是一個非參數貝葉斯模型,因為其在連續的 X 上定義了無窮多個多變量高斯分布。
其它的 監督學習(supervised learning)模型也可以看做是對條件概率分布 P(Y|X) 的一種建模。監督學習常用的預測模型框架有支持向量機(SVM), Boosting 決策樹(Boosting decision tree),隨機森林(Random forest 以及 人工神經網絡 等。其中 Boosting決策樹 和 隨機森林 算法可以在幾乎任何數據中獲得非常好的預測性能,而擁有恰當網絡結構的人工神經網絡模型在足夠多的樣本的支持下可以得到超過所有傳統機械學習模型的預測性能。機械學習預測模型在當下興起的主要推動力是計算機的運算性能與數據平臺的數據量的革命,在這種條件下,我們擁有足夠的運算效率和樣本容量去支持額外擴張的參數空間 Θ 。因此,在未來的統計建模中,在概率模型上結合具有高表達性的機械學習算法是一個很有意義的方法。
如何構建一個有效的統計模型參數估計值?
上文中描述了構建統計模型分布 PΘ 的理論和方法,而後文將概括從參數空間 Θ 中尋找真值參數 θ 的普遍方法。
1. 頻率論統計估計和推斷
對於一個統計模型,有三種系統性的頻率論方法可以構建對模型參數的估計:
極大似然估計(Maximum Likelihood Estimation / MLE)
矩估計(Method of Moments Estimation / MME)
M估計 (M-Estimation)
極大似然估計的基本思路是在參數空間 Θ 中搜索對真值參數的估計,其能最大化 Pθ 在統計實驗 i.i.d. 樣本上實現的似然函數(likelihood) 。
一個統計模型的似然函數 L 是如下定義的映射 (Mapping):
其中 fθ 為 Pθ 對應的概率密度函數(PDF)或概率質量函數(PMF),我們可以看到當Pθ 為離散分布或 fθ 為 PMF 時,似然函數 L 其實就等同於樣本在 Pθ 上實現的聯合概率(Joint probability)。但當 fθ 為 PDF 時, 似然函數則為一種更為抽象的概念,其本質是一個將 n 個 i.i.d. 樣本空間與參數空間 Θ 的聯合空間投射到實數空間 R 的映射函數。因為似然函數不一定是一個概率映射,所以我們常使用 L(X1,...,Xn; θ)來指代似然函數。
MLE 估計值有很多的理論上的優勢:在滿足少量的技術前提的情況下,所有MLE都是一致的(consistent)估計量,即 MLE 從概率上收斂 (convergence in probability) 於真值參數 θ。進一步的,所有的極大似然估計量都是漸進上正態的(asymptotically normal) ,MLE的漸進協方差為費雪信息矩陣(Fisher information matrix)I(θ) 的逆矩陣。
費雪信息矩陣的定義是統計模型 對數似然函數的負海賽的期望(Expectation over Negative Hessian of log-likelihood) 。
額外的,MLE是從漸進上最為高效的一致估計量,換句話說,在擁有大量數據時,MLE對有參數模型的估計效率是所有可能創建的一致估計量中最高的。最後,MLE估計值在應用上對模型的錯誤指定(mis specification) 擁有很高的容忍度,因為MLE會在當前分布模型的表達空間中搜尋最接近真實分布的結構。
矩估計法/MME 是另一種構建頻率統計估計值的系統性方法,其基本思路為尋找能將模型 Pθ 的 矩(Moments) 空間映射到參數空間 Θ 的單射可逆函數 M,函數 M 的反函數M^-1作用於相應樣本矩估計上就為參數 θ 的矩估計。
上面的表達式概括了矩估計的計算過程。根據大數定理(law of large numbers) 和中心極限定理,我們可以得出所有的樣本矩估 mk hat 都是一致且為漸進上正態的,當 M ^-1 是一個連續可微分函數時,其漸進方差就可以使用delta方法進行求解。
矩估計法可能是最符合直覺的估計值創建方法,而且很多情況下矩估計所得到的估計表達式和 MLE 是完全相同的。但當 MLE 和 MME 不同的情況下,MLE通常更加魯棒和準確。MME 相較於 MLE 的優勢在於當 Pθ 為多項式表達式時,MLE 難以從分析上求出閉式解,但 MME 此時可以比較容易的得出閉式解。
M-估計是一種廣義上的數據模型中參數估計值的建立框架,其並不局限於概率統計模型。
從一切 i.i.d. 樣本數據中擬合模型參數的普遍過程是什麼呢?首先我們需要設定一個 損失函數(Loss function) ,該損失函數可以確保在參數為 真值參數 θ* 時,模型的預測值 f(θ) 與某一數據觀察值 X1 間的損失函數的期望值最小。對於此類的數據模型,參數估計可以通過最小化樣本損失函數值的樣本平均值來實現。這個對應每個樣本的損失函數的加權值或平均值又被稱為 目標函數(objective function)。所有在這個框架中建立的估計量被稱為 M-估計。
我們應該選擇什麼樣的損失函數呢?損失函數的特性可以通過如下分析來得到一些理解:當 f 為本體函數(identity function)時,平方損失函數(squared loss function) 所對應的 θ* 是樣本期望,絕對值損失函數 (absolute loss function) 所對應的 θ* 是樣本中位數,check損失函數(check function) 所對應的 θ* 是樣本分位。因此當我們想要構建一個高效的估計值時,需要使用平方損失函數,當我們想要構建一個魯棒的估計值時,需要使用絕對值損失函數或check損失函數;類似check函數的損失函數又被稱作為魯棒損失函數 (robust loss function)。
值得注意的是,MLE 的本質上是一種在統計模型上應用的M-估計,其目標函數為真值參數模型 Pθ* 與樣本真實分布 P 間的 KL散度(KL-divergence)。KL散度是一種用來度量兩個概率分布間的差異度(dissimilarity) 的距離指標。並且,KL散度是一種確定性(definitive)的差異度,即如果KL散度等於 0,那麼兩個概率分布是相同的。KL散度的確定性保證了以之為目標函數的 MLE 在漸進理論上的一致性。
最後,M-估計擁有良好的漸進性質,即所有的M-估計都為一致的,漸進上正態的估計量,而且其漸進方差具有良好的可分析形式。具體的表達式在這篇文章中就不詳細列舉了。
頻率統計的統計推斷方法
頻率統計的統計推斷算法從漸進理論上大概分為兩種:
精確檢驗(exact test)
漸進檢驗 (asymptotic test)
精確檢驗的優勢是在統計模型被指定的情況下,檢驗所得到的 p-value 在任何樣本容量下都可以精確的控制二型錯誤率(type-II error rate)。即如果按照精確檢驗的 p value和相應的顯著性水平 alpha 去構建檢驗,那麼檢驗的二型錯誤率在任何樣本容量 n 上都等於 alpha 。
常見的精確檢驗有: t-test, fisher's exact test, binomial exact test, 以及 poisson exact test 等。 使用精確檢驗的時候要注意檢驗的統計模型是否被指定,當模型被指定時:例如當 P 確實為 i.i.d. 正態分布時,即使 n =2 的時候也能使用 t-test 得到完全精準的 p value。至於各種經典頻率檢驗的統計模型假設,這篇文章中就不多提及了。
不同於精確檢驗,漸進檢驗需要足夠的樣本數量才能得到理想的推斷性質。但漸進檢驗的優勢在於其可檢測的假設幾乎適用於任何統計模型中的參數,以及對任何對參數向量的可微分函數變換(composite test)。所有的漸進檢驗都是通過對參數估計值的漸進分布的求解來構建的,大概有兩種主要的構建漸進檢驗的系統性方法:
Wald檢驗(Wald test)
似然比檢驗(Likelihood ratio test)
Wald檢驗的理論基礎是 MLE 的漸進正態性質,根據一些漸進理論的運算定律,我們可以從 MLE 的漸進性質推演出上面的表達式從分布上收斂於卡方分布 (theta 0 為零假設下的真值參數),卡方分布的自由度(degree of freedom) 等於參數空間 Θ 的維度 d。
似然比檢驗也是一種基於 MLE 的漸進正態性的檢驗,因為其在實際應用中的統計功效(statistical power)通常低於Wald檢測,這篇文章中就不詳細介紹了。值得注意的是,統計檢驗的功效和估計量的效率可以說是一種同義詞。
通常參數空間越小,統計功效和估計效率都會顯著的提高,此時可以通過更小數量的樣本提練數據中更精確的結構。因此好的統計建模的最根本目標還是要找到在能基本指定樣本分布 P 的情況下具備最小參數空間 Θ 的 PΘ 。
2. 貝葉斯統計估計和推斷
貝葉斯參數估計(Bayesian parameter estimation) 是指將統計模型所估計的目標參數 θ 當作隨機變量來建模的參數估計法 。這種方式很大程度上挑戰了統計模型的傳統定義:目標參數 θ 應該是唯一確定的。而貝葉斯統計學派對此的解釋為先驗隨機變量是用來模擬對固定參數 θ 取值的信念(belief)程度,而並非其本身存在的數據生成上的隨機性。
貝葉斯參數估計法通過定義參數的先驗概率分布(prior probability distribution) 將參數空間進行了先驗結構的加權,其有效增加了在模型空間中檢索真值參數 θ 的效率。在樣本容量有限的統計實驗中,通過恰當的 θ 先驗分布,貝葉斯統計方法對參數變量的後驗估計效率會明顯高過相應的頻率論統計方法(Frequentists statistics)。但代價是貝葉斯方法相較於極大似然估計法會略微增加估計值的有偏性(biasness)。
最為常用的貝葉斯參數估計值是最大後驗估計(Maximum a Posteriori Estimate/MAP), 其可以視為一種極大似然估計的正則規範化(Regularization)。MAP與MLE的區別僅僅在於最大化的目標函數是受先驗分布 π(θ) 加權(相乘)後的似然函數。值得注意的是,MAP 和 MLE 在絕大部分情況下是漸進上相等(Asymptotically equivalent) 的,即先驗知識在擁有大量樣本數據的時候是沒有作用的。因此 MAP 延續了所有 MLE 在大樣本上的優勢,同時又擁有貝葉斯估計值在小樣本上的高效率,在當下的眾多模型中被廣泛應用。MAP 的另一個優勢是無需求解完整的後驗概率分布,直接對加權後的似然函數進行最大化即可求解。
需要注意區分的是,一個貝葉斯生成模型中的參數並不一定使用了貝葉斯參數估計法。概率有向圖中的所有隨機變量的參數是可以不被先驗概率分布指定的,此時仍然可以用MLE去估計有向圖中的所有參數。當對有向圖中的(部分)參數採用貝葉斯估計法時,會額外在有向圖上遊中增加新的參數先驗概率分布節點(node),此時的先驗節點會被超參數(hyper-parameters)θ0 所指定。
我們通常應該選擇什麼樣先驗分布 π 以及對應的 θ0 呢?先驗分布通常會儲存參數 θ 的位置(location)及信息量(information)兩種信息。通常在缺少先驗知識的情況下,我們會儘量選擇選擇一個兩種信息都比較弱的無信息(non-informative)先驗分布。我們可以通過求解Jeffery先驗(Jeffery's prior) 的方法來尋找最適合樣本分布 PΘ 的無信息先驗分布。Jeffery先驗分布 πj 成正比於樣本分布模型的費雪信息矩陣 I(θ) 行列式的平方根。Jeffery先驗有很多理論上的優點,其求解通常會得到樣本分布對應的某種 共軛先驗分布(conjugate prior)的無信息超參數形式,例如伯努利分布(berneulli distribution)的Jeffery先驗分布為 Beta (1/2, 1/2)。
另一種選擇先驗分布 π 的方法是根據預測模型中的特徵(feature)來設計。比如在貝葉斯線性回歸中,使用正態分布作為回歸係數先驗分布的回歸模型叫做脊回歸(Ridge regression),其會傾向於給出一個接近於零的估計結果。使用拉普拉斯分布(Laplace distribution)作為係數先驗分布的回歸模型叫做 Lasso 回歸 (Lasso regression) ,其會傾向於給出一個 0 或非 0 的稀疏估計(sparse estimation)。這兩種先驗加權從機械學習的角度上被稱作 l1 正則化,和l2 正則化(l1, l2 regularization),正則化通過對模型參數空間的先驗限定,可以有效的在實際數據中提升預測模型的泛化(generalization)能力。
之所以貝葉斯參數估計法或者正則化可以提升模型的泛化預測能力,是因為機械學習模型通常有大量的模型參數,而很多時候我們缺少足夠的數據量來構建準確的參數估計值。因此,貝葉斯參數估計在小樣本上的高效率可以有效的提升預測模型的泛化能力。
需要注意的是,先驗分布 π 並不一定是一個有效的概率分布(在樣本空間上的積分=1),其可以是任何形式的可測量的的非負函數,對於違背概率分布限定的先驗分布叫做不正當先驗(improper prior)。如正態分布的Jeffery先驗就是不正當先驗,其先驗函數為常數值1。
貝葉斯統計的統計推斷方法
不同於頻率統計的推斷方法(如頻率假設檢驗,置信區間等),貝葉斯統計的參數推斷方法基於的參數 θ 的後驗概率分布。因此,貝葉斯統計假設檢驗可以給出假設為真(如 θ > 0) 的精確概率值,並非如 p value 一樣是對二型錯誤的控制值。
相較於 MAP 的求解,貝葉斯參數的推斷需要得到完整的參數變量的後驗概率分布。由於在應用中我們經常需要得到多個模型參數間的聯合後驗分布(joint posterior),並且在非共軛貝葉斯模型中參數的後驗分布因為歸一化常數中的積分沒法求解的原因並沒有精確的閉式解(closed form solusion)的。這種情形下我們通常使用馬爾可夫鏈蒙題卡洛(MCMC)抽樣的方法來模型參數做後驗概率抽樣。
吉布斯採樣 (Gibbs Sampling) 算法是一種最為經典的 MCMC 採樣算法, 這種算法首先給沒有觀察到的變量擬定隨機的初始值,並通過對模型中每個隨機變量的CPD(所有的其它隨機變量為條件變量)輪流採樣來更新未觀察變量的值,在積累了一定數量的迭代後,每一輪的抽樣都可以近似還原出從模型聯合分布中採樣的結果,此時我們說該馬爾可夫鏈達到了混合(mixing)。最後,基於對大量聯合分布採樣的邊緣化運算就可以得到任何變量的後驗分布。
3. 使用預測模型擬合多個統計實驗的參數 θ
有時一個統計實驗包含的樣本容量無法提供準確的參數估計,但同時我們擁有多個具有一定空間或時間關聯的統計實驗的數據。這時可以使用對不同統計實驗的估計值擬合預測模型的方法將參數估計平滑化(smoothing);我們首先假定在不同實驗樣本上所估計的 θ 與標示實驗的某協變量 X 間有線性關係,此時通過原始估計值擬合的線性模型的擬合值就可以提供參數的平滑估計。
參考文獻:
Wiley, M., & Wiley, J. F. (2019). Advanced R Statistical Programming and Data Models: Analysis, Machine Learning, and Visualization. Apress.
Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114.
Love, M. I., Huber, W., & Anders, S. (2014). Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome biology, 15(12), 550.