統計建模的理論和方法

2021-01-18 Akademie Olympia


為什麼需要統計建模?


統計學statistics)是一門嘗試將經驗數據emperical data)中的結構有效的反映到概率模型probabilisic model)中的經驗主義概率形式化科學。


統計模型statistical model)的效用在於幫助人們從包含不確定性uncertainty) 的觀察值中提取經驗知識和作出理性決策。統計學上對這兩個目的專有稱呼叫做:估計estimation)和 推斷inference)。


成功的統計建模可以儘可能完整的模擬出數據生成過程中變量的隨機性,進而幫助人們有效的估計該過程的核心參數值,並作出針對核心參數值的概率性決策。


什麼是統計模型?



一個統計模型必須關聯於一個統計實驗statistical experiment)上,統計實驗所對應的觀察值輸出需要是 i.i.d (independent identically distributed) 隨機變量random variable) 的實現,這些隨機變量也被稱作為樣本sample)。每個樣本都需要被定義在一個可測量的樣本空間sample spaceE 上,樣本空間必須包含觀察值輸出的所有數值範圍。每個樣本空間都共用一個共同的概率分布 PP 由一個概率分布家族family) PΘ 所建模PΘ 被定義在參數集合parameter set) Θ 上的參數 θ 所標示。


統計模型的關鍵特徵


基於對統計模型的數學定義,我們可以理解一些常見的形容統計模型特徵的術語:


我們說一個統計模型被 指定specify), 若且唯若在 Θ 中存在 θ 使得 P = Pθ  即在參數空間中存在一組參數,使得其所標示的概率分布等同於統計實驗所輸出樣本的概率分布。當一個統計模型被指定時的 θ 被稱作為 真參數(true parameterθ*一切統計實驗的目的是為了估計 θ*, 或者檢驗 θ* 的性質比如 θ* > 0. 


根據參數空間的數學性質,統計模型又可以被分為兩類模型:參數統計模型parametric statistical model) 和 非參數統計模型 (non-parametric statistical model)。 在參數統計模型中,參數集屬於有限維空間 Rd ;d >= 1,即模型中的所包含的概率分布家族 Pθ 可以被有限數量的參數 θ 所指定,其中參數空間的維度 常被稱作參數統計模型的 自由度(degree of freedom);而在非參數參數統計模型中,參數集屬於無窮維空間,即 Pθ 無法被有限數量的分布家族參數所指定。典型的非參數統計模型的例子是樣本中位數median)估計,此時 Pθ 可以指定任何存在相應的概率密度函數 (pdf) 的概率分布家族,因此其模型的參數空間 Θ 屬於無窮維。


一個統計模型的參數 θ 可識別的identifiable),若且唯若參數空間中 θ 對 Pθ 的映射是單射injective)。換句話說,可識別性的定義是如果 Pθ =  Pθ', 那麼 θ = θ'用通俗的話來講就是統計模型中不存在兩組不同的參數設定,得到的是完全相同的概率分布。模型的可識別性在實際應用中是非常重要的,通常人們會在參數空間上加入額外的限定將不可識別的模型轉化為可識別的模型。


統計建模的方法


一個成功的統計建模主要有兩種因素:


發現了正確的 PΘ. 

選擇了正確的估計量(estimator)去從 Θ 中估計 θ.


在下文中,我會從歸納的角度列舉能有效實現以上兩個要點的理論和方法,而部分技術細節則需要讀者額外參考教科書和文獻。


如何發現正確的PΘ?


1. 嘗試選擇一個有參數的PΘ


在統計建模領域有一句大家常說的話:所有的模型都是錯的,但有些模型更有用


而相較於無參數 PΘ,有參數的 PΘ 在真實數據中則容易存在更多偏差,更難以指定統計實驗的真實輸出分布 P。但是,有參數概率分布有一個重要的優勢:其可以使用很小的參數空間去建模數據。當模型的參數空間更小的時候,從有限的數據中估計參數的效率(efficiency)會更高。


因此,對數據進行統計建模的第一步,是通過觀察統計實驗樣本的全息圖分布(histogram),並從熟悉的概率分布家族中選擇一個有參數分布 Pθ 作為我們的假設分布。



當我們選定了一個有參數分布的候選者時,該如何知道被選擇的模型分布 Pθ 是否等於樣本分布 P 呢?


Pθ是否等於P是統計學上很基礎的問題之一,而這個問題可以用兩個著名的擬合優度檢測goodness of fit test)方法來解決。



這兩個統計推斷算法都有著較深的理論基礎,尤其是在 KS檢驗 中應用了統計學根本定理Fudemental theorem of statistics)。然而,這兩種算法在實踐中會面臨兩個嚴重的問題:1. 我們不知道 θ。 2. 在擁有足夠樣本容量的實際數據上,這兩種檢測會對細微的差異非常敏感,幾乎必然駁回分布相同的零假設。


第一個問題的解決方法之一是使用針對特定的θ估計值的檢驗,比如KL檢驗(Kolmogorov-Lilliefors test), 其可以在是 PΘ 為正態分布家族,而且對θ的估計值是樣本平均值和樣本方差的前提下,驗證 P = PΘ 的零假設。



第二個問題的解決辦法是使用基於作圖的擬合診斷方法,比如 Quantile - Quantile plots (QQ plots)。這種作圖法可以通過觀察 P 所對應的樣本分位  PΘ 所對應的的理論分位間的線性關係來判斷樣本分布在模型分布上的擬合程度。這種方法可以從整體上診斷實驗分布和理論分布的擬合,而不會過於拘泥於擬合優度檢測的嚴格結果。



當擁有足夠多的樣本時,也許我們會發現所有的有參數模型都不等於 ,而此時一個更加實際的問題是:「哪個 PΘ 更加接近 P


是否可以通過比較不同模型的擬合優度統計值來選擇更加貼合P的模型呢?不同模型的擬合優度會受到模型參數在當前樣本上的估計值所影響,而擬合優度統計值會因為樣本估計所帶來的過擬合 (over-fitting) 的原因而產生降低保守性的偏差。


在經驗數據上比較擁有不同參數空間 Θ 的概率模型 PΘ 的問題被稱為模型選擇model selection ) 。其中一個經典的模型選擇指標是貝葉斯模型選擇標準 (Bayesian information criterion / BIC)。



上式為 BIC 的具體定義,其中 為樣本容量, 為模型空間 Θ 的維度,最後一項為模型 PΘ 在樣本上的 大似然 (maximum likelihood)BIC 值越小,說明 PΘ 相對越可能接近於真實分布 P。值得注意的是,對於一切有參數概率模型,BIC 值是 在漸進上一致的 (asymptotically consistent),  即當樣本容量足夠大時,指定 的 PΘ  BIC 值一定是最小的。


2. 通過漸進理論的分析對樣本進行變換


概率論中的漸進理論asymptotic theory) 是指一個隨機序列random sequence)在項數趨向正無窮時的收斂性質。對於擁有較為大量樣本單元的數據(或存在潛在的大樣本單元,如大計數值的計數數據),漸進理論所預測的收斂性質通常會得到顯現。人們可以利用漸進理論來預測對樣本進行特定函數變換所得到的統計值的概率分布。


最為核心的漸進理論的應用是中心極限定理central limit theorem),當實驗樣本來自於 i.i.d 且有限方差的隨機變量 時,樣本平均值的隨機序列 Xn bar 會隨著樣本容量 的增加而在 分布上收斂於convergence in distribution) 正態分布。


類似於樣本平均值這種漸進上正態(asymptotically normal)的隨機序列在實踐上很常見,比如建模計數(count)的二項分布binomial distribution),泊松分布Poisson distribution),和負二項分布negative binomial distribution)等。這類統計分布的本質是大量 i.i.d 隨機變量的合變量分布。


對於漸進上正態的隨機序列 Tn,我們可以通過 delta方法delta method)從分析的角度推導出任何可微分函數 對其變換所得到的新隨機序列的漸進方差 (asymptotic variance )。delta 方法在預測參數統計模型中估計值的漸進性質上起到了重要的作用,但基於delta 方法的漸進理論也可以應用於樣本的預處理和變換transformation)上。


漸進理論可以推導出有價值的樣本變換,即通過某種非線性函數將原始的實驗樣本變換成容易用某種參數分布家族 PΘ 建模的隨機變量。


另外常見的變換是對數變換log transformation) 或次方根變換root transformation) 。這類變換對於偏態分布skewed distribution)和計數數據count data)尤其實用;根據 delta 方法的預測,對數函數和次方函數的導函數是倒數函數,因此會極大的減少轉換後的統計量的漸進方差,所以這些變換也被稱作方差穩定變換variance stabilizing transformation)。


次方根變換的冪 λ 可以作為一個模型參數,並通過對目標分布模型   在變換後數據上取大似然估計值maximum likelihood estimate)來求解。這個方法在高斯線性模型背景下的泛化算法叫做 Box-Cox 變換 (Box-Cox transformation)。


值得注意的是,對實驗樣本的過濾filter)通常也能顯著的影響統計模型的應用功效,過濾閾值的選擇通常可以通過delta方法和其它漸進理論方法進行分析得到。


3. 構建貝葉斯生成模型PΘ


為什麼要考慮貝葉斯模型?其中一個原因是實際的統計實驗的樣本輸出常常會顯著的受到其它隨機變量的影響。這些變量有些是已經觀察到的樣本變量,有些可能是沒有被觀察的 潛在變量latent variable)。在這種情況下,目標樣本分布是一個由多個互相相關的隨機變量所組成的 聯合概率分布joint distribution)的 邊緣分布marginal distribution),因此,我們很難在沒有建模其它隨機變量的情況下用單一的參數分布家族來指定樣本分布。


當擁有充足的關於變量間相關性的先驗知識時,我們可以通過定義變量間所有存在的條件概率分布conditional probability distribution/CPD)來指定多變量間的聯合概率分布,這種概率模型通常被稱作為生成模型generative model)。


所有的貝葉斯生成模型都是可以用 有向無環圖directed acyclic graph) 表示的概率圖像模型probabilistic graphical model)。這種有層級結構的貝葉斯層次模型hierachical model)可以從上遊節點到下遊節點的順序依次對 CPD 進行採樣來重現數據生成的過程。


將統計實驗輸出的樣本作為條件隨機變量的CPD通常被叫做某變量的 後驗概率分布posterior distribution) , 後驗概率分布的精確求解可以通過 貝葉斯公式Bayes Formula)來實現。然而,貝葉斯公式分母位置的歸一化常數在有些模型中是難以求解的,此時我們通常要通過概率理論中的馬爾可夫鏈蒙特卡羅採樣MCMC sampling)的方法對後驗概率分布進行近似推斷approximate inference),常用的MCMC採方法包含 MH-採樣 (Metropolis Hasting Sampling)算法以及吉布斯採樣Gibbs Sampling)算法,哪種算法更加適合取決於概率有向圖模型的結構及後驗概率推斷的具體變量。



如果最顯著影響樣本的上遊隨機變量是隱藏的,不被觀察的潛在變量怎麼辦?這種問題通常可以通過EM算法EM algorithm)得到比較好的求解。潛在變量貝葉斯模型的一個經典的例子是 高斯混合模型Gaussian Mixture Model / GMM) ,其也是無監督統計學習unsupervised statistical learning)和貝葉斯聚類bayesian clustering )的基礎算法。無監督機械學習中的 K - Means algorithm 其實是對 GMM 參數空間中的協方差進行限定的特殊形式。



在GMM的模型假設中,實驗樣本的分布是由多個高斯分布所混而合成的混合分布,高斯分布的混合組分 (mixture component) 的數量與相應的混合比例是由一個多項分布multinomial distribution) 的潛在變量來模擬的。在實際應用中,擁有足夠多個混合組分(即多項分布的基數)的 GMM 可以有效的近似絕大多數的樣本分布。混合組分的數量為模型的超參數,一般使用 BIC 的模型選擇方法進行挑選。


生成模型的優勢之一在於當存在數據缺失值 (missing data) 時,其可以利用建模的數據生成過程有效的對缺失數據進行缺失數據填補 missing data imputation)/但需要注意的是,可填補的缺失值需要是機缺失missing at random) 的;即完整樣本的隨機變量和決定其是否被觀察的隨機變量之間是相互獨立的。


大多數貝葉斯後驗概率推斷算法和EM算法在模型中的隨機變量為 指數分布家族 (exponential distribution family)的時候從計算的角度上更容易實現。最為常見的歸屬於指數分布家族的概率分布有:正態分布,beta分布,gamma分布,多項分布,泊松分布,和負二項分布等


4. 構建一個無參數的 PΘ


在上述篩選 PΘ 的過程中,我們經歷了一個逐步放大參數空間 Θ 的維數來增加模型表達性的過程。但在缺少數據生成的可靠領域內知識,並且存在實驗來源異質性的非理想數據中,人們通常難以通過構建貝葉斯層次模型完整的指定 P。另外的,當樣本背後的潛在變量是一個連續變量且擁有複雜的 CPD 映射函數時,類似 GMM 的無監督學習方法也不再能輕易的學習數據的生成分布。 此時我們需要將模型參數空間的維度繼續擴充以增加模型的表達性。


基礎的無參數統計模型是 魯棒robust)模型。常見的魯棒統計模型是以 P 的分位quantile)作為目標參數的模型。這類模型的優勢在於無需對 進行任何結構上的假設。然而,魯棒統計模型的缺點也比較明顯,相對其它的參數統計模型中的 θ分位參數缺少與之附和的概率分布函數,因此其難以整合進貝葉斯模型當中。而且當 P 為對稱且不存在離群值時,分位估計的效率會明顯低於期望值估計,即其需要更多的樣本數量來得到更加精確的估計值。


統計模型的魯棒性還可以通過對參數統計模型的離群值檢測outlier detection) 和隨後的離群值去除來得到提高。離群值檢測算法的目的是尋找不來自於 PΘ 的數據觀察值。例如,在線性回歸的背景下,經典的離群值檢測方法為 Cook 距離Cook's distance);某觀察值的Cook距離的定義為將某觀察值移除後,用餘下的觀察值重新構建回歸模型的擬合值與之前模型擬合值差異度。因此,在移除 Cook 距離比較大的離群觀察值後,回歸模型的假設則更容易被其擬合數據所滿足。


另外一種功能強大的非參數無監督統計學習模型可以在擁有大量數據的條件下,構建出幾乎所有的樣本分布的生成模型,這種方法是基於人工神經網絡的變分自編碼器variational autoencoder/VAE)。VAE模型屬於無參數貝葉斯non-parametric bayes)模型, 即參數空間為無窮維的概率有向圖模型。變分自編碼器的原理是將貝葉斯混合模型如GMM的潛在變量擴展成連續隨機變量,該連續潛在變量與樣本變量間的CPD映射函數是通過深度神經網絡來學習的。




深度神經網絡的革命性優勢在於其可以在參數空間被適當放大的情況下獲得巨大的模型表達性的提升,在擁有一層完整連接的隱藏層hidden layer)的條件下,前饋神經網絡可以近似出任何數學函數。在擁有能支撐起其參數空間的樣本數量時,神經網絡模型通常可以獲得遠超過其它模型的學習表現。上圖是使用美國中學生手寫數據集MNIST訓練的VAE生成模型的採樣結果,可以看到神經網絡輔助的貝葉斯潛在變量模型近乎完整的再現了人類手寫的概率生成分布。


5. 通過判別模型對 中的條件概率分布進行局部建模


和貝葉斯生成模型不同,在一些數據問題的需求下,我們通常不需要定義多個變量間的聯合分布;定義目標變量 Y 與特徵變量 X 的條件分布是一種計算上更為方便的模型。



在多變量統計模型中,我們假設實驗樣本來源自 n 個 i.i.d. 隨機向量 (random vectors) 。



在生成統計模型中,我們嘗試建模隨機向量的完整概率分布 P,即聯合概率分布。在判別統計模型中,我們使用局部建模法partial modeling),即僅建模隨機向量的某 分量componentY 給定其它分量 X 的條件概率分布 (CPD)。通常,在條件概率分布中的分布變量 Y 被稱為目標target),條件變量 X 被稱為特徵feature)。


在實踐中,大部分 預測模型prediction model)都是判別模型,因為在預測問題中,我們通常沒有必要建模特徵變量 X 的隨機性。但值得注意的是,所有貝葉斯生成模型也都能使用後驗推斷的方法來實現預測,比如在 GMM 中我們可以使用對潛在變量取值的 MAP 方法來預測樣本的聚類標註,這類基於生成模型後驗分類算法被稱做 貝葉斯分類器bayes classifier)。但在判別模型中,我們通常不需要通過統計推斷來實現預測。


最為經典的判別模型是 回歸模型regression model),其嘗試建模隨機變量 Y 在給定 X = x 的條件下的 條件期望值conditional expectation)。


定義了條件期望的函數 f(x) 被稱為回歸函數regression function), 值得注意的是,廣義上的回歸模型可以定義於其它條件統計量上,比如條件分位conditonal quantile條件方差conditional variance) 等。


最為常用的回歸函數是線性回歸函數linear regression function),即 f(x)為關於x的線性函數。雖然當 Y|X=x 為正態分布家族時, f(x) 能被直接的被建模為線性函數,但大部分概率分布的期望值並非定義於整個實數軸 R,因此無法直接建模成線性函數。為了將概率分布的期望值映射到整個實數軸,從廣義上來講,線性回歸模型的框架為:



其中 g 被稱作為連結函數 (link function)。對於某一種一個概率分布家族,怎麼提出一個合適的連結函數呢?對於規範指數家族 (canonical exponential family) 的成員,我們可以通過對其概率分布函數的形式分析求得該概率分布在自然狀態下所對應的連結函數。這類連結函數被稱為規範連結函數canonical link function)。


上表中列出了常見的規範指數家族分布所對應的規範連結函數:正態分布為本體函數,泊松分布為對數函數,Bernoulli分布邏輯函數logit function),Gamma分布為負倒數函數。


在線性回歸模型中,參數 β 的估計值算法通常是大似然估計MLE)。值得注意的是,只有正態分布線性回歸模型的 MLE 是有閉式解的,即為最小二估計least square estimation),其它概率分布的廣義線性模型參數並沒有解析解,需要使用數值方法對似然函數進行梯度上升gradient ascend)的優化求解。對於規範指數家族的廣義線性模型,如邏輯回歸模型logistic regresion),其似然函數為凹函數concave function因此可以在單次梯度上升優化中找到全局最優解。



當擁有簡單的,具備科學意義的協變量covariates)或設計矩陣design matrixX 的時候,線性回歸模型的係數向量 β 以及其線性組合(contrast)具有很強的科學意義和可解釋性。比如在高斯線性模型中,用因子facor)作為協作變量時,對線性模型係數的推斷稱被為方差分析ANOVA)。用一個因子和一個連續變量作為協變量的模型係數推斷被稱為協方差分析ANOCOVA)。


普遍來講,在設計矩陣的線性獨立性足夠理想,並且模型假設被基本指定的前提下,線性模型的係數估計值具有可靠的交流意義,其可以描繪出協變量 X 對響應變量 Y 效應量effect size)。在虛擬協變量dummy covariate)前的係數可以代表響應變量在虛擬量的兩個水平上的差;在相互作用項前的係數還可以描述多個協變量之間的相互作用效應interactive effect)。可以說大多數社會科學和自然科學的科學知識都是以某種線性模型係數的形式來交流呈現的。


高斯線性模型普遍使用 t-test 作為模型係數的精確檢驗法,在模型假設被完全滿足的前提下。即模型誤差項為 i.i.d. 正態分布時,t-test 可以準確的控制二型錯誤。當模型的誤差項為 i.i.d. 的其它分布時,高斯線性模型也可以從漸進上得到準確的檢驗結果,不過此時通常需要很大量的樣本觀察值。其它的廣義線性模型普遍使用 Wald 檢驗 似然比檢驗 來對模型係數的極大似然估計值做統計推斷。雖然這些檢驗描述都是漸進上的結果,但是在模型被指定的情況下,它們對樣本數量的需求並沒有很高。



線性回歸模型的假設在真實數據中是經常被違反的,這些問題的來源有時是比較技術層面的:比如缺乏已知參數統計分布家族的誤差變量,設計矩陣的共線性co-linearity),誤差變量的異方差性 (heteroscedasticity), 誤差變量在多水平因子上的相關或聚類性;這些情況下我們可以相應的使用魯棒回歸模型robust regression),模型選擇,異方差模型,混合效果模型(mixed effect model等方法逐一解決。


然而在預測問題中,線性回歸模型的最大問題在於參數空間 Θ 被過於限定了,協變量和響應變量間的真實回歸函數 f(x) 在大多數情況下是非線性的,因此線性函數但很難完整的指定真實的條件概率分布。如何在線性模型的基礎上提升模型的表達性,但又不過度的擴張參數自由度而導致模型的過擬合,是構建預測模型的一個最根本的挑戰。


首先,我們可以通過一個映射函數 Φ 將特徵向量 x 映射到更高維度的空間中去,而在特徵擴張(feature expansion)後的更高維度的空間中,我們可以用線性函數 f 來構建整體上非線性的回歸模型 f(Φ(x)),此類通過擴張變量後得到的廣義線性模型被稱作廣義可加模型(generalized additive model/GAM)。


在低維度的特徵上,線性回歸中常用的特徵擴映射 Φ 是自然三次樣條函數natural cubic splines),其首先在 X 的取值範圍內設置多個必經點knots),在畢經點間隔中使用三次多項式函數來擬合 Y。


對於更加高維度的 X,特徵擴張通常是使用核函數 kernal function)來實現的。對於特定的特徵擴張映射 Φ(x) , 其在兩個不同觀察值上的內積可以用一個更加簡單的核函數 K 來表示。核函數的可以只消耗很少的額外計算量就將特徵映射到很高維的空間,比如高斯核函數或RBF對應的特徵映射 Φ(x) 所屬空間的維度為無窮維。



特徵向量內積的運算在很多模型的學習算法中都有出現,此時將核函數替換到內積運算的位置中就可以實現特徵的擴張。比較經典的應用核函數特徵擴張的預測模型是 高斯過程回歸Gaussian process regression),其為核函數擴張以後的 貝葉斯線性回歸Bayesian linear regression)。高斯過程是一個非參數貝葉斯模型,因為其在連續的 X 上定義了無窮多個多變量高斯分布。



其它的 監督學習supervised learning)模型也可以看做是對條件概率分布 P(Y|X) 的一種建模。監督學習常用的預測模型框架有支持向量機SVM), Boosting 決策樹Boosting decision tree)隨機森林Random forest 以及 人工神經網絡 等。其中 Boosting決策樹隨機森林 算法可以在幾乎任何數據中獲得非常好的預測性能,而擁有恰當網絡結構的人工神經網絡模型在足夠多的樣本的支持下可以得到超過所有傳統機械學習模型的預測性能。機械學習預測模型在當下興起的主要推動力是計算機的運算性能與數據平臺的數據量的革命,在這種條件下,我們擁有足夠的運算效率和樣本容量去支持額外擴張的參數空間 Θ 。因此,在未來的統計建模中,在概率模型上結合具有高表達性的機械學習算法是一個很有意義的方法。


如何構建一個有效的統計模型參數估計值


上文中描述了構建統計模型分布 PΘ 的理論和方法,而後文將概括從參數空間 Θ 中尋找真值參數 θ 的普遍方法。


1. 頻率論統計估計和推斷


對於一個統計模型,有三種系統性的頻率論方法可以構建對模型參數的估計:


極大似然估計Maximum Likelihood Estimation / MLE)

矩估計(Method of Moments Estimation / MME)

M估計M-Estimation)


極大似然估計的基本思路是在參數空間 Θ 中搜索對真值參數的估計,其能最大化  Pθ 在統計實驗 i.i.d. 樣本上實現的似然函數likelihood) 。



一個統計模型的似然函數 L 是如下定義的映射 (Mapping)


其中 fθ 為 Pθ 對應的概率密度函數PDF)或概率質量函數PMF),我們可以看到當Pθ 為離散分布或 fθ PMF 時,似然函數 L 其實就等同於樣本在 Pθ 上實現的聯合概率(Joint probability)。但當  fθ 為 PDF 時, 似然函數則為一種更為抽象的概念,其本質是一個將 n i.i.d. 樣本空間與參數空間 Θ 的聯合空間投射到實數空間 R 的映射函數。因為似然函數不一定是一個概率映射,所以我們常使用 L(X1,...,Xn; θ)來指代似然函數。


MLE 估計值有很多的理論上的優勢:在滿足少量的技術前提的情況下,所有MLE都是一致的(consistent)估計量,即 MLE 概率上收斂 (convergence in probability) 於真值參數 θ。進一步的,所有的極大似然估計量都是漸進上正態的asymptotically normal) ,MLE的漸進協方差為費雪信息矩陣(Fisher information matrixI(θ的逆矩陣。


費雪信息矩陣的定義是統計模型 對數似然函數的負海賽的期望Expectation over Negative Hessian of log-likelihood) 。


額外的,MLE是從漸進上最為高效的一致估計量,換句話說,在擁有大量數據時,MLE對有參數模型的估計效率是所有可能創建的一致估計量中最高的。最後,MLE估計值在應用上對模型的錯誤指定mis specification) 擁有很高的容忍度,因為MLE會在當前分布模型的表達空間中搜尋最接近真實分布的結構。


矩估計法/MME 是另一種構建頻率統計估計值的系統性方法,其基本思路為尋找能將模型 Pθ 的 矩(Moments)  空間映射到參數空間 Θ 的單射可逆函數 M,函數 的反函數M^-1作用於相應樣本矩估計上就為參數 θ 矩估計


上面的表達式概括了矩估計的計算過程。根據大數定理(law of large numbers) 和中心極限定理,我們可以得出所有的樣本矩估 mk hat 都是一致且為漸進上正態的,當 M ^-1 是一個連續可微分函數時,其漸進方差就可以使用delta方法進行求解。


矩估計法可能是最符合直覺的估計值創建方法,而且很多情況下矩估計所得到的估計表達式和 MLE 是完全相同的。但當 MLE 和 MME 不同的情況下,MLE通常更加魯棒和準確。MME 相較於 MLE 的優勢在於當 Pθ 為多項式表達式時,MLE 難以從分析上求出閉式解,但 MME 此時可以比較容易的得出閉式解。


M-估計是一種廣義上的數據模型中參數估計值的建立框架,其並不局限於概率統計模型。



從一切 i.i.d. 樣本數據中擬合模型參數的普遍過程是什麼呢?首先我們需要設定一個 損失函數Loss function) ,該損失函數可以確保在參數為 真值參數 θ* 時,模型的預測值 f(θ) 與某一數據觀察值 X1 間的損失函數的期望值最小。對於此類的數據模型,參數估計可以通過最小化樣本損失函數值的樣本平均值來實現。這個對應每個樣本的損失函數的加權值或平均值又被稱為 目標函數objective function)。所有在這個框架中建立的估計量被稱為 M-估計。


我們應該選擇什麼樣的損失函數呢?損失函數的特性可以通過如下分析來得到一些理解:當 f本體函數identity function)時,平方損失函數squared loss function) 所對應的 θ* 是樣本期望,絕對值損失函數 (absolute loss function) 所對應的 θ* 是樣本中位數,check損失函數check function) 所對應的 θ* 是樣本分位。因此當我們想要構建一個高效的估計值時,需要使用平方損失函數,當我們想要構建一個魯棒的估計值時,需要使用絕對值損失函數或check損失函數;類似check函數的損失函數又被稱作為魯棒損失函數robust loss function)。



值得注意的是,MLE 的本質上是一種在統計模型上應用的M-估計,其目標函數為真值參數模型 Pθ* 與樣本真實分布 P 間的 KL散度(KL-divergence)。KL散度是一種用來度量兩個概率分布間的異度dissimilarity) 的距離指標。並且,KL散度是一種確定性definitive)的差異度,即如果KL散度等於 0,那麼兩個概率分布是相同的。KL散度的確定性保證了以之為目標函數的 MLE 在漸進理論上的一致性。


最後,M-估計擁有良好的漸進性質,即所有的M-估計都為一致的,漸進上正態的估計量,而且其漸進方差具有良好的可分析形式。具體的表達式在這篇文章中就不詳細列舉了。


頻率統計的統計推斷方法


頻率統計的統計推斷算法從漸進理論上大概分為兩種:


精確檢驗exact test

漸進檢驗 asymptotic test)


精確檢驗的優勢是在統計模型被指定的情況下,檢驗所得到的 p-value 在任何樣本容量下都可以精確的控制二型錯誤率type-II error rate)。即如果按照精確檢驗的 p value和相應的顯著性水平 alpha 去構建檢驗,那麼檢驗的二型錯誤率在任何樣本容量 上都等於 alpha


常見的精確檢驗有: t-test, fisher's exact test, binomial exact test, 以及 poisson exact test 等。 使用精確檢驗的時候要注意檢驗的統計模型是否被指定,當模型被指定時:例如當 確實為 i.i.d. 正態分布時,即使 n =2 的時候也能使用 t-test 得到完全精準的 p value。至於各種經典頻率檢驗的統計模型假設,這篇文章中就不多提及了。


不同於精確檢驗,漸進檢驗需要足夠的樣本數量才能得到理想的推斷性質。但漸進檢驗的優勢在於其可檢測的假設幾乎適用於任何統計模型中的參數,以及對任何對參數向量的可微分函數變換composite test)。所有的漸進檢驗都是通過對參數估計值的漸進分布的求解來構建的,大概有兩種主要的構建漸進檢驗的系統性方法:


Wald檢驗Wald test)

似然比檢驗(Likelihood ratio test)


Wald檢驗的理論基礎是 MLE 的漸進正態性質,根據一些漸進理論的運算定律,我們可以從 MLE 的漸進性質推演出上面的表達式從分布上收斂於卡方分布 (theta 0 為零假設下的真值參數),卡方分布的自由度degree of freedom) 等於參數空間 Θ 的維度 d。


似然比檢驗也是一種基於 MLE 的漸進正態性的檢驗,因為其在實際應用中的統計功效statistical power)通常低於Wald檢測,這篇文章中就不詳細介紹了。值得注意的是,統計檢驗的功效和估計量的效率可以說是一種同義詞。


通常參數空間越小,統計功效和估計效率都會顯著的提高,此時可以通過更小數量的樣本提練數據中更精確的結構。因此好的統計建模的最根本目標還是要找到在能基本指定樣本分布 P 的情況下具備最小參數空間 Θ 的 PΘ 。


2. 貝葉斯統計估計和推斷


貝葉斯參數估計Bayesian parameter estimation) 是指將統計模型所估計的目標參數 θ 當作隨機變量來建模的參數估計法 。這種方式很大程度上挑戰了統計模型的傳統定義:目標參數 θ 應該是唯一確定的。而貝葉斯統計學派對此的解釋為先驗隨機變量是用來模擬對固定參數 θ 取值的信念belief)程度,而並非其本身存在的數據生成上的隨機性。


貝葉斯參數估計法通過定義參數的先驗概率分布prior probability distribution) 將參數空間進行了先驗結構的加權,其有效增加了在模型空間中檢索真值參數 θ 的效率。在樣本容量有限的統計實驗中,通過恰當的 θ 先驗分布,貝葉斯統計方法對參數變量的後驗估計效率會明顯高過相應的頻率論統計方法Frequentists statistics)。但代價是貝葉斯方法相較於極大似然估計法會略微增加估計值的有偏性biasness)。



最為常用的貝葉斯參數估計值是最大後驗估計Maximum a Posteriori Estimate/MAP), 其可以視為一種極大似然估計的正則規範化Regularization)。MAPMLE的區別僅僅在於最大化的目標函數是受先驗分布 π(θ) 加權(相乘)後的似然函數。值得注意的是,MAP 和 MLE 在絕大部分情況下是漸進上相等Asymptotically equivalent) 的,即先驗知識在擁有大量樣本數據的時候是沒有作用的。因此 MAP 延續了所有 MLE 在大樣本上的優勢,同時又擁有貝葉斯估計值在小樣本上的高效率,在當下的眾多模型中被廣泛應用。MAP 的另一個優勢是無需求解完整的後驗概率分布,直接對加權後的似然函數進行最大化即可求解。


需要注意區分的是,一個貝葉斯生成模型中的參數並不一定使用了貝葉斯參數估計法。概率有向圖中的所有隨機變量的參數是可以不被先驗概率分布指定的,此時仍然可以用MLE去估計有向圖中的所有參數。當對有向圖中的(部分)參數採用貝葉斯估計法時,會額外在有向圖上遊中增加新的參數先驗概率分布節點node),此時的先驗節點會被超參數hyper-parametersθ0 所指定。



我們通常應該選擇什麼樣先驗分布 π 以及對應的 θ呢?先驗分布通常會儲存參數 θ 位置(location)信息量(information)兩種信息。通常在缺少先驗知識的情況下,我們會儘量選擇選擇一個兩種信息都比較弱的無信息non-informative)先驗分布。我們可以通過求解Jeffery先驗(Jeffery's prior) 的方法來尋找最適合樣本分布 PΘ 的無信息先驗分布。Jeffery先驗分布 π成正比於樣本分布模型的費雪信息矩陣 I(θ行列式的平方根。Jeffery先驗有很多理論上的優點,其求解通常會得到樣本分布對應的某種 共軛先驗分布conjugate prior)的無信息超參數形式,例如伯努利分布berneulli distribution)的Jeffery先驗分布為 Beta (1/2, 1/2)


另一種選擇先驗分布 π 的方法是根據預測模型中的特徵feature)來設計比如在貝葉斯線性回歸中,使用正態分布作為回歸係數先驗分布的回歸模型叫做脊回歸Ridge regression),其會傾向於給出一個接近於零的估計結果。使用拉普拉斯分布(Laplace distribution)作為係數先驗分布的回歸模型叫做 Lasso 回歸 (Lasso regression) ,其會傾向於給出一個 0 或非 0 的稀疏估計sparse estimation)。這兩種先驗加權從機械學習的角度上被稱作 l1 正則化,和l2 正則化(l1, l2 regularization),正則化通過對模型參數空間的先驗限定,可以有效的在實際數據中提升預測模型的泛化generalization)能力。


之所以貝葉斯參數估計法或者正則化可以提升模型的泛化預測能力,是因為機械學習模型通常有大量的模型參數,而很多時候我們缺少足夠的數據量來構建準確的參數估計值。因此,貝葉斯參數估計在小樣本上的高效率可以有效的提升預測模型的泛化能力。


需要注意的是,先驗分布 π 並不一定是一個有效的概率分布(在樣本空間上的積分=1),其可以是任何形式的可測量的的非負函數,對於違背概率分布限定的先驗分布叫做不正當先驗improper prior)。如正態分布的Jeffery先驗就是不正當先驗,其先驗函數為常數值1。


貝葉斯統計的統計推斷方法


不同於頻率統計的推斷方法(如頻率假設檢驗,置信區間等),貝葉斯統計的參數推斷方法基於的參數 θ 的後驗概率分布。因此,貝葉斯統計假設檢驗可以給出假設為真(如 θ > 0) 的精確概率值,並非如 p value 一樣是對二型錯誤的控制值。


相較於 MAP 的求解,貝葉斯參數的推斷需要得到完整的參數變量的後驗概率分布。由於在應用中我們經常需要得到多個模型參數間的聯合後驗分布joint posterior並且在非共軛貝葉斯模型中參數的後驗分布因為歸一化常數中的積分沒法求解的原因並沒有精確的閉式解closed form solusion)的這種情形下我們通常使用馬爾可夫鏈蒙題卡洛(MCMC)抽樣的方法來模型參數做後驗概率抽樣。


吉布斯採樣 (Gibbs Sampling) 算法是一種最為經典的 MCMC 採樣算法, 這種算法首先給沒有觀察到的變量擬定隨機的初始值,並通過對模型中每個隨機變量的CPD(所有的其它隨機變量為條件變量)輪流採樣來更新未觀察變量的值,在積累了一定數量的迭代後,每一輪的抽樣都可以近似還原出從模型聯合分布中採樣的結果,此時我們說該馬爾可夫鏈達到了混合mixing)。最後,基於對大量聯合分布採樣的邊緣化運算就可以得到任何變量的後驗分布。


3. 使用預測模型擬合多個統計實驗的參數 θ


有時一個統計實驗包含的樣本容量無法提供準確的參數估計,但同時我們擁有多個具有一定空間或時間關聯的統計實驗的數據。這時可以使用對不同統計實驗的估計值擬合預測模型的方法將參數估計平滑化smoothing);我們首先假定在不同實驗樣本上所估計的 θ 與標示實驗的某協變量 X 間有線性關係,此時通過原始估計值擬合的線性模型的擬合值就可以提供參數的平滑估計。



參考文獻:


Wiley, M., & Wiley, J. F. (2019). Advanced R Statistical Programming and Data Models: Analysis, Machine Learning, and Visualization. Apress.


Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114.


Love, M. I., Huber, W., & Anders, S. (2014). Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome biology, 15(12), 550.


相關焦點

  • 範劍青摘取統計學桂冠 獨創精確統計法「非參數建模」
    現為香港中文大學教授、統計系主任的範劍青,是以獨創精確統計法「非參數建模」在許多領域有著廣泛應用而得獎的。     範劍青首創的「非參數建模」理論的基本思想,是讓數據本身透過電腦自動尋找一個統計模型來描述和刻畫。該模型能尋找最精確的非線性系統來預報未來和描述變量之間的內在關係。這就完全避免了傳統的參數模型帶來的人為偏差,而且也節省了許多人力。
  • 數學建模常用方法及出題類型
    本文轉載自【微信公眾號:47競賽,ID:gh_1814a7d91c55】經微信公眾號授權轉載,如需轉載與原文作者聯繫數學建模常用方法及出題類型常用方法一、機理分析法從基本物理定律以及系統的結構數據來推導出模型。
  • 資料| 1800頁33章數學方法精要筆記 —深入數學建模, 機器學習和...
    from=leiphonecolumn_res07091 書籍介紹  · · · · · ·在信息爆炸的當今,大到企業巨頭的經營方向, 小到和日常生活相關的人工駕駛等領域,數學建模和人工智慧都對信息數據的收集、處理、解釋以及做出決策將起到至關重要的作用。負責開發模型和算法的一線科學家和工程師, 都需要有堅實的數學基礎。
  • 數學建模研究過程指導:從高中數學體會數學概貌和數學建模
    說明:此文稿為朱浩楠老師於2018年11月-12月北京地區聯校數學建模活動的課題研究階段中,每天一篇發布給各課題組的研究方法指導文件的匯總。為方便更多的同學參考使用,現調整為正序後通過遇見數學微信公眾號發布,版權歸朱老師和遇見數學公眾號所有。
  • 反思統計方法在心理學領域的應用
    對於心理學實證研究而言,統計方法是一種極為重要的工具。但在這種工具被頻繁使用的背後,心理學研究工作者對這種工具的「源頭和底層」缺乏深入探究。這導致統計方法未能在心理學中回歸其本身的價值和意義。  統計推斷,主要包括假設檢驗、預測、統計回歸及統計建模等。其中應用最為廣泛的是奈曼(Jerzy Neyman)、皮爾遜(Egon S. Pearson)等人提出的以客觀概率為基礎的假設檢驗,這通常又是其他統計推斷理論的基礎。假設檢驗在心理學研究的應用中,有一個極為重要的指標——p值,即統計顯著性。
  • Journal of Geophysical Research:岢嵐地區熱層中性風場統計特徵和建模研究
    楊長俊等-JGR:岢嵐地區熱層中性風場統計特徵和建模研究熱層中性風場在電離層-熱層耦合系統中的動力過程和沿磁力線的傳輸過程中起到了關鍵作用。在以往對於熱層中性風的觀測主要來源於衛星搭載加速度儀,非相干散射雷達探測和FPI光學幹涉儀。但是大部分地基觀測主要集中在北美和歐洲地區,基於這些觀測,關於中緯地區熱層風場特徵被大量報告,並且推出了一系列理論和經驗風場模型。美國大氣物理中心研發的HWM系列全球中低高度大氣層和熱層水平風場模型是目前使用最為廣泛的版本。
  • 這次傳統的數學和統計建模都錯了?是不是理論出了問題?
    我們先說個基本概念:在傳染病學模型中,R0 值(基本再生數,baasic reproduction number)常被用來描述疫情的傳染速率,可以反映傳染病爆發的潛力和嚴重程度這是傳統理論)國內外專家都給出了關於新型冠狀病毒的傳染速率、峰值等建模預測。其中,英美研究團隊的結果表明,新型冠狀病毒的 R0 值為 3.8左右。
  • 淺談數據分析和數據建模
    業務專家的經驗對於數據分析和建模是非常關鍵的,他們可能是風險管理人員、欺詐監測專家、投資專家等。數據建模來源於業務經驗和業務知識,正是業務專家的專業分析找到了業務規律,從而找到了建模方向,並對建模工作給出建議和解釋。
  • Physics Reports:統計物理和複雜系統理論的探索
    然而由於地球系統本身的複雜結構及眾多非線性相互作用,人們對這些災難事件的理解和預測困難重重。這是科學界和公共政策決策者極為關注的話題。近日,由北京師範大學系統科學學院陳曉松教授等人組成的研究團隊,在物理學頂刊Physics Reports發表綜述文章,系統梳理了統計物理與複雜系統方法在地球系統科學中的應用。本文是對這篇綜述文章的解讀。
  • 暗能量和修正的引力理論:哪一個會佔上風?
    galaxy ydance引入了一種新方法,利用星系速度的低階統計量和聚類來測試愛因斯坦引力理論及其對應理論。這個測試覆蓋了星系間的尺度,這是一個引力理論至今還沒有經過嚴格測試的體系。已經證明了這種方法有幾個獨特的優點:它與引力模型無關,不存在明顯的星系偏差,基本上不受重子物理的影響。使用最先進的計算機模擬技術,在超級計算機中重建了一個虛擬的宇宙。通過運行和分析這些模擬,可以測試超越gr理論,並概述有希望的結果。是什麼使這種方法特別具有創新性?
  • 複雜系統自動建模綜述:描述、預測與理論發現
    本文總結了張江老師在集智-凱風讀書會上的《複雜系統自動建模》專題,介紹了如何更好地利用AI來對複雜系統更好的進行描述、預測乃至於理論發現,最後,本文還對通過AI對複雜系統進行自動建模中的一些可能的問題進行了簡單的描述和討論。
  • 岢嵐地區熱層中性風場統計特徵和建模研究獲進展
    但是大部分地基觀測集中在北美和歐洲地區,基於這些觀測,報告較多中緯地區熱層風場特徵,並推出系列理論和經驗風場模型。美國研發的HWM系列全球中低高度大氣層和熱層水平風場模型是目前使用較廣的版本。在東亞尤其是中國區域,長期缺少對熱層風場的觀測資料,這一地區的熱層風場特徵和HWM系列風場模型在中國地區的適用性缺乏考證。近十年內,中國地區熱層中性風場的測量及相關研究得到發展。
  • 電化學阻抗譜建模方法及經驗介紹
    最後,作者把EIS分析與基於頻率回歸的統計方法和模型聯繫起來。該文章發表在國際權威期刊Current Opinion in Electrochemistry上。Francesco Ciucci為本文第一作者。
  • matlab 實體建模_matlab建模 - CSDN
    Excel是微軟辦公套裝軟體的一個重要的組成部分,它可以進行各種數據的處理、統計分析和輔助決策操作,廣泛地應用於管理、統計財經、金融等眾多領域。RR是用於統計分析、繪圖的語言和操作環境。R是屬於GNU系統的一個自由、免費、原始碼開放的軟體,它是一個用於統計計算和統計製圖的優秀工具。
  • 骨關節炎(OA)大鼠模型的建模方法
    實驗周期:4-6 weeks建模方法:MIA建模方案:SD大鼠,SPF環境進行飼養,適應性飼養7天,隨機分組。模型組和藥物組大鼠,使用碘乙酸,一次注射0.2ml到大鼠關節腔。對照組組注射生理鹽水到關節腔。
  • 自然語言處理起源:馬爾科夫和香農的語言建模實驗
    他想要找到通過概率化的分析對這些事件進行建模的方法。馬爾科夫認為,語言就是這種系統的一個例子:過去出現的字符在一定程度上決定了現在的結果。為了確認這一點,他想證明在普希金小說這樣的文本中,某個字母在文本中出現的機率在某種程度上是取決於之前出現的字母的。因此才出現了本文開頭馬爾科夫統計「尤金·奧涅金」中元音的那一幕。
  • 數據時代幾何處理與建模的研究進展與趨勢
    非參數方法主要以模型集聯合分析為基礎,通過構建模型之間的結構和語義關聯,支持模型的部件重組和拼裝,實現新模型的自動生成。參數方法則是首先確定描述三維模型幾何和結構的概率模型,然後通過統計學習得到概率模型的參數,用以描述樣例模型的結構組成和變化,支持模型生成。上述兩種方法代表了目前數據驅動三維建模的主流方法。
  • 《從數據到模型:全國大學生統計建模大賽獲獎論文選》
    作    者:全國大學生統計建模大賽執行委員會  國家統計局統計教育培訓中心責任編輯:呂軍書    號:ISBN 978-7-5037-5969-7>開    本:18開 平裝   35.5印張  字    數:600千字定    價:49.00元/冊出版日期:2010年7月 內容簡介:   本書是全國大學生統計建摸大賽獲獎論文選集,共包括一、二、三等獎24篇論文,全面系統地表現了全國大學生統計建摸大賽的成果
  • 機器學習的統計方法 貝葉斯決策理論入門
    這些算法需要經過訓練和優化,以選擇風險最小的最優方案。此外,很重要的一點在於,我們必須明白,如果某些高風險的決定做的不正確,將會導致嚴重的後果。我們以癌症診斷為例。根據病人的計算機斷層掃描(CT),放射科醫生能確定腫瘤的存在嗎?如果他們認為病人體內有腫瘤,那麼醫生需要弄清楚腫瘤是良性的還是惡性的,以確定正確的治療方法。
  • 帕金森病(PD)小鼠模型的建模方法
    實驗周期:4-6 weeks建模方法:模型建模方法:腹腔注射MPTP 20mg/kg/d,連續注射14天。對照組使用等體積生理鹽水進行腹腔注射,操作及注意事項相同。MPTP給藥結束後,模型建立成功。將動物放置在正中央格,同時進行攝像和計時,時間為5 min。通過計算機示蹤分析系統來分析動物在一定時間內的活動狀態。實驗室保持安靜,室溫為20 ℃左右,光線充足。觀察指標:方格間穿行次數(動物的四肢從一個格進入另一個格為穿行一次)、直立次數(動物雙前肢同時離地,或者雙前肢放在牆壁上算作直立一次)、中央格停留時間、穿過中央格的次數。3.爬杆實驗:是評價小鼠運動協調能力的經典方法。