最大似然估計(maximum likelihood)就是利用已知的樣本結果,反推最具有可能(最大概率)導致這些樣本結果出現的模型參數值。
換句話說,極大似然估計提供了一種給定觀察數據來評估模型參數的方法,即「模型已定,參數未知」。當模型滿足某個分布,它的參數值便可以通過極大似然估計法求出來,如正態分布的μ和σ,指數分布的λ等等。2. 最大似然估計的一般流程例如我們隨機測量一些小鼠的體重(如下)。最大似然估計(maximum likelihood)的目的就是根據已知少量測量結果反推最有可能產生該數據的分布。
第一步:預判產生已知數據的可能分布類型。有許多的分布類型,包括正態分布、指數分數、gamma分布等等。通過已知的數據發現:①大部分數據靠近均值分布;②數據分分布整體呈現對稱分布,中間值多,大值和小值少。故我們可以推測該數據可能來源於正態分布。
3. 最大似然法估計正態分布參數正態分布有2個參數:位置參數(μ)和形態參數(σ)決定正態分布。
μ越大,對應的正態分布偏右。
σ越大,對應的正態分布越矮胖。
正態分布的最大似然估計值方程解讀:
方程的左側表示在給定某個測量值不變的情況下,不同μ與σ取值對應的似然值。最大似然估計法的目的就在於尋找最佳的μ和σ,求解已知數據下最有可能的正態分布。(1)單個值在正態分布的似然值計算僅有1個測量結果值為32,確定其在某種分布中的似然值。
(2)最大似然法求解正態分布的參數μ和σ1)僅有1個測量結果值為32,求出其最有可能來源的分布。。
求解最優μ:將方程的變量σ固定時,即測量結果=32和σ=2這兩個條件保持不變。
變換不同的μ值,將得到的似然估計值繪製在坐標圖上。
當μ=32時,似然估計值達峰值(上方),說明峰值對應的μ值最有可能是正態分布的位置參數。
求解最優σ:將方程中的變量μ=32固定,即測量結果=32和μ=32這兩個條件保持不變。
變換不同的σ值,將得到的似然估計值繪製在坐標圖上(右上角)。當似然估計值達峰值,說明峰值對應的σ值最有可能是正態分布的形態參數。
以上展示的是最大似然估計法求解正態分布的簡單原理:即固定σ時求解μ,接著固定μ時求解σ。
(3)多個值在正態分布中的似然值計算有3個測量值分別是30、32和34時,並假設正態分布的參數μ=28和σ=2,計算它們同時屬於該正態分布的似然值的方法同前,將三個測量值對應的似然值相乘:
假設有n個測量值,計算它們同時屬於某個正態分布的似然值的方法同前,將n個測量值對應的似然值相乘:
基於以上討論,我們知道如何計算在已知許多測量結果的條件下的似然值。接下來,我們討論如何基於數據公式,用最大似然估計法求解正態分布的位置參數(μ)和形態參數(σ)。
(4)數學推導正態分布參數因為當已知測量在某個分布的似然估計值達到峰值時,斜率=0時,該分布對應的μ和σ為求解正態分布的參數。故我們可以利用數學求導的方法分別求解μ和σ。
通過公式轉換後,最後得出基於n個測量數據的正態分布參數最有可能是:
μ=樣本均值;
σ=樣本標準差。
4.小結這一小節中,我們逐漸深入的了解最大似然值估計在求解正態分布參數中的運用,像是打開了知識世界的另外一扇大門一樣充滿新意。
參考視頻:
https://www.youtube.com/watch?v=XepXtl9YKwc&list=PLblh5JKOoLUK0FLuzwntyYI10UQFUhsY9&index=36
https://www.youtube.com/watch?v=Dn6b9fCIUpM&list=PLblh5JKOoLUK0FLuzwntyYI10UQFUhsY9&index=40
編輯:呂瓊
校審:羅鵬