最大似然法估計正態分布參數

2021-02-15 珠江腫瘤
    剛學習完似然值和概率的聯繫與區別,今天我們深入了解似然值在統計中的重要作用。
1. 最大似然估計定義

最大似然估計(maximum likelihood)就是利用已知的樣本結果,反推最具有可能(最大概率)導致這些樣本結果出現的模型參數值。

換句話說,極大似然估計提供了一種給定觀察數據來評估模型參數的方法,即「模型已定,參數未知」。當模型滿足某個分布,它的參數值便可以通過極大似然估計法求出來,如正態分布的μ和σ,指數分布的λ等等。2. 最大似然估計的一般流程

例如我們隨機測量一些小鼠的體重(如下)。最大似然估計(maximum likelihood)的目的就是根據已知少量測量結果反推最有可能產生該數據的分布。

第一步:預判產生已知數據的可能分布類型。有許多的分布類型,包括正態分布、指數分數、gamma分布等等。通過已知的數據發現:①大部分數據靠近均值分布;②數據分分布整體呈現對稱分布,中間值多,大值和小值少。故我們可以推測該數據可能來源於正態分布。

3. 最大似然法估計正態分布參數

正態分布有2個參數:位置參數(μ)和形態參數(σ)決定正態分布

μ越大,對應的正態分布偏右。

σ越大,對應的正態分布越矮胖。

正態分布的最大似然估計值方程解讀:

方程的左側表示在給定某個測量值不變的情況下,不同μ與σ取值對應的似然值。最大似然估計法的目的就在於尋找最佳的μ和σ,求解已知數據下最有可能的正態分布。(1)單個值在正態分布的似然值計算

僅有1個測量結果值為32,確定其在某種分布中的似然值。

(2)最大似然法求解正態分布的參數μ和σ

1)僅有1個測量結果值為32,求出其最有可能來源的分布。。

求解最優μ:將方程的變量σ固定時,即測量結果=32和σ=2這兩個條件保持不變。

變換不同的μ值,將得到的似然估計值繪製在坐標圖上。

當μ=32時,似然估計值達峰值(上方),說明峰值對應的μ值最有可能是正態分布的位置參數。

求解最優σ:將方程中的變量μ=32固定,即測量結果=32和μ=32這兩個條件保持不變。

變換不同的σ值,將得到的似然估計值繪製在坐標圖上(右上角)。當似然估計值達峰值,說明峰值對應的σ值最有可能是正態分布的形態參數。


以上展示的是最大似然估計法求解正態分布的簡單原理:即固定σ時求解μ,接著固定μ時求解σ。

(3)多個值在正態分布中的似然值計算

有3個測量值分別是30、32和34時,並假設正態分布的參數μ=28和σ=2,計算它們同時屬於該正態分布的似然值的方法同前,將三個測量值對應的似然值相乘:

假設有n個測量值,計算它們同時屬於某個正態分布的似然值的方法同前,將n個測量值對應的似然值相乘:

基於以上討論,我們知道如何計算在已知許多測量結果的條件下的似然值。接下來,我們討論如何基於數據公式,用最大似然估計法求解正態分布的位置參數(μ)和形態參數(σ)。

(4)數學推導正態分布參數

因為當已知測量在某個分布的似然估計值達到峰值時,斜率=0時,該分布對應的μ和σ為求解正態分布的參數。故我們可以利用數學求導的方法分別求解μ和σ。

通過公式轉換後,最後得出基於n個測量數據的正態分布參數最有可能是:

μ=樣本均值;

σ=樣本標準差。

4.小結

    這一小節中,我們逐漸深入的了解最大似然值估計在求解正態分布參數中的運用,像是打開了知識世界的另外一扇大門一樣充滿新意。

參考視頻:

https://www.youtube.com/watch?v=XepXtl9YKwc&list=PLblh5JKOoLUK0FLuzwntyYI10UQFUhsY9&index=36

https://www.youtube.com/watch?v=Dn6b9fCIUpM&list=PLblh5JKOoLUK0FLuzwntyYI10UQFUhsY9&index=40


編輯:呂瓊

校審:羅鵬


相關焦點

  • 通俗理解系列 | 極大似然估計
    極大似然估計是一種機器學習領域的重要思想,是一種參數估計的算法。該算法理論思想意義重於實際應用。在真實的應用中,多是參考其思想進行拓展的。
  • 極大似然估計詳解
    轉化為估計參數。這裡就將概率密度估計問題轉化為參數估計問題,極大似然估計就是一種參數估計方法。當然了,概率密度函數的選取很重要,模型正確,在樣本區域無窮時,我們會得到較準確的估計值,如果模型都錯了,那估計半天的參數,肯定也沒啥意義了。
  • 一文通俗解釋極大似然估計
    其中每個模型都包含自身的一組特定參數,而這組參數決定著模型的本身。但這裡存在一個很關鍵的一個問題,就是我們如何去找到一組參數使得模型能夠最好的去擬合現有數據集呢? 針對上述問題, 極大似然估計為我們提供了一種很好的解決思路,本文將給大家解釋極大似然估計的原理和分析步驟。
  • 獨家 | 一文讀懂最大似然估計(附R代碼)
    背後可能有多種原因,找出可能性最大的原因便是最大似然估計的意義所在。這一概念常被用於經濟學、MRIs、衛星成像等領域。 為解決這一逆向問題,我們通過逆轉f(x=θ)中數據向量x和(分布)參數向量θ來定義似然函數,即:L(θ;x) = f(x| θ)在MLE中,可以假定我們有一個似然函數L(θ;x),其中θ是分布參數向量,x是觀測集。我們感興趣的是尋找具有給定觀測值(x值)的最大可能性的θ值。
  • 零基礎概率論入門:最大似然估計
    回憶一下,高斯分布有兩個參數,均值μ和標註差σ。這些參數的不同值將造就不同的曲線(和前文的直線一樣)。我們想知道哪條曲線最可能生成了我們觀測到的數據點?(見下圖)。最大似然估計是一個尋找擬合數據的最佳曲線的參數μ、σ的值的方法。
  • 什麼是極大似然估計?
    ,或者最大似然估計,它是一種參數估計方法。所以,極大似然估計的直譯就是:最有可能看起來像的,就是這樣的。就是說,以最大概率為標準來判斷結果,即叫做極大似然估計。 既然是求最大值,而上式可導,我們便可對上式進行求導並令其等於0,3p^2 - 4p + 1 = 0。
  • 從最大似然估計開始,你需要打下的機器學習基石
    而這些討論或多或少都離不開最大似然估計,因為它是參數估計的基礎之一,也是構建模型的基石。在本文中,我們從最大似然估計到貝葉斯推理詳細地討論了機器學習的概率論基石,並希望能為讀者的預習與複習提供優秀的參考資源。什麼是參數?
  • 提前一年的押題——最大似然估計
    今天要給大家講的,是統計學中的一個核心理念,也是考研數學中的一個核心考點,核心到,我起了個驚悚的標題「提前一年的押題——最大似然估計」,因為自09年起,09、11、12、13、14、15、17、18、19、20年考試中,均出現了本考點,就在試卷第23題,想必倒過來說大家更容易印象深刻,除了10年和16年,年年都考了。
  • 一文讀懂矩估計、極大似然估計和貝葉斯估計
    數理統計最常見的問題包括參數估計,假設檢驗和回歸分析。所謂參數估計,就是已知隨機變量服從某個分布規律,但是概率分布函數的有些參數未知,那麼可以通過隨機變量的採樣樣本來估計相應參數。參數估計最主要的方法包括矩估計法,極大似然估計法,以及貝葉斯估計法。機器學習中常常使用的是極大似然估計法和貝葉斯估計法。
  • 詳解最大似然估計(MLE)、最大後驗概率估計(MAP),以及貝葉斯公式的理解
    最大似然估計(Maximum likelihood estimation, 簡稱MLE)和最大後驗概率估計(Maximum a posteriori
  • 參數估計(一):點估計
    所謂點估計,就是用一個參數點θhat來估計另外一個未知參數θ。它區別於區間估計。它主要有矩估計法、極大似然估計法和貝葉斯法。A. 矩估計法(K·皮爾遜)這個方法的思想非常簡單,在任意一本概率論與數理統計課本中都能找到其表述。思想是用樣本矩(sample moments)來估計總體矩。
  • 從最大似然到EM算法淺解
    在學校那麼男生中,我一抽就抽到這100個男生(表示身高),而不是其他人,那是不是表示在整個學校中,這100個人(的身高)出現的概率最大啊。那麼這個概率怎麼表示?哦,就是上面那個似然函數L(θ)。所以,我們就只需要找到一個參數θ,其對應的似然函數L(θ)最大,也就是說抽到這100個男生(的身高)概率最大。這個叫做θ的最大似然估計量,記為:
  • 參數估計之點估計和區間估計
    點估計問題就是要構造一個只依賴於樣本的量,作為未知參數或未知參數的函數的估計值。構造點估計常用的方法是:①矩估計法,用樣本矩估計總體矩②最大似然估計法。利用樣本分布密度構造似然函數來求出參數的最大似然估計。③最小二乘法。主要用於線性統計模型中的參數估計問題。
  • 最小二乘法原理(中):似然函數求權重參數
    上式的意思是 m 個樣本的誤差分布的概率乘積,這就是概率似然函數。提到似然函數,那不得不提最大似然函數估計吧,為什麼呢?,它能使得事件儘可能地逼近樣本值,這就是最大似然估計。似然估計本質本質便是根據已有的大量樣本(實際上就是利用已知的條件)來推斷事件本身的一些屬性參數的方法,最大估計更是最能反映這些出現的樣本的,所以這個參數值也是最可靠和讓人信任的,得到這個參數值後,等來了一個新樣本 X(i+1) 後,我們可以預測它的標籤值。
  • 最大似然估計是個什麼鬼?
    這貌似是同語反覆,實際是最大似然估計的邏輯基礎。時間是單向的,現實一旦發生,便不可逆轉。究竟是哪些系統因素與偶然因素一起共同導致了現實的發生,我們永遠不可能確切知道。天衣無縫的衣服合身度最高,每個部分都與身體零距離,總距離也是零。最大似然估計的目標不是找到絕對完美的模型,而是找到能找到的最合身的模型。 零假設是新型的,檢驗零假設的指標也是新型的,是個近似卡方值的統計值,名字很怪,叫做「似然性自然對數的負二倍」(-2 loglikehood),我們可以把它簡稱為「負二倍」。
  • 【機器學習基本理論】詳解最大似然估計(MLE)、最大後驗概率估計(MAP),以及貝葉斯公式的理解
    最大似然估計(Maximum likelihood estimation, 簡稱MLE)和最大後驗概率估計(Maximum a posteriori estimation, 簡稱MAP)是很常用的兩種參數估計方法,如果不理解這兩種方法的思路,很容易弄混它們。下文將詳細說明MLE和MAP的思路與區別。先講解MLE的相應知識。
  • R語言:Newton法、似然函數
    hello,大家好,上一篇分享了如何用R語言實現蒙特卡洛模擬,並用蒙特卡洛模擬計算了分布的均值和方差,今天給大家分享如何用R語言來進行矩估計和似然函數的求解。因為在求解矩估計和似然函數時,可能會遇到非線性方程組,所以先給大家介紹一下如何用Newton法來求解非線性方程組。
  • 霸王柘科普 極大似然估計法(MLE)和似然值(Likelihood)
    函數極大值(最大值)的求解法:偏微分(導數)。二項分布的定義和概率計算式。  【極大似然估計法】 簡單來說,極大似然估計法的目的可以理解為「估計概率函數模型中的參數」。因此,概率(Probability)和極大似然估計(Maximum Likelihood Estimation, MLE)在定義和過程上恰恰互為對立面:概率是用已知的概率模型參數來求算目標事件發生的可能性,而極大似然估計則是用已觀察到的事件的概率反過來推測概率模型中的參數。
  • 似然比檢驗 - CSDN
    關於似然函數,可以參考: 似然與極大似然估計似然函數及最大似然估計及似然比檢驗 似然比檢驗LRT的應用廣泛,包括:均值(包括均值向量)的比較、重複度量具體來講,是說相對於簡單模型,複雜模型僅僅是多了一個或者多個附加參數。增加模型參數必定會導致高似然值成績。因此根據似然值的高低來判斷模型的適合度是不準確的。LRT提供了一個客觀的標準來選擇合適的模型。LRT檢驗的公式: LR = 2*(InL1- InL2)其中L1為複雜模型最大似然值,L2為簡單標準模型最大似然值LR近似的符合卡方分布。
  • 參數估計-矩估計
    矩估計法是參數估計中點估計的兩種方法之一,另外一種參數的點估計是極大似然估計。矩估計就是用樣本的矩去估計總體的矩,即用樣本一階原點矩去估計總體的一階原點矩,用樣本的二階原點矩去估計總體的二階原點矩。必須要注意的是,用來進行矩估計的是原點矩不是中心距。