極大似然估計詳解

2021-03-02 校苑數模
極大似然估計

貝葉斯決策

        首先來看貝葉斯分類,我們都知道經典的貝葉斯公式:

        其中:p(w):為先驗概率,表示每種類別分布的概率,P(X|W):類條件概率,表示在某種類別前提下,某事發生的概率;而P(W|X)為後驗概率,表示某事發生了,並且它屬於某一類別的概率,有了這個後驗概率,我們就可以對樣本進行分類。後驗概率越大,說明某事物屬於這個類別的可能性越大,我們越有理由把它歸到這個類別下。

        我們來看一個直觀的例子:已知:在夏季,某公園男性穿涼鞋的概率為1/2,女性穿涼鞋的概率為2/3,並且該公園中男女比例通常為2:1,問題:若你在公園中隨機遇到一個穿涼鞋的人,請問他的性別為男性或女性的概率分別為多少?

        從問題看,就是上面講的,某事發生了,它屬於某一類別的概率是多少?即後驗概率。

        設:

        由已知可得:

        男性和女性穿涼鞋相互獨立,所以

(若只考慮分類問題,只需要比較後驗概率的大小,的取值並不重要)。

        由貝葉斯公式算出:

問題引出

        但是在實際問題中並不都是這樣幸運的,我們能獲得的數據可能只有有限數目的樣本數據,而先驗概率和類條件概率(各類的總體分布)都是未知的。根據僅有的樣本數據進行分類時,一種可行的辦法是我們需要先對先驗概率和類條件概率進行估計,然後再套用貝葉斯分類器。

        先驗概率的估計較簡單,1、每個樣本所屬的自然狀態都是已知的(有監督學習);2、依靠經驗;3、用訓練樣本中各類出現的頻率估計。

        類條件概率的估計(非常難),原因包括:概率密度函數包含了一個隨機變量的全部信息;樣本數據可能不多;特徵向量x的維度可能很大等等。總之要直接估計類條件概率的密度函數很難。解決的辦法就是,把估計完全未知的概率密度轉化為估計參數。這裡就將概率密度估計問題轉化為參數估計問題,極大似然估計就是一種參數估計方法。當然了,概率密度函數的選取很重要,模型正確,在樣本區域無窮時,我們會得到較準確的估計值,如果模型都錯了,那估計半天的參數,肯定也沒啥意義了。

重要前提

        上面說到,參數估計問題只是實際問題求解過程中的一種簡化方法(由於直接估計類條件概率密度函數很困難)。所以能夠使用極大似然估計方法的樣本必須需要滿足一些前提假設。

        重要前提:訓練樣本的分布能代表樣本的真實分布。每個樣本集中的樣本都是所謂獨立同分布的隨機變量 (iid條件),且有充分的訓練樣本。

極大似然估計

        極大似然估計的原理,用一張圖片來說明,如下圖所示:

        總結起來,最大似然估計的目的就是:利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的參數值。

        原理:極大似然估計是建立在極大似然原理的基礎上的一個統計方法,是概率論在統計學中的應用。極大似然估計提供了一種給定觀察數據來評估模型參數的方法,即:「模型已定,參數未知」。通過若干次試驗,觀察其結果,利用試驗結果得到某個參數值能夠使樣本出現的概率為最大,則稱為極大似然估計。

        由於樣本集中的樣本都是獨立同分布,可以只考慮一類樣本集D,來估計參數向量θ。記已知的樣本集為:

        似然函數(linkehood function):聯合概率密度函數

稱為相對於的θ的似然函數。

        如果是參數空間中能使似然函數最大的θ值,則應該是「最可能」的參數值,那麼就是θ的極大似然估計量。它是樣本集的函數,記作:

求解極大似然函數

        ML估計:求使得出現該組樣本的概率最大的θ值。

         實際中為了便於分析,定義了對數似然函數:

        1. 未知參數只有一個(θ為標量)

        在似然函數滿足連續、可微的正則條件下,極大似然估計量是下面微分方程的解:

        2.未知參數有多個(θ為向量)

        則θ可表示為具有S個分量的未知向量:

         記梯度算子:

         若似然函數滿足連續可導的條件,則最大似然估計量就是如下方程的解。

         方程的解只是一個估計值,只有在樣本數趨於無限多的時候,它才會接近於真實值。

極大似然估計的例子

        例1:設樣本服從正態分布,則似然函數為:

        它的對數:

        求導,得方程組:

        聯合解得:

        似然方程有唯一解:,而且它一定是最大值點,這是因為當時,非負函數。於是U和的極大似然估計為

        例2:設樣本服從均勻分布[a, b]。則X的概率密度函數:

        對樣本

        很顯然,L(a,b)作為a和b的二元函數是不連續的,這時不能用導數來求解。而必須從極大似然估計的定義出發,求L(a,b)的最大值,為使L(a,b)達到最大,b-a應該儘可能地小,但b又不能小於,否則,L(a,b)=0。類似地a不能大過,因此,a和b的極大似然估計:

總結

        求最大似然估計量的一般步驟:

        (1)寫出似然函數;

        (2)對似然函數取對數,並整理;

        (3)求導數;

        (4)解似然方程。

        最大似然估計的特點:

        1.比其他估計方法更加簡單;

        2.收斂性:無偏或者漸近無偏,當樣本數目增加時,收斂性質會更好;

        3.如果假設的類條件概率模型正確,則通常能獲得較好的結果。但如果假設模型出現偏差,將導致非常差的估計結果。

用python實現簡單的極大似然估計,正正態分布為例:

代碼:

import numpy as np

import matplotlib.pyplot as plt

fig = plt.figure()

mu = 30  # mean of distribution

sigma = 2  # standard deviation of distribution

x = mu + sigma * np.random.randn(10000)

def mle(x):

    """

    極大似然估計

    :param x:

    :return:

    """

    u = np.mean(x)

    return u, np.sqrt(np.dot(x - u, (x - u).T) / x.shape[0])

print(mle(x))

num_bins = 100

plt.hist(x, num_bins)

plt.show()

相關焦點

  • 什麼是極大似然估計?
    ,或者最大似然估計,它是一種參數估計方法。在機器學習中,邏輯回歸就是基於極大似然估計來計算的損失函數。那麼,如何直觀理解極大似然估計?極大似然估計(maximum likelihood estimation,MLE),顧名思義,「極大」意為「最有可能的」,「似然」意為「看起來像的」,「估計」的意思則可以理解為「就是這樣的」。
  • 一文通俗解釋極大似然估計
    針對上述問題, 極大似然估計為我們提供了一種很好的解決思路,本文將給大家解釋極大似然估計的原理和分析步驟。,而極大似然估計可以通過觀察當前數據來估計模型的最佳參數,換句話也就是說在所有的模型參數 現實生活中也經常用到極大似然估計,在這裡跟大家分享一下小編的一段親身經歷:在天氣晴朗的某一天,身為大好青年的小編早早的去了圖書館學習。
  • 一文讀懂矩估計、極大似然估計和貝葉斯估計
    參數估計最主要的方法包括矩估計法,極大似然估計法,以及貝葉斯估計法。機器學習中常常使用的是極大似然估計法和貝葉斯估計法。極大似然估計法簡稱MLE(Maximum Likelihood Estimation).
  • 通俗理解系列 | 極大似然估計
    極大似然估計是一種機器學習領域的重要思想,是一種參數估計的算法。該算法理論思想意義重於實際應用。在真實的應用中,多是參考其思想進行拓展的。
  • 極大似然估計法的理解指南
    今天講一個在機器學習中重要的方法——極大似然估計。這是一個,能夠讓你擁有擬合最大盈利函數模型的估計方法。
  • 霸王柘科普 極大似然估計法(MLE)和似然值(Likelihood)
    所以在本節,我努力用最樸實的語言,最簡單的案例,來給讀者初步地講解極大似然估計法和似然值這兩個概念。  【極大似然估計法】 簡單來說,極大似然估計法的目的可以理解為「估計概率函數模型中的參數」。因此,概率(Probability)和極大似然估計(Maximum Likelihood Estimation, MLE)在定義和過程上恰恰互為對立面:概率是用已知的概率模型參數來求算目標事件發生的可能性,而極大似然估計則是用已觀察到的事件的概率反過來推測概率模型中的參數。
  • 最大似然法估計正態分布參數
    最大似然估計定義最大似然估計(maximum likelihood)就是利用已知的樣本結果,反推最具有可能(最大概率)導致這些樣本結果出現的模型參數值。換句話說,極大似然估計提供了一種給定觀察數據來評估模型參數的方法,即「模型已定,參數未知」。
  • 北大經院工作坊第186場 | 遞歸擴散模型的近似半參數極大似然估計...
    北大經院工作坊第186場 | 遞歸擴散模型的近似半參數極大似然估計(計量、金融和大數據分析工作坊) 2020-12-17 20:00 來源:澎湃新聞·澎湃號·政務
  • 夢裡也能見到她,你大概是喜歡這個姑娘:從貝葉斯到極大似然估計
    「最像」就是「極大似然」的意思。這就暗含了極大似然估計估計的思想:已經發生的事情,就是最可能會發生的。嚴格的說,極大似然估計的目的是:利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的參數值。看完這個例子,大家對貝葉斯公式的理解有沒有更加具體呢?來道習題檢驗一下吧。這是IFoA2016年4月的第四道真題,也是2017年慕再精算競賽裡的題源之一。
  • 提前一年的押題——最大似然估計
    今天要給大家講的,是統計學中的一個核心理念,也是考研數學中的一個核心考點,核心到,我起了個驚悚的標題「提前一年的押題——最大似然估計」,因為自09年起,09、11、12、13、14、15、17、18、19、20年考試中,均出現了本考點,就在試卷第23題,想必倒過來說大家更容易印象深刻,除了10年和16年,年年都考了。
  • 詳解最大似然估計(MLE)、最大後驗概率估計(MAP),以及貝葉斯公式的理解
    最大似然估計(Maximum likelihood estimation, 簡稱MLE)和最大後驗概率估計(Maximum a posteriori
  • 零基礎概率論入門:最大似然估計
    最大似然估計是一個決定模型參數值的方法。參數值的選定最大化模型描述的過程的結果與數據實際觀測所得的似然。以上的定義可能仍然比較晦澀,所以讓我們通過一個例子來理解這一概念。假定我們從某一過程中觀測到了10個數據點。例如,每個數據點可能表示一個學生回答一道考題的時長。
  • 最大似然估計是個什麼鬼?
    這貌似是同語反覆,實際是最大似然估計的邏輯基礎。時間是單向的,現實一旦發生,便不可逆轉。究竟是哪些系統因素與偶然因素一起共同導致了現實的發生,我們永遠不可能確切知道。最大似然估計的目標不是找到絕對完美的模型,而是找到能找到的最合身的模型。 零假設是新型的,檢驗零假設的指標也是新型的,是個近似卡方值的統計值,名字很怪,叫做「似然性自然對數的負二倍」(-2 loglikehood),我們可以把它簡稱為「負二倍」。
  • 從最大似然估計開始,你需要打下的機器學習基石
    而這些討論或多或少都離不開最大似然估計,因為它是參數估計的基礎之一,也是構建模型的基石。在本文中,我們從最大似然估計到貝葉斯推理詳細地討論了機器學習的概率論基石,並希望能為讀者的預習與複習提供優秀的參考資源。什麼是參數?
  • 【機器學習基本理論】詳解最大似然估計(MLE)、最大後驗概率估計(MAP),以及貝葉斯公式的理解
    最大似然估計(Maximum likelihood estimation, 簡稱MLE)和最大後驗概率估計(Maximum a posteriori estimation, 簡稱MAP)是很常用的兩種參數估計方法,如果不理解這兩種方法的思路,很容易弄混它們。下文將詳細說明MLE和MAP的思路與區別。先講解MLE的相應知識。
  • 似然比檢驗 - CSDN
    似然比檢驗的思想是:「如果參數約束是有效的,那麼加上這樣的約束不應該引起似然函數最大值的大幅度降低。也就是說似然比檢驗的實質是在比較有約束條件下的似然函數最大值與無約束條件下似然函數最大值。」 可以看出,似然比檢驗是一種通用的檢驗方法(比
  • 獨家 | 一文讀懂最大似然估計(附R代碼)
    背後可能有多種原因,找出可能性最大的原因便是最大似然估計的意義所在。這一概念常被用於經濟學、MRIs、衛星成像等領域。 如果我們使用了不同的分布,又將如何來估計係數?這便是最大似然估計(MLE)的主要優勢。舉一個例子來加深對MLE的理解在研究統計和概率時,你肯定遇到過諸如x>100的概率,因為x服從正態分布,平均值為50,標準差為10。
  • 參數估計(一):點估計
    所謂點估計,就是用一個參數點θhat來估計另外一個未知參數θ。它區別於區間估計。它主要有矩估計法、極大似然估計法和貝葉斯法。A. 矩估計法(K·皮爾遜)這個方法的思想非常簡單,在任意一本概率論與數理統計課本中都能找到其表述。思想是用樣本矩(sample moments)來估計總體矩。
  • EM算法詳解
    預備知識    3.1 極大似然估計    3.2 Jensen不等式4. EM算法詳解    4.1 問題描述    4.2 EM算法推導流程    4.3 EM算法流程5. EM算法若干思考    5.1 對EM算法的初始化研究    5.2 EM算法是否一定收斂?
  • 從最大似然到EM算法淺解
    這個函數放映的是在不同的參數θ取值下,取得當前這個樣本集的可能性,因此稱為參數θ相對於樣本集X的似然函數(likehood function)。記為L(θ)。這裡出現了一個概念,似然函數。還記得我們的目標嗎?我們需要在已經抽到這一組樣本X的條件下,估計參數θ的值。怎麼估計呢?似然函數有啥用呢?那咱們先來了解下似然的概念。