概率論之概念解析:極大似然估計

2021-03-02 專知

【導讀】本文是數據科學家Jonny Brooks-Bartlett概率論基礎概念系列博客中的「極大似然估計」一章,主要講解了極大似然估計的若干概念。分別介紹了參數、直觀理解極大似然估計、極大似然估計計算方法、極大似然估計與最小二乘法的區別、極大似然與極大概率的區別,作者層層遞進、由淺及深地帶我們揭開極大似然估計的神秘面紗,如果你對其概念和算法仍然有所迷惑,那麼這篇文章或將給你帶來更深的理解。專知內容組編輯整理。

Probability concepts explained: Maximum likelihood estimation


簡介

這次我將介紹參數估計的極大似然法,並且使用一個簡單的例子來解釋這一方法。某些內容需要一些基礎的概率概念,例如聯合概率和事件獨立的定義。我已經寫了有關這些預備知識的博客,https://medium.com/@jonnybrooks04/probability-concepts-explained-introduction-a7c0316de465,如果你覺得需要補習的話可以先閱讀一下。

什麼是參數?

 

通常在機器學習中,我們使用一個模型來描述我們看到的數據。例如,我可能用一個隨機森林模型來分析用戶是否可能取消服務的訂閱(被稱作客戶流失模型churn modelling),或者使用一個線性模型,根據公司在廣告上的花費來預測他們的收益(這將是線性回歸的一個例子)。每個模型都有自己的一組參數,最終決定了模型的質量。

 

對於線性模型,可以寫成。在這個例子中,x可以代表廣告花費,y可以代表產生的收益,m和c是模型的參數,這些參數不同的取值會得到不同的線(看下面這幅圖)。

 

所以,參數決定了模型的形狀。只有當我們選擇了一個具體的參數值後,才得到了一個描述給定現象的實例化模型。

 

極大似然估計的直觀解釋

極大似然估計是估計模型參數的一種方法。通過最大化模型得到最終的參數值。

 

上面的定義看起來有些晦澀,所以我們用一個例子來輔助理解。

 

假設我們有10個觀測數據點,例如,每個數據點可以表示時間的長度,代表某個學生解答某個具體的考試題所消耗的時間(ms)。這10個數據點可以用下圖來表示:

 

我們首先必須明確採用什麼模型能很好地描述這些數據,這是非常重要的。起碼我們得對使用什麼模型有一個好想法,這一想法經常來源於某些領域的專業知識,不過我們不在這裡討論。

 

對於這些數據,我們假設可以用一個高斯(正態)分布來描述。看看上面這個圖感覺高斯分布似乎很合理,因為10個點中很多都聚集在中間,少部分點散布在左右(對10個數據點做這種草率的決定是不推薦的,不過這些數據是我生成的,所以我們就暫且按照高斯分布來講解)。

 

高斯分布具有兩個參數:均值和標準差σ。不同的參數取值會導致不同的曲線。我們想知道什麼曲線最有可能生成我們看到的這些數據點(看下面的圖)?極大似然估計是尋找最匹配曲線的均值和方差的一個方法。

這10個數據點和可能服從的高斯分布,f1均值為10,方差為2.25,也可以標記為,極大似然方法的目標是找到一組參數值,最大化生成這些數據點的概率。

 

我們生成數據點的真實分布為,就是上圖的藍色曲線。

 

計算極大似然估計

現在我們對什麼是極大似然估計有了直觀的理解,然後繼續學習怎樣計算這些參數值。我們得到的這些值被稱為極大似然估計(MLE)。

 

我們將再一次用一個例子進行演示。假設這次我們有三個數據點,並且可以用高斯分布來進行描述。這些點是9,9.5和11,我們該怎麼計算高斯分布的均值和方差σ這些參數值的極大似然估計呢?

 

我們想要計算的是看到所有這些數據的總概率,例如所有觀測到的數據點的聯合分布。為了做到這一點,我們需要計算條件概率,但這一點可能很難做到。因此我們在這裡做了第一個假設:這個假設是每個生成的數據獨立,這一假設讓數學計算大大簡化。如果這些事件(i.e.生成這些數據的過程)是獨立的,此時觀測到所有這些數據的總概率等於獨立觀測到每個數據點的概率之積(i.e.邊際分布的乘積)。

 

觀測到用高斯分布生成的某個單獨數據點x的邊際概率,可以由下式得到:

 

中間的分號是用來強調標記後面的是概率分布的參數,從而不會與條件分布混淆(條件分布通常中間是條豎線

 

觀測到這三個數據點的總概率(聯合概率)為

我們現在只需要弄清楚什麼均值和方差σ的值可以得到給定表達式的最大值。

 

如果你在數學課上學過微積分,那麼你很可能意識到有一種方法可以幫助我們得到函數的最大值點(或最小值點)。這種方法叫微分。我們現在要做的只是得到函數的導數,讓導函數為0然後解方程,求解感興趣的參數。現在我們就得到了參數的MLE值。假設讀者都知道怎麼使用微分求解函數,所以我只是簡要講解這些步驟,如果你想要更詳細的解釋可以在評論區告訴我。

 

對數似然

上面的總概率表達式求導起來很麻煩,所以總是對概率公式進行求對數,以簡化求解,因為自然對數是單調遞增函數。這意味著當x的值增大y的值也會增大(見下圖)。這很重要,因為這保證了概率函數的對數的最大值點和原始概率函數的最大值點是同一個點。因此我們可以使用簡單的對數似然而不是原始似然。

函數的單調性,左邊是y=x,右邊是自然對數y=ln(x),這些函數都是單調的,因為隨著x增加y都在增大。

一個非單調函數的例子,當x從左到右,y的值先增大後減小再增大

 

對原始表達式取對數,得到:

使用對數計算法則,這個表達式可以簡化為:

 

這個函數可以求導得到最大值,在這個例子中我們將得到均值的MLE,對均值求偏導得到:

 

令左邊為0,重排表達式得到

 

於是我們就得到了的極大似然估計。我們可以對σ做同樣的操作,但是我會把這個留作熱心讀者的作業。

 

結束語

答案很簡單,不是!在現實世界的場景中,對數似然函數的導數很可能是難以分析的(例如函數的導數不能求解)。因此迭代方法如EM算法(Expectation-Maximization)用來求解模型的參數。總的想法還是一樣的。

 

其實,大部分人想要讓概率和似然可以互相替換,但是統計學家和概率理論家硬把兩者區分開來,區分的理由是。

其實這兩個表達也是等價的!所以這意味著什麼呢?首先,表示使用均值為和方差為σ的模型觀測到這些數據的概率。我們可以把這個概念推廣到任何模型上。另一方面,意味著:給定我們觀測到的值,參數和σ的得到特定的似然。

 

這個等式意味著,給定參數得到觀測數據的概率等價於給定觀測數據得到參數的似然。儘管這兩個式子是等價的,但是似然和概率從基礎上來講是不同的問題——一個問的是數據,另一個問的是參數值。這也是為什麼我們的方法叫極大似然而不是極大概率。

 

最小二乘法是機器學習中另一個估計模型的參數值的常用方法。和上面的例子一樣,當模型假設是高斯的,極大似然估計和最小二乘法等價。數學求導過程可以看這個幻燈片:

https://web.archive.org/web/20111202153913/http://www.cs.cmu.edu/~epxing/Class/10701/recitation/recitation3.pdf

 

我們可以通過理解兩個方法的目標來解釋他們。對最小二乘估計,我們想要找到一條線,來最小化全部數據點和回歸線的平方距離(可以看下面的圖)。對於極大似然估計,我們想要最大化數據的總概率。當假設為高斯分布時,數據點離均值近的時候得到最大概率。由於高斯分布是對稱的,這等價於最小化數據點和均值之間的距離。

 

 

如果你對本文有任何不清楚的地方,或者我上面的內容有什麼錯誤,可以留下你的評論。在下一個帖子我準備講述貝葉斯推斷以及它是怎樣被用來參數估計的。

 

感謝您的閱讀。

原文連結:

https://towardsdatascience.com/probability-concepts-explained-maximum-likelihood-estimation-c7b4342fdbb1

Jonny Brooks-Bartlett是知名的數據科學家、演說家;數學家,主頁:

https://towardsdatascience.com/@jonnybrooks04?source=post_header_lockup



相關焦點

  • 2021考研概率論與數理統計衝刺:參數估計考試要求
    概率論與數理統計是考研數學中尤其重要的一門,在這個階段大家一定不要放鬆,持續備戰方可戰勝困難,下面中公考研小編為大家整理概率論與數理統計相關內容,希望對各位考生有所幫助。參數估計考試要求1.理解參數的點估計、估計量與估計值的概念。
  • 參數估計之點估計和區間估計
    點估計問題就是要構造一個只依賴於樣本的量,作為未知參數或未知參數的函數的估計值。構造點估計常用的方法是:①矩估計法,用樣本矩估計總體矩②最大似然估計法。利用樣本分布密度構造似然函數來求出參數的最大似然估計。③最小二乘法。主要用於線性統計模型中的參數估計問題。
  • 概率論與數理統計之事件與概率
    隨機現象的存在,使得我們生活中充滿了不確定性的問題,因此,概率論和統計學就是幫我們解決不確定性問題的數學工具。在上面中,我們了解到了隨機現象可能出現的結果不止一個,這些結果我們就稱之為隨機事件,因此,可以進一步理解概率論研究的問題:概率論是用數學的方法估算隨機現象中各隨機事件發生的概率。那麼什麼是概率呢?我們用什麼來估算概率呢?
  • 參數估計-矩估計
    在說明什麼是矩估計法之前先引進「矩」的概念。在數學和統計學中,矩(moment)是對變量分布和形態特點的一組度量。在統計學中,總體特徵數除了平均數、方差等,還有就是原點矩與中心距,稱其為總體中心距與總體原點矩。在樣本特徵數中也有原點矩與中心距,稱其為樣本原點矩與樣本中心距。
  • 半個月學完概率論與數理統計(第四章),大數定律與中心極限定理
    今天我們接著學習概率論與數理統計,第四章大數定律與中心極限定理。先說重點,好像平時考試、考研數學裡這一章不是重點。①理解三種大數定律,努利大數定律、切比雪夫大數定律、辛欽大數定律。目錄(參見茆詩松版概率論)(一)隨機變量序列的兩種收斂性(二)特徵函數(三)大數定律(
  • 「高數+線代+概率論」考前急救包!幫助你不掛科~
    在大學裡,《高等數學》、《線性代數》、《概率論與數理統計》這三門學科是大多數同學的必修課。總有同學抱怨高數好難、學不會,概率論好複雜,怕考試掛科,給我們後臺留言尋求不掛科的方法。我懂你們的,想當年,高數也是我的夢魘,但所幸沒掛科。那麼我這個上課不認真聽講的人,是如何做到不掛科的呢?
  • 概率論在日常生活中的應用
    概率論在日常生活中的應用概率論是一門與現實生活緊密相連的學科,不過大多數人對這門學科的理解還是很平凡的:投一枚硬幣,0.5的概率正面朝上,0.5的概率反面朝上,這就是概率論嘛。學過概率論的人多以為這門課較為理論化,特別是像大數定律,極限定理等內容與現實脫節很大,專業性很強。其實如果我們用概率論的方法對日常生活中的一些看起來比較平凡的內容做些分析,常常會得到深刻的結果。在自然界和現實生活中,一些事物都是相互聯繫和不斷發展的。
  • FGO復仇之魔女再臨 黑貞德限時概率UP
    導 讀 FGO復仇之魔女再臨 黑貞德限時概率UP,由bilibili獨家代理的Fate系列首款正版手遊FGO於11月17日(周五)維護後開啟了貞德[Alter]的限時召喚。同時,還有特別登錄獎勵、限時AP減半...
  • 坤鵬論:概率讓真理成為真理,也讓真理不是真理
    ——坤鵬論前段時間坤鵬論寫麥克盧漢的系列文章時,看到他的《理解媒介》中有這樣一句話:「羅素說,20世紀的偉大發明,是懸置的技巧。」懸置是什麼?為何讓羅素給出了如此之高的評價?坤鵬論漸漸明白了,如果將自我主觀與自然客觀混在一起,無論多麼抽象、多麼概括,都會因為有著千人一面的主觀「攪合」,客觀便不可能是純粹的客觀,也就永遠無法得到真相。可以說,有多少個人就有多少個主觀世界,世間最難之事就是讓人走出他的主觀世界。
  • 本體論(二)| 核心概念
    本體論的發生淵源與印歐語系的語言有著密切的關係,如果沒有「是」,恐怕也沒有本體論。一切東西,都可以用「X是什麼」這樣的句式去追問,一切「XX」都可以稱之為所是,所是或者說在者,就成為泛指一切的概念。天下之交,天下之牝。牝常以靜勝牡,以靜為下。---牝字,代表的是女性生殖器,他代指男女交合之時,女性處下,守靜的姿態,但是能夠控制男性,用來代指道和德的特性。可是同時代的巴門尼德,他的思想和老子很像,但是他的描述竟然是,存在者存在,這樣一個純粹邏輯的話,可見兩個民族的思維之差異。
  • WWW 2020:百度入選論文解析,涵蓋信息抽取、對抗生成等領域
    論文4:Estimate the Implicit Likelihood of Gas with Application to Anomaly Detection本篇論文提出了一種計算對抗生成網絡(GAN)隱含似然值(implicit likelihood value)的方法,並應用於異常檢測。
  • 複雜度閾值與概率論中「漏洞」
    現實的生命系統恰恰就是超越了這個閾值,才能在浩瀚的分子混沌之海中發現概率論的漏洞,並用它來繁衍自身。這就是馮·諾依曼早在60多年前頓悟到的複雜之道。馮·諾依曼的手稿《自複製自動機理論》,由人工智慧先驅 Arthur Burks 整理成書。集智俱樂部資深粉絲「東方和尚」將全書第一部分翻譯成中文,張江做了詳細點評。
  • 半個月學完概率論與數理統計 (第1章)
    大家好,接下來大概花費半個月時間,我們一起來過一遍《概率論與數理統計》茆詩松版。今天學習的是第一章 隨機事件與概率。做到了解概率論的定義、性質及條件概率(考試重點內容)。幾何概率重點在用幾何圖案描述事件。主要應用有會面問題,蒲豐投針問題。(簡單的問題就這樣直接帶過了)概率的性質中主要關注的是有限可加性和半可加性。條件概率條件概率是概率,因為滿足三條公理。