透徹理解貝葉斯推理

2021-01-11 AI火箭營

前邊在文章透徹理解最大似然估計,闡述如何理解最大似然進行參數估計,本文將討論使用貝葉斯推理進行參數估計。我還將展示如何將此方法視為最大似然的概括,以及在何種情況下這兩種方法是等價的。

貝葉斯定理

在介紹貝葉斯推理之前,有必要理解貝葉斯定理。貝葉斯定理真的很酷。使它有用的是它允許我們使用我們已有的一些知識或信念(通常稱為先驗)來幫助我們計算相關事件的概率。例如,如果我們想要在炎熱和陽光明媚的日子裡找到銷售冰淇淋的概率,貝葉斯定理為我們提供了工具,可以使用先前的知識,了解在任何其他類型的一天銷售冰淇淋的可能性(下雨,颳風,雪等)。我們稍後會詳細討論這個問題,所以如果你還沒理解它,請不要擔心。

數學定義

數學貝葉斯定理定義為:

其中A和B是事件,P(A | B)是B事件在事件A已經發生時發生的條件概率(P(B | A)具有類似的含義,但A和B的作用相反)和P(A)和P(B)分別是事件A和事件B的邊際概率。

舉例

數學定義通常會覺得太抽象和可怕,所以讓我們試著通過一個例子來理解這一點。我在介紹性博客文章中給出的一個例子是從一包傳統的撲克牌中挑選一張牌。包裝中有52張卡片,其中26張為紅色,26張為黑色。如果我們知道卡片是紅色的,那麼卡片為4的概率是多少?

為了將其轉換為我們在上面看到的數學符號,我們可以說事件A是選擇的卡片是4,事件B是卡片是紅色的。因此,在我們的例子中,上式中的P(A | B)是P(4 | red),這是我們想要計算的。我們之前已經得出這個概率等於1/13(有26張紅牌,其中2張是4),但讓我們用貝葉斯定理來計算。

我們需要在等式右側找到要求的概率。他們是:

P(B | A)= P(紅色| 4)= 1/2 P(A)= P(4)= 4/52 = 1/13 P(B)= P(紅色)= 1/2當我們將這些數字代入貝葉斯定理的方程時,得到1/13,這是我們期待的答案。

貝葉斯定理如何允許我們將先驗信念納入其中?

上面我提到貝葉斯定理允許我們結合先驗信念,但很難看出它如何通過查看上面的等式來實現這一點。那麼讓我們看看我們如何使用上面的冰淇淋和天氣示例來做到這一點。

讓A代表我們出售冰淇淋的事件,B代表天氣事件。那麼考慮到天氣的類型,我們可能會問在任何一天出售冰淇淋的概率是多少?在數學上,這被寫為P(A =冰淇淋銷售| B =天氣類型),其等同於等式的左手側。

右側的P(A)是已知的先驗表達式。在我們的例子中,這是P(A =冰淇淋銷售),即出售冰淇淋的(邊際)概率,無論外面的天氣類型如何。P(A)被稱為先驗,因為我們可能已經知道出售冰淇淋的邊際概率。例如,我可以查看一些數據,該數據顯示,在某個商店的某個商店裡,有30個人實際購買了冰淇淋。所以我的P(A =冰淇淋銷售)= 30/100 = 0.3,在我了解天氣之前。這就是貝葉斯定理允許我們合併先驗信息的方法。

貝葉斯推理

定義

現在我們知道貝葉斯定理是什麼以及如何使用它,我們可以開始回答什麼是貝葉斯推理的問題?

首先,(統計)推斷是從數據中推導出關於總體或概率分布的屬性的過程。從一組觀察到的數據點,我們確定了平均值的最大似然估計值。

因此,貝葉斯推斷只是使用貝葉斯定理從數據中推導出有關種群或概率分布的屬性的過程。

用貝葉斯定理和分布

到目前為止,我上面給出的例子在貝葉斯定理方程中的每個項都使用了單個數字。這意味著我們得到的答案也是單個數字。但是,有時單個數字可能不合適。

在上面的冰淇淋例子中,我們看到出售冰淇淋的先前概率是0.3。但是,如果0.3隻是我最好的猜測,但我對這個值有點不確定。概率也可以是0.25或0.4。在這種情況下,我們先前的信念分布可能更合適(見下圖)。這種分布稱為先驗分布。

兩個個分布代表我們在任何一天銷售冰淇淋的先驗概率。藍色和金色曲線的峰值出現在0.3的值附近,正如我們上面所說的那樣,這是我們之前銷售冰淇淋概率的最佳猜測。事實上f(x)與x的其他值不為零表明我們並不完全確定0.3是賣冰淇淋的真實價值。藍色曲線顯示它可能介於0和0.5之間,而黃金曲線顯示它可能介於0和1之間。金色曲線更加分散並且峰值小於藍色曲線的事實表示由金色曲線表示的先驗概率對於真實值比藍色曲線"不太確定"。

以類似的方式,我們可以使用分布來表示貝葉斯定理中的其他項。當我們處理模型時,我們主要需要使用分布。

貝葉斯定理的模型形式

在上面的貝葉斯定理的介紹性定義中,我使用了事件A和B,但是當在文獻中陳述貝葉斯定理的模型形式時,經常使用不同的符號。我們來介紹一下吧。

代替事件A叫法,我們通常會用Θ,這個符號叫做Theta。Theta是我們感興趣的,它代表了一組參數。因此,如果我們試圖估計高斯分布的參數值,則Θ表示平均值μ和標準偏差σ(在數學上寫為Θ= {μ,σ})。

代替事件B叫法,我們用數據y ={y1,y2,...,yn}。這些代表數據,即我們擁有的觀察集。我將明確地使用等式中的數據來希望使等式變得不那麼神秘。

所以現在貝葉斯模型形式的定理寫成:

我們已經看到P(Θ)是先驗分布。它代表了我們對參數真實價值的信念,就像我們的分布代表了我們對出售冰淇淋概率的看法一樣。

左側的P( Θ|data)稱為後驗分布。這是在我們計算右側的所有內容並將觀察到的數據考慮在內之後表示我們對參數值的信念的分布。

P(data|Θ )是我們之前講到過的。如果你讀過透徹理解最大似然估計,你會記得我們說L(data;μ,σ)是似然分布(對於高斯分布)。P(data|Θ )可能性分布。有時候它寫成( Θ; data),但這裡也是一樣的。

因此,我們可以通過使用我們提供的參數的先驗信念計算出後驗分布。

這為我們提供了足夠的信息,可以使用貝葉斯推理進行參數推理的示例。但首先…

為什麼我完全無視P(daga)?

那麼,除了數據的邊緣分布之外,它實際上並沒有真正的名字,儘管它有時被稱為證據。請記住,我們只對參數值感興趣,但P(data)沒有任何參考值。事實上,P(data)甚至不評估分布。這只是一個數字。我們已經觀察了數據,因此我們可以計算P(data)。一般情況下,事實證明,計算P(data)是非常硬的和許多方法可用來計算它。有這樣幾種方法。

之所以P(data)重要,是因為出來的數字是標準化常數。概率分布的必要條件之一是事件的所有可能結果的總和等於1(例如,在6面骰子上滾動1,2,3,4,5或6的總概率是等於1)。歸一化常數通過確保分布的總和等於1,成為真正的概率分布。

在某些情況下,我們不關心分布這個屬性。我們只關心分布峰值出現的位置,無論分布是歸一化。在這種情況下,許多人將貝葉斯定理的模型形式寫為

這使得明確的是真正的後驗分布不等於右側,因為我們沒有考慮歸一化常數P(data)。

貝葉斯推理的例子

做得好到目前為止。所有這些理論都需要休息一下。但是讓我們舉一個推理可能派上用場的例子。我們將要使用的例子是計算出氫鍵的長度。你不需要知道什麼是氫鍵。我只是用這個作為一個例子。

別擔心,你不需要理解這個數字就能理解我們將要對貝葉斯推理進行的研究。

讓我們假設氫鍵介於3.2 - 4.0之間(ngstrm,,是1等於0.1納米的距離單位,所以我們談論非常微小距離)。這些信息將形成我的先驗信息。在概率分布方面,我將其重新表示為高斯分布,平均μ=3.6,標準偏差σ=0.2(見下圖)。

氫鍵長度的先驗概率

現在我們給出了一些數據(5個數據點是從平均3和標準偏差0.4的高斯分布中隨機生成的。在現實世界中,這些數據將來自科學實驗的結果)。我們可以從數據中導出似然分布,就像我們在上一篇關於最大似然的文章中所做的那樣。假設數據是從可以用高斯分布描述的過程生成的,我們得到一個由下圖中的黃金曲線表示的似然分布。請注意,5個數據點的平均值的最大似然估計值小於3(約2.8)

藍色氫鍵距離的先驗概率和來自5個金色數據點的可能性分布

現在我們有2個高斯分布,藍色代表先驗,金色代表可能性。我們不關心歸一化常數,因此我們擁有計算非標準化後驗分布所需的一切。回想一下,表示高斯概率密度的方程是

所以我們必須增加其中的2個。我不會在這裡講解數學,因為它變得非常混亂。如果您對數學感興趣,那麼您可以在的前看到它。得到的後驗分布在下圖中以粉紅色顯示。

通過乘以藍色和金色分布產生的粉紅色後驗分布

現在我們得到氫鍵長度的後驗分布,我們可以從中得出統計數據。例如,我們可以使用分布的來估計距離。或者我們可以計算方差來量化我們對結論的不確定性。從後驗分布計算的最常見的統計數據之一是模式。這通常用作感興趣參數的真實值的估計,並且被稱為最大後驗概率估計或簡稱為MAP估計。在這種情況下,後驗分布也是高斯分布,因此平均值等於模式(和中值),並且氫鍵距離的MAP估計值在約3.2的分布峰值處。

結束語

為什麼我總是使用高斯分布?

你會注意到,在我的所有涉及分布的示例中,我都使用高斯分布。其中一個主要原因是它使數學變得更容易。但是對於貝葉斯推理示例,它需要計算2個分布的乘積。我說這很亂,所以我沒有講解數學。但即使不自己做數學,我也知道後驗是高斯分布。這是因為高斯分布具有使其易於使用的特定屬性。這是結合自身相對於高斯似然函數。這意味著如果我將高斯先驗分布與高斯似然函數相乘,我將得到高斯後驗函數。後驗和先驗都來自同一分布族(它們都是高斯)的事實意味著它們被稱為共軛分布。在這種情況下,先驗分布稱為共軛先驗。

在許多推理情況下,選擇可能性和先驗,使得得到的分布是共軛的,因為它使得數學更容易。數據科學中的一個例子是,它是一種用於在幾個文本文檔中查找主題的無監督學習算法(稱為語料庫)。一個很好的介紹LDA是可以發現的埃德溫·陳的博客。

在某些情況下,我們不能以這種方式選擇先驗或可能性,以便於計算後驗分布。有時,可能性和/或先前分布看起來很可怕,並且用手計算後驗並不容易或不可能。在這些情況下,我們可以使用不同的方法來計算後驗分布。最常見的方法之一是使用一種稱為馬爾可夫鏈蒙特卡羅方法的技術。

當我們獲得新數據時會發生什麼?

貝葉斯推理的一個好處是你不需要大量的數據來使用它。觀察足以更新先前的。事實上,貝葉斯框架允許您在數據進入時實時迭代地更新您的信念。它的工作原理如下:您事先相信某事(例如參數的值),然後您會收到一些數據。你可以像我們上面那樣通過計算後驗分布來更新你的信念。之後,我們得到了更多的數據。所以我們的後驗成為新的先驗。我們可以使用從新數據中獲得的可能性來更新新的先驗,並且我們再次獲得新的後驗。這個循環可以無限期地繼續,所以你不斷更新你的信念。

卡爾曼濾波就是一個很好的例子。它被用於許多場景,但數據科學中最引人注目的可能就是用於自動駕駛。在我攻讀數學蛋白質晶體學博士期間,我使用了一種稱為Unscented卡爾曼濾波器的變體。

使用先驗作為常規者

我們在上面的氫鍵長度示例中生成的數據表明2.8是最佳估計值。但是,如果我們僅根據數據進行估算,我們可能會面臨過度擬合的風險。如果數據收集過程出現問題,這將是一個巨大的問題。我們可以使用priors在貝葉斯框架中解決這個問題。在我們的例子中,使用以3.6為中心的高斯先驗導致後驗分布,其給出了氫鍵長度的MAP估計為3.2。這表明我們的先驗可以在估計參數值時充當常規器。

可能性權重取決於兩個分布之間的相對不確定性。在下圖中,我們可以用圖形方式看到這一點。顏色與上面相同,藍色代表先驗分布,金色代表可能性和粉紅代表後驗。在圖中的左圖中,您可以看到我們的先前(藍色)比可能性(金色)的分散要小得多。因此,後驗類似於先前的可能性。右圖中的情況恰恰相反。

因此,如果我們希望增加參數的正則化,我們可以選擇縮小與可能性相關的先驗分布。

MAP估計何時等於最大似然估計?

當先前分布是均勻的時,MAP估計等於MLE。均勻分布的一個例子如下所示。

我們可以看到,均勻分布為x軸上的每個值賦予相同的權重(它是水平線)。直觀地說,它表示缺乏關於哪些值最有可能的先驗知識。在這種情況下,所有權重都被賦予似然函數,因此當我們將先驗乘以可能性時,得到的後驗與可能性完全相似。因此,最大似然法可以被視為MAP的特例。

相關焦點

  • 一文讀懂貝葉斯推理問題:MCMC方法和變分推斷
    注意,以a(∞)為標記的小節數學專業性非常強,跳過也不會影響對本文的整體理解。還要注意,本文中的p(.)可以用來表示概率、概率密度或概率分布,具體含義取決於上下文。貝葉斯推理問題這一部分提出了貝葉斯推理問題,討論了一些計算困難,並給出了LDA算法的例子。
  • 形象理解貝葉斯定理
    理解概率概念對於機器學習工程師或數據科學專業人員來說是必須的。許多數據科學挑戰性問題的解決方案本質上是從概率視角解決的。因此,更好地理解概率將有助於更有效地理解和實現這些算法。每當你閱讀任何概率書、博客或論文時,大多數時候你會發現這些書中的講解太過理論化。據研究,65%的人是視覺學習者。
  • 概率論|貝葉斯公式及其推論的理解和運用
    貝葉斯公式的得來在需要計算事件A在事件B下的條件概率時,可以計算P(A|B)=P(AB)/P(B),又因為條件概率公式P(AB)= P(B|A)*P(A),所以可得P(A|B)= P(B|A)*P(A)/P(B)。
  • 貝葉斯和貝葉斯公式
    貝葉斯在數學方面主要研究概率論。他首先將歸納推理法用於概率論基礎理論,並創立了貝葉斯統計理論,對於統計決策函數、統計推斷、統計的估算等做出了貢獻。貝葉斯的另一著作《機會的學說概論》發表於1758年。貝葉斯所採用的許多術語被沿用至今。貝葉斯思想和方法對概率統計的發展產生了深遠的影響。今天,貝葉斯思想和方法在許多領域都獲得了廣泛的應用。從二十世紀20~30年代開始,概率統計學出現了「頻率學派」和「貝葉斯學派」的爭論,至今,兩派的恩恩怨怨仍在繼續。貝葉斯決策理論是主觀貝葉斯派歸納理論的重要組成部分。
  • 懂貝葉斯定理,學會理解生活
    我們在理解生活中一些問題時,經常會忘記一些事情的先決條件。除此之外,在更多的情況下,我們甚至根本不知道這些先決條件(信息),這不光會影響我們對事物的理解,還會影響我們做出任何決定。此時,你一定在想有沒有什麼方法,能讓我們更好地「摸著石頭過河」?沒錯,答案就是題目中的貝葉斯定理。高中的讀者在概率的部分應該會學習到它。
  • 傳說中的貝葉斯統計到底有什麼來頭?
    頻率統計有關頻率統計和貝葉斯統計的爭論以及持續了好幾個世紀,因此對於初學者來說理解這兩者的區別,以及如何劃分這兩者十分重要。它是統計領域中應用最為廣泛的推理技術。事實上,它是初學者進入統計學世界中的第一所學校。頻率統計檢測一個事件(或者假設)是否發生,它通過長時間的試驗計算某個事件發生的可能性(試驗是在同等條件下進行的)。
  • 30分鐘了解貝葉斯定理――AI產品經理了解的數學知識系列
    貝葉斯定理提供的是一種逆條件概率的方法,本文簡單總結了貝葉斯定理是什麼,貝葉斯定理應用的理解,以及貝葉斯定理在AI場景下的應用,目的是希望產品經理了解到這個定理的能力後,在設計相關推薦或是具有推理功能的應用場景,能通過貝葉斯定理來解決。
  • 貝葉斯定理的通俗理解
    樸素貝葉斯是一種基於貝葉斯定理的簡單概率分類器(分類又被稱為監督式學習,所謂監督式學習即從已知樣本數據中的特徵信息去推測可能出現的輸出以完成分類
  • 貝葉斯牧師和福爾摩斯先生
    福爾摩斯通過一系列的演繹推理將複雜的案子一個個成功破案,助手也是經常被他弄得一頭霧水。在大量的案例裡,福爾摩斯擅長的本領是歸納,能從許多證據推出假設。「你排除了所有的不可能,剩下的證據無論多麼不可思議,都一定是真相。」 這是福爾摩斯的名言。
  • 條件概率,全概率,貝葉斯公式理解
    貝葉斯理論和貝葉斯概率以託馬斯·貝葉斯(1702-1761)命名,他證明了現在稱為貝葉斯定理的一個特例。術語貝葉斯卻是在1950年左右開始使用,很難說貝葉斯本人是否會支持這個以他命名的概率非常廣義的解釋。拉普拉斯證明了貝葉斯定理的一個更普遍的版本,並將之用於解決天體力學、醫學統計中的問題,在有些情況下,甚至用於法理學。但是拉普拉斯並不認為該定理對於概率論很重要。
  • 閃著藍光的貝葉斯,到底有多神奇?
    採用統計最優的方法,基於最新信息更新內部模型的概率分布,這就是貝葉斯推理(Bayesian Inference)。我們通常可以在行為實驗中,或關聯各個感官輸入時,觀察到大腦的這種推理。比如,研究表明,在巴甫洛夫的相關刺激實驗中,不同刺激之間的互信息是最優的。
  • 貝葉斯機器學習到底是什麼?看完這篇你就懂了
    作者Zygmunt Zając提供了一些基礎概念,編者也嘗試對其中的一些概念進行簡化說明,讓小白們也能容易地理解貝葉斯在機器學習中所起的作用。貝葉斯學派與頻率主義學派簡單說來,貝葉斯學派認為,概率是一個人對於一件事的信念強度,概率是主觀的。但頻率主義學派所持的是不同的觀念:他們認為參數是客觀存在的, 即使是未知的,但都是固定值,不會改變。
  • 清華大學計算機科學與技術系朱軍教授:機器學習裡的貝葉斯基本理論...
    這是在這種不確定性或者概率推理裡邊要解決的主要目標。近似貝葉斯推理我用一頁PPT簡單給大家介紹了一下。因為積分非常難算,所以通常情況下會用一些近似,尤其是在機器學習裡面,大家用的貝葉斯方法通常是一個近似的貝葉斯推理。
  • 貝葉斯神經網絡毫無意義嗎?Twitter、Reddit雙戰場辯論,火藥味十足!
    還有一點是計算問題也不容忽視,實際上如何對貝葉斯推理q(F|D)進行計算可能是貝葉斯神經網絡(具有先驗泛化不可知)能夠有合理效果的關鍵因素。3、理性批判BNNsCarles和Buckman也在博客中表示上面的理由有猜測的成分,因為無法得知何種因素決定神經網絡泛化能力,所以定義執行貝葉斯推理的先驗具有不確定性。貝葉斯神經網絡只是一個神經網絡,先驗只是裡面的一個超參數。
  • 深度學習貝葉斯,這是一份密集的6天速成課程(視頻與PPT)
    選自GitHubBayesian Methods Research Group機器之心整理在 Deep|Bayes 夏季課程中,授課人將討論貝葉斯方法如何結合深度學習,並在機器學習應用中實現更好的結果。近期研究表明貝葉斯方法的利用可以帶來許多好處。學生將學到對理解當前機器學習研究非常重要的方法和技術。
  • 專欄| 貝葉斯學習與未來人工智慧
    果然,在第四季第 2 集中我們看到了下圖中的公式(用紅框標出)——貝葉斯定理!該定理素以其簡單而優雅的形式、深刻而雋永的意義而聞名,在今天的機器學習大潮中,貝葉斯定理仍會扮演重要的角色,而且其作用將日益凸顯。1. 貝葉斯定理貝葉斯定理是英國數學家貝葉斯提出的,當時的目標是要解決所謂「逆概率」問題。
  • 貝葉斯及概率統計角度
    小孩理解一個詞義的例子考慮一個小孩子理解「狗」這個詞的意義。假設當小孩的父母指著一個動物對他說,「這是一隻狗」,這是給出了概念的正例。而當小孩子看到一隻貓時說,「這是一隻狗」時,他父母會糾正他說,「這是一隻貓,不是一隻狗」,這是在主動學習過程中給出負例的情形。心理研究表明,人在學習概念時往往只是來源於正例數據。
  • 模式識別與機器學習(教學大綱)|向量|貝葉斯|算法|神經網絡_網易訂閱
    首先介紹貝葉斯學習基礎、邏輯回歸、概率圖模型基礎、隱馬爾可夫模型和條件隨機場,接著介紹支持向量機、人工神經網絡與深度學習、高斯過程、聚類、主成分分析與相關的譜方法,最後介紹確定性近似推理、隨機近似推理和強化學習。附錄包括傳統的模式識別與機器學習方法,即近鄰法和決策樹,還有向量微積分和隨機變量的變換等與本學科強相關的重要知識點。
  • 兩個小例子來理解貝葉斯公式
    關於貝葉斯公式,已經回爐學習過很多次了,但是感覺還是理解的不夠深入,最近又重溫了下,發現和工作生活還是很普遍的,可以不斷的培養這種思維模式。我做了如下的兩個例子來理解貝葉斯公式。這個公式看起來比較有逼格。
  • 科普| 貝葉斯概率模型一覽
    貝葉斯概率模型的誕生所有概率模型描述的都是在系統參數 w 下觀測變量對 X,Y 的聯合概率分布或條件概率分布,即 P(Y,X|w) 。設計好概率模型後,剩下的問題就是如何通過大量的觀測數據來決定參數 w, 這時出現了貝葉斯理論。