前邊在文章透徹理解最大似然估計,闡述如何理解最大似然進行參數估計,本文將討論使用貝葉斯推理進行參數估計。我還將展示如何將此方法視為最大似然的概括,以及在何種情況下這兩種方法是等價的。
貝葉斯定理
在介紹貝葉斯推理之前,有必要理解貝葉斯定理。貝葉斯定理真的很酷。使它有用的是它允許我們使用我們已有的一些知識或信念(通常稱為先驗)來幫助我們計算相關事件的概率。例如,如果我們想要在炎熱和陽光明媚的日子裡找到銷售冰淇淋的概率,貝葉斯定理為我們提供了工具,可以使用先前的知識,了解在任何其他類型的一天銷售冰淇淋的可能性(下雨,颳風,雪等)。我們稍後會詳細討論這個問題,所以如果你還沒理解它,請不要擔心。
數學定義
數學貝葉斯定理定義為:
其中A和B是事件,P(A | B)是B事件在事件A已經發生時發生的條件概率(P(B | A)具有類似的含義,但A和B的作用相反)和P(A)和P(B)分別是事件A和事件B的邊際概率。
舉例
數學定義通常會覺得太抽象和可怕,所以讓我們試著通過一個例子來理解這一點。我在介紹性博客文章中給出的一個例子是從一包傳統的撲克牌中挑選一張牌。包裝中有52張卡片,其中26張為紅色,26張為黑色。如果我們知道卡片是紅色的,那麼卡片為4的概率是多少?
為了將其轉換為我們在上面看到的數學符號,我們可以說事件A是選擇的卡片是4,事件B是卡片是紅色的。因此,在我們的例子中,上式中的P(A | B)是P(4 | red),這是我們想要計算的。我們之前已經得出這個概率等於1/13(有26張紅牌,其中2張是4),但讓我們用貝葉斯定理來計算。
我們需要在等式右側找到要求的概率。他們是:
P(B | A)= P(紅色| 4)= 1/2 P(A)= P(4)= 4/52 = 1/13 P(B)= P(紅色)= 1/2當我們將這些數字代入貝葉斯定理的方程時,得到1/13,這是我們期待的答案。
貝葉斯定理如何允許我們將先驗信念納入其中?
上面我提到貝葉斯定理允許我們結合先驗信念,但很難看出它如何通過查看上面的等式來實現這一點。那麼讓我們看看我們如何使用上面的冰淇淋和天氣示例來做到這一點。
讓A代表我們出售冰淇淋的事件,B代表天氣事件。那麼考慮到天氣的類型,我們可能會問在任何一天出售冰淇淋的概率是多少?在數學上,這被寫為P(A =冰淇淋銷售| B =天氣類型),其等同於等式的左手側。
右側的P(A)是已知的先驗表達式。在我們的例子中,這是P(A =冰淇淋銷售),即出售冰淇淋的(邊際)概率,無論外面的天氣類型如何。P(A)被稱為先驗,因為我們可能已經知道出售冰淇淋的邊際概率。例如,我可以查看一些數據,該數據顯示,在某個商店的某個商店裡,有30個人實際購買了冰淇淋。所以我的P(A =冰淇淋銷售)= 30/100 = 0.3,在我了解天氣之前。這就是貝葉斯定理允許我們合併先驗信息的方法。
貝葉斯推理
定義
現在我們知道貝葉斯定理是什麼以及如何使用它,我們可以開始回答什麼是貝葉斯推理的問題?
首先,(統計)推斷是從數據中推導出關於總體或概率分布的屬性的過程。從一組觀察到的數據點,我們確定了平均值的最大似然估計值。
因此,貝葉斯推斷只是使用貝葉斯定理從數據中推導出有關種群或概率分布的屬性的過程。
用貝葉斯定理和分布
到目前為止,我上面給出的例子在貝葉斯定理方程中的每個項都使用了單個數字。這意味著我們得到的答案也是單個數字。但是,有時單個數字可能不合適。
在上面的冰淇淋例子中,我們看到出售冰淇淋的先前概率是0.3。但是,如果0.3隻是我最好的猜測,但我對這個值有點不確定。概率也可以是0.25或0.4。在這種情況下,我們先前的信念分布可能更合適(見下圖)。這種分布稱為先驗分布。
兩個個分布代表我們在任何一天銷售冰淇淋的先驗概率。藍色和金色曲線的峰值出現在0.3的值附近,正如我們上面所說的那樣,這是我們之前銷售冰淇淋概率的最佳猜測。事實上f(x)與x的其他值不為零表明我們並不完全確定0.3是賣冰淇淋的真實價值。藍色曲線顯示它可能介於0和0.5之間,而黃金曲線顯示它可能介於0和1之間。金色曲線更加分散並且峰值小於藍色曲線的事實表示由金色曲線表示的先驗概率對於真實值比藍色曲線"不太確定"。
以類似的方式,我們可以使用分布來表示貝葉斯定理中的其他項。當我們處理模型時,我們主要需要使用分布。
貝葉斯定理的模型形式
在上面的貝葉斯定理的介紹性定義中,我使用了事件A和B,但是當在文獻中陳述貝葉斯定理的模型形式時,經常使用不同的符號。我們來介紹一下吧。
代替事件A叫法,我們通常會用Θ,這個符號叫做Theta。Theta是我們感興趣的,它代表了一組參數。因此,如果我們試圖估計高斯分布的參數值,則Θ表示平均值μ和標準偏差σ(在數學上寫為Θ= {μ,σ})。
代替事件B叫法,我們用數據y ={y1,y2,...,yn}。這些代表數據,即我們擁有的觀察集。我將明確地使用等式中的數據來希望使等式變得不那麼神秘。
所以現在貝葉斯模型形式的定理寫成:
我們已經看到P(Θ)是先驗分布。它代表了我們對參數真實價值的信念,就像我們的分布代表了我們對出售冰淇淋概率的看法一樣。
左側的P( Θ|data)稱為後驗分布。這是在我們計算右側的所有內容並將觀察到的數據考慮在內之後表示我們對參數值的信念的分布。
P(data|Θ )是我們之前講到過的。如果你讀過透徹理解最大似然估計,你會記得我們說L(data;μ,σ)是似然分布(對於高斯分布)。P(data|Θ )可能性分布。有時候它寫成( Θ; data),但這裡也是一樣的。
因此,我們可以通過使用我們提供的參數的先驗信念計算出後驗分布。
這為我們提供了足夠的信息,可以使用貝葉斯推理進行參數推理的示例。但首先…
為什麼我完全無視P(daga)?
那麼,除了數據的邊緣分布之外,它實際上並沒有真正的名字,儘管它有時被稱為證據。請記住,我們只對參數值感興趣,但P(data)沒有任何參考值。事實上,P(data)甚至不評估分布。這只是一個數字。我們已經觀察了數據,因此我們可以計算P(data)。一般情況下,事實證明,計算P(data)是非常硬的和許多方法可用來計算它。有這樣幾種方法。
之所以P(data)重要,是因為出來的數字是標準化常數。概率分布的必要條件之一是事件的所有可能結果的總和等於1(例如,在6面骰子上滾動1,2,3,4,5或6的總概率是等於1)。歸一化常數通過確保分布的總和等於1,成為真正的概率分布。
在某些情況下,我們不關心分布這個屬性。我們只關心分布峰值出現的位置,無論分布是歸一化。在這種情況下,許多人將貝葉斯定理的模型形式寫為
這使得明確的是真正的後驗分布不等於右側,因為我們沒有考慮歸一化常數P(data)。
貝葉斯推理的例子
做得好到目前為止。所有這些理論都需要休息一下。但是讓我們舉一個推理可能派上用場的例子。我們將要使用的例子是計算出氫鍵的長度。你不需要知道什麼是氫鍵。我只是用這個作為一個例子。
別擔心,你不需要理解這個數字就能理解我們將要對貝葉斯推理進行的研究。
讓我們假設氫鍵介於3.2 - 4.0之間(ngstrm,,是1等於0.1納米的距離單位,所以我們談論非常微小距離)。這些信息將形成我的先驗信息。在概率分布方面,我將其重新表示為高斯分布,平均μ=3.6,標準偏差σ=0.2(見下圖)。
氫鍵長度的先驗概率
現在我們給出了一些數據(5個數據點是從平均3和標準偏差0.4的高斯分布中隨機生成的。在現實世界中,這些數據將來自科學實驗的結果)。我們可以從數據中導出似然分布,就像我們在上一篇關於最大似然的文章中所做的那樣。假設數據是從可以用高斯分布描述的過程生成的,我們得到一個由下圖中的黃金曲線表示的似然分布。請注意,5個數據點的平均值的最大似然估計值小於3(約2.8)
藍色氫鍵距離的先驗概率和來自5個金色數據點的可能性分布
現在我們有2個高斯分布,藍色代表先驗,金色代表可能性。我們不關心歸一化常數,因此我們擁有計算非標準化後驗分布所需的一切。回想一下,表示高斯概率密度的方程是
所以我們必須增加其中的2個。我不會在這裡講解數學,因為它變得非常混亂。如果您對數學感興趣,那麼您可以在的前看到它。得到的後驗分布在下圖中以粉紅色顯示。
通過乘以藍色和金色分布產生的粉紅色後驗分布
現在我們得到氫鍵長度的後驗分布,我們可以從中得出統計數據。例如,我們可以使用分布的來估計距離。或者我們可以計算方差來量化我們對結論的不確定性。從後驗分布計算的最常見的統計數據之一是模式。這通常用作感興趣參數的真實值的估計,並且被稱為最大後驗概率估計或簡稱為MAP估計。在這種情況下,後驗分布也是高斯分布,因此平均值等於模式(和中值),並且氫鍵距離的MAP估計值在約3.2的分布峰值處。
結束語
為什麼我總是使用高斯分布?
你會注意到,在我的所有涉及分布的示例中,我都使用高斯分布。其中一個主要原因是它使數學變得更容易。但是對於貝葉斯推理示例,它需要計算2個分布的乘積。我說這很亂,所以我沒有講解數學。但即使不自己做數學,我也知道後驗是高斯分布。這是因為高斯分布具有使其易於使用的特定屬性。這是結合自身相對於高斯似然函數。這意味著如果我將高斯先驗分布與高斯似然函數相乘,我將得到高斯後驗函數。後驗和先驗都來自同一分布族(它們都是高斯)的事實意味著它們被稱為共軛分布。在這種情況下,先驗分布稱為共軛先驗。
在許多推理情況下,選擇可能性和先驗,使得得到的分布是共軛的,因為它使得數學更容易。數據科學中的一個例子是,它是一種用於在幾個文本文檔中查找主題的無監督學習算法(稱為語料庫)。一個很好的介紹LDA是可以發現的埃德溫·陳的博客。
在某些情況下,我們不能以這種方式選擇先驗或可能性,以便於計算後驗分布。有時,可能性和/或先前分布看起來很可怕,並且用手計算後驗並不容易或不可能。在這些情況下,我們可以使用不同的方法來計算後驗分布。最常見的方法之一是使用一種稱為馬爾可夫鏈蒙特卡羅方法的技術。
當我們獲得新數據時會發生什麼?
貝葉斯推理的一個好處是你不需要大量的數據來使用它。觀察足以更新先前的。事實上,貝葉斯框架允許您在數據進入時實時迭代地更新您的信念。它的工作原理如下:您事先相信某事(例如參數的值),然後您會收到一些數據。你可以像我們上面那樣通過計算後驗分布來更新你的信念。之後,我們得到了更多的數據。所以我們的後驗成為新的先驗。我們可以使用從新數據中獲得的可能性來更新新的先驗,並且我們再次獲得新的後驗。這個循環可以無限期地繼續,所以你不斷更新你的信念。
卡爾曼濾波就是一個很好的例子。它被用於許多場景,但數據科學中最引人注目的可能就是用於自動駕駛。在我攻讀數學蛋白質晶體學博士期間,我使用了一種稱為Unscented卡爾曼濾波器的變體。
使用先驗作為常規者
我們在上面的氫鍵長度示例中生成的數據表明2.8是最佳估計值。但是,如果我們僅根據數據進行估算,我們可能會面臨過度擬合的風險。如果數據收集過程出現問題,這將是一個巨大的問題。我們可以使用priors在貝葉斯框架中解決這個問題。在我們的例子中,使用以3.6為中心的高斯先驗導致後驗分布,其給出了氫鍵長度的MAP估計為3.2。這表明我們的先驗可以在估計參數值時充當常規器。
可能性權重取決於兩個分布之間的相對不確定性。在下圖中,我們可以用圖形方式看到這一點。顏色與上面相同,藍色代表先驗分布,金色代表可能性和粉紅代表後驗。在圖中的左圖中,您可以看到我們的先前(藍色)比可能性(金色)的分散要小得多。因此,後驗類似於先前的可能性。右圖中的情況恰恰相反。
因此,如果我們希望增加參數的正則化,我們可以選擇縮小與可能性相關的先驗分布。
MAP估計何時等於最大似然估計?
當先前分布是均勻的時,MAP估計等於MLE。均勻分布的一個例子如下所示。
我們可以看到,均勻分布為x軸上的每個值賦予相同的權重(它是水平線)。直觀地說,它表示缺乏關於哪些值最有可能的先驗知識。在這種情況下,所有權重都被賦予似然函數,因此當我們將先驗乘以可能性時,得到的後驗與可能性完全相似。因此,最大似然法可以被視為MAP的特例。