[257]先驗概率、似然函數與後驗概率(1)

2021-01-14 scalerstalk

歡迎關注ScalersTalk。IT人,搞技術,聊英語,玩口譯,話學術,談生活。學習成長,筆耕不輟。回復m查看文章列表,或者訪問S君小站ScalersTalk.com


你現在看到的是技術系列文章,目前已經發表的文章如下,回復括號數字可閱讀。


海量數據處理系列的前兩篇:

[213]籤名:集合的歸納描述

[207]海量數據相似性檢測:文檔的抽塊處理(Shingling)


其他系列:

[152]清高與小我:談技術人員的優越感(4)

[150]清高與小我:談技術人員的優越感(3)

[149]清高與小我:談技術人員的優越感(2)

[148]清高與小我:談技術人員的優越感(1)

[112]扯點密碼學:可證明安全隨筆

[250]機器學習成長筆記(1)

[251]機器學習三要素:機器學習成長筆記(2)

[253]為什麼需要機器學習:機器學習筆記(3)

[254]有監督學習和無監督學習:機器學習筆記(4)


公式採用Latex編輯,可以在原文連結裡看到轉化後的版本。



先驗概率

Prior probability

在貝葉斯統計中,先驗概率分布,即關於某個變量$$p$$的概率分布,是在獲得某些信息或者依據前,對$$p$$的不確定性進行猜測。例如,$$p$$可以是搶火車票開始時,搶到某一車次的概率。這是對不確定性(而不是隨機性)賦予一個量化的數值的表徵,這個量化數值可以是一個參數,或者是一個潛在的變量。

先驗概率僅僅依賴於主觀上的經驗估計,也就是事先根據已有的知識的推斷,

在應用貝葉斯理論時,通常將先驗概率乘以似然函數(likelihoodfunction)再歸一化後,得到後驗概率分布,後驗概率分布即在已知給定的數據後,對不確定性的條件分布。

似然函數

似然函數(likelihood function),也稱作似然,是一個關於統計模型參數的函數。也就是這個函數中自變量是統計模型的參數。對於結果$$x$$,在參數集合$$\theta$$上的似然,就是在給定這些參數值的基礎上,觀察到的結果的概率$$\mathcal{L}(\theta|x) = P(x | \theta)$$。也就是說,似然是關於參數的函數,在參數給定的條件下,對於觀察到的$$x$$的值的條件分布。

似然函數在統計推測中發揮重要的作用,因為它是關於統計參數的函數,所以可以用來評估一組統計的參數,也就是說在一組統計方案的參數中,可以用似然函數做篩選。在非正式的語境下,「似然」會和「概率」混著用;但是嚴格區分的話,在統計上,二者是有不同。

不同就在於,觀察值$$x$$與參數$$\theta$$的不同的角色。概率是用於描述一個函數,這個函數是在給定參數值的情況下的關於觀察值的函數。例如,已知一個硬幣是均勻的(在拋落中,正反面的概率相等),那連續10次正面朝上的概率是多少?這是個概率。

而似然是用於在給定一個觀察值時,關於用於描述參數的情況。例如,如果一個硬幣在10次拋落中正面均朝上,那硬幣是均勻的(在拋落中,正反面的概率相等)概率是多少?這裡用了概率這個詞,但是實質上是「可能性」,也就是似然了。

後驗概率

Posterior probability

後驗概率是關於隨機事件或者不確定性斷言的條件概率,是在相關證據或者背景給定並納入考慮之後的條件概率。後驗概率分布就是未知量作為隨機變量的概率分布,並且是在基於實驗或者調查所獲得的信息上的條件分布。「後驗」在這裡意思是,考慮相關事件已經被檢視並且能夠得到一些信息。

後驗概率是關於參數$$\theta$$在給定的證據信息$$X$$下的概率:$$p(\theta|x)$$。

若對比後驗概率和似然函數,似然函數是在給定參數下的證據信息$$X$$的概率分布:$$p(x|\theta)$$。

二者有如下關係:

我們用$$p(\theta)$$表示概率分布函數,用$$p(x|\theta)$$表示觀測值$$x$$的似然函數。後驗概率定義如下:

\[ p(\theta|x) = \frac{p(x|\theta)p(\theta)}{p(x)}\]

鑑於分母不變,可以表達成如下正比關係:

\[\text{Posteriorprobability} \propto \text{Likelihood} \times \text{Prior probability}\]。


公式採用Latex編輯,可以在原文連結裡看到轉化後的版本。




回復「100小時」查看口譯100小時訓練計劃;回復「十萬字」查看十萬字視譯計劃。


S君的口譯100小時、十萬字視譯訓練交流QQ群,歡迎加入(群號為231441722)


S君個人微信號,ScalersTalker歡迎添加。


如果你覺得S君的文章對你有用,讓你有所思有所想有所行動,不用感謝,打賞請S君喝杯咖啡就行:P 。支付寶帳號是

scalerstalk [at] gmail [dot] com


想看更多相關文章,關注 ScalersTalk 回復任意小於標題括號中的三位數字查看。或者去我的站點 ScalersTalk.com 查看歷史文章。




相關焦點

  • 貝葉斯系統學習之一:我是如何理解先驗概率和後驗概率的
    所以關於概率與統計的學習我是覺得越來越重要了,所以我之前在公眾號裡轉發了很多關於這方面的知識,最近也想系統的學習整理一下,在正式介紹貝葉斯相關應用的之前,先從最基本的概念開始吧,本文先介紹兩個你既熟悉,但又不能完全理解明白的概念,先驗概率和後驗概率。
  • 三扇門遊戲與先驗概率、後驗概率
    在講條件概率的時候課本上提到了先驗概率與後驗概率,對於這兩個概念很多同學不理解,下面我來重點剖析一下。後驗概率則是在得到新信息後再重新加以修正的概率,後驗概率是條件概率,新得到的信息作為條件,記為P(A|新信息),其中新信息可能是新機器生產的前多少件為合格品。問題來了,先驗概率和後驗概率哪個更大呢?
  • 貝葉斯及概率統計角度
    所謂假設,當然就是不確定的(可能是有限個,也可能是無限多種),為了確定哪個假設是正確的,我們需要做兩件事情:1、算出各種不同猜測的可能性大小。2、算出最靠譜的猜測是什麼。第一個就是計算特定猜測的後驗概率(Posterior),對於連續的猜測空間則是計算猜測的概率密度函數。第二個則是所謂的模型比較,模型比較如果不考慮先驗概率(Prior)的話就是最大似然方法。
  • 科普| 貝葉斯概率模型一覽
    以頻率學派的理論來討論,如果參數只能是一個確定的值,那麼應該選取出錯概率最小的那個參數,那太陽應該是爆炸了;如果以貝葉斯學派來討論,將參數視為分布,並根據我們的經驗賦予先驗,得到的後驗認為太陽應該是沒有爆炸的,只有當探測器多次回答「yes」,後驗分布才會相信太陽爆炸了。圖 3貝葉斯學派和概率學派在小數據量的場景下的推論結果常常是有一定區別的,因此它有存在的必要。
  • 條件概率,全概率,貝葉斯公式理解
    在貝葉斯法則中,每個名詞都有約定俗成的名稱:Pr(A)是A的先驗概率或邊緣概率。之所以稱為"先驗"是因為它不考慮任何B方面的因素。Pr(A|B)是已知B發生後A的條件概率,也由於得自B的取值而被稱作A的後驗概率。Pr(B|A)是已知A發生後B的條件概率,也由於得自A的取值而被稱作B的後驗概率。
  • [PRML]線性分類模型--概率判別模型
    本文主要包含以下內容: 1 簡介2 固定基函數3 邏輯回歸4 迭代加權最小二乘5 多類邏輯回歸6 概率單位回歸7 規範的連結函數1 簡介在這種情況下,通過對後驗概率進行精確建模,然後應用標準決策理論來獲得最優解。
  • 先驗概率是怎麼來的
    可是這樣一來,某個原因i的先驗概率 P(原因 i),實際上不就變成了後驗概率 P(原因i|歷史上的觀測)了麼?那我們之前學的貝葉斯定理,還能夠針對這種情況麼?先說結論:答案是肯定的。當我們用上面的貝葉斯定理進行推理的時候,我們實際上用的是
  • 從最大似然估計開始,你需要打下的機器學習基石
    其中 P(Θ) 是先驗分布,它代表了我們相信的參數值分布,和上述例子中代表賣出冰淇淋的概率分布類似。等式左邊的 P(Θ|data) 稱為後驗分布,它代表利用觀察數據計算了等式右邊之後的參數值分布。而 P(data| Θ) 和似然度分布類似。因此我們可以使用 P(data|Θ) 更新先驗信度以計算參數的後驗分布。
  • 機器學習算法中的概率方法
    對參數 θ 進行最大後驗估計。基於訓練樣例對概率分布的參數 θ 進行最大後驗估計 (maximum a posteriori, MAP),得到需要優化的損失函數。最大後驗估計是指其在最大化時考慮如下兩項:• 參數的先驗分布 p(θ)。
  • 深度學習必懂的13種概率分布
    作為機器學習從業者,你需要知道概率分布相關的知識。這裡有一份最常見的基本概率分布教程,大多數和使用 python 庫進行深度學習有關。概率分布概述共軛意味著它有共軛分布的關係。在貝葉斯概率論中,如果後驗分布 p(θx)與先驗概率分布 p(θ)在同一概率分布族中,則先驗和後驗稱為共軛分布,先驗稱為似然函數的共軛先驗。共軛先驗維基百科在這裡。
  • 權重不確定的概率線性回歸
    對於損失函數,我們需要使用負對數似然。但是為什麼我們使用負對數似然作為損失函數呢負對數似然作為成本函數為了對一些數據擬合一個分布,我們需要使用似然函數。通過似然函數,我們在給定我們在數據中嘗試估計未知的參數(例如,正態分布數據的平均值和標準差)。在我們的概率回歸模型中,優化器的工作是找到未知參數的最大似然估計。
  • 論文推薦| 孟令奎:結合先驗概率估計的GF-3影像水體概率估計方法
    記水體像元的後向散射係數分布概率密度函數為p(σ0|W),背景像元的後向散射係數分布概率密度函數為p(σ0|W),研究區域後向散射係數邊際分布的概率密度函數為p(σ0),則理論上其概率密度函數恰好具有雙峰曲線的形式,這與實際分析得到的直方圖形態特徵一致。確定後向散射係數分布假設後,估計模型中的未知參數即可確定其統計特徵,給定的σ0即可計算其屬於水體的概率值p(W|σ0)。從上述水體概率估計的理論來看,本文方法的核心是參數估計,包括水體分布先驗概率Pprior和後向散射係數分布參數(μW, sW, μW, sW)。本文從先驗概率估計方法上著手改進。
  • 何為似然函數?
    似然和概率在統計學中是經常見到的兩個術語,有時候這兩個概念是一個意思,有時候卻有很大區別。這裡梳理下這兩個術語所代表的具體含義。      wiki中關於「似然」和「概率」的解釋     在頻率推論中,似然函數(常常簡稱為似然)是一個在給定了數據以及模型中關於參數的函數。在非正式情況下,「似然」通常被用作「概率」的同義詞。
  • 擬合目標函數後驗分布的調參利器:貝葉斯優化
    因此,貝葉斯優化利用先驗知識逼近未知目標函數的後驗分布從而調節超參數就變得十分重要了。本文簡單介紹了貝葉斯優化的基本思想和概念,更詳細的推導可查看文末提供的論文。超參數超參數是指模型在訓練過程中並不能直接從數據學到的參數。比如說隨機梯度下降算法中的學習速率,出於計算複雜度和算法效率等,我們並不能從數據中直接學習一個比較不錯的學習速度。
  • 條件概率與貝葉斯統計
    公式等號左邊的部分 P(A | B) 是後驗概率,即考慮了 B 之後的 A 的可信度。後驗概率定義為先驗概率 P(A) 與證據 B 對 A 的支持度的乘積。支持度是 A 成立的情況下 B 成立的概率與不考慮 A 時 B 成立的概率的比值,即:P(B| A)/ P(B)。
  • 從數學到實現,全面回顧高斯過程中的函數最優化
    後驗分析評估為了計算 (1) 式左邊的值,我們要先計算右邊的值。因為分母不依賴 f hat,我們只需要考慮分子中的項。這意味著分母必須是所有候選函數共有的歸一化因子。在本節中,我們先將分子兩項的估計公式寫出來,然後考慮後驗概率。
  • 深度學習需要掌握的13個概率分布
    ,是簡單概率分布。2.伯努利分布(離散)代碼:https://github.com/graykode/distribution-is-all-you-need/blob/master/bernoulli.py先驗概率