[257]先驗概率、似然函數與後驗概率(1)

2021-02-20 持續力

歡迎關注ScalersTalk。IT人,搞技術,聊英語,玩口譯,話學術,談生活。學習成長,筆耕不輟。回復m查看文章列表,或者訪問S君小站ScalersTalk.com

你現在看到的是技術系列文章,目前已經發表的文章如下,回復括號數字可閱讀。

海量數據處理系列的前兩篇:

[213]籤名:集合的歸納描述

[207]海量數據相似性檢測:文檔的抽塊處理(Shingling)

其他系列:

[152]清高與小我:談技術人員的優越感(4)

[150]清高與小我:談技術人員的優越感(3)

[149]清高與小我:談技術人員的優越感(2)

[148]清高與小我:談技術人員的優越感(1)

[112]扯點密碼學:可證明安全隨筆

[250]機器學習成長筆記(1)

[251]機器學習三要素:機器學習成長筆記(2)

[253]為什麼需要機器學習:機器學習筆記(3)

[254]有監督學習和無監督學習:機器學習筆記(4)

公式採用Latex編輯,可以在原文連結裡看到轉化後的版本。

先驗概率

Prior probability

在貝葉斯統計中,先驗概率分布,即關於某個變量$$p$$的概率分布,是在獲得某些信息或者依據前,對$$p$$的不確定性進行猜測。例如,$$p$$可以是搶火車票開始時,搶到某一車次的概率。這是對不確定性(而不是隨機性)賦予一個量化的數值的表徵,這個量化數值可以是一個參數,或者是一個潛在的變量。

先驗概率僅僅依賴於主觀上的經驗估計,也就是事先根據已有的知識的推斷,

在應用貝葉斯理論時,通常將先驗概率乘以似然函數(likelihoodfunction)再歸一化後,得到後驗概率分布,後驗概率分布即在已知給定的數據後,對不確定性的條件分布。

似然函數

似然函數(likelihood function),也稱作似然,是一個關於統計模型參數的函數。也就是這個函數中自變量是統計模型的參數。對於結果$$x$$,在參數集合$$\theta$$上的似然,就是在給定這些參數值的基礎上,觀察到的結果的概率$$\mathcal{L}(\theta|x) = P(x | \theta)$$。也就是說,似然是關於參數的函數,在參數給定的條件下,對於觀察到的$$x$$的值的條件分布。

似然函數在統計推測中發揮重要的作用,因為它是關於統計參數的函數,所以可以用來評估一組統計的參數,也就是說在一組統計方案的參數中,可以用似然函數做篩選。在非正式的語境下,「似然」會和「概率」混著用;但是嚴格區分的話,在統計上,二者是有不同。

不同就在於,觀察值$$x$$與參數$$\theta$$的不同的角色。概率是用於描述一個函數,這個函數是在給定參數值的情況下的關於觀察值的函數。例如,已知一個硬幣是均勻的(在拋落中,正反面的概率相等),那連續10次正面朝上的概率是多少?這是個概率。

而似然是用於在給定一個觀察值時,關於用於描述參數的情況。例如,如果一個硬幣在10次拋落中正面均朝上,那硬幣是均勻的(在拋落中,正反面的概率相等)概率是多少?這裡用了概率這個詞,但是實質上是「可能性」,也就是似然了。

後驗概率

Posterior probability

後驗概率是關於隨機事件或者不確定性斷言的條件概率,是在相關證據或者背景給定並納入考慮之後的條件概率。後驗概率分布就是未知量作為隨機變量的概率分布,並且是在基於實驗或者調查所獲得的信息上的條件分布。「後驗」在這裡意思是,考慮相關事件已經被檢視並且能夠得到一些信息。

後驗概率是關於參數$$\theta$$在給定的證據信息$$X$$下的概率:$$p(\theta|x)$$。

若對比後驗概率和似然函數,似然函數是在給定參數下的證據信息$$X$$的概率分布:$$p(x|\theta)$$。

二者有如下關係:

我們用$$p(\theta)$$表示概率分布函數,用$$p(x|\theta)$$表示觀測值$$x$$的似然函數。後驗概率定義如下:

\[ p(\theta|x) = \frac{p(x|\theta)p(\theta)}{p(x)}\]

鑑於分母不變,可以表達成如下正比關係:

\[\text{Posteriorprobability} \propto \text{Likelihood} \times \text{Prior probability}\]。

公式採用Latex編輯,可以在原文連結裡看到轉化後的版本。




回復「100小時」查看口譯100小時訓練計劃;回復「十萬字」查看十萬字視譯計劃。

S君的口譯100小時、十萬字視譯訓練交流QQ群,歡迎加入(群號為231441722)

S君個人微信號,ScalersTalker歡迎添加。

如果你覺得S君的文章對你有用,讓你有所思有所想有所行動,不用感謝,打賞請S君喝杯咖啡就行:P 。支付寶帳號是

scalerstalk [at] gmail [dot] com

想看更多相關文章,關注 ScalersTalk 回復任意小於標題括號中的三位數字查看。或者去我的站點 ScalersTalk.com 查看歷史文章。



相關焦點

  • 貝葉斯系統學習之一:我是如何理解先驗概率和後驗概率的
    所以關於概率與統計的學習我是覺得越來越重要了,所以我之前在公眾號裡轉發了很多關於這方面的知識,最近也想系統的學習整理一下,在正式介紹貝葉斯相關應用的之前,先從最基本的概念開始吧,本文先介紹兩個你既熟悉,但又不能完全理解明白的概念,先驗概率和後驗概率。
  • 詳解最大似然估計(MLE)、最大後驗概率估計(MAP),以及貝葉斯公式的理解
    觀察【式2】右邊的分子,P(B|A)為汽車被砸後響警報的概率。姑且仍為這是1吧。但是,若P(A)很小,即汽車被砸的概率本身就很小,則P(B|A)P(A)仍然很小,即【式2】右邊分子仍然很小,P(A|B) 還是大不起來。 這裡,P(A)即是常說的先驗概率,如果A的先驗概率很小,就算P(B|A)較大,可能A的後驗概率P(A|B)還是不會大(假設P(B|∼A)P(∼A)不變的情況下)。
  • 貝葉斯分析助你成為優秀的調參俠:先驗和似然對後驗的影響
    這一節以一個具體的例子介紹先驗和似然對後驗的影響。學習內容舉例:扔硬幣實驗扔硬幣實驗的先驗扔硬幣實驗的似然函數與後驗分布先驗與測量如何影響後驗分布使用 MCMC 算法從後驗分布抽樣在先驗概率未知時,可以用 Beta 分布函數來表示。忽略歸一化常數,
  • 三扇門遊戲與先驗概率、後驗概率
    在講條件概率的時候課本上提到了先驗概率與後驗概率,對於這兩個概念很多同學不理解,下面我來重點剖析一下。後驗概率則是在得到新信息後再重新加以修正的概率,後驗概率是條件概率,新得到的信息作為條件,記為P(A|新信息),其中新信息可能是新機器生產的前多少件為合格品。問題來了,先驗概率和後驗概率哪個更大呢?
  • 【機器學習基本理論】詳解最大似然估計(MLE)、最大後驗概率估計(MAP),以及貝葉斯公式的理解
    最大似然估計(Maximum likelihood estimation, 簡稱MLE)和最大後驗概率估計(Maximum a posteriori estimation, 簡稱MAP)是很常用的兩種參數估計方法,如果不理解這兩種方法的思路,很容易弄混它們。下文將詳細說明MLE和MAP的思路與區別。先講解MLE的相應知識。
  • 貝葉斯及概率統計角度
    所謂假設,當然就是不確定的(可能是有限個,也可能是無限多種),為了確定哪個假設是正確的,我們需要做兩件事情:1、算出各種不同猜測的可能性大小。2、算出最靠譜的猜測是什麼。第一個就是計算特定猜測的後驗概率(Posterior),對於連續的猜測空間則是計算猜測的概率密度函數。第二個則是所謂的模型比較,模型比較如果不考慮先驗概率(Prior)的話就是最大似然方法。
  • 科普| 貝葉斯概率模型一覽
    以頻率學派的理論來討論,如果參數只能是一個確定的值,那麼應該選取出錯概率最小的那個參數,那太陽應該是爆炸了;如果以貝葉斯學派來討論,將參數視為分布,並根據我們的經驗賦予先驗,得到的後驗認為太陽應該是沒有爆炸的,只有當探測器多次回答「yes」,後驗分布才會相信太陽爆炸了。
  • 極大似然估計詳解
    其中:p(w):為先驗概率,表示每種類別分布的概率,P(X|W):類條件概率,表示在某種類別前提下,某事發生的概率;而P(W|X)為後驗概率,表示某事發生了,並且它屬於某一類別的概率,有了這個後驗概率,我們就可以對樣本進行分類。
  • [PRML]線性分類模型--概率判別模型
    本文主要包含以下內容: 1 簡介2 固定基函數3 邏輯回歸4 迭代加權最小二乘5 多類邏輯回歸6 概率單位回歸7 規範的連結函數1 簡介在這種情況下,通過對後驗概率進行精確建模,然後應用標準決策理論來獲得最優解。
  • 從最大似然估計開始,你需要打下的機器學習基石
    而 P(data) 的真正重要性在於它是一個歸一化常數,它確保了計算得到的後驗分布的總和等於 1。對於高斯似然函數來說,高斯分布與它自己共軛,因此如果我把一個高斯似然函數乘以一個高斯先驗分布,我將得到一個高斯後驗函數。事實是後驗和先驗都來自相同的分布族(均為高斯),這意味著它們可被稱為共軛分布。在這種情況下,先驗分布被稱為共軛先驗。
  • 一文讀懂矩估計、極大似然估計和貝葉斯估計
    極大似然估計法先代入參數值計算觀測樣本發生的概率,得到似然函數,然後對似然函數求極大值,得到對應的參數,即為極大似然估計參數。可以認為極大似然估計是貝葉斯估計不考慮先驗概率的特例。在概率論中有兩大學派,頻率學派和貝葉斯學派。
  • 機器學習算法中的概率方法
    對參數 θ 進行最大後驗估計。基於訓練樣例對概率分布的參數 θ 進行最大後驗估計 (maximum a posteriori, MAP),得到需要優化的損失函數。最大後驗估計是指• 基於觀測數據得到的似然 (likelihood) p(D | θ)。最大化似然是在 θ 的所有可能的取值中,找到一個能使樣本屬於其真實標記的概率最大的值。最大後驗估計是在考慮先驗分布 p(θ) 時最大化基於觀測數據得到的似然 (likelihood) p(D | θ)。參數估計的兩個不同學派的基本觀點是什麼?
  • 深度學習必須掌握的 13 種概率分布
    在貝葉斯概率論中,如果後驗分布 p(θx)與先驗概率分布 p(θ)在同一概率分布族中,則先驗和後驗稱為共軛分布,先驗稱為似然函數的共軛先驗。共軛先驗維基百科在這裡(https://en.wikipedia.org/wiki/Conjugate_prior)。
  • 深度學習必懂的13種概率分布
    在貝葉斯概率論中,如果後驗分布 p(θx)與先驗概率分布 p(θ)在同一概率分布族中,則先驗和後驗稱為共軛分布,先驗稱為似然函數的共軛先驗。共軛先驗維基百科在這裡。多分類表示隨機方差大於 2。n 次意味著我們也考慮了先驗概率 p(x)。為了進一步了解概率,我建議閱讀 [pattern recognition and machine learning,Bishop 2006]。
  • 貝葉斯、概率分布與機器學習
    我們往往不用知道P(h|D)的具體的值,而是知道例如P(h1|D),P(h2|D)值的大小關係就是了。這個公式就是機器學習中的貝葉斯公 式,一般來說我們稱P(h|D)為模型的後驗概率,就是從數據來得到假設的概率,P(h)稱為先驗概率,就是假設空間裡面的概率,P(D|h)是模型的 likelihood概率。
  • 權重不確定的概率線性回歸
    對於損失函數,我們需要使用負對數似然。但是為什麼我們使用負對數似然作為損失函數呢負對數似然作為成本函數為了對一些數據擬合一個分布,我們需要使用似然函數。通過似然函數,我們在給定我們在數據中嘗試估計未知的參數(例如,正態分布數據的平均值和標準差)。
  • 零基礎概率論入門:最大似然估計
    對數似然實際上,對上面的全概率表達式求導很麻煩。所以我們基本上總是通過取自然對數對其加以簡化。由於自然對數是單調遞增函數,所以這麼做絕對沒問題。單調遞增函數意味著隨著x軸的值增加,y軸的值也同樣增加(見下圖)。這很重要,因為這確保了當概率的對數達到最大值時,原概率函數同樣達到最大值。因此我們可以操作簡化了的對數似然,而不是原本的似然。
  • 機器學習中的數學基礎(微積分和概率統計)
    2、 積分學與概率統計:因為樣本空間中所有事件的概率和為1,將每個自變量看作一個特定事件,Jesen不等式又可以表示為所有事件發生的期望所對應的函數值小於等於各個事件所對應函數值的期望,這時就將概率論和積分學聯繫到了一起。通常所說的積分,都是黎曼積分。黎曼積分就是採用無限逼近的方法,求解曲線所圍的面積。即,高等數學的核心都是逼近。
  • 何為似然函數?
    似然和概率在統計學中是經常見到的兩個術語,有時候這兩個概念是一個意思,有時候卻有很大區別。這裡梳理下這兩個術語所代表的具體含義。      wiki中關於「似然」和「概率」的解釋     在頻率推論中,似然函數(常常簡稱為似然)是一個在給定了數據以及模型中關於參數的函數。在非正式情況下,「似然」通常被用作「概率」的同義詞。