科學提升認知方法之貝葉斯公式

2021-02-21 架構之美

貝葉斯全名為託馬斯·貝葉斯(Thomas Bayes,1702-1761),18 世紀英國神學家、數學家、數理統計學家和哲學家,概率論理論創始人,貝葉斯統計的創立者,「歸納地」運用數學概率,「從特殊推論一般、從樣本推論全體」的第一人。


一群賭徒為了贏錢,琢磨出概率;一個神學家,為了弄清上帝會不會擲骰子,發明了從結果推導原因的統計學公式。這個世界是夢想和利益驅動的,貝葉斯公式將從統計學角度為我們打開一扇大大的門。

通過《女朋友生氣是隨機事件》我們探討了一些有趣的概率知識,本篇文章將從貝葉斯公式出發,探究貝葉斯到底是啥,以及其在認知層面的巨大作用。不過據說每出現 1 個公式,文章閱讀將下降 1/3。

華為大佬說:人工智慧就是統計學。在我眼中,貝葉斯公式就是統計學走向機器學習的起點。

貝葉斯定理(Bayes’s Rule):如果有k個相互獨立事件 A1,A2···,Ak 並且,P (A1) + P(A2) + ... + p(Ak)= 1 和一個可以觀測到的事件 B,那麼有:

這個就是貝葉斯公式,相當簡潔。

公式中有幾個關鍵概念:
P(A)為先驗概率,即在觀察事件B之前得到的事件A的假設概率
P(A|B) 為後驗概率,即在觀察事件B後得到新數據後計算該假設A的概率
P(B|A)為似然度,即在該假設A下得到這一觀察數據 B 的概率
P(B)為標準化常量,即在任何假設下得到這一觀察數據 B 的概率

用一句人話表達則是:

後驗概率 = 先驗概率×似然度

說到貝葉斯,必然離不開條件概率。

條件概率的公式

條件概率翻譯過來就是事件B發生條件下A發生的概率,等於 AB 同時發生的概率比上 B 發生的概率。看著和貝葉斯及其相似, 實際上貝葉斯公式也是通過條件概率來證明的,具體就不贅述了。

條件概率是頻率統計思維,通過已知的信息去計算事件出現概率,我們稱之為正向概率;貝葉斯公式反其道而行之,通過實驗結果去反推出現實驗結果的原因,我們稱之為逆概率

上面這段話聽著太拗口。我們用經典的摸球行為進行說明。

選擇略微複雜點的場景:有兩個桶,A 桶中有白球 7 個,黑球 3 個;B 桶中有白球 3 個,黑球 7 個。隨機選擇一個桶,有放回的抓球。

貝葉斯公式解決的問題是:我們摸 5 次,出現 3 次白球,2 次黑球,從 A 桶摸球的概率。

條件概率解法:

通過先驗知識,我們可以知道隨機選擇一個桶概率 P(A)=P(B)=0.5
通過頻率統計知識,我們可以算出條件概率 P(白球|A)=0.7 P(白球|B)=0.3
因此在已知知識的情況下,我們預測摸到白球的概率 0.5X0.7 + 0.3X0.7 = 0.5

貝葉斯公式解法:

那貝葉斯需要計算的是 P(A|x 球),出現x顏色球條件下選擇A桶的概率。我們從第一次摸白球開始計算。
P(A|白球 1) = P(A) x P(白球|A)/P(白球) = 0.5 x 0.7/0.5 = 0.7
這個結果的含義是第一次出現白球,則我們隨機選擇 A 桶的概率將從 0.5 變為 0.7

同樣的計算第二次選擇白球的概率 P(A|白球 2) = P(A) x P(白球|A)/P(白球) = 0.7 x 0.7/(0.7x0.7 + 0.3x0.3) = 0.8448
重複計算下來,可以得到 A 桶的概率是 0.7
即可以理解為每次不同的觀察結果,對於原因會產生影響。白球增加 A 桶的概率,黑球減少 A 桶的概率。

可以看到貝葉斯更加符合我們認知世界的方式。現實世界中,我們往往能觀察到大量的現象,我們更加關心現象背後的原因。比如一段文本出現大量的特徵,我們會去判斷是不是垃圾郵件;比如一個女生同意和你吃飯,是不是對你有好感。

上面的例子偏向於太學術。按照人話來看貝葉斯公式其實就是 後驗概率 = 先驗概率×似然度。
簡單的,我們認知一個新的事物前,先驗概率就是我們的感性認知。似然度則是我們需要深度思考,去認真對待的調節因子。

可以看到:

似然度 > 1, 加強先驗概率/感性認知

似然度 = 1,後驗概率=先驗概率

似然度 < 1, 減弱先驗概率/感性認知

從上面的例子可以看到,似然度的影響因子主要有兩個:一是增加新數據的量,二是增加新數據的質。

依然舉個慄子:
男同學追女同學,總會好奇女孩子是否對自己有興趣。

自戀的同學會說,我的女神一直看我,肯定對我有好感。

理性的同學將這個場景轉化為貝葉斯公式:P(好感|看我)= 先驗感覺 * 似然度。
從理性角度,先驗經驗「看我和對我有好感」其實沒有太多必然聯繫,因此概率上可以按 0.5。我們為了求證 P(好感|看我)確實很高,我們就需要更多的觀察數據來支持我們的結論。

比如女生是高冷女孩,那麼她認真看你,這個新增的數據代表每次看你的質量是很高的,當然似然度會大於 1.
如果女生也經常盯著男生看,但是看我的次數更多,這個其實是增加了數據的量,似然度也會大於 1。
因此理性的人判斷 P(好感|看我) 會比較高。

可以看到自戀的同學是將先驗經驗設置得太高,以至於忽略了似然度的觀察,理性的同學弱化先驗經驗,加強了似然函數。這其實對應了兩類人,強經驗弱似然函數和弱經驗強似然函數。如下圖

兩種人不能說誰優於誰,強經驗的人,後驗概率的波動較小。弱經驗的人,根據貝葉斯公式,更利於輸入新的數據,完成後驗概率的更新。

2020 年,提升認知成為共識。按照貝葉斯定理,處於認知更新的我們,應該弱化我們的經驗,觀察世界強化似然度,從而更新自己的觀點。像喬幫主所說:stay hungry。

在幾百年前,貝葉斯就給出了從逆概率思考的科學框架,實在是佩服。

AI 系列第 2 篇,歡迎持續關注,我們一起探究 AI 更廣闊的天地。

往期熱點:

女朋友生氣是隨機事件???

2020年,從提升認知開始

相關焦點

  • 貝葉斯和貝葉斯公式
    貝葉斯思想和方法對概率統計的發展產生了深遠的影響。今天,貝葉斯思想和方法在許多領域都獲得了廣泛的應用。從二十世紀20~30年代開始,概率統計學出現了「頻率學派」和「貝葉斯學派」的爭論,至今,兩派的恩恩怨怨仍在繼續。貝葉斯決策理論是主觀貝葉斯派歸納理論的重要組成部分。
  • 數學之美:平凡又神奇的貝葉斯方法
    後來,我發現當初的那個樸素歸納推理成立了——這果然是個牛逼的方法。——題記0. 前言這是一篇關於貝葉斯方法的科普文,我會儘量少用公式,多用平白的語言敘述,多舉實際例子。更嚴格的公式和計算我會在相應的地方註明參考資料。
  • 貝葉斯與貝葉斯公式
    貝葉斯是一位與著名的牛頓同時代的牧師,同時是一位業餘數學家(數學在天才眼裡儼然成為了副業),平時就思考些有關上帝的事情。當時貝葉斯發現了古典統計學存在的一些缺點,從而提出了自己的一套貝葉斯統計學理論。貝葉斯的理論是基於條件概率的理論上的,所以讓我們來簡單看看條件概率是個什麼東西。
  • 平凡而又神奇的貝葉斯方法
    前言這是一篇關於貝葉斯方法的科普文,我會儘量少用公式,多用平白的語言敘述,多舉實際例子。更嚴格的公式和計算我會在相應的地方註明參考資料。貝葉斯方法被證明是非常 general 且強大的推理框架,文中你會看到很多有趣的應用。1.
  • 【數學】貝葉斯公式與考研策略
    那麼這節課,我將拿一個考研數學中常考的一個知識點,來進一步闡述「簡單且深奧」的數學到底是如何為我們所用的,這個知識點,可能看本文的標題你就明白了,就是貝葉斯公式。貝葉斯公式是概率論與數理統計這門課中比較重要的一個知識點,也是這門課中的第一個難點,而且貝葉斯公式經常和另外一個非常重要的公式——全概率公式一起考,因為貝葉斯公式的分母項,一般都是要通過全概率公式算出,所以順水推舟,命題人乾脆就把它倆結合成一道題來考。
  • 全概率公式&貝葉斯公式
    該怎樣理解這兩個公式呢ԅ(¯ㅂ¯ԅ)?簡單來說,如果導致一個事件發生的原因有很多種,而且各種原因是互斥的,那麼這個事件發生的概率就是每種原因引起該事件發生的概率的總和,而求出這個概率,就是全概率公式要解決的問題而如果一個事件已經發生了,有很多原因都能導致這個事件發生。
  • 因果關係 | 之,貝葉斯網絡
    貝葉斯網絡又稱信度網絡,是Bayes方法的擴展,是目前不確定知識表達和推理領域最有效的理論模型之一。從1988年由Pearl提出後,已經成為近幾年來研究的熱點.。一個貝葉斯網絡是一個有向無環圖(directed acyclic graph, DAG),由代表變量結點及連接這些結點有向邊構成。
  • 貝葉斯公式在臨床試驗中的運用
    本文就淺談一下貝葉斯公式在這方面的運用。首先,什麼是貝葉斯公式?其由18世紀,英國學者貝葉斯(Bayes)提出的計算條件概率的公式。其表達式可以簡化為P(B|A)=P(B)P(A|B)/P(A)。其中P(B|A)為後驗概率,即基於某件事已經發生的基礎上,其與某個因素的聯繫;P(B)為先驗概率,指人們通常理解的發生頻率。
  • 應行仁:預測混淆與貝葉斯公式
    但是高同學咭言,從檢查結果得到患病概率不必用貝葉斯公式計算,直接從混淆矩陣統計就可得出,這個知識點被大家忽略了。這既怪他理解模糊,也怪圍毆者把混淆打成了糊塗,其實這矩陣表達的是辨識混淆的狀態分布,是可以直接從中得到王宏得病概率的。
  • 條件概率和貝葉斯公式:機器翻譯
    講了這麼多條件概率的計算,關鍵要讓大家掌握一個公式:P(Y|X)=P(X,Y)/P(X)【註:一件事Y在條件X下發生的條件概率P(Y|X),等於條件X,和這件事Y一同發生的聯合概率P(X,Y),除以條件X的概率P(X)。】如何把式子變形就是貝葉斯公式?
  • 分類算法之貝葉斯網絡
    (點擊上方公眾號,可快速關注)來源:CodingLabs-張洋cnblogs.com/leoo2sk/archive/2010/09/18/bayes-network.html如有好文章投稿,請點擊 → 這裡了解詳情本系列《分類算法之樸素貝葉斯分類
  • 概率|全概率公式和貝葉斯公式
    註:有些條件概率不方便直接求,而用貝葉斯公式將其轉換後,每一項我們都可以求得,這種迂迴的方式很方便,但是剛開始使用大家可能在思路上轉不過來,覺得很亂,多做幾個題就會清晰許多,不信你試試    最後我想致謝白志惠老師,在這裡引用她之前寫的一篇文章——「狼來了」的貝葉斯公式解讀:    狼來了這個故事大家都聽過,那麼從心理角度分析,這個小孩是如何一步步喪失村民信任的呢?我們可以藉助貝葉斯公式來解讀。
  • 貝葉斯線性回歸方法的解釋和優點
    我認為貝葉斯學派和頻率學派之間的紛爭是「可遠觀而不可褻玩」的學術爭論之一。與其熱衷於站隊,我認為同時學習這兩種統計推斷方法並且將它們應用到恰當的場景之下會更加富有成效。出於這種考慮,最近我努力學習和應用貝葉斯推斷方法,補充學校課程所學的頻率統計方法。貝葉斯線性模型是我最早對應用貝葉斯推斷的關注點之一。
  • 入門 | 貝葉斯線性回歸方法的解釋和優點
    參與:Geek AI、劉曉坤本文對比了頻率線性回歸和貝葉斯線性回歸兩種方法,並對後者進行了詳細的介紹,分析了貝葉斯線性回歸的優點和直觀特徵。我認為貝葉斯學派和頻率學派之間的紛爭是「可遠觀而不可褻玩」的學術爭論之一。與其熱衷於站隊,我認為同時學習這兩種統計推斷方法並且將它們應用到恰當的場景之下會更加富有成效。出於這種考慮,最近我努力學習和應用貝葉斯推斷方法,補充學校課程所學的頻率統計方法。貝葉斯線性模型是我最早對應用貝葉斯推斷的關注點之一。在我們學習的過程中,最重要的部分也許就是將一個概念介紹給別人。
  • ICLR認知科學@AI workshop一覽
    今年ICLR2020頂會有一個特別有意思的專題, 叫認知科學與AI頂會專題。在當下深度學習愈發進入瓶頸期的時代,認知科學和AI的交叉成為大勢所趨。一方面我們希望把認知科學或心理學的知識用起來直接指導AI,另一方面我們希望用AI來理解我們的大腦和認知規律,最終進一步改善AI, 那麼ICLR的這個workshop在這兩個方面各有哪些建樹?
  • 貝葉斯深度學習研究進展
    認知不確定性描述的是我們對真實模型的「無知」程度,在給定足夠多數據時,是可以被消除的。但偶然不確定性是數據中固有的,不會隨著數據集增大而減弱。貝葉斯機器學習為處理不確定性提供了一套嚴謹的工具。其核心是貝葉斯定理(也稱貝葉斯公式),如圖2(a)所示。與傳統深度學習僅關注單個模型不同,貝葉斯學習考慮了無窮多個可以擬合訓練數據的模型,並基於此做出更精確的不確定性建模。
  • 概率之本質—從主觀概率到量子貝葉斯 | 張天蓉專欄
    為了解決逆概率問題,貝葉斯在他的論文中提供了一種方法,即貝葉斯定理:後驗概率 = 觀測數據決定的調整因子×先驗概率上述公式的意義,指的是對未知概率首先有一個「先驗」猜測,然後結合觀測數據,修正先驗,得到更為合理的「後驗」概率。
  • 入門| 貝葉斯線性回歸方法的解釋和優點
    本文對比了頻率線性回歸和貝葉斯線性回歸兩種方法,並對後者進行了詳細的介紹,分析了貝葉斯線性回歸的優點和直觀特徵。我認為貝葉斯學派和頻率學派之間的紛爭是「可遠觀而不可褻玩」的學術爭論之一。與其熱衷於站隊,我認為同時學習這兩種統計推斷方法並且將它們應用到恰當的場景之下會更加富有成效。
  • 全概率公式和貝葉斯公式學習筆記(內容來自浙江大學公開課)
    全概率公式百度百科給定義有些拗口:公式表示若事件A1,A2,…,An構成一個完備事件組且都有正概率,則對任意一個事件B都有公式成立。
  • 機器學習領域中的頻率學派與貝葉斯學派
    這也就是為什麼要寫這篇分享的原因了——頻率學派和貝葉斯學派的異同。大家都了解,頻率學派常用的估計方法是最大似然(MaximumLikelihood Estimation 即MLE),而貝葉斯學派常用的估計方法是最大後驗(Maximum A Posteriori 即MAP)。那麼兩大學派在思想上最大的差別是什麼?