貝葉斯全名為託馬斯·貝葉斯(Thomas Bayes,1702-1761),18 世紀英國神學家、數學家、數理統計學家和哲學家,概率論理論創始人,貝葉斯統計的創立者,「歸納地」運用數學概率,「從特殊推論一般、從樣本推論全體」的第一人。
一群賭徒為了贏錢,琢磨出概率;一個神學家,為了弄清上帝會不會擲骰子,發明了從結果推導原因的統計學公式。這個世界是夢想和利益驅動的,貝葉斯公式將從統計學角度為我們打開一扇大大的門。
通過《女朋友生氣是隨機事件》我們探討了一些有趣的概率知識,本篇文章將從貝葉斯公式出發,探究貝葉斯到底是啥,以及其在認知層面的巨大作用。不過據說每出現 1 個公式,文章閱讀將下降 1/3。
華為大佬說:人工智慧就是統計學。在我眼中,貝葉斯公式就是統計學走向機器學習的起點。
貝葉斯定理(Bayes’s Rule):如果有k個相互獨立事件 A1,A2···,Ak 並且,P (A1) + P(A2) + ... + p(Ak)= 1 和一個可以觀測到的事件 B,那麼有:
這個就是貝葉斯公式,相當簡潔。
公式中有幾個關鍵概念:
P(A)為先驗概率,即在觀察事件B之前得到的事件A的假設概率
P(A|B) 為後驗概率,即在觀察事件B後得到新數據後計算該假設A的概率
P(B|A)為似然度,即在該假設A下得到這一觀察數據 B 的概率
P(B)為標準化常量,即在任何假設下得到這一觀察數據 B 的概率
用一句人話表達則是:
後驗概率 = 先驗概率×似然度
說到貝葉斯,必然離不開條件概率。
條件概率的公式
條件概率翻譯過來就是事件B發生條件下A發生的概率,等於 AB 同時發生的概率比上 B 發生的概率。看著和貝葉斯及其相似, 實際上貝葉斯公式也是通過條件概率來證明的,具體就不贅述了。
條件概率是頻率統計思維,通過已知的信息去計算事件出現概率,我們稱之為正向概率;貝葉斯公式反其道而行之,通過實驗結果去反推出現實驗結果的原因,我們稱之為逆概率
上面這段話聽著太拗口。我們用經典的摸球行為進行說明。
選擇略微複雜點的場景:有兩個桶,A 桶中有白球 7 個,黑球 3 個;B 桶中有白球 3 個,黑球 7 個。隨機選擇一個桶,有放回的抓球。
貝葉斯公式解決的問題是:我們摸 5 次,出現 3 次白球,2 次黑球,從 A 桶摸球的概率。
條件概率解法:
通過先驗知識,我們可以知道隨機選擇一個桶概率 P(A)=P(B)=0.5
通過頻率統計知識,我們可以算出條件概率 P(白球|A)=0.7 P(白球|B)=0.3
因此在已知知識的情況下,我們預測摸到白球的概率 0.5X0.7 + 0.3X0.7 = 0.5
貝葉斯公式解法:
那貝葉斯需要計算的是 P(A|x 球),出現x顏色球條件下選擇A桶的概率。我們從第一次摸白球開始計算。
P(A|白球 1) = P(A) x P(白球|A)/P(白球) = 0.5 x 0.7/0.5 = 0.7
這個結果的含義是第一次出現白球,則我們隨機選擇 A 桶的概率將從 0.5 變為 0.7
同樣的計算第二次選擇白球的概率 P(A|白球 2) = P(A) x P(白球|A)/P(白球) = 0.7 x 0.7/(0.7x0.7 + 0.3x0.3) = 0.8448
重複計算下來,可以得到 A 桶的概率是 0.7
即可以理解為每次不同的觀察結果,對於原因會產生影響。白球增加 A 桶的概率,黑球減少 A 桶的概率。
可以看到貝葉斯更加符合我們認知世界的方式。現實世界中,我們往往能觀察到大量的現象,我們更加關心現象背後的原因。比如一段文本出現大量的特徵,我們會去判斷是不是垃圾郵件;比如一個女生同意和你吃飯,是不是對你有好感。
上面的例子偏向於太學術。按照人話來看貝葉斯公式其實就是 後驗概率 = 先驗概率×似然度。
簡單的,我們認知一個新的事物前,先驗概率就是我們的感性認知。似然度則是我們需要深度思考,去認真對待的調節因子。
可以看到:
似然度 > 1, 加強先驗概率/感性認知
似然度 = 1,後驗概率=先驗概率
似然度 < 1, 減弱先驗概率/感性認知
從上面的例子可以看到,似然度的影響因子主要有兩個:一是增加新數據的量,二是增加新數據的質。
依然舉個慄子:
男同學追女同學,總會好奇女孩子是否對自己有興趣。
自戀的同學會說,我的女神一直看我,肯定對我有好感。
理性的同學將這個場景轉化為貝葉斯公式:P(好感|看我)= 先驗感覺 * 似然度。
從理性角度,先驗經驗「看我和對我有好感」其實沒有太多必然聯繫,因此概率上可以按 0.5。我們為了求證 P(好感|看我)確實很高,我們就需要更多的觀察數據來支持我們的結論。
比如女生是高冷女孩,那麼她認真看你,這個新增的數據代表每次看你的質量是很高的,當然似然度會大於 1.
如果女生也經常盯著男生看,但是看我的次數更多,這個其實是增加了數據的量,似然度也會大於 1。
因此理性的人判斷 P(好感|看我) 會比較高。
可以看到自戀的同學是將先驗經驗設置得太高,以至於忽略了似然度的觀察,理性的同學弱化先驗經驗,加強了似然函數。這其實對應了兩類人,強經驗弱似然函數和弱經驗強似然函數。如下圖
兩種人不能說誰優於誰,強經驗的人,後驗概率的波動較小。弱經驗的人,根據貝葉斯公式,更利於輸入新的數據,完成後驗概率的更新。
2020 年,提升認知成為共識。按照貝葉斯定理,處於認知更新的我們,應該弱化我們的經驗,觀察世界強化似然度,從而更新自己的觀點。像喬幫主所說:stay hungry。
在幾百年前,貝葉斯就給出了從逆概率思考的科學框架,實在是佩服。
AI 系列第 2 篇,歡迎持續關注,我們一起探究 AI 更廣闊的天地。
往期熱點:
女朋友生氣是隨機事件???
2020年,從提升認知開始