先看一個生活中的例子。
王宏去醫院作驗血實驗,檢查他患上了X疾病的可能性,其結果居然為陽性,把他嚇了一大跳,趕忙到網上查詢。網上的資料說,實驗總是有誤差的,這種實驗有「百分之一的假陽性率和百分之一的假陰性率」。這句話的意思是說,在得病的人中做實驗,有1%的人是假陽性,99%的人是真陽性。而在未得病的人中做實驗,有1%的人是假陰性,99%的人是真陰性。於是,王宏根據這種解釋,估計他自己得了X疾病的可能性(即概率)為99%。王宏想,既然只有百分之一的假陽性率,那麼,百分之九十九都是真陽性,那我已被感染X病的概率便應該是99%。
可是,醫生卻告訴他,他被感染的概率只有0.09左右。這是怎麼回事呢?王宏的思路誤區在哪裡?
醫生說:「百分之九十九?哪有那麼大的感染機率啊。99%是測試的準確性,不是你得病的概率。你忘了一件事:這種X疾病的正常比例是不大的,1000個人中只有一個人有X病。」
醫生的計算方法是這樣的:因為測試的誤報率是1%,1000個人將有10個被報為「假陽性」,而根據X病在人口中的比例(1/1000=0.1%),真陽性只有1個。所以,大約11個測試為陽性的人中只有一個是真陽性(有病)的,因此,王宏被感染的機率是大約1/11,即0.09(9%)。
王宏想來想去仍感糊塗,但這件事激發了王宏去重溫他之前學過的概率論。經過反覆閱讀,再思考琢磨醫生的算法之後,他明白了自己是犯了那種叫做「基本比率謬誤」的錯誤,即忘記使用「X病在人口中的基本比例(1/1000)這個事實。
談到基本比率謬誤,我們最好是先從概率論中著名的貝葉斯定理【1】說起。託馬斯·貝葉斯(ThomasBayes ,1701年–1761年)是英國統計學家,曾經是個牧師。貝葉斯定理是他對概率論和統計學作出的最大貢獻,是當今人工智慧中常用的機器學習之基礎框架,它的思想之深刻遠出一般人所能認知,也許貝葉斯自己生前對此也認識不足。因為如此重要的成果,他生前卻並未發表,是他死後的1763年,才由朋友發表的。本篇將對貝葉斯定理稍作介紹,我們在本系列的後幾篇,將討論貝葉斯學派以及貝葉斯理論在人工智慧中的應用。
初略地說,貝葉斯定理涉及到兩個隨機變量A和B的相互影響,如果用一句話來概括,這個定理說的是:利用B帶來的新信息,應如何修改B不存在時A的「先驗概率」P(A),從而得到B存在時的「條件概率」P(A|B),或稱後驗概率,如果寫成公式便是:
這兒「先驗後驗」的定義是一種「約定俗成」,是相對的。比如說也可以將A、B反過來敘述,即如何從B的「先驗概率」P(B),得到B的「條件概率」P(B|A),見圖中虛線所指。
不要害怕公式,通過例子,我們能慢慢理解它。例如,對前面王宏看病的例子,隨機變量A表示「王宏得X病」;隨機變量B表示「王宏檢查結果」。先驗概率P(A)指的是王宏沒有檢查結果時得X病的概率(即X病在公眾的基本概率0.1%),而條件概率(或後驗概率)P(A|B)指的是王宏「檢查結果為陽性」的條件下得X病的概率(9%)。如何從基本概率修正到後驗概率的?待會兒再解釋。
貝葉斯定理是18世紀的產物,200來年用得好好的,不想在20世紀70年代遇到了挑戰,該挑戰來自於卡尼曼和特維爾斯基(Tversky)提出的「基礎概率謬誤」(Base-RateFallacy)。丹尼爾·卡尼曼(Daniel Kahneman,1934年-)是以色列裔美國心理學家,2002年諾貝爾經濟學獎得主。基礎概率謬誤並不是否定貝葉斯定理,而是探討一個使人困惑的問題:為什麼人的直覺經常與貝葉斯公式計算的結果相違背?如同剛才的例子所示,人們在使用直覺的時候經常會忽略基礎概率。卡尼曼等在他的文章《思考,快與慢》中舉了一個計程車的例子來啟發人們思考這個影響人們「決策」的原因。我們不想在這兒深談基礎概率謬誤對「決策理論」的意義,只是借用此例來加深對貝葉斯公式的理解:
某城市有兩種顏色的計程車:藍和綠(市場比率15:85)。一輛計程車夜間肇事後逃逸,但還好當時有一位目擊證人,這位目擊者認定肇事的計程車是藍色的。但是,他「目擊的可信度」如何呢?公安人員經過在相同環境下對該目擊者進行「藍綠」測試而得到:80%的情況下識別正確,20%的情況不正確。也許有讀者立刻就得出了結論:肇事之車是藍色的機率應該是80%吧。如果你作此回答,你便是犯了與上面例子中王宏同樣的錯誤,忽略了先驗概率,沒有考慮在這個城市中「藍綠」車的基本比例。
那麼,肇事之車是藍色的(條件)機率到底應該是多少呢?貝葉斯公式能給出正確的答案。首先我們必須考慮藍綠計程車的基本比例(15: 85)。也就是說,在沒有目擊證人的情況下,肇事之車是藍色的機率只有15%,這是「A=藍車肇事」的先驗概率P(A)= 15%。現在,有了一位目擊者,便改變了事件A出現的概率。目擊者看到車是「藍」色的。不過,他的目擊能力也要打折扣,只有80%的準確率,即也是一個隨機事件(記為B)。我們的問題是要求出在有該目擊證人「看到藍車」的條件下肇事車「真正是藍色」的概率,即條件概率P(A|B)。後者應該大於先驗概率15%,因為目擊者看到「藍車」。如何修正先驗概率?為此需要計算P(B|A)和P(B)。
因為A=車為藍色、B=目擊藍色,所以P(B|A)是在「車為藍色」的條件下「目擊藍色」的概率,即P(B|A)=80%。最後還要算先驗概率P(B),它的計算麻煩一點。P(B)指的是目擊證人看到一輛車為藍色的概率,等於兩種情況的概率相加:一種是車為藍,辨認也正確;另一種是車為綠,錯看成藍。所以:
P(B) = 15%×80% + 85%×20% = 29%
從貝葉斯公式:
可以算出在有目擊證人情況下肇事車輛是藍色的機率=41%,同時也可求得肇事車輛是綠車的概率為59%。被修正後的「肇事車輛為藍色」的條件概率41%大於先驗概率15%很多,但是仍然小於肇事車可能為綠的概率0.59。對王宏測試X病的例子,讀者可以參考這兒的方法,不難得出正確的答案,作者就不再贅述了。