作者:Matthew Ward 翻譯:陳之炎 校對:陳丹
本文約5000字,建議閱讀10+分鐘
本文為你帶來貝葉斯統計的基礎示例及全面解釋。
圖:Unsplash,Chris Liverani貝葉斯統計這個術語最近被廣泛使用。它常用於社交場合、遊戲和日常生活中,如棒球、撲克、天氣預報、總統選舉投票等。在許多科學領域,可以用貝葉斯統計來確定粒子物理和藥物有效性實驗的結果,它還可用於機器學習和人工智慧,以預測你想看什麼新聞故事或觀看什麼Netflix節目。不管是否對它有充分的理解,貝葉斯統計已融入了我們的日常生活當中,為此,筆者想通過本文對貝葉斯統計做全面的解讀,通過一個詳盡的例子來展示這個術語的含義。一旦你理解了這個例子,那麼便基本上理解了貝葉斯統計。首先,在讀本文之前,假設讀者事先對Bayes定理有所熟悉,願意把公式當成一個黑匣子的讀者,也不成問題。如果需要複習一下貝葉斯定理的話,可以到 Medium resources(https://towardsdatascience.com/bayes-theorem-the-holy-grail-of-data-science-55d93315defb)中查找相關資源。
示例和原始觀察這是教科書中經常用到的一個經典例子,我是十多年前在John Kruschke的《DoingBayesian Data Analysis: A Tutorial Introduction with R》中首次了解到它的,現在已經找不到當時的副本拷貝了,所以這裡的任何內容重複純屬偶然。還是從拋硬幣實驗開始,把一個硬幣翻轉N次,每次出現正面時記錄一個1,每次出現背面時記錄一個0,這便構成了一個數據集。利用這個數據集和Bayes定理,我們想弄清楚拋硬幣的結果是否有偏差,以及這個實驗的置信度。技術含量的內容來了:首先定義θ是出現正面的偏差——即硬幣落地時出現正面的概率。這意味著,如果θ=0.5,那麼沒有偏差,正反面出現的概率完全均等。如果θ=1,那麼硬幣就永遠不會出現反面。如果θ=0.75,那麼如果翻轉硬幣的次數足夠大的話,將看到大約每4次翻轉中有3次出現正面。為此,定義 y為硬幣是否落在正面或背面的特徵。這意味著y只能是0(反面)或1(正面),可以用P(y=1|θ)=θ對這些信息進行數學編碼。打開天窗說亮話:如果硬幣為正面的概率是θ,那麼出現正面的偏差便是θ。現在,把多次硬幣實驗串起來,當拋擲N 次硬幣時,出現a 次正面(雖然,重複使用a 不太應該,但這樣卻使得後續符號標註更為便捷)。
為了避免使用總數N和減法 ,通常定義b為出現反面的次數,寫成:
讓我們舉兩種特例來做一個快速的合理性檢查,以確保上述表達式的正確性。如果你已經目瞪口呆了,那麼我鼓勵你停下來,再真正地思考一下這個問題,從而獲得一些關於符號的直覺。它只涉及基礎概率和變量的數目。另一種特殊情況是:當a=0或b=0時。在b=0的情況下,將連續獲得a次正面的概率定義為:θα。接下來,離得出正確的結論還有一定的距離,因為在這個示例中,有一個固定的數據集(正面和反面的集合)需要分析。因此,從現在開始,應該考慮a和b固定的數據集的情況。
貝葉斯統計隨著θ在[0,1]之間的變化,獲得一個分布函數P(a,b|θ)。接下來,要做的是將它乘以一個常數,把它當作是概率分布。其實,這就稱之為beta分布(注意:我在此處省略了它的表達式),只將它記作β(a,b)。
稱為(移位)β函數。再說一遍,如果沒有理解的話,可以忽略它。它只是將分布轉換為概率分布。如果我不提的話會有人打電話給我。似乎不需要這麼複雜地把它看作是Θ的概率分布 ,但這實際上正是我們要求的。來看以下三個例子:
紅色的表示,如果觀察到2個正面和8個背面,那麼硬幣偏向背面的概率就更大,均值出現在0.20,由於沒有足夠的數據,在其他地方出現正面的可能性或許更高,存在真正的偏差。中間曲線說明:如果觀察到5個正面和5個背面,那麼最有可能的是偏差是0.5,同樣還有很大的誤差空間。如果試驗次數足夠多,獲得了更多的數據,猜測則更有信心,這種情況也是我們所期望的:
當觀察到50個正面和50個背面時,可以說置信度95%,真實偏差在0.40到0.60之間。此時,你可能會反駁道:這只是普通的統計,哪裡是貝葉斯定理?說得對。因為現在不是在真空中建立統計模型,所以才會有貝葉斯定理,偏差存在先驗概率。先寫下該案例中的Bayes定理:想通過觀察到的數據求出偏差的概率θ,用到了Bayes定理的連續形式:
我只是想讓大家對貝葉斯統計有一個感覺,所以我不會詳細地去推導這個簡化的式子。只需注意「後驗概率」(方程的左邊)即:在已知數據後得到的分布,似然度乘以先驗概率再除以標準化常量。現在,如果你的分母是B(a,b),那麼並計算出的結果將會是另一個β分布!如果你們能理解這些定義,那這並不是太難的練習,但如果你相信了這一點,那麼你會看出這樣做多麼美妙 。如果先驗偏差具有分布β(x,y),數據出現a個正面和b個反面,得到:根據這個模型中的數據來更新置信度的方式真是無比簡單!現在來檢查一下它是否真的有意義 。假設偏差未知,將可以導出先驗概率分布β(0,0)是一條平直的線,即所有的偏差都有同樣的可能。來做一個這樣的實驗,翻轉4次硬幣,觀察到3個正面和1個背面。貝葉斯分析告訴我們,後驗概率分布是β (3,1):
哎呀!不確定性太大了,看起來這種偏差在很大程度上是針對正面的。
危險:這是因為我們使用了一個錯誤的先驗概率。在現實世界中,將偏差0.99與0.45等同起來是不合理的。來看看,如果使用一個更為溫和的先驗概率分布β(2,2),此時假設偏差最有可能接近0.5,無論數據說明了什麼,它依然是對的。在這種情況下, 3個正面和1個背面的結果更新為概率分布是β(5,3):
啊,好多了,可以觀察到3次正面和1次背面,不要忽略這些數據,新的概率受到了先驗概率的影響。這就是貝葉斯統計的偉大之處!如果我們有大量的數據,那麼即便觀察到一些偏離點也無傷大雅。另一方面,只要數據足夠充分,即使我們99%肯定某件事也可以接受。這只是一句口頭禪的數學形式化:非凡的主張需要非凡的證據支持。因為只有大量的數據才能夠證明硬幣偏差是0.90,所以需要有大量的數據,這也是非貝葉斯分析的部分缺陷。如果我們沒有大量的數據,並且偶爾抽到了一些異常值,那麼就更容易相信這種偏差了。現在應該了解貝葉斯統計的工作原理了吧,如果理解了這個示例,那麼其餘的大部分工作只是添加參數和更新版本,實際上,通過上述內容已經對這個術語的含義有了一個非常到位的了解。
得出結論接下來,需要解釋的主要問題是如何處理數據,在對數據進行分析之後,如何得出結論?你可能經常聽到做統計的人談論「95%的置信度」。幾乎在每一堂統計課程中都會提到置信區間,同樣需要找出貝葉斯統計的相應概念。標準的術語稱之為最高密度區間(HDI):95%的HDI意味著一個區間,其分布下的面積為0.95(即:分布的95%的區間),該區間中的每個點都比區間以外的任何點具有更高的概率:
首先要正確地畫出間隔,注意,陰影區域的曲線上的點的概率都高於區域外曲線上的點的概率 (即:可能性更大)。註:依然有很多置信度為95%的間隔為非HDI。第二幅圖便是這樣一個例子,即使曲線下的面積是0.95,大紫點也不在區間內,而且高於左邊一些包含在該區間內的點。最後,如果這個值的一些小鄰域完全位於95%的HDI內,則稱偏差θ₀是可信的,這個小閾值通常稱為實際等價區(ROPE),它是必須設置的一個值。將其設為0.02,如果從0.48到0.52的整個間隔均在95%的HDI內,那麼這是一個可信的假設。注意,由於函數本身的複雜性,計算beta分布的HDI實際上非常難。沒有完美的解決方案,所以通常情況下,可以通過查表來得出計算結果,或者以某種方式取它的近似值。
在本文中,我使用「兩個標準差」規則來近似,該規則為均值兩邊的兩個標準差的區間內的置信度約為95%。注意,如果分布曲線比較陡,例如,概率分布為β(3,25),那麼這種近似會產生偏差。回到以上相同例子,添加這一新術語,看看它是如何工作的。假設偏差未知,令先驗概率分布β(0,0)為平坦直線。這表明,所有的偏差都同樣有可能發生。現在來做一個實驗,觀察到3個正面和1個背面。貝葉斯分析告訴我們,新分布是β(3,1)。此時,置信度95%的HDI約為0.49~0.84。為此,可以肯定地說,真正的偏差發生在這個區間。請注意,猜測硬幣正反面是等概率的(偏差為0.5),而不是一個假設,區間[0.48,0.52]不完全在HDI 之內。這個例子說明了選擇不同閾值的重要性,因為如果選擇間隔為0.01而不是0.02,那麼拋擲硬幣是等概率的假設是可信的(因為[0.49,0.51]完全在HDI之內)。讓我們來看一下,如果使用一個稍微合理的先驗概率分布β(2,2),假設:拋擲硬幣是等概率事件,根據數據得出的結論是顯而易見的。此時, 3個正面和1個背面告訴我們,後驗分布函數是β(5,3)。置信區間為 95%的HDI為0.45~0.75。使用相同的數據,得到了更窄的間隔,尤為重要的是,我們對硬幣是等概率時間的說法更為信服,所以這是一個可信的假設。從而可以推導出一種「統計不確定性原則」,如果要獲取大的確定性,那麼會使間隔變得越來越寬。直觀地說,如果給定一個範圍, 99.999999%確定的偏差均在這個範圍之內,那麼幾乎給出了所有的可能性。如果想要找出精確的偏差點,那麼必須放棄確定性(除非處於一種極端的情況下,分布是一個非常尖銳的尖峰)。你會得到這樣的結果:可以用1%的確定性說,真實偏差在0.59999999到0.60000001之間。如果已經鎖定了一個小範圍,則必須放棄確定性。這與海森堡不確定性原理相類似,海森堡不確定性原理表明:越精確地知道一個粒子的動量或位置,就越無法準確地知道另一個粒子的動量或位置。
總結總結一下,準確地搭建統計模型需要注意的幾個要點。對貝葉斯模型持反對意見的人認為,可以通過主觀地選擇先驗概率,從而得出任何你想要的答案。抽象地說,這種反對意見本質上是正確的,但在現實實踐中,可以繞開它。下面對如何進行貝葉斯統計做一下總結。
第一步是寫出似然函數P(θ|a,b),在上述例子中,為β (a,b),直接從收集的數據中得出,這完全由數據來決定。
第二步是確定先驗分布,在這一步可以有所選擇,但同時也是一種約束。在現實生活統計中,可能會有很多先驗信息,根據這些信息決定如何選擇。回想一下,我們對認為可能是真實的事實進行了先驗編碼,並定義了它的置信度。假設根據投票數據來預測誰將贏得選舉,需要建立了一個模型,給定有前一年的數據,收集的數據經過測試後,便知道它有多準確!因此,在已有數據基礎上計算先驗概率,是一個明智的選擇,因為在這裡只有一種選擇,這並不意味著,可以任意選擇你想得出的結論。在此不再贅述了,在上述例子中,如果隨機選擇一個硬幣的先驗概率分布β(100,1),並希望它出現偏差,那麼有權視模型為無用的。先驗概率必須已知,並且必須是合理的。如無法證明先驗概率,那麼就不可能得出一個好的模型。先驗概率的選擇是一個特性,而不是一個bug。如果說貝葉斯模型比所有其他模型都精確得多,那是因為它沒有忽略先驗知識。當貝葉斯統計的反對者使用「先驗的任意性」作為理由時,它的失效的確令人沮喪。另一方面,學者們應該在的科學論文中對先驗概率做更為深入的研究,以避免出現任何不必要的偏差。第三步是設置一個ROPE,以明確特定的假設是否可信。這隻裡規定了在置信區間為95%的HDI邊緣考慮正確的猜測是否可信。誠然,這一步確實相當武斷,但每個統計模型都存在這個問題,它非貝葉斯統計所獨有,在現實生活中也不是一個典型的問題。如果某件事離HDI太近,那麼可能需要更多的數據。如果你是一名科學家,那麼就應重新做實驗,或者你得承認,這可能會得出另一種結果。
原文標題:
What is Bayesian Statistics?
https://medium.com/cantors-paradise/what-is-bayesian-statistics-3bc39b19c45f
offrey-hinton-deep-learning-will-do-everything/
譯者簡介:陳之炎,北京交通大學通信與控制工程專業畢業,獲得工學碩士學位,歷任長城計算機軟體與系統公司工程師,大唐微電子公司工程師,現任北京吾譯超群科技有限公司技術支持。
版權聲明:本號內容部分來自網際網路,轉載請註明原文連結和作者,如有侵權或出處有誤請和我們聯繫。
合作請加QQ:365242293
數據分析(ID : ecshujufenxi )網際網路科技與數據圈自己的微信,也是WeMedia自媒體聯盟成員之一,WeMedia聯盟覆蓋5000萬人群。