推薦 :一文帶你熟悉貝葉斯統計

2021-03-02 數據分析

作者:Matthew Ward 翻譯:陳之炎 校對:陳丹

本文約5000字,建議閱讀10+分鐘

本文為你帶來貝葉斯統計的基礎示例及全面解釋。

圖:Unsplash,Chris Liverani貝葉斯統計這個術語最近被廣泛使用。它常用於社交場合、遊戲和日常生活中,如棒球、撲克、天氣預報、總統選舉投票等。在許多科學領域,可以用貝葉斯統計來確定粒子物理和藥物有效性實驗的結果,它還可用於機器學習和人工智慧,以預測你想看什麼新聞故事或觀看什麼Netflix節目。不管是否對它有充分的理解,貝葉斯統計已融入了我們的日常生活當中,為此,筆者想通過本文對貝葉斯統計做全面的解讀,通過一個詳盡的例子來展示這個術語的含義。一旦你理解了這個例子,那麼便基本上理解了貝葉斯統計。首先,在讀本文之前,假設讀者事先對Bayes定理有所熟悉,願意把公式當成一個黑匣子的讀者,也不成問題。如果需要複習一下貝葉斯定理的話,可以到 Medium resources(https://towardsdatascience.com/bayes-theorem-the-holy-grail-of-data-science-55d93315defb)中查找相關資源。示例和原始觀察
這是教科書中經常用到的一個經典例子,我是十多年前在John Kruschke的《DoingBayesian Data Analysis: A Tutorial Introduction with R》中首次了解到它的,現在已經找不到當時的副本拷貝了,所以這裡的任何內容重複純屬偶然。還是從拋硬幣實驗開始,把一個硬幣翻轉N次,每次出現正面時記錄一個1,每次出現背面時記錄一個0,這便構成了一個數據集。利用這個數據集和Bayes定理,我們想弄清楚拋硬幣的結果是否有偏差,以及這個實驗的置信度。技術含量的內容來了:首先定義θ是出現正面的偏差——即硬幣落地時出現正面的概率。這意味著,如果θ=0.5,那麼沒有偏差,正反面出現的概率完全均等。如果θ=1,那麼硬幣就永遠不會出現反面。如果θ=0.75,那麼如果翻轉硬幣的次數足夠大的話,將看到大約每4次翻轉中有3次出現正面。為此,定義 y為硬幣是否落在正面或背面的特徵。這意味著y只能是0(反面)或1(正面),可以用P(y=1|θ)=θ對這些信息進行數學編碼。打開天窗說亮話:如果硬幣為正面的概率是θ,那麼出現正面的偏差便是θ。現在,把多次硬幣實驗串起來,當拋擲N 次硬幣時,出現a 次正面(雖然,重複使用a 不太應該,但這樣卻使得後續符號標註更為便捷)。

為了避免使用總數N和減法 ,通常定義b為出現反面的次數,寫成:

讓我們舉兩種特例來做一個快速的合理性檢查,以確保上述表達式的正確性。如果你已經目瞪口呆了,那麼我鼓勵你停下來,再真正地思考一下這個問題,從而獲得一些關於符號的直覺。它只涉及基礎概率和變量的數目。另一種特殊情況是:當a=0或b=0時。在b=0的情況下,將連續獲得a次正面的概率定義為:θα。接下來,離得出正確的結論還有一定的距離,因為在這個示例中,有一個固定的數據集(正面和反面的集合)需要分析。因此,從現在開始,應該考慮a和b固定的數據集的情況。 貝葉斯統計隨著θ在[0,1]之間的變化,獲得一個分布函數P(a,b|θ)。接下來,要做的是將它乘以一個常數,把它當作是概率分布。其實,這就稱之為beta分布(注意:我在此處省略了它的表達式),只將它記作β(a,b)。

稱為(移位)β函數。再說一遍,如果沒有理解的話,可以忽略它。它只是將分布轉換為概率分布。如果我不提的話會有人打電話給我。似乎不需要這麼複雜地把它看作是Θ的概率分布 ,但這實際上正是我們要求的。來看以下三個例子:

紅色的表示,如果觀察到2個正面和8個背面,那麼硬幣偏向背面的概率就更大,均值出現在0.20,由於沒有足夠的數據,在其他地方出現正面的可能性或許更高,存在真正的偏差。中間曲線說明:如果觀察到5個正面和5個背面,那麼最有可能的是偏差是0.5,同樣還有很大的誤差空間。如果試驗次數足夠多,獲得了更多的數據,猜測則更有信心,這種情況也是我們所期望的:

當觀察到50個正面和50個背面時,可以說置信度95%,真實偏差在0.40到0.60之間。此時,你可能會反駁道:這只是普通的統計,哪裡是貝葉斯定理?說得對。因為現在不是在真空中建立統計模型,所以才會有貝葉斯定理,偏差存在先驗概率。先寫下該案例中的Bayes定理:想通過觀察到的數據求出偏差的概率θ,用到了Bayes定理的連續形式:

我只是想讓大家對貝葉斯統計有一個感覺,所以我不會詳細地去推導這個簡化的式子。只需注意「後驗概率」(方程的左邊)即:在已知數據後得到的分布,似然度乘以先驗概率再除以標準化常量。現在,如果你的分母是B(a,b),那麼並計算出的結果將會是另一個β分布!如果你們能理解這些定義,那這並不是太難的練習,但如果你相信了這一點,那麼你會看出這樣做多麼美妙 。如果先驗偏差具有分布β(x,y),數據出現a個正面和b個反面,得到:根據這個模型中的數據來更新置信度的方式真是無比簡單!現在來檢查一下它是否真的有意義 。假設偏差未知,將可以導出先驗概率分布β(0,0)是一條平直的線,即所有的偏差都有同樣的可能。來做一個這樣的實驗,翻轉4次硬幣,觀察到3個正面和1個背面。貝葉斯分析告訴我們,後驗概率分布是β (3,1):

哎呀!不確定性太大了,看起來這種偏差在很大程度上是針對正面的。危險:這是因為我們使用了一個錯誤的先驗概率。在現實世界中,將偏差0.99與0.45等同起來是不合理的。來看看,如果使用一個更為溫和的先驗概率分布β(2,2),此時假設偏差最有可能接近0.5,無論數據說明了什麼,它依然是對的。在這種情況下, 3個正面和1個背面的結果更新為概率分布是β(5,3):

啊,好多了,可以觀察到3次正面和1次背面,不要忽略這些數據,新的概率受到了先驗概率的影響。這就是貝葉斯統計的偉大之處!如果我們有大量的數據,那麼即便觀察到一些偏離點也無傷大雅。另一方面,只要數據足夠充分,即使我們99%肯定某件事也可以接受。這只是一句口頭禪的數學形式化:非凡的主張需要非凡的證據支持。因為只有大量的數據才能夠證明硬幣偏差是0.90,所以需要有大量的數據,這也是非貝葉斯分析的部分缺陷。如果我們沒有大量的數據,並且偶爾抽到了一些異常值,那麼就更容易相信這種偏差了。現在應該了解貝葉斯統計的工作原理了吧,如果理解了這個示例,那麼其餘的大部分工作只是添加參數和更新版本,實際上,通過上述內容已經對這個術語的含義有了一個非常到位的了解。得出結論接下來,需要解釋的主要問題是如何處理數據,在對數據進行分析之後,如何得出結論?你可能經常聽到做統計的人談論「95%的置信度」。幾乎在每一堂統計課程中都會提到置信區間,同樣需要找出貝葉斯統計的相應概念。標準的術語稱之為最高密度區間(HDI):95%的HDI意味著一個區間,其分布下的面積為0.95(即:分布的95%的區間),該區間中的每個點都比區間以外的任何點具有更高的概率:

首先要正確地畫出間隔,注意,陰影區域的曲線上的點的概率都高於區域外曲線上的點的概率 (即:可能性更大)。註:依然有很多置信度為95%的間隔為非HDI。第二幅圖便是這樣一個例子,即使曲線下的面積是0.95,大紫點也不在區間內,而且高於左邊一些包含在該區間內的點。最後,如果這個值的一些小鄰域完全位於95%的HDI內,則稱偏差θ₀是可信的,這個小閾值通常稱為實際等價區(ROPE),它是必須設置的一個值。將其設為0.02,如果從0.48到0.52的整個間隔均在95%的HDI內,那麼這是一個可信的假設。注意,由於函數本身的複雜性,計算beta分布的HDI實際上非常難。沒有完美的解決方案,所以通常情況下,可以通過查表來得出計算結果,或者以某種方式取它的近似值。

在本文中,我使用「兩個標準差」規則來近似,該規則為均值兩邊的兩個標準差的區間內的置信度約為95%。注意,如果分布曲線比較陡,例如,概率分布為β(3,25),那麼這種近似會產生偏差。回到以上相同例子,添加這一新術語,看看它是如何工作的。假設偏差未知,令先驗概率分布β(0,0)為平坦直線。這表明,所有的偏差都同樣有可能發生。現在來做一個實驗,觀察到3個正面和1個背面。貝葉斯分析告訴我們,新分布是β(3,1)。此時,置信度95%的HDI約為0.49~0.84。為此,可以肯定地說,真正的偏差發生在這個區間。請注意,猜測硬幣正反面是等概率的(偏差為0.5),而不是一個假設,區間[0.48,0.52]不完全在HDI 之內。這個例子說明了選擇不同閾值的重要性,因為如果選擇間隔為0.01而不是0.02,那麼拋擲硬幣是等概率的假設是可信的(因為[0.49,0.51]完全在HDI之內)。讓我們來看一下,如果使用一個稍微合理的先驗概率分布β(2,2),假設:拋擲硬幣是等概率事件,根據數據得出的結論是顯而易見的。此時, 3個正面和1個背面告訴我們,後驗分布函數是β(5,3)。置信區間為 95%的HDI為0.45~0.75。使用相同的數據,得到了更窄的間隔,尤為重要的是,我們對硬幣是等概率時間的說法更為信服,所以這是一個可信的假設。從而可以推導出一種「統計不確定性原則」,如果要獲取大的確定性,那麼會使間隔變得越來越寬。直觀地說,如果給定一個範圍, 99.999999%確定的偏差均在這個範圍之內,那麼幾乎給出了所有的可能性。如果想要找出精確的偏差點,那麼必須放棄確定性(除非處於一種極端的情況下,分布是一個非常尖銳的尖峰)。你會得到這樣的結果:可以用1%的確定性說,真實偏差在0.59999999到0.60000001之間。如果已經鎖定了一個小範圍,則必須放棄確定性。這與海森堡不確定性原理相類似,海森堡不確定性原理表明:越精確地知道一個粒子的動量或位置,就越無法準確地知道另一個粒子的動量或位置。總結總結一下,準確地搭建統計模型需要注意的幾個要點。對貝葉斯模型持反對意見的人認為,可以通過主觀地選擇先驗概率,從而得出任何你想要的答案。抽象地說,這種反對意見本質上是正確的,但在現實實踐中,可以繞開它。下面對如何進行貝葉斯統計做一下總結。第一步是寫出似然函數P(θ|a,b),在上述例子中,為β (a,b),直接從收集的數據中得出,這完全由數據來決定。第二步是確定先驗分布,在這一步可以有所選擇,但同時也是一種約束。在現實生活統計中,可能會有很多先驗信息,根據這些信息決定如何選擇。回想一下,我們對認為可能是真實的事實進行了先驗編碼,並定義了它的置信度。假設根據投票數據來預測誰將贏得選舉,需要建立了一個模型,給定有前一年的數據,收集的數據經過測試後,便知道它有多準確!因此,在已有數據基礎上計算先驗概率,是一個明智的選擇,因為在這裡只有一種選擇,這並不意味著,可以任意選擇你想得出的結論。在此不再贅述了,在上述例子中,如果隨機選擇一個硬幣的先驗概率分布β(100,1),並希望它出現偏差,那麼有權視模型為無用的。先驗概率必須已知,並且必須是合理的。如無法證明先驗概率,那麼就不可能得出一個好的模型。先驗概率的選擇是一個特性,而不是一個bug。如果說貝葉斯模型比所有其他模型都精確得多,那是因為它沒有忽略先驗知識。當貝葉斯統計的反對者使用「先驗的任意性」作為理由時,它的失效的確令人沮喪。另一方面,學者們應該在的科學論文中對先驗概率做更為深入的研究,以避免出現任何不必要的偏差。第三步是設置一個ROPE,以明確特定的假設是否可信。這隻裡規定了在置信區間為95%的HDI邊緣考慮正確的猜測是否可信。誠然,這一步確實相當武斷,但每個統計模型都存在這個問題,它非貝葉斯統計所獨有,在現實生活中也不是一個典型的問題。如果某件事離HDI太近,那麼可能需要更多的數據。如果你是一名科學家,那麼就應重新做實驗,或者你得承認,這可能會得出另一種結果。

原文標題:

What is Bayesian Statistics?

https://medium.com/cantors-paradise/what-is-bayesian-statistics-3bc39b19c45f

offrey-hinton-deep-learning-will-do-everything/

譯者簡介:陳之炎,北京交通大學通信與控制工程專業畢業,獲得工學碩士學位,歷任長城計算機軟體與系統公司工程師,大唐微電子公司工程師,現任北京吾譯超群科技有限公司技術支持。

版權聲明:本號內容部分來自網際網路,轉載請註明原文連結和作者,如有侵權或出處有誤請和我們聯繫。

合作請加QQ:365242293  

數據分析(ID : ecshujufenxi )網際網路科技與數據圈自己的微信,也是WeMedia自媒體聯盟成員之一,WeMedia聯盟覆蓋5000萬人群。

相關焦點

  • 獨家 | 一文讀懂機器學習中的貝葉斯統計學
    如果你想深入了解貝葉斯統計背後的數學原理,那麼這篇文章不是你要找的(儘管未來我將發表關於這個的文章)。本文主要是給剛剛接觸這個概念的人介紹貝葉斯方法。貝葉斯理論 這是一個非常棒的想法,它存在於許多不同的地方,尤其是涉及到人類和他們的信仰時。例如,假設你的朋友告訴你,你最喜歡的一位名人去世了。一開始,你可能會感到沮喪,並且有點懷疑。
  • 一文看懂貝葉斯定理及應用
    主要思路是根據與我們解決問題相關的多個因素逐一確定下一步的方案,整個決策過程就像一棵自頂向下的樹一樣,故名決策樹。如圖2-1所示,這是一個人根據天氣、溫度、風況和氣壓幾個因素決定是否去釣魚的決策樹。在貝葉斯寫這篇文章之前,人們已經能夠計算「正向概率」,如「假設袋子裡面有N個白球,M個黑球,你伸手進去摸一次,摸出黑球的概率是多少」。而逆向概率問題是相反的一類問題,比如「如果事先並不知道袋子裡面黑白球的比例,而是閉著眼睛摸出一個(或好幾個)球,觀察這些取出來的球的顏色之後,我們如何推測此袋子裡面的黑白球的比例?」
  • 條件概率與貝葉斯統計
    但是,某些情況更適合使用另外一種統計方法:貝葉斯統計。圖1 太陽爆炸了嗎?圖 1 中畫的是什麼情況呢?頻率論統計學家很清楚,只有兩種可能:探測器擲出一對 6,表示它說了謊;或者擲出其他的數,表示它說的是真的。因為沒有擲出一對 6 的概率是 35/326(97.22%),所以頻率論統計學家得出結論,探測器可能說的是真話。因此,太陽真的可能爆炸了。
  • 獨家 | 一文讀懂貝葉斯分類算法(附學習資源)
    例如,當你看到一個陌生人,你的腦子下意識判斷TA是男是女;你可能經常會走在路上對身旁的朋友說「這個人一看就很有錢、那邊有個非主流」之類的話,其實這就是一種分類操作。從數學角度來說,分類問題可做如下定義:已知集合:
  • 傳說中的貝葉斯統計到底有什麼來頭?
    從最起碼來說,你應該要懂得一定的統計學知識。這將讓你能夠著手複雜的數據分析問題,不管數據的大小。在18世界70年代,Thomas Bayes提出了「貝葉斯理論」,即便在幾個世紀後,貝葉斯統計的重要性也沒有減弱。事實上,世界上那些最優秀的大學都在教授有關這個話題的深度課程。
  • 貝葉斯及概率統計角度
    理解概念學習逆概問題所謂的貝葉斯方法源於他生前為解決一個「逆概」問題寫的一篇文章,而這篇文章是在他死後才由他的一位朋友發表出來的。在貝葉斯寫這篇文章之前,人們已經能夠計算「正向概率」,如「假設袋子裡面有N個白球,M個黑球,你伸手進去摸一把,摸出黑球的概率是多大」。
  • 一文讀懂矩估計、極大似然估計和貝葉斯估計
    概率論和數理統計是機器學習重要的數學基礎。概率論的核心是已知分布求概率,數理統計則是已知樣本估整體。概率論和數理統計是互逆的過程。概率論可以看成是由因推果,數理統計則是由果溯因。參數估計最主要的方法包括矩估計法,極大似然估計法,以及貝葉斯估計法。機器學習中常常使用的是極大似然估計法和貝葉斯估計法。
  • 介紹利用貝葉斯統計的一個實踐案例
    介紹利用貝葉斯統計的一個實踐案例 李倩 發表於 2018-07-16 17:14:59 為了大家可以對貝葉斯算法有更多的了解,人工智慧頭條為大家整理過一篇關於貝葉斯算法的文章
  • 生信小課堂 | 通俗理解貝葉斯統計
    貝葉斯統計(Bayesian statistics)可以通過結合這些因素來更準確地檢測體細胞突變。這裡我們需要先花些時間做一些背景介紹。本期我們先探討貝葉斯統計方法。貝葉斯學派的核心思想是在分析當下的數據時結合以往的經驗。
  • 人人都可以當賭神的秘密:用Python學習神奇的貝葉斯統計
    貝葉斯統計是個神鳥呢?數學家貝葉斯,在200多年前寫的《機會學說中一個問題的解》這本書中提過個觀點,他說,支持某項屬性的事件發生得愈多,則該屬性成立的可能性就愈大。簡言之,如果你看到一個人總是做一些好事,那個人多半會是個好人。很好理解對吧?
  • 貝葉斯和貝葉斯公式
    約1701年出生於倫敦,做過神甫。1742年成為英國皇家學會會員。1761年4月7日逝世。貝葉斯在數學方面主要研究概率論。他首先將歸納推理法用於概率論基礎理論,並創立了貝葉斯統計理論,對於統計決策函數、統計推斷、統計的估算等做出了貢獻。
  • 一文讀懂貝葉斯推理問題:MCMC方法和變分推斷
    例如,用於分類的高斯混合模型或用於主題建模的潛在狄利克雷分配(Latent Dirichlet Allocation,簡稱LDA)模型等概率圖模型都需要在擬合數據時解決這一問題。同時,由於模型設置(假設、維度……)不同,貝葉斯推理問題有時會很難解決。
  • 機器學習的統計方法 貝葉斯決策理論入門
    引言無論你是在建立機器學習模型還是在日常生活中做決定,我們總是選擇風險最小的方案。作為人類,我們天生就採取任何有助於我們生存的行動;然而,機器學習模型最初並不是基於這種理解而建立的。這些算法需要經過訓練和優化,以選擇風險最小的最優方案。
  • 機器學習算法實踐-樸素貝葉斯(Naive Bayes)
    熟悉數值算法(最優化方法,蒙特卡洛算法等)與並行化算法(MPI,OpenMP等多線程以及多進程並行化)以及python優化方法,經常使用C++給python寫擴展。當然樣本越多我們統計的不同類型的特徵值分布就越準確,使用此分布進行預測則會更加準確。貝葉斯準則樸素貝葉斯分類器中最核心的便是貝葉斯準則,他用如下的公式表示:
  • 基於貝葉斯定理的算法——樸素貝葉斯分類
    不過今天我們介紹的樸素貝葉斯分類器通過獨立假設簡化了概率的計算,節省了內存,可以很好地用於數據量大的情況。下面我們首先來了解這一算法的數理背景——貝葉斯定理。這一算法是由我們在概率論中學到的貝葉斯定理延伸出來的。我們知道貝葉斯公式為:其中,
  • 貝葉斯與貝葉斯公式
    貝葉斯是一位與著名的牛頓同時代的牧師,同時是一位業餘數學家(數學在天才眼裡儼然成為了副業),平時就思考些有關上帝的事情。他非常想證明上帝的存在,於是希望藉助概率統計的知識。當時貝葉斯發現了古典統計學存在的一些缺點,從而提出了自己的一套貝葉斯統計學理論。貝葉斯的理論是基於條件概率的理論上的,所以讓我們來簡單看看條件概率是個什麼東西。
  • 2021考研數學備考指導:概率統計淺析貝葉斯公式及其應用
    2021考研數學備考指導:概率統計淺析貝葉斯公式及其應用 2021考研已經進入緊張的備考強化階段,考生務必要重視,打好基礎,為將來做準備!
  • 用Python貝葉斯統計試試
    貝葉斯統計的概念很簡單,有一些固定的數據(固定的意思是指我們無法改變觀測值),和一些感興趣的參數,剩下要做的就是探索這些參數可能的取值,其中所有的不確定性都通過概率進行建模。說句白話,能夠用已有的資料做基礎,嘗試預測未來。
  • 貝葉斯機器學習路線圖
    ,它的特點是把我們感興趣的量(比如統計模型的參數)看作隨機變量.雖然貝葉斯統計的核心思想已經歷經很多年了, 但貝葉斯的思想在過去近20年對機器學習產生了重大影響, 因為它在對真實世界現象建立結構化模型時提供了靈活性. 算法的進步和日益增長的計算資源使得我們可以擬合豐富的, 高度結構化的模型, 而這些模型在過去是很棘手的.這個路線圖旨在給出貝葉斯機器學習中許多關鍵思想的指引.
  • 這個例子讓你精通貝葉斯定理
    全文共2450字,預計學習時長5分鐘貝葉斯定理可能是數理統計與概率論領域最重要的定理。因此,該定理經常應用於數據科學領域。本文將通過實際問題對貝葉斯定理進行直觀推導。例如,貝葉斯定理的眾多應用之一是統計推理的一種特殊方法---貝葉斯推理。貝葉斯推理是在獲得更多證據或信息時運用貝葉斯定理對假設概率進行更新的一種方法。貝葉斯推理已在廣泛領域內得以應用,包括科學、工程、哲學、醫學、體育和法律。