生信小課堂 | 通俗理解貝葉斯統計

2021-02-20 泛生子基因

生物信息學融合了生物學、數學、計算機科學等多學科的新興交叉學科，通過對生物信息的獲取、處理和分析，來闡明大量生物數據所蘊含的生物學意義，對生物醫療領域的基礎科研和臨床應用具有重大價值。

泛生子深耕癌症基因組學多年，在生物信息學方面積累了豐富的理論知識和實戰經驗。生信小課堂是泛生子新設立的生物信息學科普欄目，希望與同道分享相關知識和經驗，一起探索和挖掘生物信息學的無限奧秘~

上期我們聊到概率分布在NGS分析中的應用時，提到基因組中不同位點受到多種因素影響而具有不同的噪音率（點擊傳送至上期精彩文章~）。貝葉斯統計（Bayesian statistics）可以通過結合這些因素來更準確地檢測體細胞突變。這裡我們需要先花些時間做一些背景介紹。本期我們先探討貝葉斯統計方法。

貝葉斯學派的核心思想是在分析當下的數據時結合以往的經驗。貝葉斯模型三大要素：先驗概率（Prior probability）、似然函數（Likelihood function）及後驗概率（Posterior probability）。假設我們要用貝葉斯模型在已知一些以往信息的情況下，判斷事件y發生的可能性：

假設我們需要為某一發病率為0.05%的癌症開發一個篩查方法。在回顧性研究（Retrospective study）中我們通常會設定兩組樣本（比如100例患病和100例未患病）來開發/評估檢測方法的準確性。假設我們從中得知檢測方法的敏感性（Sensitivity）為99%，特異性（Specificity）為99%，在上述隊列中的陽性預測值是99%。然而這個看似準確性還不錯的方法應用到真實世界中的罕見病篩查會怎樣呢？

通過貝葉斯方法計算，在真實世界中此方法判斷的陽性人群中只有4.95%是真實患病的。這個例子告訴我們在忽略真實情況下（此例中指真實世界中的患病概率）的性能評估是多麼不靠譜。

貝葉斯估計的關鍵是將現有實驗數據（似然分布）和以往的相關經驗（先驗信息）結合起來去確定後驗分布。這樣我們可以通過更多的樣本或者更全面的信息來獲得更準確的統計結果。

下面以某種臨床試驗內小鼠患腫瘤概率模型為例，鑑於本次實驗小鼠樣本量有限，我們希望通過結合以往的相同實驗，用貝葉斯方法來進行更可靠的統計。

對於這個問題，臨床試驗內小鼠患病與否，應採用二項分布（Binomial distribution）表示（一系列試驗內小鼠患病/未患病概率分布），患病概率為θ ；而表示先驗概率分布應使用Beta分布。選擇Beta分布是因為Beta分布是一個被限制在[0,1]之間的連續變量的概率分布，可以方便地看作一個概率的概率分布，即θ~Beta(α,β)。當不知道患病事件的具體概率時，它可以給出了此概率的大致分布。這表示在我們沒有進行小鼠模型試驗時，我們就根據先驗數據知道患病概率大致的範圍。

基於以往65組相同的小鼠試驗數據，我們可以通過每組試驗內患病和未患病小鼠的數量(α,β)計算出患病概率的概率分布（Beta distribution）的參數：θ~Beta(2.6,9.7)，均值(μ=0.211)和標準差(σ=0.112)。以往數據先驗概率分布：

通過以往65組小鼠試驗數據得到了先驗概率：θ~Beta(2.6,9.7)。在本次試驗中，總共15隻小鼠有5隻患病。此時我們通過貝葉斯方法，用此次試驗數據來更新以往的經驗。已知先驗分布是Beta分布，與二項分布結合之後產生後驗分布也服從於Beta分布，但(α,β)參數會發生改變。詳細解釋如下：

綜上所述，後驗分布服從beta(α+κ,β+n-κ)，其中k表示試驗成功次數，n-k表示試驗失敗次數。所以，小鼠患病後驗概率模型服從於Beta(α+患病小鼠數量，β+未患病小鼠數量)，即θ~beta(7.6,19.7)，其均值為0.282，即根據貝葉斯估計預測小鼠患腫瘤概率為0.282。上面示例解釋先驗概率分布和似然函數均基於一定概率分布形式來估計後驗概率，而最終後驗概率分布取決於先驗分布或似然函數分布各自的『信心』（方差和樣本量）。所以，貝葉斯估計模型將先驗信息(歷史數據已知信息)和似然函數(通過觀測試驗數據估計模型參數)結合，從而得到更準確後驗概率模型參數，使貝葉斯估計的結果更準確。

泛生子是中國領先的癌症精準醫療公司，致力於提供多應用場景的一站式分子診斷解決方案，包括癌症診斷與監測、早期篩查以及藥物研發服務。泛生子服務中國400餘家醫院、數十家藥企和科研機構，並建立了龐大的基因組資料庫。在診斷與監測領域，泛生子提供全面的基因組檢測服務和產品，覆蓋中國前十大癌種中的八種，可開展組織檢測及液體活檢，並依託「一步法」等技術，在NGS、dPCR和qPCR等技術平臺開發了全面的IVD產品組合，現已有7款儀器和試劑盒獲中國國家藥品監督管理局批准應用於臨床。在癌症早篩前沿領域，泛生子自主研發了先進的可同時檢測突變和甲基化的Mutation Capsule技術，已在肝癌早篩領域啟動大規模前瞻性隊列研究，並獲批加入科技部主導的肝癌、肺癌和消化道癌等數個國家重點專項。在藥物研發服務領域，泛生子已與數十家國內外藥企達成戰略合作，滿足藥企在藥物早期研發及藥靶篩選、臨床試驗檢測及患者入組、伴隨診斷註冊開發（CDx）及商業化等方面的需求。

泛生子擁有中、美雙研發中心，2家通過ISO13485:2016、ISO9001:2015體系認證的醫療器械生產基地和5家分別位於北京（CAP、CLIA雙認證）、上海、杭州、重慶和廣州的醫學檢驗實驗室。泛生子打造的具備一流研發實力的頂尖科學家團隊，始終走在癌症基因組學學術前沿，已在《Nature Genetics》、《Nature Communications》、《Cell Research》、《PNAS》等全球權威學術期刊發表數十篇論文。

4000-996-336

www.genetronhealth.com

相關焦點

貝葉斯定理的通俗理解

樸素貝葉斯是一種基於貝葉斯定理的簡單概率分類器（分類又被稱為監督式學習，所謂監督式學習即從已知樣本數據中的特徵信息去推測可能出現的輸出以完成分類
傳說中的貝葉斯統計到底有什麼來頭?

引言：在很多分析學者看來，貝葉斯統計仍然是難以理解的。受機器學習這股熱潮的影響，我們中很多人都對統計學失去了信心。頻率統計有關頻率統計和貝葉斯統計的爭論以及持續了好幾個世紀，因此對於初學者來說理解這兩者的區別，以及如何劃分這兩者十分重要。它是統計領域中應用最為廣泛的推理技術。事實上，它是初學者進入統計學世界中的第一所學校。頻率統計檢測一個事件（或者假設）是否發生，它通過長時間的試驗計算某個事件發生的可能性（試驗是在同等條件下進行的）。
推薦 :一文帶你熟悉貝葉斯統計

圖：Unsplash，Chris Liverani貝葉斯統計這個術語最近被廣泛使用。它常用於社交場合、遊戲和日常生活中，如棒球、撲克、天氣預報、總統選舉投票等。在許多科學領域，可以用貝葉斯統計來確定粒子物理和藥物有效性實驗的結果，它還可用於機器學習和人工智慧，以預測你想看什麼新聞故事或觀看什麼Netflix節目。
透徹理解貝葉斯推理

前邊在文章透徹理解最大似然估計，闡述如何理解最大似然進行參數估計，本文將討論使用貝葉斯推理進行參數估計。我還將展示如何將此方法視為最大似然的概括，以及在何種情況下這兩種方法是等價的。貝葉斯定理在介紹貝葉斯推理之前，有必要理解貝葉斯定理。貝葉斯定理真的很酷。使它有用的是它允許我們使用我們已有的一些知識或信念（通常稱為先驗）來幫助我們計算相關事件的概率。
貝葉斯及概率統計角度

理解一個詞的含義等同於概念學習，同時也等同於二元分類。即當輸入數據時一個概念的樣例時，定義f(x)=1；否則f(x)=0。理解概念學習逆概問題所謂的貝葉斯方法源於他生前為解決一個「逆概」問題寫的一篇文章，而這篇文章是在他死後才由他的一位朋友發表出來的。
條件概率與貝葉斯統計

迄今為止，我們使用的統計方法在統計學中都稱為頻率論方法。我們從樣本中得出的結論完全基於數據的頻率或比例。
乾貨|非常通俗的樸素貝葉斯算法(Naive Bayes)

本文介紹樸素貝葉斯分類器（Naive Bayes classifier），它是一種簡單有效的常用分類算法。讓我從一個例子開始講起，你會看到貝葉斯分類器很好懂，一點都不難。某個醫院早上收了六個門診病人，如下表截圖。現在又來了第七個病人，是一個打噴嚏的建築工人。請問他患上感冒的概率有多大？
介紹利用貝葉斯統計的一個實踐案例

介紹利用貝葉斯統計的一個實踐案例李倩發表於 2018-07-16 17:14:59 為了大家可以對貝葉斯算法有更多的了解，人工智慧頭條為大家整理過一篇關於貝葉斯算法的文章
機器學習的統計方法貝葉斯決策理論入門

引言無論你是在建立機器學習模型還是在日常生活中做決定，我們總是選擇風險最小的方案。作為人類，我們天生就採取任何有助於我們生存的行動；然而，機器學習模型最初並不是基於這種理解而建立的。這些算法需要經過訓練和優化，以選擇風險最小的最優方案。
人人都可以當賭神的秘密:用Python學習神奇的貝葉斯統計

貝葉斯統計是個神鳥呢？數學家貝葉斯，在200多年前寫的《機會學說中一個問題的解》這本書中提過個觀點，他說，支持某項屬性的事件發生得愈多，則該屬性成立的可能性就愈大。簡言之，如果你看到一個人總是做一些好事，那個人多半會是個好人。很好理解對吧？
機器學習算法實踐-樸素貝葉斯(Naive Bayes)

當然樣本越多我們統計的不同類型的特徵值分布就越準確，使用此分布進行預測則會更加準確。貝葉斯準則樸素貝葉斯分類器中最核心的便是貝葉斯準則，他用如下的公式表示:使用條件概率來進行分類這裡我通俗的介紹下如何通過條件概率來進行分類，假設我們看到了一個人的背影，想通過他背影的一些特徵(數據)來判斷這個人的性別(類別)，假設其中涉及到的特徵有: 是否是長發, 身高是否在170以上，腿細，是否穿裙子。
貝葉斯和貝葉斯公式

約1701年出生於倫敦，做過神甫。1742年成為英國皇家學會會員。1761年4月7日逝世。貝葉斯在數學方面主要研究概率論。他首先將歸納推理法用於概率論基礎理論，並創立了貝葉斯統計理論，對於統計決策函數、統計推斷、統計的估算等做出了貢獻。
形象理解貝葉斯定理

理解概率概念對於機器學習工程師或數據科學專業人員來說是必須的。許多數據科學挑戰性問題的解決方案本質上是從概率視角解決的。因此，更好地理解概率將有助於更有效地理解和實現這些算法。每當你閱讀任何概率書、博客或論文時，大多數時候你會發現這些書中的講解太過理論化。
機器學習 —— 淺談貝葉斯和MCMC

這是這個系列的第一個筆記，是關於貝葉斯和MCMC一些數學原理的講解和代碼的實現，希望能夠深入淺出，敘述的容易讓人理解。…▌淺談貝葉斯不論是學習概率統計還是機器學習的過程中，貝葉斯總是是繞不過去的一道坎，大部分人在學習的時候都是在強行地背公式和套用方法，沒有真正去理解其牛逼的思想內涵。
用Python貝葉斯統計試試

貝葉斯統計的概念很簡單，有一些固定的數據（固定的意思是指我們無法改變觀測值），和一些感興趣的參數，剩下要做的就是探索這些參數可能的取值，其中所有的不確定性都通過概率進行建模。說句白話，能夠用已有的資料做基礎，嘗試預測未來。
貝葉斯機器學習路線圖

,它的特點是把我們感興趣的量（比如統計模型的參數）看作隨機變量.雖然貝葉斯統計的核心思想已經歷經很多年了, 但貝葉斯的思想在過去近20年對機器學習產生了重大影響, 因為它在對真實世界現象建立結構化模型時提供了靈活性. 算法的進步和日益增長的計算資源使得我們可以擬合豐富的, 高度結構化的模型, 而這些模型在過去是很棘手的.這個路線圖旨在給出貝葉斯機器學習中許多關鍵思想的指引.
獨家 | 一文讀懂機器學習中的貝葉斯統計學

「貝葉斯統計之所以困難，是因為思考是困難的」 - Don Berry 這是所有貝葉斯統計的關鍵，並使用一個稱為貝葉斯規則的方程來正式描述。貝葉斯規則貝葉斯規則告訴我們，我們必須從某一事件發生的固有概率開始（事前）。我們稱之為先驗概率。
貝葉斯模型上

額，恩，沒了，貝葉斯最核心的公式就這麼些。3. 用機器學習的視角理解貝葉斯公式在機器學習的視角下，我們把X理解成「具有某特徵」，把Y理解成「類別標籤」(一般機器學習問題中都是X=>特徵, Y=>結果對吧)。
2021考研數學備考指導:概率統計淺析貝葉斯公式及其應用

2021考研數學備考指導:概率統計淺析貝葉斯公式及其應用 2021考研已經進入緊張的備考強化階段，考生務必要重視，打好基礎，為將來做準備！
貝葉斯系統學習之一:我是如何理解先驗概率和後驗概率的

現在在人工智慧領域，貝葉斯相關應用佔了很大比例，比如常見的垃圾郵件處理，文章分類等等，很多問題上都可以歸結到概率這塊了

生信小課堂 | 通俗理解貝葉斯統計

相關焦點

貝葉斯定理的通俗理解

傳說中的貝葉斯統計到底有什麼來頭?

推薦 :一文帶你熟悉貝葉斯統計

透徹理解貝葉斯推理

貝葉斯及概率統計角度

條件概率與貝葉斯統計

乾貨|非常通俗的樸素貝葉斯算法(Naive Bayes)

介紹利用貝葉斯統計的一個實踐案例

機器學習的統計方法 貝葉斯決策理論入門

人人都可以當賭神的秘密:用Python學習神奇的貝葉斯統計

機器學習算法實踐-樸素貝葉斯(Naive Bayes)

貝葉斯和貝葉斯公式

形象理解貝葉斯定理

機器學習 —— 淺談貝葉斯和MCMC

用Python貝葉斯統計試試

貝葉斯機器學習路線圖

獨家 | 一文讀懂機器學習中的貝葉斯統計學

貝葉斯模型上

2021考研數學備考指導:概率統計淺析貝葉斯公式及其應用

貝葉斯系統學習之一:我是如何理解先驗概率和後驗概率的

機器學習的統計方法貝葉斯決策理論入門