生物信息學融合了生物學、數學、計算機科學等多學科的新興交叉學科,通過對生物信息的獲取、處理和分析,來闡明大量生物數據所蘊含的生物學意義,對生物醫療領域的基礎科研和臨床應用具有重大價值。
泛生子深耕癌症基因組學多年,在生物信息學方面積累了豐富的理論知識和實戰經驗。生信小課堂是泛生子新設立的生物信息學科普欄目,希望與同道分享相關知識和經驗,一起探索和挖掘生物信息學的無限奧秘~
上期我們聊到概率分布在NGS分析中的應用時,提到基因組中不同位點受到多種因素影響而具有不同的噪音率(點擊傳送至上期精彩文章~)。貝葉斯統計(Bayesian statistics)可以通過結合這些因素來更準確地檢測體細胞突變。這裡我們需要先花些時間做一些背景介紹。本期我們先探討貝葉斯統計方法。
貝葉斯學派的核心思想是在分析當下的數據時結合以往的經驗。貝葉斯模型三大要素:先驗概率(Prior probability)、似然函數(Likelihood function)及後驗概率(Posterior probability)。假設我們要用貝葉斯模型在已知一些以往信息的情況下,判斷事件y發生的可能性:
假設我們需要為某一發病率為0.05%的癌症開發一個篩查方法。在回顧性研究(Retrospective study)中我們通常會設定兩組樣本(比如100例患病和100例未患病)來開發/評估檢測方法的準確性。假設我們從中得知檢測方法的敏感性(Sensitivity)為99%,特異性(Specificity)為99%,在上述隊列中的陽性預測值是99%。然而這個看似準確性還不錯的方法應用到真實世界中的罕見病篩查會怎樣呢?
通過貝葉斯方法計算,在真實世界中此方法判斷的陽性人群中只有4.95%是真實患病的。這個例子告訴我們在忽略真實情況下(此例中指真實世界中的患病概率)的性能評估是多麼不靠譜。
貝葉斯估計的關鍵是將現有實驗數據(似然分布)和以往的相關經驗(先驗信息)結合起來去確定後驗分布。這樣我們可以通過更多的樣本或者更全面的信息來獲得更準確的統計結果。
下面以某種臨床試驗內小鼠患腫瘤概率模型為例,鑑於本次實驗小鼠樣本量有限,我們希望通過結合以往的相同實驗,用貝葉斯方法來進行更可靠的統計。
對於這個問題,臨床試驗內小鼠患病與否,應採用二項分布(Binomial distribution)表示(一系列試驗內小鼠患病/未患病概率分布),患病概率為θ ;而表示先驗概率分布應使用Beta分布。選擇Beta分布是因為Beta分布是一個被限制在[0,1]之間的連續變量的概率分布,可以方便地看作一個概率的概率分布,即θ~Beta(α,β)。當不知道患病事件的具體概率時,它可以給出了此概率的大致分布。這表示在我們沒有進行小鼠模型試驗時,我們就根據先驗數據知道患病概率大致的範圍。
基於以往65組相同的小鼠試驗數據,我們可以通過每組試驗內患病和未患病小鼠的數量(α,β)計算出患病概率的概率分布(Beta distribution)的參數:θ~Beta(2.6,9.7),均值(μ=0.211)和標準差(σ=0.112)。以往數據先驗概率分布:
通過以往65組小鼠試驗數據得到了先驗概率:θ~Beta(2.6,9.7)。在本次試驗中,總共15隻小鼠有5隻患病。此時我們通過貝葉斯方法,用此次試驗數據來更新以往的經驗。已知先驗分布是Beta分布,與二項分布結合之後產生後驗分布也服從於Beta分布,但(α,β)參數會發生改變。詳細解釋如下:
綜上所述,後驗分布服從beta(α+κ,β+n-κ),其中k表示試驗成功次數,n-k表示試驗失敗次數。所以,小鼠患病後驗概率模型服從於Beta(α+患病小鼠數量,β+未患病小鼠數量),即θ~beta(7.6,19.7),其均值為0.282,即根據貝葉斯估計預測小鼠患腫瘤概率為0.282。上面示例解釋先驗概率分布和似然函數均基於一定概率分布形式來估計後驗概率,而最終後驗概率分布取決於先驗分布或似然函數分布各自的『信心』(方差和樣本量)。所以,貝葉斯估計模型將先驗信息(歷史數據已知信息)和似然函數(通過觀測試驗數據估計模型參數)結合,從而得到更準確後驗概率模型參數,使貝葉斯估計的結果更準確。
泛生子是中國領先的癌症精準醫療公司,致力於提供多應用場景的一站式分子診斷解決方案,包括癌症診斷與監測、早期篩查以及藥物研發服務。泛生子服務中國400餘家醫院、數十家藥企和科研機構,並建立了龐大的基因組資料庫。在診斷與監測領域,泛生子提供全面的基因組檢測服務和產品,覆蓋中國前十大癌種中的八種,可開展組織檢測及液體活檢,並依託「一步法」等技術,在NGS、dPCR和qPCR等技術平臺開發了全面的IVD產品組合,現已有7款儀器和試劑盒獲中國國家藥品監督管理局批准應用於臨床。在癌症早篩前沿領域,泛生子自主研發了先進的可同時檢測突變和甲基化的Mutation Capsule技術,已在肝癌早篩領域啟動大規模前瞻性隊列研究,並獲批加入科技部主導的肝癌、肺癌和消化道癌等數個國家重點專項。在藥物研發服務領域,泛生子已與數十家國內外藥企達成戰略合作,滿足藥企在藥物早期研發及藥靶篩選、臨床試驗檢測及患者入組、伴隨診斷註冊開發(CDx)及商業化等方面的需求。
泛生子擁有中、美雙研發中心,2家通過ISO13485:2016、ISO9001:2015體系認證的醫療器械生產基地和5家分別位於北京(CAP、CLIA雙認證)、上海、杭州、重慶和廣州的醫學檢驗實驗室。泛生子打造的具備一流研發實力的頂尖科學家團隊,始終走在癌症基因組學學術前沿,已在《Nature Genetics》、《Nature Communications》、《Cell Research》、《PNAS》等全球權威學術期刊發表數十篇論文。
4000-996-336
www.genetronhealth.com