以Nature Genetics一篇新文為例,探討孟德爾隨機化方法學的應用

2020-09-09 醫咖會

2020年9月7日,英國布裡斯託大學的鄭捷團隊在《Nature Genetics》 (自然·遺傳學) 發表了一篇論著, Phenome-wide Mendelian randomization mapping the influence of the plasma proteome on complex diseases, 即《全表型組孟德爾隨機化研究映射蛋白質組對複雜疾病的影響》。與醫咖會在2019年04月02日報導的一篇發表在新英格蘭醫學的孟德爾隨機化研究——以NEJM一篇新文為例,聊聊孟德爾隨機化研究,是一脈相承的系列。

原文連結:

www.nature.com/articles/s41588-020-0682-6

本篇文章意在簡單介紹鄭捷團隊這篇文章的脈絡,並梳理孟德爾隨機化方法學在藥物研發中應用的基本原則。

研究背景

蛋白質作為大多數藥物的直接靶點(drug target),在藥物研發中佔有中心地位。醫治人類疾病的大多數藥物會通過改變人體內蛋白質的水平來調節人們的性狀(如血壓),最終達到降低人類疾病風險的效果。因此,構建蛋白質和人類疾病之間的因果關係,是藥物研發的核心問題之一。

隨機對照試驗(randomized controlled trial)是構建藥物(蛋白質靶點)和疾病之間關係的黃金法則。但是其成本昂貴,耗時費力。這也致使藥物研發的投資不斷推高。

與此相對應,藥物研發的成功率卻不斷下降。究其原因,超過50%的藥物沒有藥效,25%的藥物副作用過大;然而這些藥物卻都已經投入了昂貴的第三和第四期的隨機對照試驗。因此,有效的早期藥物靶點的篩選系統對降低藥物高企的成本有非常重要的作用。人類遺傳學因其研究對象為人類本身,因此在藥物靶點的篩查中被寄予厚望。

研究者提出的科學問題是:我們是否能夠運用孟德爾隨機化研究(Mendelian randomization)來預測藥物隨機對照試驗(randomized controlled trial)的結果,並提高藥物研發的成功率。

孟德爾隨機化是遺傳流行病的方法學中蓬勃發展的一支。其核心是運用遺傳學數據作為橋梁,來探索某一暴露(exposure)和某一結局(outcome)之間的因果關係[1]。 其因為和隨機對照試驗的可比較性,而一直被稱為「大自然創造的隨機雙盲試驗」(圖一)。

圖一 孟德爾隨機化以及隨機對照試驗的比較

孟德爾隨機化建立在基因在減數分裂時隨機分配到子代這一條件,這就相當於在「受試者」中,運用基因型(genotype)把人群隨機分配到「用藥組」和「對照組」,從而達到隨機的效果。

其有幾個主要優點(圖二):

1. 因為運用遺傳信息作為工具變量,所以該方法受到混雜因素(confounder)影響的比較輕。

2. 因為普通暴露(如體重)不會反向影響人類的遺傳信息(如DNA序列),所以該方法不會受到反向因果關係(reverse causality)的影響。

3. 該方法相比較於傳統流行病學方法,可以提示暴露和結局的方向性,因此能提示兩者之間的因果關係(causal relationship)而不只是提示兩者的關聯(association)。

圖二 孟德爾隨機化示意圖

近期,遺傳學領域的一些研究成果讓系統性的運用孟德爾隨機化方法學來尋找藥物靶點成為可能。其一,蛋白質組學(proteomics)的遺傳學深入探索,讓同時探索研究數千種蛋白質不再是夢想[2,3];其二,UK Biobank等大樣本生物資料庫的建立和使用權的開放,以及MR-Base、LD-Hub[4,5,6]等遺傳大數據運用平臺的建立,讓同時研究數百種人類疾病成為可能。

研究方法

在這些研究的基礎上,鄭捷團隊系統性地運用孟德爾隨機化,建立了1002種蛋白質和225種人類疾病之間的因果關係網絡(圖三)。

圖三 1002種蛋白質與225種疾病之間的因果關係網

研究結果

該研究揭示了65種蛋白質和52種人類疾病的顯著因果關係(圖四)。通過和現有藥物隨機對照試驗的比對,發現有孟德爾隨機化篩查證據支持的蛋白質靶點,其最終轉化為上市藥物的成功率有非常顯著的提高(表一)。

該研究成果第一次證實並量化了蛋白質組的遺傳學研究方法在藥物靶點篩查上的三大優勢:

1)快速有效地篩查藥物對相關疾病的有效性(efficacy);

2)通過篩查該藥物和其他疾病的關係,有效提示藥物的相關副作用(side effect);

3)通過檢索現有藥物,探索現有藥物對其他疾病的醫治效果,發現舊藥新用的可能性(reposition)。

圖四 圖型化展示111對蛋白質和人類疾病之間的因果關係

涵蓋心血管,癌症等8大類疾病。標註的PCSK9等蛋白質已作為藥物投入實際治療

表一 孟德爾隨機化預測藥物成功上市

孟德爾隨機化在運用到不同的研究對象時,根據相關數據的不同,需要考慮不同的假設前提和操作流程。尤其是基因多效性(horizontal pleitropy),是孟德爾隨機化需要解釋的主要假設前提之一[7]。本文會通過鄭捷團隊的文章,來深入解析孟德爾隨機化在多組學研究以及藥物靶點探索中的方法學要點。

首先需要了解的是,傳統孟德爾隨機化研究會運用大量遺傳變異(genetic variants,e.g.SNP)來作為工具變量(instruments)。比如研究睡眠與乳腺癌的關係[8],341個遺傳變異被用來作為工具變量來支持睡眠作為暴露。因為有大量的工具變量,使得大多數的孟德爾隨機化方法學,比如two-stage least squared, inverse variance weighted, MR-Egger regression等,都能被靈活運用[9]。

與此相反,遺傳學研究顯示,分子學性狀(molecular phenotypes)[比如基因表達(gene expression)或蛋白質表達(protein expression)]通常只有很少的遺傳變異能作為工具變量。比如大多數的蛋白質都只有一到兩個SNP能作為工具變量。究其原因,傳統的暴露,如睡眠,是比較複雜的表型,受到多基因多生物通路的影響,所以和其相關的遺傳變異也比較豐富。

而分子學性狀和人類的基因端非常接近,通常都是基因附近的一些遺傳變異(cis QTLs)才會直接影響到該基因或該蛋白質的表達。因為這些因素,使得運用這些分子學性狀來作為孟德爾隨機化的暴露變得更困難。

鄭捷團隊的這篇蛋白質組學的孟德爾隨機化研究,在方法學上有幾方面的突破

第一,此文明確展示了蛋白質和疾病的四種可能的關係(圖五):

1.因果關係,這是此類研究希望展示的關係,這些蛋白質也是可以優先考慮的藥物靶點;

2.反向因果,某疾病的發生改變了某蛋白質的表達,這樣的蛋白質可以作為生物標記;

3.多效性,某蛋白質和某基因都和某個基因變異有關聯,但是這些關聯卻通過不同的生物通路影響蛋白質和疾病,所以蛋白質和疾病之間沒有之間的因果關係,但孟德爾隨機化會報導一個假陽性的結果;

4.蛋白質和疾病分別和兩個不同的基因變異關聯,然而這兩個基因變異因為連鎖不平衡(linkage disequilibrium, LD)而聯繫在一起,導致蛋白質和疾病之間形成假的陽性結果。

圖五 蛋白質(或其他分子學性狀)和疾病之間的四種可能的關係

第二,為了排除3和4這些情況中產生的假陽性,此項研究明確指出了共定位方法學(geneticc colocalization)在孟德爾隨機化研究中的重要性,規範了蛋白質組學的研究策略,並第一次系統性地闡述了連鎖不平衡(情況4)對31.5%的孟德爾隨機化結果會造成偏差。

第三,為了有效增加共定位方法在多位點區域(multiple conditional independent signals)的可靠性,提出了Pair-wise conditional and colocalization analysis (PW-COCO)的改進方案,並運用該方法檢測出23個之前未檢測出的蛋白質和人類疾病之間的因果關係。

第四,為了支持開放式的科研(open science)和幫助建立研究標準,此研究公開發布了研究的分析方案(analysis protocol;

https://github.com/MRCIEU/epigraphdb-pqtl)和超過22萬對蛋白質--疾病因果關係的分析結果。為了方便用戶隨時查找相關藥物靶點和疾病的關係,該團隊還建立了一個可視化數據平臺(www.epigraphdb.org/pqtl/)。

綜上所述,這項成果是以成果轉化為主導的遺傳流行病前沿研究,從方法學上探索並規範了蛋白質組學的遺傳學研究流程,為未來的跨學科研究打下堅實基礎。從結果看,這項研究第一次系統性地展示了蛋白質組的遺傳學研究方法能有效提高藥物研發的成功率,證實了其在藥物靶點篩查上的重要性,並揭示了100多個新的藥物靶點。為降低藥物研發成本,進而降低藥物的價格,造福人類健康提供了得力方法和途徑。

研究作者簡介:

本文作者中,鄭捷助理教授為該論文的第一作者兼通訊作者。鄭捷來自英國布裡斯託大學英國醫學理事會綜合流行病研究中心(MRC Integrative Epidemiology Unit, University of Bristol)。鄭捷團隊目前的研究方向為複雜疾病的統計遺傳模型與因果關係推論(孟德爾隨機化)在製藥中的應用。更多信息請見:

https://www.researchgate.net/profile/Jie_Zheng12

參考文獻:

1. Davey Smith, G. & Ebrahim, S. 『Mendelian randomization』: can genetic epidemiology contribute to understanding environmental determinants of disease? Int J Epidemiol 32, 1–22 (2003).

2. Sun, B. B. et al. Genomic atlas of the human plasma proteome. Nature 558, 73–79 (2018).

3. Chong, M. et al. Novel Drug Targets for Ischemic Stroke Identified Through Mendelian Randomization Analysis of the Blood Proteome. Circulation (2019)

4. http://www.nealelab.is/uk-biobank

5. Hemani, G. et al. The MR-Base platform supports systematic causal inference across the human phenome. Elife 7, (2018).

6. Zheng J, et al. LD Hub: a centralized database and web interface to perform LD score regression that maximizes the potential of summary level GWAS data for SNP heritability and genetic correlation analysis. Bioinformatics, Volume 33, Issue 2, Pages 272–279 (2017)

7. Hemani G, et al. Evaluating the potential role of pleiotropy in Mendelian randomization studies. Human Molecular Genetics, Volume 27, Issue R2, 01 August 2018, Pages R195–R208.

8. Richmond C.R. et al. Investigating causal relations between sleep traits and risk of breast cancer in women: mendelian randomisation study. BMJ 2019; 365

9. Zheng J et al. Recent Developments in Mendelian Randomization Studies. Curr Epidemiol Rep. 2017;4(4):330-345.

醫咖會最新上線專欄課程《Excel中的研究數據整理技巧》

講解Excel中常見菜單、常用函數和Excel在數據整理中的最常見用法。

使用電腦,打開醫咖會,觀看專欄視頻:

https://www.mediecogroup.com/zhuanlan/courses/35/

關注醫咖會,及時獲取最新統計教程

相關焦點

  • Mendelian randomization孟德爾隨機化法
    為了闡明這些表徵是否有因果關係,我們一般在研究中考慮加入孟德爾隨機化分析。基本問題既然相關性不等於因果性,那麼如果去探索醫學科研中的「暴露」與「結局」之間的因果性呢?隊列雖好,卻是可望不可及的。而更加省時省力的病例對照研究,受限於其研究設計,只能得到相關係,而無法得到因果性。
  • 檢測疾病或表型間遺傳相關性的方法——孟德爾隨機化方法與LD分數回歸
    當然,當遺傳相關性為0時,變量1的遺傳效應完全獨立於變量2的遺傳效應;當遺傳相關性為1時,兩個變量的遺傳效應是完全相同的。目前,檢測疾病或表型間遺傳相關性的方法主要有三大類:1)家系研究2)孟德爾隨機化方法,檢測兩個變量間的遺傳效應的因果關係;3)使用全基因組數據評估遺傳相關性,又分為兩小類,第一,使用個體水平的基因型數據,主要包括使用GCTA等軟體包實現的Genetic restricted maximum likelihood (GREML)方法(詳細介紹見前期)以及多基因風險分數(詳細介紹見前期);
  • 今天我們來聊一聊孟德爾隨機化
    孟德爾隨機化, Mendilian Randomization,  簡寫為MR, 是一種在流行病學領域應用廣泛的一種實驗設計方法。暴露因素X和結局變量Y會受到混在因素U的影響工具變量Z和混雜因素U之間不存在任何聯繫,相互獨立工具變量Z和暴露因素X之間存在關聯性, 結局變量Y之間沒有直接的關聯性,僅能夠通過暴露因素X和結局變量Y之間建立關聯之所以稱之為孟德爾隨機化
  • 關注|臨床試驗中適應性隨機化的應用
    在傳統隨機對照試驗中,分配概率不會改變,而採用適應性隨機化,其分配概率會依據事先設定的規則隨著試驗數據結果發生變化,從而實現平衡組間樣本量、病人利益最大化、均衡協變量等目的。本文簡要介紹臨床試驗中不同的適應性隨機化方法並比較其優劣,為臨床試驗研究者選擇隨機化方法提供參考。
  • 孟德爾遺傳定律的由來
    他的研究工作填補了達爾文進化論中缺失的部分,並改變了生物學的面貌格雷戈爾·孟德爾的新實驗,將他修道的耐心推到了極限。孟德爾是布爾諾(位於現在的捷克共和國)奧古斯丁教會的聖託馬斯修道院的修土,他花了七年時間研究豌豆,這一潛心研究讓他作出了生物科學中最重要的一項貢獻。1856年至1863年,孟德爾在修道院的花園中通過異花授粉耐心地培育了約29000株豌豆。
  • 孟德爾定律終於要改了
    按:今天有一次看到精卵結合不隨機的報導文章,於是又想起了此文,特拿來分享。 首先申明標題確實有標題黨的嫌疑,因為孟德爾遺傳規律是普適規律,想要顛覆不大可能,不過真理都是在修正中完善的。 孟德爾遺傳規律成立的一個條件就是精卵結合是隨機的。
  • ...研究院桑慶團隊與合作者首次明確合子分裂失敗為新孟德爾遺傳病...
    該研究證實了合子分裂失敗為人類新孟德爾隱性遺傳病,為將來此類患者的基因診斷與治療奠定了理論基礎。另外,通過對比合子中oligo(dT)和隨機引物反轉錄產物中相關基因表達量的比值顯示,患者合子中該比值顯著高於對照組,間接說明BTG4突變影響了患者合子中母源mRNA的去腺苷化,進而導致大量母源mRNA未被正常降解,最終導致合子分裂失敗。
  • 高考生物複習孟德爾遺傳實驗的科學方法講解
    「分析孟德爾遺傳實驗的科學方法」是《高中生物課程標準》的具體內容標準之一,學習目標屬於應用水平,要求學生能「在新的情境中使用抽象的概念、原則;進行總結、推廣;建立不同情境下的合理聯繫等。」
  • 孟德爾隨機化之R2的計算
    這一期內容其實就是對上一期的補充,希望大家能熟練掌握F統計量的計算方法並能正確應用於孟德爾隨機化的研究中!
  • 桑慶/林戈/王磊首次明確合子分裂失敗為新孟德爾遺傳病
    臨床有部分進行試管嬰兒的患者表現為卵子受精後合子不分裂(合子分裂失敗),進而導致反覆試管嬰兒失敗及不孕。合子分裂失敗這一表型在臨床中時有遇到,但其是否是孟德爾遺傳病以及背後的遺傳因素卻一直未知。另外,通過對比合子中oligo(dT)和隨機引物反轉錄產物中相關基因表達量的比值顯示,患者合子中該比值顯著高於對照組,間接說明BTG4突變影響了患者合子中母源mRNA的去腺苷化,進而導致大量母源mRNA未被正常降解,最終導致合子分裂失敗。
  • 《隨機漫步的傻瓜》翻譯探討
    因此這句話應該翻譯為,「這種歷史事件的另一種可能過程被稱為備擇歷史」。8位置:第二章 P26 最後一段書中翻譯:因此我認為人分成截然相反的兩類:一類絕不接受隨機性,另一類則為隨機性所苦。探討:distributed across 應該理解為分布在兩種極端類型之間。應該翻譯為「因此我認為人分布在兩種極端之間:一個極端是完全不接受隨機性,另一個極端是為隨機性所苦。」
  • HPB專欄|HPB硬體隨機數—去中心化應用的安全基石
    此外,內置的激勵機制,允許隨機數生成者和消費者通過幫助維持隨機數服務,獲得相應的獎勵。去中心化應用的安全基石HPB硬體隨機數不僅具有傳統硬體隨機數不可控、不可預測的優點,而且具有去中心化激勵、跨鏈、分布式服務、透明性和可驗證性等特點。
  • 「深度」AB測試中的因果推斷——隨機化分流
    上一篇文章「「深度」A/B測試中的因果推斷——潛在結果模型」中我們介紹了用於A/B測試因果推斷的潛在結果模型,現在我們來看看在統計推斷中如何應用這個模型,對試驗的因果效果進行估計。二、隨機化試驗採用隨機化分流方式的試驗設計就是隨機化試驗 (Randomized Experiments),它是我們在 A/B 測試中進行統計推斷的基礎。
  • 孟德爾是豌豆實驗,發現了遺傳規律、分離規律及自由組合規律
    孟德爾(Gregor Johann Mendel) (1822年7月22日-1884年1月6日)是「現代遺傳學之父(father of modern genetics)」,是遺傳學的奠基人。1865年他通過豌豆實驗,發現了遺傳規律、分離規律及自由組合規律。孟德爾開始進行豌豆實驗時,達爾文進化論剛剛問世。
  • Nature綜述:鹼基編輯的前世今生
    近日(2020年10月19日),Nature Reviews Drug Discovery雜誌上發表了一篇題為「Base editing: advances and therapeutic opportunities」的綜述性文章,重點介紹了DNA和RNA鹼基
  • 研究生園地|ENACT研究:改良意向性分析方法的應用
    所有患者均接受手術治療,在患者仍處於麻醉狀態下手術操作完成的10分鐘內靜脈應用NA-1(2.6mg/kg)或鹽水。主要研究終點為安全性。研究的有效性終點為磁共振彌散加權成像(DWI)和磁共振成像液體衰減反轉恢復序列(FLAIR)觀察到的病灶體積與數量。次要研究終點為包括mRS和NIHSS在內的臨床評分,以及認知功能量表評分。
  • 臨床試驗隨機化的3個方法
    所謂「四性」即代表性、重複性、隨機性、合理性。今天陽光書整理了其中隨機性的知識點和大家一起來學習。隨機性的要求在試驗中通常會要求兩組病人分配均勻,不隨主觀意志為轉移。隨機化的方法1.簡單隨機在整個研究中心按照受試者入選的先後順序,根據預定的隨機方案分配入試驗組或對照給。隨機方案通過查閱隨機對照表或採用計算器或計算機產生,隨簡單隨機方法。