2020年9月7日,英國布裡斯託大學的鄭捷團隊在《Nature Genetics》 (自然·遺傳學) 發表了一篇論著, Phenome-wide Mendelian randomization mapping the influence of the plasma proteome on complex diseases, 即《全表型組孟德爾隨機化研究映射蛋白質組對複雜疾病的影響》。與醫咖會在2019年04月02日報導的一篇發表在新英格蘭醫學的孟德爾隨機化研究——以NEJM一篇新文為例,聊聊孟德爾隨機化研究,是一脈相承的系列。
原文連結:
www.nature.com/articles/s41588-020-0682-6
本篇文章意在簡單介紹鄭捷團隊這篇文章的脈絡,並梳理孟德爾隨機化方法學在藥物研發中應用的基本原則。
研究背景
蛋白質作為大多數藥物的直接靶點(drug target),在藥物研發中佔有中心地位。醫治人類疾病的大多數藥物會通過改變人體內蛋白質的水平來調節人們的性狀(如血壓),最終達到降低人類疾病風險的效果。因此,構建蛋白質和人類疾病之間的因果關係,是藥物研發的核心問題之一。
隨機對照試驗(randomized controlled trial)是構建藥物(蛋白質靶點)和疾病之間關係的黃金法則。但是其成本昂貴,耗時費力。這也致使藥物研發的投資不斷推高。
與此相對應,藥物研發的成功率卻不斷下降。究其原因,超過50%的藥物沒有藥效,25%的藥物副作用過大;然而這些藥物卻都已經投入了昂貴的第三和第四期的隨機對照試驗。因此,有效的早期藥物靶點的篩選系統對降低藥物高企的成本有非常重要的作用。人類遺傳學因其研究對象為人類本身,因此在藥物靶點的篩查中被寄予厚望。
研究者提出的科學問題是:我們是否能夠運用孟德爾隨機化研究(Mendelian randomization)來預測藥物隨機對照試驗(randomized controlled trial)的結果,並提高藥物研發的成功率。
孟德爾隨機化是遺傳流行病的方法學中蓬勃發展的一支。其核心是運用遺傳學數據作為橋梁,來探索某一暴露(exposure)和某一結局(outcome)之間的因果關係[1]。 其因為和隨機對照試驗的可比較性,而一直被稱為「大自然創造的隨機雙盲試驗」(圖一)。
圖一 孟德爾隨機化以及隨機對照試驗的比較
孟德爾隨機化建立在基因在減數分裂時隨機分配到子代這一條件,這就相當於在「受試者」中,運用基因型(genotype)把人群隨機分配到「用藥組」和「對照組」,從而達到隨機的效果。
其有幾個主要優點(圖二):
1. 因為運用遺傳信息作為工具變量,所以該方法受到混雜因素(confounder)影響的比較輕。
2. 因為普通暴露(如體重)不會反向影響人類的遺傳信息(如DNA序列),所以該方法不會受到反向因果關係(reverse causality)的影響。
3. 該方法相比較於傳統流行病學方法,可以提示暴露和結局的方向性,因此能提示兩者之間的因果關係(causal relationship)而不只是提示兩者的關聯(association)。
圖二 孟德爾隨機化示意圖
近期,遺傳學領域的一些研究成果讓系統性的運用孟德爾隨機化方法學來尋找藥物靶點成為可能。其一,蛋白質組學(proteomics)的遺傳學深入探索,讓同時探索研究數千種蛋白質不再是夢想[2,3];其二,UK Biobank等大樣本生物資料庫的建立和使用權的開放,以及MR-Base、LD-Hub[4,5,6]等遺傳大數據運用平臺的建立,讓同時研究數百種人類疾病成為可能。
研究方法
在這些研究的基礎上,鄭捷團隊系統性地運用孟德爾隨機化,建立了1002種蛋白質和225種人類疾病之間的因果關係網絡(圖三)。
圖三 1002種蛋白質與225種疾病之間的因果關係網
研究結果
該研究揭示了65種蛋白質和52種人類疾病的顯著因果關係(圖四)。通過和現有藥物隨機對照試驗的比對,發現有孟德爾隨機化篩查證據支持的蛋白質靶點,其最終轉化為上市藥物的成功率有非常顯著的提高(表一)。
該研究成果第一次證實並量化了蛋白質組的遺傳學研究方法在藥物靶點篩查上的三大優勢:
1)快速有效地篩查藥物對相關疾病的有效性(efficacy);
2)通過篩查該藥物和其他疾病的關係,有效提示藥物的相關副作用(side effect);
3)通過檢索現有藥物,探索現有藥物對其他疾病的醫治效果,發現舊藥新用的可能性(reposition)。
圖四 圖型化展示111對蛋白質和人類疾病之間的因果關係
涵蓋心血管,癌症等8大類疾病。標註的PCSK9等蛋白質已作為藥物投入實際治療
表一 孟德爾隨機化預測藥物成功上市
孟德爾隨機化在運用到不同的研究對象時,根據相關數據的不同,需要考慮不同的假設前提和操作流程。尤其是基因多效性(horizontal pleitropy),是孟德爾隨機化需要解釋的主要假設前提之一[7]。本文會通過鄭捷團隊的文章,來深入解析孟德爾隨機化在多組學研究以及藥物靶點探索中的方法學要點。
首先需要了解的是,傳統孟德爾隨機化研究會運用大量遺傳變異(genetic variants,e.g.SNP)來作為工具變量(instruments)。比如研究睡眠與乳腺癌的關係[8],341個遺傳變異被用來作為工具變量來支持睡眠作為暴露。因為有大量的工具變量,使得大多數的孟德爾隨機化方法學,比如two-stage least squared, inverse variance weighted, MR-Egger regression等,都能被靈活運用[9]。
與此相反,遺傳學研究顯示,分子學性狀(molecular phenotypes)[比如基因表達(gene expression)或蛋白質表達(protein expression)]通常只有很少的遺傳變異能作為工具變量。比如大多數的蛋白質都只有一到兩個SNP能作為工具變量。究其原因,傳統的暴露,如睡眠,是比較複雜的表型,受到多基因多生物通路的影響,所以和其相關的遺傳變異也比較豐富。
而分子學性狀和人類的基因端非常接近,通常都是基因附近的一些遺傳變異(cis QTLs)才會直接影響到該基因或該蛋白質的表達。因為這些因素,使得運用這些分子學性狀來作為孟德爾隨機化的暴露變得更困難。
鄭捷團隊的這篇蛋白質組學的孟德爾隨機化研究,在方法學上有幾方面的突破。
第一,此文明確展示了蛋白質和疾病的四種可能的關係(圖五):
1.因果關係,這是此類研究希望展示的關係,這些蛋白質也是可以優先考慮的藥物靶點;
2.反向因果,某疾病的發生改變了某蛋白質的表達,這樣的蛋白質可以作為生物標記;
3.多效性,某蛋白質和某基因都和某個基因變異有關聯,但是這些關聯卻通過不同的生物通路影響蛋白質和疾病,所以蛋白質和疾病之間沒有之間的因果關係,但孟德爾隨機化會報導一個假陽性的結果;
4.蛋白質和疾病分別和兩個不同的基因變異關聯,然而這兩個基因變異因為連鎖不平衡(linkage disequilibrium, LD)而聯繫在一起,導致蛋白質和疾病之間形成假的陽性結果。
圖五 蛋白質(或其他分子學性狀)和疾病之間的四種可能的關係
第二,為了排除3和4這些情況中產生的假陽性,此項研究明確指出了共定位方法學(geneticc colocalization)在孟德爾隨機化研究中的重要性,規範了蛋白質組學的研究策略,並第一次系統性地闡述了連鎖不平衡(情況4)對31.5%的孟德爾隨機化結果會造成偏差。
第三,為了有效增加共定位方法在多位點區域(multiple conditional independent signals)的可靠性,提出了Pair-wise conditional and colocalization analysis (PW-COCO)的改進方案,並運用該方法檢測出23個之前未檢測出的蛋白質和人類疾病之間的因果關係。
第四,為了支持開放式的科研(open science)和幫助建立研究標準,此研究公開發布了研究的分析方案(analysis protocol;
https://github.com/MRCIEU/epigraphdb-pqtl)和超過22萬對蛋白質--疾病因果關係的分析結果。為了方便用戶隨時查找相關藥物靶點和疾病的關係,該團隊還建立了一個可視化數據平臺(www.epigraphdb.org/pqtl/)。
綜上所述,這項成果是以成果轉化為主導的遺傳流行病前沿研究,從方法學上探索並規範了蛋白質組學的遺傳學研究流程,為未來的跨學科研究打下堅實基礎。從結果看,這項研究第一次系統性地展示了蛋白質組的遺傳學研究方法能有效提高藥物研發的成功率,證實了其在藥物靶點篩查上的重要性,並揭示了100多個新的藥物靶點。為降低藥物研發成本,進而降低藥物的價格,造福人類健康提供了得力方法和途徑。
研究作者簡介:
本文作者中,鄭捷助理教授為該論文的第一作者兼通訊作者。鄭捷來自英國布裡斯託大學英國醫學理事會綜合流行病研究中心(MRC Integrative Epidemiology Unit, University of Bristol)。鄭捷團隊目前的研究方向為複雜疾病的統計遺傳模型與因果關係推論(孟德爾隨機化)在製藥中的應用。更多信息請見:
https://www.researchgate.net/profile/Jie_Zheng12
參考文獻:
1. Davey Smith, G. & Ebrahim, S. 『Mendelian randomization』: can genetic epidemiology contribute to understanding environmental determinants of disease? Int J Epidemiol 32, 1–22 (2003).
2. Sun, B. B. et al. Genomic atlas of the human plasma proteome. Nature 558, 73–79 (2018).
3. Chong, M. et al. Novel Drug Targets for Ischemic Stroke Identified Through Mendelian Randomization Analysis of the Blood Proteome. Circulation (2019)
4. http://www.nealelab.is/uk-biobank
5. Hemani, G. et al. The MR-Base platform supports systematic causal inference across the human phenome. Elife 7, (2018).
6. Zheng J, et al. LD Hub: a centralized database and web interface to perform LD score regression that maximizes the potential of summary level GWAS data for SNP heritability and genetic correlation analysis. Bioinformatics, Volume 33, Issue 2, Pages 272–279 (2017)
7. Hemani G, et al. Evaluating the potential role of pleiotropy in Mendelian randomization studies. Human Molecular Genetics, Volume 27, Issue R2, 01 August 2018, Pages R195–R208.
8. Richmond C.R. et al. Investigating causal relations between sleep traits and risk of breast cancer in women: mendelian randomisation study. BMJ 2019; 365
9. Zheng J et al. Recent Developments in Mendelian Randomization Studies. Curr Epidemiol Rep. 2017;4(4):330-345.
醫咖會最新上線專欄課程《Excel中的研究數據整理技巧》!
講解Excel中常見菜單、常用函數和Excel在數據整理中的最常見用法。
使用電腦,打開醫咖會,觀看專欄視頻:
https://www.mediecogroup.com/zhuanlan/courses/35/
關注醫咖會,及時獲取最新統計教程