使用TwoSampleMR進行兩樣本的孟德爾隨機化研究

2020-10-18 生信修煉手冊

TwoSampleMR是MR-Base資料庫開發團隊提供的R包,可以調用MR-Base資料庫中已有的gwas結果,來進行2SMR分析,官方文檔連結如下

https://mrcieu.github.io/TwoSampleMR/

2SMR分析需要兩個輸入文件,第一個文件為遺傳變異與暴露因素的gwas結果,第二個文件為遺傳變異與結局變量的gwas結果。對於暴露因素相關的gwas結果,TwoSampleMR支持讀取自定義的結果,同時也支持直接調用MR-Base中的結果;對於結局變量相關的gwas結果,僅支持調用MR-Base中的結果。

分析的pipeline示意如下

分為了以下4大步

1.  read exposure data

讀取暴露因素的gwas結果,支持自定義,文件內容示意如下

對於上述文件,讀取的代碼如下

exposure_dat <- read_exposure_data(exp_file)

2. read outcome data

讀取結局變量的gwas結果,僅支持讀取MR-base資料庫中的gwas結果,需要google帳號,讀取的代碼如下

ao <- available_outcomes()
outcome_dat <- extract_outcome_data(
snps=exposure_dat$SNP,
outcomes=7)

3.  Harmonise data

調整暴露因素和結局變量的gwas結果,主要目的

  1. 將SNP位點統一調整成正鏈

  2. 根據allele和頻率判斷兩個gwas結果中的SNP位點是否一致,不一致的進行去除

同一個位點在兩個gwas結果中鏈的方向不一致的情況示意如下

exposure effect = 0.5
effect allele = A
other allele = G
outcome effect = -0.05
effect allele = C
other allele = T

方向不一致的位點只需要統一調整成正鏈就可以了,snp位點不一致的情況示意如下

exposure effect = 0.5
effect allele = A
other allele = G
outcome effect = -0.05
effect allele = A
other allele = C

從allele可以看出,這兩個位點是不一致的,這樣的位點需要被去除。這部分對應的代碼如下

dat <- harmonise_data(exposure_dat, outcome_dat)

4. 運行MR分析

協整之後就可以進行MR分析了,對應的代碼如下

res <- mr(dat)

默認採用多種方法進行MR分析。其中MR-Egger回歸和IVM方法還支持進行異質性的檢驗,用法如下

mr_heterogeneity(dat)

基因多效性則通過MR-Egger回歸的截距進行判斷,代碼如下

mr_pleiotropy_test(dat)

TwoSampleMR對2SMR的過程進行了高度封裝,保證了分析流程的易操作性,高準確度,美中不足的是,結局變量的gwas結果不支持自定義,缺乏了一絲靈活性。

·end·

相關焦點

  • MR-base:高效準確的進行孟德爾隨機化研究的網站
    通過孟德爾隨機化研究,可以基於GWAS的結果來推斷不同表型之間的因果關係, 比如使用的很廣泛的兩樣本MR分析對於暴露因素X和結局變量Y兩個表型,目前gwas的公開結果很多,為了更加高效準確的進行MR分析,科學家們開發了MR-base資料庫。
  • 今天我們來聊一聊孟德爾隨機化
    孟德爾隨機化, Mendilian Randomization,  簡寫為MR, 是一種在流行病學領域應用廣泛的一種實驗設計方法。暴露因素X和結局變量Y會受到混在因素U的影響工具變量Z和混雜因素U之間不存在任何聯繫,相互獨立工具變量Z和暴露因素X之間存在關聯性, 結局變量Y之間沒有直接的關聯性,僅能夠通過暴露因素X和結局變量Y之間建立關聯之所以稱之為孟德爾隨機化
  • 以Nature Genetics一篇新文為例,探討孟德爾隨機化方法學的應用
    與醫咖會在2019年04月02日報導的一篇發表在新英格蘭醫學的孟德爾隨機化研究——以NEJM一篇新文為例,聊聊孟德爾隨機化研究,是一脈相承的系列。其一,蛋白質組學(proteomics)的遺傳學深入探索,讓同時探索研究數千種蛋白質不再是夢想[2,3];其二,UK Biobank等大樣本生物資料庫的建立和使用權的開放,以及MR-Base、LD-Hub[4,5,6]等遺傳大數據運用平臺的建立,讓同時研究數百種人類疾病成為可能。
  • 孟德爾隨機化之R2的計算
    不過,SD不是可以直接獲取的,它需要進過如下轉換:  這裡SE就是β的標準誤,可以直接獲取,而N和F統計量計算公式中的N一致,表示的是暴露的GWAS樣本量。 這一期內容其實就是對上一期的補充,希望大家能熟練掌握F統計量的計算方法並能正確應用於孟德爾隨機化的研究中!
  • 檢測疾病或表型間遺傳相關性的方法——孟德爾隨機化方法與LD分數回歸
    目前,檢測疾病或表型間遺傳相關性的方法主要有三大類:1)家系研究2)孟德爾隨機化方法,檢測兩個變量間的遺傳效應的因果關係;3)使用全基因組數據評估遺傳相關性,又分為兩小類,第一,使用個體水平的基因型數據,主要包括使用GCTA等軟體包實現的Genetic restricted maximum likelihood (GREML)方法(詳細介紹見前期)以及多基因風險分數(詳細介紹見前期);
  • r語言兩樣本檢驗 - CSDN
    1.3 前提假設/適用範圍/優缺點前提假設:(1)觀測要獨立;(2)每組觀測是來自正態總體的樣本;(3)兩組方差相等。1.4 原理設{xi1}和{xj1}是來自兩個獨立組X1和X2的隨機樣本,X1 ~ N(μ1,σ1^2)、X2 ~ N(μ2,σ2^2),且σ1^2 =σ2^2。
  • 義大利Eurac生物醫學研究所國際跨學科研究中心博士後機會
    公司信息歐拉克生物醫學研究所(Eurac Research)是一個應用研究中心,位於義大利南蒂羅爾(South Tyrol, Italy)的波爾薩諾/波森(Bolzano/Bozen)。職責和責任•進行孟德爾隨機化研究,包括單樣本和雙樣本分析的先進方法
  • 兩樣本t檢驗原理與R語言實現
    t檢驗也稱為student t檢驗,可以用來比較兩個均值的差異是否顯著,可分為單總體檢驗、雙總體檢驗、配對樣本檢驗。1.1歷史要了解t檢驗,就不得不提及他的發明者威廉·西利·戈塞特(William Sealy Gosset)。
  • 使用DESeq2進行兩組間的差異分析
    DESeq2 接受raw count的定量表格,然後根據樣本分組進行差異分析,具體步驟如下1.每一行為一個基因,每一列代表一個樣本。>第一列為樣本名,第二列為樣本的分組信息。,這一步是可選的,閾值可以自己定義;另外一個就是指定哪一組作為control組,在計算log2FD時 ,需要明確control組,默認會字符串順序對分組的名字進行排序,排在前面的作為control組,這種默認行為選出的control可能與我們的實驗設計不同,所以必須明確指定control組。
  • Mendelian randomization孟德爾隨機化法
    基本背景醫學科研中,隨處可見「關聯性」研究。毫不誇張的說,關聯性研究構成了醫學科研的基礎,比如經典的研究吸菸和肺癌的關係,以及十年前十分火熱的全基因組關聯研究(GWAS)。這些研究雖然「流於表面」,但為後續的機制探索和功能研究提供了最初的證據。
  • 遺傳學領域的先驅:孟德爾
    在那裡,孟德爾在基督教都卜勒的指導下學習數學和物理學,根據他的命名,波頻率的都卜勒效應,他在弗蘭茲·昂格爾手下學習植物學,他在研究中開始使用顯微鏡,他是達爾文之前進化論的支持者。1853年, 孟德爾在維也納大學完成學業後, 回到布爾諾的修道院, 在一所中學獲得教學職位, 一在就是十多年。正是在這段時間裡, 他開始了他最出名的實驗。
  • 如何使用Shapeit2對人類基因組數據進行Phasing
    Shapeit是一個專門用於推斷基因組單體型(Phasing)的軟體,它和beagle一樣是當前用得最多的兩個基於群體LD進行單倍型推斷的軟體,使用場景和算法彼此間大同小異。它目前的最新版是Shapeit3,但是常用的還是Shapeit2,也是在千人基因組項目中主要應用的版本。
  • 高考生物複習孟德爾遺傳實驗的科學方法講解
    「分析孟德爾遺傳實驗的科學方法」是《高中生物課程標準》的具體內容標準之一,學習目標屬於應用水平,要求學生能「在新的情境中使用抽象的概念、原則;進行總結、推廣;建立不同情境下的合理聯繫等。」
  • 帕金森新基因座、因果關係及遺傳風險的全基因組關聯研究
    早期的研究試圖量化有多少個遺傳風險是由常見變異所引起的,這些變異可以很容易地通過商業化基因分型陣列進行估算,而且應用GWAS研究可以評估遺傳風險量【5, 6】。自2011年以來,PD GWAS研究整合了基因表達和甲基化數據集,以評估PD位點的可能候選基因。
  • 通過「豌豆」實驗創建遺傳學的孟德爾
    修道院的納普院長發現孟德爾是個有為青年,在他的資助下,孟德爾來到歐洲超級名校維也納大學,主攻物理,在那裡幸福地遇到了他一生的老師:著名物理學家都卜勒和站在時代尖端的植物學家安革爾,為他的豌豆研究打下了堅實的基礎。1856年,孟德爾從維也納大學回到布魯恩,之後就開始了長達8年的豌豆實驗。
  • 深度揭秘不可思議的事實,孤獨的天才孟德爾
    從孟德爾的文章,我們可以體會他如何做研究:發現重要問題,提出解決問題的途徑,設計實驗思路,進行實驗研究,得到結果,分析結果,提出前人沒有想到的理論,進一步實驗,得到更多可以分析的結果, 推廣理論, 證明理論。孟德爾的論文由十一部分組成。
  • 樣本量n>30時,還能繼續使用T檢驗嗎?
    實際抽樣中,樣本容量都是有限的,所以一般很難保證樣本平均數差異量的分布為正態,因此嚴格地說都不能使用Z分布檢驗,本來就該採用t檢驗。過去,因為計算機使用不是很普遍,更多時候藉助於計算器,甚 至有的人連計算器都沒有,簡化算法就很必要了。也就是說,採用Z檢驗,是權宜之計,是當樣本容量較大時,分布雖不正態但接近正態分布,所以近似採用Z檢 驗,可以省事!