今天跟大家分享的是發表在Mol Genet Genomics(IF:2.797)雜誌上的一篇文章Identification of pleiotropic genes between risk factors of stroke by multivariate metaCCA analysis.在文章中用了一種新穎的分析方法--metaCCA,然後進行了基於基因的VEGAS2分析,以識別與中風多種危險因素相關的多效性基因。
Identification of pleiotropic genes between risk factors of stroke by multivariate metaCCA analysis通過metaCCA分析來鑑定中風危險因素之間的多效性基因
微信視頻預覽查看
一.研究背景中風是一種臨床症候群,中風易感性可能受到許多心血管因素的影響,包括心房纖顫(AF),高血壓(HBP),冠狀動脈疾病(CAD)和心力衰竭(HF)以及代謝性疾病。研究這些危險因素的共同發病機制可能對中風預防和臨床幹預有益。
全基因組關聯分析(GWAS)已檢測到與中風相關的20多個顯著遺傳位點,例如ALDH2,ZFHX3,PITX2,HDAC9,TSPAN2,FOXF2。但是單位點分析的GWAS忽略了不同表型之間的相關信息,因此不能有效識別複雜疾病中的罕見變異。所以在本篇文章中,作者利用MetaCCA方法,對GWAS的匯總統計結果進行分析,以探討多個疾病表型與基因型之間的關係,從而為研究疾病的發病機制提供依據。
二.分析流程三.結果解讀1.數據處理
作者下載了中風相關的七個GWAS數據集(房顫AF、高血壓HBP、冠狀動脈疾病CAD、心衰HF、BMI、膽固醇水平、糖尿病)。
表1.從GWAS下載數據集的詳細信息
然後作者利用plink軟體基於LD信息過濾SNP。接著將過濾得到的SNP注釋為其相應的基因。然後接著進行metaCCA分析。
MetaCCA也稱Summarystatistics based multival rate meta analysis of genome wideassociation studiesusing canonical correlation analysis,是利用典型相關分析(canonical correl ationanalysis,CCA)的原理,對GWAS的匯總統計結果進行分析,以探討多個疾病表型與基因型之間的關係,從而為研究疾病的發病機制提供依據。MetaCCA可有效解決單位點分析的GWAS其忽略不同表型之間的相關信息,而不能有效識別複雜疾病中的罕見變異的難題。
作者通過metaCCA分析檢測到107個與多種表型顯著相關的基因。然後使用VEGAS2算法對該基因集進行了測試。通過該算法,作者在測試中鑑定出了20個顯著基因(調整p值≤0.05)(表2)。
發現了6個與AF相關的基因(ARHGAP32,MPPED2,SIK3,DOCK9,FUT8,SKAP1);
3個與BMI相關的基因(SKAP1,PVRL2,PLA2G6);
7個與HPB相關的基因(SIK3,PDE3A,DIAPH3,USP8,SPECC1,RAB8A,MACROD2);
4個與CAD相關的基因(SIK3,DOCK9,PVRL2,SMARCA4);
7個與T2D(2型糖尿病)相關的基因(MYRF,DENND5B,FUT8,SKAP1,GMIP,PVRL2,PLA2G6);
9個TC相關的基因(MYRF,SIK3,PDE3A,ZMYM2,NYNRIN,GMIP,PVRL2,SMARCA4,PLA2G6);
1個與HF相關的基因( FUT8)。
表2.過metaCCA和VEGAS2分析鑑定的多效性基因
鑑定的20個多效性基因中的7個(USP8,SPECC1,RAB8A,ZMYM2,DOCK9,FUT8,PLA2G6)之前從未被報導與上述所包含的任何性狀相關,屬於新鑑定出的基因。上述結果也表明,這些基因可能與中風的幾種危險因素有關聯,而且可能通過調節下遊信號通路來調控中風的發生。
為了進一步了解由metaCCA鑑定的多效性基因調控的下遊信號通路,作者基於網絡工具Enrichr對metaCCA鑑定的107個基因進行了功能富集分析。結果表明,最常見的富集通路包括葡萄糖醛酸化,黃酮和脂質的代謝,這些代謝被稱為中風的代謝危險因素(表3)。
表3.多效性基因的通路富集
為了可視化這些基因編碼的蛋白質間的相互作用,作者通過STRING 11.0資料庫對GO富集中包含的相同107個基因進行了PPI分析(圖1)。
圖1.多效性基因的蛋白質-蛋白質相互作用(PPI)網絡
為了確定影響中風的潛在風險基因,作者挑選了在VEGAS2測試中證實與多個性狀有關聯的十個基因(PDE3A,DOCK9,SMARCA4,MYRF,GMIP,FUT8,SKAP1,PLA2G6,SIK3,PVRL2)。然後作者確定了與其中5個選定基因(PDE3A,SMARCA4,GMIP,FUT8,PLA2G6)有關的18條指向缺血性卒中的最短通路(圖2A)。結果發現:SMARCA4是所包括基因組中幾乎所有基因的驅動基因。SMARCA4可能會通過多種通路調控中風,包括配體依賴性核受體(BCL6,ETS2,HMGB1,HDAC9),轉運蛋白(ABCA1,ALB),和其它分子(肌鈣蛋白T,PLAT,TNNT2,NR3C1,NOS3)。
另外,作者確定了與其中5個選定基因(PDE3A,SKAPT,FUT8,SMARCA4,PLA2G6)有關的24條指向腦出血的最短通路(圖2B)。在這些基因中,SMARCA4和PDE3A也通過多種中間因素影響結果。
(圖中實線表示連結分子之間的直接關係(例如:蛋白質之間的相互作用);而虛線表示間接關係(例如:抑制或激活))
圖5.基因-性狀的通路網絡
在這項研究中,作者將metaCCA方法應用於GWAS匯總統計數據中的7個缺血性和出血性中風的危險因素(AF,CAD,HBP,HF,BMI,TC和T2D),來檢驗這些因素之間的重疊的遺傳關係,並鑑定中風的預測風險基因。首先作者進行了metaCCA分析,以鑑定可能影響中風的多種危險因素的多效基因,並提出了缺血性和出血性中風的幾種潛在調控通路。
此研究也存在局限性:由於研究中缺乏個體水平的基因型數據,所以無法確定能被已鑑定基因所解釋的變異性的比例。