加權基因共表達網絡分析(WGCNA,Weighted gene co-expression network analysis)是一個很火的生信分析方法,高分文章很多。
然而很多童鞋敬而遠之,因為它是需要跑代碼的。其實,WGCNA用起來也沒那麼難,今天給大家分享一下新手學習WGCNA的經驗、常見問題的解決辦法,以及如何理解WGCNA分析流程中的關鍵點,以達到應用的目的。讓大家能夠入門WGCNA進行實操是我整理這一學習筆記的最終目的。筆記內容涉及到WGCNA的簡介,安裝運行,代碼解析和靈活變換,跑出的圖有什麼意義等,準備分3-4次說。
WGCNA能夠從複雜數據中(N多分組)快速地提取出與樣本特徵相關的基因共表達模塊,以供後續分析。簡單地說,它通過計算基因之間的表達相關性,將具有表達相關性的基因聚類到一個模塊中,然後再分析模塊與樣本特徵(包括臨床特徵、手術方式、治療方法等等)之間的相關性,WGCNA搭建了一座樣本特徵與基因表達變化之間的橋梁。
(WGCNA: an R package for weighted correlation network analysis.)具體的算法和原理這裡不作贅述,這本書裡講得很詳細,然而站在我——生信小辣雞的角度,可能看也看不懂,也用不上。。。
Horvath S (2011) Weighted Network Analysis. Applications in Genomics and Systems Biology. Springer Book. ISBN: 978-1-4419-8818-8
下面通過介紹WGCNA結果中核心的兩張圖,來講講WGCNA具體是幹什麼的。
1、模塊聚類圖
(自己瞎跑的圖)
這張圖是根據你樣本中基因表達情況,將共表達的基因聚類到一個個彩色的模塊當中,其中灰色模塊是沒有被接受的基因,後續分析中這一模塊的基因就沒有什麼用了。
2、模塊—樣本特徵相關性分析
(Temporal network analysis identifies early physiological and transcriptomic indicators of mild drought in Brassica rapa)
這張圖是樣本特徵與各個模塊的關係,X軸是樣本特徵,上圖中的X軸是植物培養時的幾個參數;Y軸對應的就是各個基因共表達模塊了。紅色表示正相關,藍色表示負相關,比如Fv'/Fm'——wM11所對應的矩形中的數字為0.79(4e-6),表明wM11模塊中的基因與Fv'/Fm'的變化是極具相關性的。所以後續我們可以通過分析wM11模塊中的基因來探究這些基因是如何受到Fv'/Fm'的影響,從而對植物表型產生影響的,常用的分析包括GO,KEGG注釋,共表達網絡分析等等。g
那麼這麼牛B的工具,在哪裡可以得到呢?
首先,你要裝一個R語言(https://mirrors.tuna.tsinghua.edu.cn/CRAN/),直接裝最新版本的,目前是3.4.2,不過3.4.3很快就要出了。。。
然後你需要安裝WGCNA這個包(package),這個包會用到很多其它包,所以下載安裝還是需要花點時間的。
連接到bioconductor這個網站,下載WGCNA包。
然後載入WGCNA包就可以使用了。
正式跑程序之前,要改變一下工作目錄(程序在哪個文件夾運行,調用哪個文件夾裡的數據)(咱用不來代碼。。。感覺沒這個快)
然後就可以跑程序了。
前期需要準備兩個文件,一個是樣本信息的文件,一個是基因表達數據的文件。
樣本信息文件:
最簡單的辦法是不做什麼分組,每個樣本一個分組,然後在下圖中進行分析,比如D6,D7和purple這個模塊的基因都有高相關性,那麼也就是說purple模塊的基因可能和D6,D7這兩組樣本共有的樣本特徵具有相關性,比如可能是同為腫瘤遠端轉移樣本。
又比如像下圖這樣根據乳腺癌的臨床特徵進行分組,ER陽性標為1,陰性標為0,其它類似,構建一個樣本特徵的文件。具體的分組需要綜合考慮你的分析思路,重點關注的是樣本的哪些特徵。
(https://www.shengxin.ren/article/88)
基因表達數據的文件:
測序的可以用FPKM的數據
晶片的可以用GEO整理好的表達矩陣
(https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE90841)
我在網盤裡上傳了一份編輯好的數據和代碼,大家可以自己上手先試一試(後面幾步可能跑起來會費點時間,大家運行的時候耐心等待),周五的時候會進行代碼方面的詳細解讀。
網盤連結:http://pan.baidu.com/s/1hsAdsyg
網盤密碼:onp0
參考文獻:
1、http://tiramisutes.github.io/2016/09/14/WGCNA.html
2、https://www.shengxin.ren/article/88
3、http://www.stat.wisc.edu/~yandell/statgen/ucla/WGCNA/wgcna.html
4、WGCNA: an R package for weighted correlation network analysis. PMID: 19114008
5、Temporal network analysis identifies early physiological and transcriptomic indicators of mild drought in Brassica rapa. PMID: 28826479
關注後獲取《科研修煉手冊》1、2、3、4、5,基金篇精華合集