有朋友在後臺留言讓介紹GSEA分析,那麼我們今天就來介紹GSEA分析。
基因集富集分析 (Gene Set Enrichment Analysis, GSEA) 的基本思想是使用預定義的基因集(通常來自功能注釋或先前實驗的結果),將基因按照在兩類樣本中的差異表達程度排序,然後檢驗預先設定的基因集合是否在這個排序表的頂端或者底端富集。基因集合富集分析檢測基因集合而不是單個基因的表達變化,因此可以包含這些細微的表達變化,預期得到更為理想的結果。
從題目中我們看到GSEA分析有三個特點:
分析的基因集合而不是單個基因;
將基因與預定義的基因集進行比較;
富集分析;
看到這裡大家可能想起來了RNA-seq或者晶片分析中最為常見的兩種方法:GO(Gene Ontology)和KEGG pathway分析,它們有些相似但又不同。
一般的差異分析(GO和Pathway)往往側重於比較兩組間的基因表達差異,集中關注少數幾個顯著上調或下調的基因,這容易遺漏部分差異表達不顯著卻有重要生物學意義的基因,忽略一些基因的生物特性、基因調控網絡之間的關係及基因功能和意義等有價值的信息。而GSEA不需要指定明確的差異基因閾值,算法會根據實際數據的整體趨勢, 為研究者們提供了一種合理地解決目前晶片分析瓶頸問題的方法,即使在沒有先驗經驗存在的情況下也能在表達譜整體層次上對數條基因進行分析,從而從數理統計上把表達譜晶片數據與生物學意義很好地銜接起來,使得研究者們能夠更輕鬆、更合理地解讀晶片結果。
目前,市面上絕大多數公司在求得差異基因列表後,都會在此之上提供給客戶Pathway 以及GO 富集分析,畢竟給予成百上千的差異表達基因以簡潔、明晰的生物學功能的概括,才是進行高通量生物學表達譜實驗的主要目的。然而,在實際應用於生物學高通量數據時,它們都有一個重大的缺陷:對於差異基因檢出的閾值,異常的敏感,客戶需要給出差異基因的一個明確的定義(閾值),例如abs(FC) ≧2.0 & p ≦ 0.05。這種一刀切的閾值,對於發現真正的生物學效應,許多時候是一種障礙,因為實際通過晶片觀測到的RNA 表達變化,往往是層層的負反饋調控後的結果,並且不同組織對於表達差異的敏感度是不同的:在神經遞質系統內,一個1.2 倍的表達差異即可能產生及其顯著的效應。
GSEA富集過程包括三步驟:
1. 計算富集分數(Enrichment Score);
2. 估計富集分數的顯著性水平;
3. 矯正多重假設檢驗;
GSEA的具體原理就不展開了,原理在PNAS文章Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles.Proc Natl Acad Sci U S A. 2005 Oct 25;102(43):15545-50. Epub 2005 Sep 30. (下載連結: https://pan.baidu.com/s/1qYeXLBu 密碼: euww)
在分析前我們先看MSigDB資料庫,MSigDB(Molecular Signatures Database)資料庫中定義了已知的基因集合:http://software.broadinstitute.org/gsea/msigdb
包括H和C1-C7八個系列(Collection),每個系列內容為:
比如細胞凋亡特徵基因集:
這部分包括我們熟悉的KEGG信號通路等:
我們可以看到MSigDB數據收錄的信息還是非常全面的,這個資料庫可以單獨使用和查詢,我們可以根據各種條件導出一系列感興趣的gene set。
好了,介紹完MSigDB資料庫的基本信息後,我們在(下)篇繼續。
That's all. Thank you!
請長按二維碼識別關注「小張聊科研」,或者搜索微信號「xzlky2015」。