GSEA分析是個什麼鬼?(上)

2021-03-02 小張聊科研

有朋友在後臺留言讓介紹GSEA分析,那麼我們今天就來介紹GSEA分析。

基因集富集分析 (Gene Set Enrichment Analysis, GSEA) 的基本思想是使用預定義的基因集(通常來自功能注釋或先前實驗的結果),將基因按照在兩類樣本中的差異表達程度排序,然後檢驗預先設定的基因集合是否在這個排序表的頂端或者底端富集。基因集合富集分析檢測基因集合而不是單個基因的表達變化,因此可以包含這些細微的表達變化,預期得到更為理想的結果。

從題目中我們看到GSEA分析有三個特點:

分析的基因集合而不是單個基因;

將基因與預定義的基因集進行比較;

富集分析;

看到這裡大家可能想起來了RNA-seq或者晶片分析中最為常見的兩種方法:GO(Gene Ontology)和KEGG pathway分析,它們有些相似但又不同。

一般的差異分析(GO和Pathway)往往側重於比較兩組間的基因表達差異,集中關注少數幾個顯著上調或下調的基因,這容易遺漏部分差異表達不顯著卻有重要生物學意義的基因,忽略一些基因的生物特性、基因調控網絡之間的關係及基因功能和意義等有價值的信息。而GSEA不需要指定明確的差異基因閾值,算法會根據實際數據的整體趨勢, 為研究者們提供了一種合理地解決目前晶片分析瓶頸問題的方法,即使在沒有先驗經驗存在的情況下也能在表達譜整體層次上對數條基因進行分析,從而從數理統計上把表達譜晶片數據與生物學意義很好地銜接起來,使得研究者們能夠更輕鬆、更合理地解讀晶片結果。

目前,市面上絕大多數公司在求得差異基因列表後,都會在此之上提供給客戶Pathway 以及GO 富集分析,畢竟給予成百上千的差異表達基因以簡潔、明晰的生物學功能的概括,才是進行高通量生物學表達譜實驗的主要目的。然而,在實際應用於生物學高通量數據時,它們都有一個重大的缺陷:對於差異基因檢出的閾值,異常的敏感,客戶需要給出差異基因的一個明確的定義(閾值),例如abs(FC) ≧2.0 & p ≦ 0.05。這種一刀切的閾值,對於發現真正的生物學效應,許多時候是一種障礙,因為實際通過晶片觀測到的RNA 表達變化,往往是層層的負反饋調控後的結果,並且不同組織對於表達差異的敏感度是不同的:在神經遞質系統內,一個1.2 倍的表達差異即可能產生及其顯著的效應。

GSEA富集過程包括三步驟:

1. 計算富集分數(Enrichment Score);

2. 估計富集分數的顯著性水平;

3. 矯正多重假設檢驗;


GSEA的具體原理就不展開了,原理在PNAS文章Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles.Proc Natl Acad Sci U S A. 2005 Oct 25;102(43):15545-50. Epub 2005 Sep 30. (下載連結: https://pan.baidu.com/s/1qYeXLBu 密碼: euww)

在分析前我們先看MSigDB資料庫,MSigDB(Molecular Signatures Database)資料庫中定義了已知的基因集合:http://software.broadinstitute.org/gsea/msigdb


包括H和C1-C7八個系列(Collection),每個系列內容為:

H: hallmark gene sets (效應)特徵基因集合,共50組;

比如細胞凋亡特徵基因集:



C1: positional gene sets 位置基因集合,根據染色體位置,共326個;


C2: curated gene sets:(專家)共識基因集合,基於通路、文獻等:

這部分包括我們熟悉的KEGG信號通路等:


C3: motif gene sets:模式基因集合,主要包括microRNA和轉錄因子靶基因兩部分


C4: computational gene sets:計算基因集合,通過挖掘癌症相關晶片數據定義的基因集合;


C5: GO gene sets:Gene Ontology 基因本體論,包括BP(生物學過程biological process,細胞原件cellular component和分子功能molecular function三部分)


C6: oncogenic signatures:癌症特徵基因集合,大部分來源於NCBI GEO 未發表晶片數據


C7: immunologic signatures: 免疫相關基因集合。



我們可以看到MSigDB數據收錄的信息還是非常全面的,這個資料庫可以單獨使用和查詢,我們可以根據各種條件導出一系列感興趣的gene set。

好了,介紹完MSigDB資料庫的基本信息後,我們在(下)篇繼續。

That's all. Thank you!

長按二維碼識別關注小張聊科研,或者搜索微信號xzlky2015

相關焦點

  • GSEA——從原理到實戰
    大家好, 今天給大家介紹如何用clusterProfiler進行基因集富集分析。分為三個部分:原理,實戰,總結。原理部分主要是對GSEA作者們2005年文(https://www.pnas.org/content/102/43/15545)想法的解讀,在實戰部分,用GSEA軟體進行基因富集分析,用clusterProfiler實現定製化的基因富集分析。
  • 生信實操|如何利用R語言進行GSEA分析
    專注生物分析最前沿定期解讀生信文章提供生信分析思路和套路看圖說話欄目曾介紹過GSEA的原理(看圖說話|GSEA分析--教你解鎖高級的富集分析),今天我們來看一下如何利用R語言進行GSEA分析。在分析之前,還是要把SYMBOL轉換成ENTREZ ID,之前講過,ENTREZ ID在染色體上是有編號的,一個編號對應一個基因,錯不了,但是如果是gene name,很容易出錯,另外也不好計算。這裡要用到clusterProfiler包裡面的bitr函數,這個函數很方便的就可以轉換ENTREZID和SYMBOL。
  • 一文掌握GSEA,超詳細教程
    那麼GSEA分析是什麼?一、軟體安裝軟體下載地址:http://software.broadinstitute.org/gsea/downloads.jsp使用官方推薦的第一個軟體javaGSEA Desktop Application,根據分析數據的大小和電腦內存多少可以選擇下載不同內存版本的軟體。該軟體是基於java環境運行的,而且需要聯網。
  • 怕鬼?鬼是個什麼東西?
    我怒,嗔道:你什麼都不知道,怕什麼鬼?友人反擊:「就是不知道,才可怕!」一語勘破!三天時間,在幾張紙上寫寫畫畫,時間過得飛快,考完一門,人就鬆一口氣,這是放下擔子的過程,不但不可怕,還應該很高興才對呀!可是,在成績揭曉之前,沒有哪一個人不是惴惴不安,深陷恐懼,如遇鬼魅。那人們怕的是什麼呢?他怕是的另外的,不確定的東西:能否考上?落榜?
  • GSEA分析高級篇
    首先小編帶大家快速回顧一下到底GSEA是個啥,GSEA也就是基因集富集分析,它的優勢是在不做差異分析的情況下,找到和性狀相關的通路/功能基因集合。       基礎概念和使用大家回去重溫一下之前寫的基礎篇GSEA分析。
  • 《紅樓夢》裡的促狹鬼到底是個什麼鬼?
    促狹鬼到底是個什麼鬼?最先從《紅樓夢》中知道促狹鬼的存在,而且曹雪芹多處用到促狹鬼這個詞。查資料了解到,促狹的意思是氣量狹小,性情急躁。促狹鬼,是指喜歡捉弄人、使壞的那一類人,帶有一點小奸小惡的意思。但在不同情境下,促狹鬼並非實指,有時是一種戲謔的稱呼,就如「討厭鬼」「搗蛋鬼」一類的詞。
  • 從心理學層面來看「鬼」:為什麼你會怕鬼?鬼又是個什麼玩意?
    其實這個和鬼有一定聯繫,但是這個鬼不是人死亡後變成的鬼,而是嬰兒的一種投射行為。這種投射又是什麼?投射其實是一種防禦機制,是把自己的性格、態度、想法和欲望,放到別人身上去。那我什麼開始怕鬼的呢,反而是在我大學的時候,我才開始怕鬼的,前幾年是我最怕鬼的時候。不知道大家是不是和我一樣,比如我去電影院看完恐怖片回來之後,我感覺我的生活也變成了鬼片,我變成了被鬼殘害的主角了。
  • 勞士頓是個什麼鬼?
    要說最近什麼電視劇最火,那就數張一山版的《鹿鼎記》。在這裡筆者就不贅述《鹿鼎記》的故事和經典了,也不討論張一山的演技如何。對於這樣的網紅電視劇,有各種看法和觀點都是非常正常的。但談到張一山代言什麼品牌的腕錶,相信哪怕是很多資深表友都未必知道。
  • GSEA分析結果詳細解讀
    這是因為,傳統的富集分析根本不需要考慮基因表達量的變化趨勢,其算法的核心只關注這些差異基因的分布是否和隨機抽樣得到的分布一致,即使後期在可視化時,我們在通路圖上用不同顏色標記了上下調的基因,但是由於沒有採用有效的統計學手段去分析這條通路下所有差異基因的總體變化趨勢,這使得傳統的富集分析結果無法回答上述的問題。
  • IP 是個什麼鬼?
    IP 是個什麼鬼?文/eLicht 視頻/宣琦 IP 是個什麼鬼?
  • 白天夢見鬼是什麼預兆 白天夢見鬼是什麼意思
    白天夢見鬼是什麼預兆 以前看聊齋說的,三更雞叫,鬼魂回墳,所以,大白天見鬼是不可思議的事。但又有不少的人其實會信誓旦旦的和別人說,他在大白天有看到「鬼影」,當然,和陳鵬解夢說得多的,其實也就是夢見鬼,甚至鬼壓床的事更多了。大白天夢見鬼,意味著什麼呢?預示著什麼呢?
  • Pak Choi是個什麼鬼?
    有一次小編去餐廳吃飯想吃蝦,不過看到配菜裡除了檸檬,還有一個是Pak Choi,當時就有點猶豫了:這個Pak Choi是個什麼鬼?萬一不好吃怎麼辦?轉念一下,管他咧,不好吃就留在盤子裡讓服務員收走,誰讓他們家做得難吃呢!於是就點了這道菜。
  • 還不知道富集分析怎麼做?那快點進來看一看
    Normal,命名為DEG)接下來是定義上下調差異具有顯著性的基因:logFC>1且adj.P.Val<0.01者為顯著上調基因,logFC<-1且adj.P.Val<0.01者為顯著下調基因,一共得到在Tumor組織中170個顯著上調的基因和26個顯著下調的基因,提取出這196個基因,命名為一個新的變量diffgenes
  • 「量化多因子」到底是個什麼鬼?
    經常聽到的量化基金名字中的「多因子」又是個什麼鬼?今天,我就和大家一起來巴拉巴拉。.OF)$ 、$中融量化多因子混合(004065.OF)$ 、$上投摩根動態多因子混合(001219.OF)$ )。  那所謂的「量化多因子」到底是個什麼鬼?「機器智能分析選股」、「量化模型選股」,聽上去很高端,到底有沒有用呢?我們先來了解下「量化選股」的簡單原理。
  • 搞什麼鬼?鬼的形象變遷史
    但即使是《聊齋志異》,月夜疾行噴水的老嫗屍鬼和誘人上吊投河的城隍廟鬼,還是佔據了絕大多數篇章。那麼,他們這樣不憚煩厭地把真實的溶劑注射進虛幻的鬼怪身上的目的究竟是什麼呢?或者更確切地說,古人究竟在搞什麼鬼?釋鬼搞什麼鬼搞鬼的第一步,當然是要弄清什麼是鬼。
  • 第五人格:什麼是「招鬼」皮膚?穿上它們,你就是一顆「燈泡」!
    文章製作:趣遊君在莊園中有一些玩家都習慣把監管者叫做鬼,因為他們總是想抓自己,除了鬼這種外號,莊園中還有一類「招鬼」皮膚。只要穿上它們,你就是一顆移動的「燈泡」,想要不吸引監管者的注意都很難,那麼究竟什麼皮膚比較招鬼呢?下面就跟隨趣遊君一起看下去吧。
  • 世界上到底有沒有鬼?這是個心理問題
    如果您是一個唯物主義者,您肯定會說這個世界上是沒有鬼的,要是有的話,你抓一隻給我看看?如果您是一位唯心主義者,您肯定說這世界上有鬼,否則的話怎麼會有「各懷鬼胎」這種說法呢?有的人嘴上說一套,背後做一套,如果他的心中沒有鬼,又怎麼會是這樣的呈現呢?我說,鬼這個東西,來無影去無蹤,是個心理現象。
  • 日本「鬼瓦」是個什麼鬼?並不驚悚還很精美
    在這裡,筆者接觸到了「鬼瓦」這一概念和實物。公認說法是,鬼瓦的原型是中國南北朝至隋唐的獸面瓦當。現在很少有唐代建築遺存,瓦當的實物是看不到的,只能到諸如陝西歷史博物館等機構,去看出土的瓦當構件。但與那些金銀玉器瓷器等文物寶貝相比,陶泥製作的瓦當不大引人關注。鬼瓦是日本古建築房頂的一種陶製構件,是房脊的端頭,疊瓦的收束封口部位。圖為波紋鬼瓦。
  • 「積食」是什麼鬼?
    「積食」這種說法最早來自明初一本叫《儒門事親》的書,距今已經快一千年了,再到後來的有本叫《症因脈治》的中醫書裡,提出了「食積咳嗽」、「食積喘逆」、「食積洩瀉」、「食積腹痛」這些說法,再到後來,中醫認為孩子的病大多由飲食引起的,食積是孩子生病的重要因素。和「上火」、「腎虛」這些中醫概念一樣,到底什麼是積食?中醫的定義也是含糊的。
  • 因為怕鬼,我被送進精神病院:怕鬼的人,潛意識都在害怕什麼?
    這裡面到底有什麼玄機?01你害怕不是鬼而是你內心的秘密其實,怕鬼只是表象,真正的恐懼藏著她的潛意識裡。心理學認為,我們日常「有意識」的念頭佔 5%,只是冰山一角,其餘 95% 都是隱藏在水下的潛意識。人性的秘密,大多都藏在潛意識裡。