GSEA分析結果詳細解讀

2021-03-02 生信修煉手冊

歡迎關注」生信修煉手冊」!

在解讀傳統的富集分析結果時,經常會有這樣的疑問,一個富集到的通路下,既有上調差異基因,也有下調差異基因,那麼這條通路總體的表現形式究竟是怎樣呢,是被抑制還是激活?或者更直觀點說,這條通路下的基因表達水平在實驗處理後是上升了呢,還是下降了呢?

在這裡我說下自己的觀點,在傳統的富集分析時,我們只需要一個差異基因的列表,根本不關心這個差異基因究竟是上調還是下調。這是因為,傳統的富集分析根本不需要考慮基因表達量的變化趨勢,其算法的核心只關注這些差異基因的分布是否和隨機抽樣得到的分布一致,即使後期在可視化時,我們在通路圖上用不同顏色標記了上下調的基因,但是由於沒有採用有效的統計學手段去分析這條通路下所有差異基因的總體變化趨勢,這使得傳統的富集分析結果無法回答上述的問題。

當然也有人靈光一閃,想出一個解決方案,在進行傳統的富集分析時,每次只提取上調或者下調的差異基因來進行分析,由於事先根據表達量變化趨勢對差異基因進行了篩選,從而迴避了上面的問題。在我個人看來,這樣的做法有失偏頗,因為費舍爾精確檢驗就是想要證明我這個差異基因列表不是隨機抽樣得到的,而我們事先對差異基因列表的過濾已經對結果的隨機性造成了幹擾,最後得出的結論其準確性也大大降低。

想像一下,上調基因和下調基因分開富集,然後富集到了同一條通路,這怎麼解釋?所以在我看來,傳統的富集分析只能定位到功能,這些差異基因與哪些功能相關,而不能回答一開始的這個問題。想要回答一開始的這個問題,我們需要GSEA富集方法的結果。

還是這張原理圖,GSEA的輸入是一個基因表達量矩陣,其中的樣本分成了A和B兩組,首先對所有基因進行排序,在之前的文章中也有提到排序的標準,這裡簡單理解就是foldchange, 用來表示基因在兩組間表達量的變化趨勢。排序之後的基因列表其頂部可以看做是上調的差異基因,其底部是下調的差異基因。

GSEA分析的是一個基因集下的所有基因是否在這個排序列表的頂部或者底部富集,如果在頂部富集,我們可以說,從總體上看,該基因集是上調趨勢,反之,如果在底部富集,則是下調趨勢。

理解這個觀點之後,在來看GSEA富集分析的結果。由於結果很多,所以給出了一個匯總的html頁面。對於富集結果,根據上調還是下調分成了兩個部分,對應兩個分組,示例如下

在每個組別下富集到的基因集,從總體上看,其表達量在該組中高表達。點擊enrichment results in html,可以在網頁查看富集的結果,示例如下

GS為基因集的名字,SIZE代表該基因集下的基因總數,ES代表Enrichment score,NES代表歸一化後的Enrichment score,NOM p-val代表pvalue,表徵富集結果的可信度,FDR q-val`代表qvalue, 是多重假設檢驗矯正後的p值,注意GSEA採用pvalue < 5%, qvalue < 25% 對結果進行過濾。

點擊GS DESC可以跳轉到每個基因集詳細結果頁面,示例如下

首先是一個匯總的結果,Upregulated in class說明該基因集在MUT這組中高表達,其他信息和之前介紹的一樣,除此之外,還有一個詳細的表格,示例如下

對於該基因集下的每個基因給出了詳細的統計信息,RANK IN GENE LIST代表該基因在排序號的列表中的位置, RANK METRIC SCORE代表該基因排序量的值,比如foldchange值,RUNNIG ES代表累計的Enrichment score, CORE ENRICHMENT代表是否屬於核心基因,即對該基因集的Enerchment score做出了主要貢獻的基因。這個表格中的數據對應下面這張圖

分成3個部分,第一部分為基因Enrichment Score的折線圖,橫軸為該基因下的每個基因,縱軸為對應的Running ES, 在折線圖中有個峰值,該峰值就是這個基因集的Enrichemnt score,峰值之前的基因就是該基因集下的核心基因。

第二部分為hit,用線條標記位於該基因集下的基因,第三部分為所有基因的rank值分布圖, 默認採用Signal2Noise算法,對應了縱軸的標題。

從該圖中可以看出,這個基因集是在MUT這一組高表達的,下面是一個在另一組組中高表達的示例

可以看到,其Enrichment score值全部為負數,對應的在其峰值右側的基因為該基因集下的核心基因。除此之外,還有一張熱圖,示例如下

這張熱圖展示的是位於該基因集下的基因在所有樣本中表達量的分布,其中每一列代表一個樣本。每一行代表一個基因,基因表達量從低到高,顏色從藍色過渡到紅色。

在總的html頁面中,還給出了如下信息

Dataset details給出了基因總數,Gene Set details給出了基因集的信息,注意軟體默認根據基因集包含的基因個數是先對基因集進行過濾,最小15個,最大500個基因,過濾掉了158個基因集,剩餘的168個基因集用於分析。

Gene markers給出了排序之後的基因列表和對應的統計量rank ordered gene list,根據排序的統計量,將基因分成了兩部分,對應在每一組中高表達。

heatmap and gene list包含了所有基因表達量的熱圖和排序值的分布圖,示意如下

熱圖由於基因太多,截取了部分,排序值的分布圖其實就是每個基因集的Enrichment plot中的第三部分。更多的細節請查閱官方文檔。

掃描關注微信號,更多精彩內容等著你!

相關焦點

  • GSEA分析是個什麼鬼?(上)
    基因集富集分析 (Gene Set Enrichment Analysis, GSEA) 的基本思想是使用預定義的基因集(通常來自功能注釋或先前實驗的結果),將基因按照在兩類樣本中的差異表達程度排序,然後檢驗預先設定的基因集合是否在這個排序表的頂端或者底端富集
  • 一文掌握GSEA,超詳細教程
    本文通過總結多人學習使用過程中遇到的問題進一步記錄軟體操作過程和結果解讀,力求講清每個需要注意的細節點。從前文中我們了解到GSEA分析的目的是要判斷S集基因(基於先驗知識的基因注釋信息,某個關注的基因集合)中的基因是隨機分布還是聚集在排序好的L基因集的頂部或底部(這便是富集分析)。
  • GSEA——從原理到實戰
    大家好, 今天給大家介紹如何用clusterProfiler進行基因集富集分析。分為三個部分:原理,實戰,總結。原理部分主要是對GSEA作者們2005年文(https://www.pnas.org/content/102/43/15545)想法的解讀,在實戰部分,用GSEA軟體進行基因富集分析,用clusterProfiler實現定製化的基因富集分析。
  • 生信實操|如何利用R語言進行GSEA分析
    專注生物分析最前沿定期解讀生信文章提供生信分析思路和套路看圖說話欄目曾介紹過GSEA的原理(看圖說話|GSEA分析--教你解鎖高級的富集分析),今天我們來看一下如何利用R語言進行GSEA分析。,進行GSEA分析。
  • 使用火山圖呈現GSEA富集分析的結果
    比如Y叔的神包clusterProfiler來做GSEA分析。需要兩個準備文件,假設我們有了這兩個文件,就可以十分便捷地做GSEA分析hallmarks <- read.gmt("h.all.v6.2.entrez.gmt")y <- GSEA(geneList,TERM2GENE =hallmarks,pvalueCutoff = 1)一般情況下,我們直接就會選一個富集分析圖來展示
  • SCENIC轉錄因子分析結果的解讀
    但實際上隨著越來越多單細胞研究從CNS正刊跌落到CNS子刊,再到普通的數據挖掘文章,所謂的進階分析也要淪落為標準分析啦。不過,雖然SCENIC轉錄因子分析越來越普通,但它的難度並不會降低,在試圖學習這個分析方法之前,我們必須先看看SCENIC轉錄因子分析的實例,多讀文獻,總歸是沒有錯的!
  • SPSS分析技術:單因素方差分析結果的模型解讀
    平時我們在進行方差分析時,經常只關注方差分析表,用表中的顯著性概率值p來判斷因素是否對因變量有顯著性影響,然而這只是方差分析結果的一部分內容。SPSS的方差分析過程就是以方差分析模型的形式進行計算和結果輸出的。下面我們將以單因素方差分析為例,介紹單因素方差分析結果的模型函數解讀。幫助大家充分理解方差分析的深層模型含義。
  • GSEA分析高級篇
    首先小編帶大家快速回顧一下到底GSEA是個啥,GSEA也就是基因集富集分析,它的優勢是在不做差異分析的情況下,找到和性狀相關的通路/功能基因集合。       基礎概念和使用大家回去重溫一下之前寫的基礎篇GSEA分析。
  • 還不知道富集分析怎麼做?那快點進來看一看
    工具千千萬,選好一個最關鍵,實現GO/KEGG/GSEA分析的方式實在是太多,本次我就來展示如何在R中進行操作,大家主要掌握這些分析的結果解讀及可視化方法,原理涉及複雜的統計學理論,不必深究,更多的分析工具可自行探索。好,廢話不多說,我們這就開始吧!
  • AMOS結構方程教程,調節效應分析操作與結果的詳細解讀 ——【杏花開生物醫藥統計】
    今天詳細講解如何在AMOS中繪製調節模型圖,以及用AMOS分析調節變量的調節效應,請看以下案例:
  • spss數據分析-差異性分析[超級詳細]
    分析結果:輸出的結果:解讀:這個單因素方差分析基本是最詳細的版本了,一般寫文章用都是足夠了。首先是第一個表格,是對數據的一個簡單的描述,一般只需要關注個案數,平均值,標準差,對於現有數據的一個簡單描述。
  • SPSSAU教程05:相關回歸分析指標解讀
    問卷研究中最為常見,多數情況下可以使用線性回歸分析進行假設驗證。(1)指標解讀結果表格結果表格第三:總結分析結果。更詳細的方法說明以及具體原理介紹,可查看SPSSAU官網,以及可使用SPSSAU上面的案例數據,進行實際的操作分析。
  • 詳細講解因子分析(主成分)
    下面我們就來詳細講解如果做因子分析。本文運用SPSS 19.0(關注公眾號,回復「SPSS」,可以獲取SPSS 19.0安裝包),對各季度的7項財務指標(淨資產收益率、銷售淨利率、成本費用利潤率、應收帳款周轉率、流動資產周轉率、利息支付倍數、銷售利潤增長率)進行因子分析,從而對樣本公司進行評價。通過整理相關指標數據,可以得到原始數據如表1所示。
  • 方差分析F檢驗結果如何解讀?
    單因素解讀舉例 上表為某單因素方差分析表結果,研究不同行業的投訴量有無差別(行業是否影響投訴量),行業因素有4個分類水平,數據的總樣本例23個。 表頭以下兩行數據分別代表組間方差(hy)和組內方差(Residuals)的計算結果。
  • 決策樹算法應用及結果解讀
    樹形圖為了能夠更加直觀地理解決策樹算法,我們可以用樹形圖來展示算法的結果。>6.當酒精量 > 12.41 時,有 39 個樣本,3 個類別的數量分別是 0、2、37個,Gini 係數為 0.097,此時分類結果變得更加確定為 class_2。樹形圖中其他節點的結果含義類似,在此不再贅述。
  • 史上最詳細版16S測序結果解讀,動動手指,趕快收藏吧!
    看不懂分析報告?不知道如何評估測序質量?找不到完整結果對應文件?………………請各位看官切莫慌張,切莫焦慮。小銳即將為大家呈現最詳細版的報告解讀,還愣著幹嘛,趕快翻閱下文吧!想要了解一門測序技術,首先要掌握測序原理,這就如同建造房子打好根基一樣。
  • Fastqc結果的超詳細解讀
    顯示紅色的tile測序結果很差。好的數據應該是全部藍色。. 4.per sequence qulity scores所有reads的平均質量值分布橫坐標:質量值(平均質量值)縱坐標:這個質量值的reads數那麼峰值就代表著某個質量值的reads數很多好的質量圖峰值靠後,在30以上。
  • 相關性分析及其應用案例解讀
    在不同的場景中,應用的方法不一樣,但目標都是對相關性進行量化分析。需要注意的是,相關關係通常不是因果關係,即使是因果關係,也要搞清楚:誰是原因?誰是結果?千萬不能顛倒因果關係的順序。比如說,有人認為,因為比爾·蓋茨退學,所以創業取得了成功。但事實卻是,比爾·蓋茨先是證明了自己初期的創業已經成功了,然後才退學的。
  • 「2021考研備考」詳細解讀解讀MPA公共管理碩士
    【2021考研備考】詳細解讀解讀MPA公共管理碩士!公共管理碩士是以公共管理學科及其他相關學科為基礎的研究生教育項目公共管理專業碩士學位,在國外一些發達國家,公共管理碩士學位,工商管理碩士學位以及法律碩士學位教育已成為文科高層次職業研究生教育的三大支柱。
  • Realtime PCR的結果你會解讀麼
    PCR很重要,可是很多同學並不是很熟悉數據解讀,以ABI7500數據結果為例,和大家一起分享一下數據結果的解讀。