GSEA分析結果詳細解讀

2020-10-18 生信修煉手冊

在解讀傳統的富集分析結果時,經常會有這樣的疑問,一個富集到的通路下,既有上調差異基因,也有下調差異基因,那麼這條通路總體的表現形式究竟是怎樣呢,是被抑制還是激活?或者更直觀點說,這條通路下的基因表達水平在實驗處理後是上升了呢,還是下降了呢?

在這裡我說下自己的觀點,在傳統的富集分析時,我們只需要一個差異基因的列表,根本不關心這個差異基因究竟是上調還是下調。這是因為,傳統的富集分析根本不需要考慮基因表達量的變化趨勢,其算法的核心只關注這些差異基因的分布是否和隨機抽樣得到的分布一致,即使後期在可視化時,我們在通路圖上用不同顏色標記了上下調的基因,但是由於沒有採用有效的統計學手段去分析這條通路下所有差異基因的總體變化趨勢,這使得傳統的富集分析結果無法回答上述的問題。

當然也有人靈光一閃,想出一個解決方案,在進行傳統的富集分析時,每次只提取上調或者下調的差異基因來進行分析,由於事先根據表達量變化趨勢對差異基因進行了篩選,從而迴避了上面的問題。在我個人看來,這樣的做法有失偏頗,因為費舍爾精確檢驗就是想要證明我這個差異基因列表不是隨機抽樣得到的,而我們事先對差異基因列表的過濾已經對結果的隨機性造成了幹擾,最後得出的結論其準確性也大大降低。

想像一下,上調基因和下調基因分開富集,然後富集到了同一條通路,這怎麼解釋?所以在我看來,傳統的富集分析只能定位到功能,這些差異基因與哪些功能相關,而不能回答一開始的這個問題。想要回答一開始的這個問題,我們需要GSEA富集方法的結果。

還是這張原理圖,GSEA的輸入是一個基因表達量矩陣,其中的樣本分成了A和B兩組,首先對所有基因進行排序,在之前的文章中也有提到排序的標準,這裡簡單理解就是foldchange, 用來表示基因在兩組間表達量的變化趨勢。排序之後的基因列表其頂部可以看做是上調的差異基因,其底部是下調的差異基因。

GSEA分析的是一個基因集下的所有基因是否在這個排序列表的頂部或者底部富集,如果在頂部富集,我們可以說,從總體上看,該基因集是上調趨勢,反之,如果在底部富集,則是下調趨勢。

理解這個觀點之後,在來看GSEA富集分析的結果。由於結果很多,所以給出了一個匯總的html頁面。對於富集結果,根據上調還是下調分成了兩個部分,對應兩個分組,示例如下

在每個組別下富集到的基因集,從總體上看,其表達量在該組中高表達。點擊enrichment results in html,可以在網頁查看富集的結果,示例如下

GS為基因集的名字,SIZE代表該基因集下的基因總數,ES代表Enrichment score,NES代表歸一化後的Enrichment score,NOM p-val代表pvalue,表徵富集結果的可信度,FDR q-val`代表qvalue, 是多重假設檢驗矯正後的p值,注意GSEA採用pvalue < 5%, qvalue < 25% 對結果進行過濾。

點擊GS DESC可以跳轉到每個基因集詳細結果頁面,示例如下

首先是一個匯總的結果,Upregulated in class說明該基因集在MUT這組中高表達,其他信息和之前介紹的一樣,除此之外,還有一個詳細的表格,示例如下

對於該基因集下的每個基因給出了詳細的統計信息,RANK IN GENE LIST代表該基因在排序號的列表中的位置, RANK METRIC SCORE代表該基因排序量的值,比如foldchange值,RUNNIG ES代表累計的Enrichment score, CORE ENRICHMENT代表是否屬於核心基因,即對該基因集的Enerchment score做出了主要貢獻的基因。這個表格中的數據對應下面這張圖

分成3個部分,第一部分為基因Enrichment Score的折線圖,橫軸為該基因下的每個基因,縱軸為對應的Running ES, 在折線圖中有個峰值,該峰值就是這個基因集的Enrichemnt score,峰值之前的基因就是該基因集下的核心基因。

第二部分為hit,用線條標記位於該基因集下的基因,第三部分為所有基因的rank值分布圖, 默認採用Signal2Noise算法,對應了縱軸的標題。

從該圖中可以看出,這個基因集是在MUT這一組高表達的,下面是一個在另一組組中高表達的示例

可以看到,其Enrichment score值全部為負數,對應的在其峰值右側的基因為該基因集下的核心基因。除此之外,還有一張熱圖,示例如下

這張熱圖展示的是位於該基因集下的基因在所有樣本中表達量的分布,其中每一列代表一個樣本。每一行代表一個基因,基因表達量從低到高,顏色從藍色過渡到紅色。

在總的html頁面中,還給出了如下信息

Dataset details給出了基因總數,Gene Set details給出了基因集的信息,注意軟體默認根據基因集包含的基因個數是先對基因集進行過濾,最小15個,最大500個基因,過濾掉了158個基因集,剩餘的168個基因集用於分析。

Gene markers給出了排序之後的基因列表和對應的統計量rank ordered gene list,根據排序的統計量,將基因分成了兩部分,對應在每一組中高表達。

heatmap and gene list包含了所有基因表達量的熱圖和排序值的分布圖,示意如下

熱圖由於基因太多,截取了部分,排序值的分布圖其實就是每個基因集的Enrichment plot中的第三部分。更多的細節請查閱官方文檔。

·end·

相關焦點

  • GSEA分析合理性討論
    , geneSetID = rownames(go_bp_gsea[1,]))  gseaplot(go_bp_gsea, geneSetID = "GO:0006959")  gseaplot(go_bp_gsea, geneSetID = "GO:0030595")  tmp=go_bp_gsea@result  table(tmp$pvalue<0.01)
  • 這個函數支持差異基因富集分析,也支持GSEA
    做富集分析,有幾個通路其實本質上是同一條,想精簡富集的結果,怎麼辦?如果你用clusterProfiler做富集分析,一行代碼就能搞定精簡的問題。今天小丫用clusterProfiler做GSEA,也想精簡。於是?
  • 如何做GO和KEGG富集分析(GSEA)?
    本文在這裡就給大家介紹一個pipeline關於如何完成GO和KEGG富集分析(GSEA)。大家可以通過如下連結獲取完整GESA信息(https://www.gsea-msigdb.org/gsea/index.jsp)。1.什麼是Gene Set Enrichment Analysis(GSEA)?
  • 一文掌握GSEA,超詳細教程!
    本文通過總結多人學習使用過程中遇到的問題進一步記錄軟體操作過程和結果解讀,力求講清每個需要注意的細節點。從前文中我們了解到GSEA分析的目的是要判斷S集基因(基於先驗知識的基因注釋信息,某個關注的基因集合)中的基因是隨機分布還是聚集在排序好的L基因集的頂部或底部(這便是富集分析)。
  • 這個函數支持差異基因富集分析,也...
    做富集分析,有幾個通路其實本質上是同一條,想精簡富集的結果,怎麼辦?如果你用clusterProfiler做富集分析,一行代碼就能搞定精簡的問題。今天小丫用clusterProfiler做GSEA,也想精簡。於是?
  • GSEA富集分析知多少……
    網上也有許多教程,可能看得雲裡霧裡,所以今天小編就為大家梳理一下GSEA的原理和結果解讀。 GSEA結果解讀:結果分為三部分,第一部分是通路S基因對應的富集分數曲線,可以看到這裡最高點就是ES值,大於0,說明通路S基因集中基因大部分在L數據集中是排序靠前,即相對於control是上調的。第二部分是gene set集合,一根黑色線可以理解為一個基因,ES值大於0前的基因可以理解為在這個通路中調控關係重要的基因群。
  • 生信實操|如何利用R語言進行GSEA分析
    專注生物分析最前沿定期解讀生信文章提供生信分析思路和套路看圖說話欄目曾介紹過GSEA的原理(看圖說話|GSEA分析--教你解鎖高級的富集分析),今天我們來看一下如何利用R語言進行GSEA分析。,進行GSEA分析。
  • 為什麼是AUC值而不是GSEA來挑選轉錄因子呢
    見:基因集的轉錄因子富集分析通過學習,我們知道這個RcisTarget包內置的motifAnnotations_hgnc是16萬行,可以看到每個基因有多個motif。而且下載好的 hg19-tss-centered-10kb-7species.mc9nr.feather 文件,也是 24453個motifs的基因排序信息。
  • SPSSAU教程05:相關回歸分析指標解讀
    (1)指標解讀結果表格(2)指標解讀1結果表格指標解讀2結果表格第三:總結分析結果。更詳細的方法說明以及具體原理介紹,可查看SPSSAU官網,以及可使用SPSSAU上面的案例數據,進行實際的操作分析。
  • GSEA富集分析圖講解
    GSEA分析也是功能分析的一種,GSEA的結果圖想必大家也不陌生,接下來就讓小編帶大家畫一下炫酷的基因集富集分析圖吧~GSEA富集分析可以用GO的基因集也可以用KEGG的基因集,今天來看一下GSEA-KEGG分析首先加載相關的R包###########加載library(topGO)library(enrichplot)library
  • 方差分析F檢驗結果如何解讀?
    單因素解讀舉例 上表為某單因素方差分析表結果,研究不同行業的投訴量有無差別(行業是否影響投訴量),行業因素有4個分類水平,數據的總樣本例23個。 表頭以下兩行數據分別代表組間方差(hy)和組內方差(Residuals)的計算結果。
  • 史上最詳細版16S測序結果解讀,動動手指,趕快收藏吧!
    看不懂分析報告?不知道如何評估測序質量?找不到完整結果對應文件?………………請各位看官切莫慌張,切莫焦慮。小銳即將為大家呈現最詳細版的報告解讀,還愣著幹嘛,趕快翻閱下文吧!想要了解一門測序技術,首先要掌握測序原理,這就如同建造房子打好根基一樣。
  • 罕見病基因檢測,結果解讀更重要
    然而,在近日舉辦的第四屆中國罕見病高峰論壇上,與會專家指出,僅僅依賴基因檢測等技術手段的進步並不能為罕見病的診治提供全面的解決方案,必須藉助於更多領域、更多學科的配合,特別是臨床遺傳學專業人員對檢測結果的科學解讀,才能真正造福於罕見病患者。
  • 數據分析常規分析思路及圖表類型解讀
    可視化數據分析工具的出現讓人們可以通過將數據可視化來探討問題、揭示洞見,用數據分享故事。甚至於不懂挖掘算法的人員,也能夠為用戶進行畫像。數據科學家是21世紀的熱門工作。 大數據分析的前瞻性使得很多公司以及企業都開始使用大數據分析對公司的決策做出幫助,而大數據分析是去分析海量的數據,所以就不得不藉助一些工具去分析大數據,那麼大數據分析的工具都有哪些呢?
  • 京津冀等地遭遇大氣重汙染 專家詳細分析解讀
    國家大氣汙染防治攻關聯合中心邀請三位專家對本次汙染過程進行分析解讀。北京市民在重汙染的大霧天氣中出行。中新社記者 楊可佳 攝  截至14日10時,區域內北京、石家莊、保定等13個城市空氣品質達到重度汙染水平,PM2.5日均濃度最高達200微克/立方米(石家莊,13日),PM2.5小時濃度最高達289微克/立方米(邢臺,13日13時)。
  • 示波器模板測試及功能效果圖詳細解讀
    長時間監控波形的故障率,並根據故障波形定位原因是保證品控質量的重要手段,本文將對示波器的模板測試功能做詳細的解讀。     模板測試功能主要用於信號質量的評估,通過在示波器中設置模板對波形進行實時測試,統計在規定的測試條件內測試的次數、失敗的數據幀個數、失敗比率、測試時間等,並顯示測試的結果和輸出測試的數據。測試在設計和製造過程中能夠節省時間和費用,並確保客戶能夠更快收到更高的質量產品。
  • 重複測量方差分析的操作教程及結果解讀
    重複測量數據的個體觀測值不完全獨立,數據間存在趨同性,如果採用獨立數據的統計推斷方法(如t檢驗、方差分析)進行分析,往往會增大Ⅰ類錯誤發生的概率,容易使本來無統計學意義的結果變成了有統計學意義。事實上,這種情況在審稿中甚至在已發表的文章中都不算少見。
  • 手相太陽線紋路詳細解讀
    手相太陽線紋路詳細解讀太陽線也被稱為成功線。這條線可以從不同的位置上升,但頂端延伸到太陽丘即無名指根部,太陽線可以看作是反映好運或厄運;太陽線是長的好,但長而無勁,不如短而有勁。正確看手相,個人運勢預測,事業運,財運,婚姻運分析等諮詢,私信或評論留言如有侵權,請聯繫刪除
  • 安然2.0時代拳頭產品詳細解讀
    原標題:安然2.0時代拳頭產品詳細解讀2018年,安然全新子品牌將持續落地,本次2017年度營銷表彰盛典上,隆重推出了三個子品牌的宣傳片,全新的品牌理念、震撼的視覺效果、大氣高端的產品,無一不衝擊著現場夥伴的眼球,振奮著大家的激情!