點擊"上海生命基因" 關注閱讀更多文獻信息
使用Perseus軟體進行1D和2D annotation enrichment分析
某天,小編在某篇蛋白組學文獻中看到這麼一個分析,稱為2D annotation enrichment的方法。作者使用2D annotation enrichment比較了自己的蛋白組數據集和先前研究中蛋白組數據集的蛋白表達的差異,並將這種差異關聯到富集的通路上進行比較,以闡述二者的一致性和區別。圖B是2D annotation enrichment的結果,橫軸為自己的蛋白組數據,縱軸為先前報導的蛋白組數據,橫軸和縱軸坐標表示了這些通路在兩個數據集中的富集因子,正值代表激活,負值代表抑制;圖中的點代表了富集的通路,不同顏色的點代表了不用類型的功能通路。這樣,功能通路在兩個數據集中的狀態清晰可對比,看到相似的功能通路在兩數據集中具有相似的激活或抑制特徵。
來源文獻,Phosphoproteomics Reveals the GSK3-PDX1 Axis as a Key Pathogenic Signaling Node in Diabetic Islets
令小編好奇的是,這個2D annotation enrichment分析是如何根據兩組數據集中蛋白水平的倍數變化,關聯到通路水平進行比較,解釋生物學問題的呢?本篇就讓我們重現這種分析方法。
2D annotation enrichment可以對兩個不同的組學數據進行聯合分析,以對比它們的一致性與不同。例如,對蛋白組和轉錄組數據集進行聯合分析,根據所有蛋白或基因表達的倍數變化值,計算對應的通路是否受到激活或抑制。根據結果,可以用於描述哪些通路在轉錄組水平激活而翻譯水平未體現,或者在翻譯水平激活但轉錄水平未體現,以闡述轉錄水平和翻譯水平基因表達的生物學現象。或者,根據一致的通路描述二者的共性,描述功能的一致性。
目前,2D annotation enrichment可以使用Perseus軟體來完成分析,Perseus下載地址:https://www.maxquant.org/perseus/
這應該是關於2D annotation enrichment的第一篇中文教程了。為了方便大家操作,測試數據,作圖R代碼等,可點擊下方「閱讀原文」獲取。
輸入數據文件以制表符分割,包含四列信息,記錄了基因名稱,轉錄組和蛋白組中計算的基因的差異表達倍數,以及基因所屬的功能類別。
以該示例數據為例:
gene,基因名稱列,記錄基因的名稱,可以為任意名稱。
logFC_gene和logFC_protein,log2轉換後的差異倍數,一列是基因對應的蛋白的差異表達,一列是基因對應的轉錄組的差異表達。
GO_term,基因所屬的功能條目,該示例中展示了基因歸類的GO功能類別。
由於一個基因可以歸屬多條功能,因此基因名稱或者功能條目均可以出現多次。
Perseus的安裝過程就不再多說了,很簡單,下載就能用。界面也是圖形化界面,很好操作。現在我們打開Perseus,將準備的數據讀取到Perseus中用作功能富集分析。
軟體左上方有個導入按鈕,點擊後在新界面選擇本地的文件讀取,並設置列的類型後,點擊確定即可成功讀入。
3 1D annotation enrichment
接下來就是令人激動的分析環節了,我們首先來看單組學數據集的功能分析過程吧,也就是1D annotation enrichment。
例如這裡以蛋白組數據集為例,根據所有蛋白的倍數變化值,計算這些蛋白對應的通路是否受到激活或抑制。
備註:就目前而言,1D annotation enrichment很少使用,更多地使用基因集富集分析(GSEA)實現類似的目的。
結果表格中,重點關注幾列信息就可以了。
C:Name,為富集的功能條目名稱,本示例中,為基因所屬的GO功能類別的名稱。
N:Size,富集到該功能的蛋白數量。
N:Score,富集得分,取值範圍-1~1,正值代表了該通路的激活,負值代表了該通路的抑制。
N:Pvalue和FDR,分別為通路富集的p值和p調整值,只保留了設定在閾值範圍內的顯著結果。
對於富集結果的輸出,點擊右上方的保存按鈕,輸出在本地文件保存。
4 2D annotation enrichment
2D annotation enrichment分析是Perseus的特色,可以對兩個不同的組學數據進行聯合分析,以對比它們的一致性與不同。
接下來,我們同時選擇蛋白組和轉錄組數據集,根據所有蛋白或基因表達的倍數變化值,計算對應的通路是否受到激活或抑制。根據結果,可以用於描述哪些通路在轉錄組水平激活而翻譯水平未體現,或者在翻譯水平激活但轉錄水平未體現,以闡述轉錄水平和翻譯水平基因表達的生物學現象。或者,根據一致的通路描述二者的共性。
logFC_protein和logFC_gene,分別為蛋白和轉錄水平的富集得分,取值範圍-1~1,正值代表了該通路的激活,負值代表了該通路的抑制。
T:Names,為富集的功能條目名稱,本示例中,為基因所屬的GO功能類別的名稱。
N:Size,富集到該功能的基因數量。
N:Pvalue和FDR,分別為通路富集的p值和p調整值,只保留了設定在閾值範圍內的顯著結果。
對於富集結果的輸出,點擊右上方的保存按鈕,輸出在本地文件保存。
通路的富集分析結果拿到手了,最後就是作圖展示。
結果輸出後,稍作處理,例如可以繼續為功能添加分類。對於分類的添加,可以是進一步的功能大類,將通路關聯到更大的分類中,這樣更有利於描述功能的一致性。或者,根據蛋白組和轉錄組的通路富集的一致性趨勢劃分分類也可以。這裡直接按四象限分布劃分分類了,僅用作示例展示。
最後,我們使用R語言ggplot2包繪製二維散點圖表示通路富集,就以2D annotation enrichment 得到的蛋白組和轉錄組雙組學的聯合分析為例展示。
#2D使用Perseus計算#並手動添加功能分類後,在R裡作圖
dat <- read.delim('2D_result.txt')
#散點圖library(ggplot2)library(ggrepel)
ggplot(dat, aes(logFC_protein, logFC_gene)) +geom_point(aes(color = type), size = 2) +theme(panel.grid.minor = element_blank(), axis.line = element_line(color = 'black')) +geom_vline(xintercept = 0, linetype = 2) +geom_hline(yintercept = 0, linetype = 2) +labs(x = 'Proteome\nlog2FC', y = 'Transcriptome\nlog2FC', color = '') +scale_x_continuous(expand = c(0, 0), limit = c(-1, 1)) +scale_y_continuous(expand = c(0, 0), limit = c(-1, 1)) +geom_text_repel(aes(label = Names), size = 3, box.padding = unit(0.5, 'lines'), show.legend = FALSE)
這樣,成品圖就出來了,後續根據兩個組學數據富集通路的一致性或區別,描述生物學現象就可以了。
紀偉點評:我們經常聽到多組學分析,多數據集關聯分析,這些聯合分析可以很好的說明分子及功能的變化規律的普遍性,穩定性,但聯合分析出圖是個大問題。
分子水平差異變化:如轉錄組mRNA, lncRNA, circRNA, miRNA與蛋白,磷酸化蛋白,代謝小分子,基因突變,染色體變異等;及不同來源數據集(公共數據)分子的比較如何出圖。
功能水平上:富集重要信號通路如增殖,粘附,胰島素分泌等關心的通路如何在多組學活多數據集上展示差異及共性,如何出圖。
信號軸上:某個具體的信號軸上,多組學的分子,不同的數據集如何展示其差異與共性,揭示處理條件下特有的信號軸變化,如何出圖。
本篇文章中的分析,給我們解決功能富集關聯提出了一個很好的方法,首次看到它時,著實讓我興奮不已,此刻依然心潮澎湃...
上海生因生物有著豐富的轉錄組測序、外顯子測序數據分析的經驗,同時還提供文獻或分析思路整理、GEO、TCGA公共數據挖掘、高級個性化定製分析等服務。有這方面試驗或數據分析需要的老師,可以添加技術微信聯繫我們,共同探討如何尋找基因、分子研究,如何確定分子機制。對於已經在我們公司做過測序的老師,或者打算即將在我們公司做測序的老師,可以享受免費的售後分析服務。公眾號後臺回復「2D」獲取示例數據及代碼
長按識別二維碼諮詢實驗、分析
李紀偉丨寫
劉 堯丨審
其他相關資料
個性化售後:RNAseq,我們可以提供哪些圖表分析
視頻講解:circRNA人大小鼠同源關係對分析(提供數據)
視頻講解:是否有轉錄因子調控我研究的circRNA, 如何尋找?
視頻講解:文獻中常見的信號通路是如何富集出來的
視頻講解:使用pROC包進行ROC曲線的繪製
R語言與轉錄組數據分析-使用clusterProfiler進行GO、KEGG富集分析
R語言作圖-火山圖繪製
R語言作圖-R語言繪製基因表達相關性弦圖
R語言作圖-R語言繪製基因表達熱圖
點擊閱讀原文查看更多信息