神圖-多組學通路富集的聯合比較

2021-02-15 紀偉講測序

點擊"上海生命基因" 關注閱讀更多文獻信息

使用Perseus軟體進行1D和2D annotation enrichment分析

某天,小編在某篇蛋白組學文獻中看到這麼一個分析,稱為2D annotation enrichment的方法。作者使用2D annotation enrichment比較了自己的蛋白組數據集和先前研究中蛋白組數據集的蛋白表達的差異,並將這種差異關聯到富集的通路上進行比較,以闡述二者的一致性和區別。圖B是2D annotation enrichment的結果,橫軸為自己的蛋白組數據,縱軸為先前報導的蛋白組數據,橫軸和縱軸坐標表示了這些通路在兩個數據集中的富集因子,正值代表激活,負值代表抑制;圖中的點代表了富集的通路,不同顏色的點代表了不用類型的功能通路。這樣,功能通路在兩個數據集中的狀態清晰可對比,看到相似的功能通路在兩數據集中具有相似的激活或抑制特徵。

來源文獻,Phosphoproteomics Reveals the GSK3-PDX1 Axis as a Key Pathogenic Signaling Node in Diabetic Islets

令小編好奇的是,這個2D annotation enrichment分析是如何根據兩組數據集中蛋白水平的倍數變化,關聯到通路水平進行比較,解釋生物學問題的呢?本篇就讓我們重現這種分析方法。

2D annotation enrichment可以對兩個不同的組學數據進行聯合分析,以對比它們的一致性與不同。例如,對蛋白組和轉錄組數據集進行聯合分析,根據所有蛋白或基因表達的倍數變化值,計算對應的通路是否受到激活或抑制。根據結果,可以用於描述哪些通路在轉錄組水平激活而翻譯水平未體現,或者在翻譯水平激活但轉錄水平未體現,以闡述轉錄水平和翻譯水平基因表達的生物學現象。或者,根據一致的通路描述二者的共性,描述功能的一致性。

目前,2D annotation enrichment可以使用Perseus軟體來完成分析,Perseus下載地址:https://www.maxquant.org/perseus/

這應該是關於2D annotation enrichment的第一篇中文教程了。為了方便大家操作,測試數據,作圖R代碼等,可點擊下方「閱讀原文」獲取。

 

輸入數據文件以制表符分割,包含四列信息,記錄了基因名稱,轉錄組和蛋白組中計算的基因的差異表達倍數,以及基因所屬的功能類別。

以該示例數據為例:

gene,基因名稱列,記錄基因的名稱,可以為任意名稱。

logFC_gene和logFC_protein,log2轉換後的差異倍數,一列是基因對應的蛋白的差異表達,一列是基因對應的轉錄組的差異表達。

GO_term,基因所屬的功能條目,該示例中展示了基因歸類的GO功能類別。

由於一個基因可以歸屬多條功能,因此基因名稱或者功能條目均可以出現多次。


Perseus的安裝過程就不再多說了,很簡單,下載就能用。界面也是圖形化界面,很好操作。現在我們打開Perseus,將準備的數據讀取到Perseus中用作功能富集分析。

軟體左上方有個導入按鈕,點擊後在新界面選擇本地的文件讀取,並設置列的類型後,點擊確定即可成功讀入。


3    1D annotation enrichment 

接下來就是令人激動的分析環節了,我們首先來看單組學數據集的功能分析過程吧,也就是1D annotation enrichment。

例如這裡以蛋白組數據集為例,根據所有蛋白的倍數變化值,計算這些蛋白對應的通路是否受到激活或抑制。

備註:就目前而言,1D annotation enrichment很少使用,更多地使用基因集富集分析(GSEA)實現類似的目的。

結果表格中,重點關注幾列信息就可以了。

C:Name,為富集的功能條目名稱,本示例中,為基因所屬的GO功能類別的名稱。

N:Size,富集到該功能的蛋白數量。

N:Score,富集得分,取值範圍-1~1,正值代表了該通路的激活,負值代表了該通路的抑制。

N:Pvalue和FDR,分別為通路富集的p值和p調整值,只保留了設定在閾值範圍內的顯著結果。

對於富集結果的輸出,點擊右上方的保存按鈕,輸出在本地文件保存。


4    2D annotation enrichment 

2D annotation enrichment分析是Perseus的特色,可以對兩個不同的組學數據進行聯合分析,以對比它們的一致性與不同。

接下來,我們同時選擇蛋白組和轉錄組數據集,根據所有蛋白或基因表達的倍數變化值,計算對應的通路是否受到激活或抑制。根據結果,可以用於描述哪些通路在轉錄組水平激活而翻譯水平未體現,或者在翻譯水平激活但轉錄水平未體現,以闡述轉錄水平和翻譯水平基因表達的生物學現象。或者,根據一致的通路描述二者的共性。

logFC_protein和logFC_gene,分別為蛋白和轉錄水平的富集得分,取值範圍-1~1,正值代表了該通路的激活,負值代表了該通路的抑制。

T:Names,為富集的功能條目名稱,本示例中,為基因所屬的GO功能類別的名稱。

N:Size,富集到該功能的基因數量。

N:Pvalue和FDR,分別為通路富集的p值和p調整值,只保留了設定在閾值範圍內的顯著結果。

對於富集結果的輸出,點擊右上方的保存按鈕,輸出在本地文件保存。


通路的富集分析結果拿到手了,最後就是作圖展示。

結果輸出後,稍作處理,例如可以繼續為功能添加分類。對於分類的添加,可以是進一步的功能大類,將通路關聯到更大的分類中,這樣更有利於描述功能的一致性。或者,根據蛋白組和轉錄組的通路富集的一致性趨勢劃分分類也可以。這裡直接按四象限分布劃分分類了,僅用作示例展示。

最後,我們使用R語言ggplot2包繪製二維散點圖表示通路富集,就以2D annotation enrichment 得到的蛋白組和轉錄組雙組學的聯合分析為例展示。

#2D使用Perseus計算#並手動添加功能分類後,在R裡作圖
dat <- read.delim('2D_result.txt')
#散點圖library(ggplot2)library(ggrepel)
ggplot(dat, aes(logFC_protein, logFC_gene)) +geom_point(aes(color = type), size = 2) +theme(panel.grid.minor = element_blank(), axis.line = element_line(color = 'black')) +geom_vline(xintercept = 0, linetype = 2) +geom_hline(yintercept = 0, linetype = 2) +labs(x = 'Proteome\nlog2FC', y = 'Transcriptome\nlog2FC', color = '') +scale_x_continuous(expand = c(0, 0), limit = c(-1, 1)) +scale_y_continuous(expand = c(0, 0), limit = c(-1, 1)) +geom_text_repel(aes(label = Names), size = 3, box.padding = unit(0.5, 'lines'), show.legend = FALSE)

這樣,成品圖就出來了,後續根據兩個組學數據富集通路的一致性或區別,描述生物學現象就可以了。

紀偉點評:我們經常聽到多組學分析,多數據集關聯分析,這些聯合分析可以很好的說明分子及功能的變化規律的普遍性,穩定性,但聯合分析出圖是個大問題。

分子水平差異變化:如轉錄組mRNA, lncRNA, circRNA, miRNA與蛋白,磷酸化蛋白,代謝小分子,基因突變,染色體變異等;及不同來源數據集(公共數據)分子的比較如何出圖。

功能水平上:富集重要信號通路如增殖,粘附,胰島素分泌等關心的通路如何在多組學活多數據集上展示差異及共性,如何出圖。

信號軸上:某個具體的信號軸上,多組學的分子,不同的數據集如何展示其差異與共性,揭示處理條件下特有的信號軸變化,如何出圖。

本篇文章中的分析,給我們解決功能富集關聯提出了一個很好的方法,首次看到它時,著實讓我興奮不已,此刻依然心潮澎湃...

上海生因生物有著豐富的轉錄組測序、外顯子測序數據分析的經驗,同時還提供文獻或分析思路整理、GEO、TCGA公共數據挖掘、高級個性化定製分析等服務。有這方面試驗或數據分析需要的老師,可以添加技術微信聯繫我們,共同探討如何尋找基因、分子研究,如何確定分子機制。對於已經在我們公司做過測序的老師,或者打算即將在我們公司做測序的老師,可以享受免費的售後分析服務。

公眾號後臺回復「2D」獲取示例數據及代碼

長按識別二維碼諮詢實驗、分析

李紀偉丨寫

劉   堯丨審

其他相關資料

個性化售後:RNAseq,我們可以提供哪些圖表分析

視頻講解:circRNA人大小鼠同源關係對分析(提供數據)

視頻講解:是否有轉錄因子調控我研究的circRNA, 如何尋找?

視頻講解:文獻中常見的信號通路是如何富集出來的

視頻講解:使用pROC包進行ROC曲線的繪製

R語言與轉錄組數據分析-使用clusterProfiler進行GO、KEGG富集分析

R語言作圖-火山圖繪製

R語言作圖-R語言繪製基因表達相關性弦圖

R語言作圖-R語言繪製基因表達熱圖

點擊閱讀原文查看更多信息

相關焦點

  • 何國偉團隊用蛋白組學+代謝組學揭示先天性心臟病潛在生物標誌物
    圖1 | 蛋白組分析結果(A)在3個比較組中的venny分析;(B)在3個比較組中的差異蛋白;(C)顯著差異變化的top 40蛋白水平表達柱形圖;(D)顯著差異變化的top 40蛋白水平表達柱形圖。圖2 | 代謝組分析結果(A)PCA分析和OPLA-DA分析;(B)在3個比較組中的差異代謝物venny分析圖;(C)聚類熱圖;(D)顯著差異變化的top 40代謝物水平表達柱形圖。在VSD-PAH vs VSD-Control比較組中,52個蛋白顯著變化,包括34個上調和18個下調蛋白(圖3)。
  • 多組學結合互作技術確定RPS4Y1是VKH疾病中重要的CsA和CS抗性基因
    DEGs 的GO分析結果顯示:4604個生物過程(BP),499個細胞成分(CC),631個分子功能的功能通路被富集出來;此外26條KEGG通路被富集出來(圖1B)。DEPs 的GO分析顯示422個BPs,93個CCs,38個MFs及 13個KEGG功能通路被富集出來(圖1D)。
  • 10分鐘教你徹底搞懂這個多組學百搭分析,零代碼教你搞定!
    本期的主題是簡單的GO/KEGG及GSEA 富集分析,也能打開多組學大門 影響組學系列傳送門
  • 百邁客雲平臺——助您輕鬆搞定GO、 KEGG富集圖繪製
    GO、KEGG分類富集圖繪製工具對給定的基因集結合注釋信息繪製GO分類富集圖、KEGG分類富集及通路富集圖。
  • DAVID&Metascape:專注於基因功能注釋和富集通路分析的網站
    ——DAVID和Metascape網站,這兩個都是專注於基因功能注釋和富集通路分析的網站。值得注意的是,DAVID網站的基因輸入首先不能是單個基因,單個基因富集不到有意義的通路或者功能;DAVID網站的gene list限制輸入不超過3000個基因;輸入格式是每行一個基因名或者基因名用逗號隔開。
  • 兩篇連發~轉錄組學+蛋白質組學對水生生物中納米塑料毒性機理研究
    TMT標記蛋白質組學質譜共鑑定到23,599種唯一性的肽段和4,344種蛋白質,其中定量到了3,973種蛋白質(圖3A)。KEGG通路富集分析發現兩條發生顯著變化的通路(圖5C):ECM-受體相互作用(p = 0.00037)和穀胱甘肽代謝(p = 0.019)。
  • 標誌物篩選、藥效評價保姆級代謝組學組學研究實驗思路!
    圖 | 四氯化碳(CCl4)誘導的肝損傷的脂代謝機製圖小鹿點評這篇論文是一個功能性脂質靶向高通量檢測的方法學開發,然後加了一個動物模型的應用,這個功能性脂質靶向高通量檢測涵蓋了氧化脂質的代謝通路、膽汁酸通路、氧化膽固醇代謝通路、磷脂代謝通路的重要活性脂質
  • 科研 | 通過18F - FDG PET/CT和蛋白質組學分析苯巴比妥成癮大鼠腦內與胰島素信號通路相關的葡萄糖攝取和蛋白表達改變
    基於TMT的苯巴比妥治療大鼠腦組織的蛋白質組學分析我們還使用了TMT技術,在第60和90天使用苯巴比妥或0.5% CMC-Na(對照)處理的大鼠的腦組織進行了蛋白質組學分析,數據見表S1和表S2。結果表明,第60天,與對照組相比,苯巴比妥處理中胰島素信號通路相關而非胰島素抵抗相關的蛋白表達顯著下調(FC<0.8),如鈣調素1 (CALM1)、絲氨酸/蘇氨酸蛋白激酶A-Raf (ARAF)和Cbl原癌基因(Cbl)(表4和圖2A),然而,在第90天,與對照組相比,苯巴比妥處理的大鼠胰島素信號通路相關蛋白的表達沒有明顯改變。
  • TMT蛋白質組學與生物信息學分析不同石杉鹼甲含量的蛇足石杉葉狀體的蛋白差異
    方法  利用定量蛋白質組學串聯質譜標籤(tandem mass tag,TMT)技術對不同株系蛇足石杉葉狀體進行定量蛋白質組學檢測和鑑定,再對差異蛋白進行GO和KEGG等生物信息學分析。針對兩兩分組對比的差異表達蛋白進行GO富集,得到差異蛋白GO富集柱狀圖。在株系A與C差異蛋白GO功能富集中,BP佔總功能的57.5%,MF佔23.75%,CC佔18.75%(圖4-A)。在株系A與B差異蛋白GO功能富集中,BP佔總功能的65%,分子MF佔25%,而CC的蛋白功能僅佔10%(圖4-B)。
  • 分析混合微生物群落內細菌協同代謝關係,「代謝組+」聯合助力!
    美格基因即將推出代謝組業務,運用「代謝組+ 」的多組學策略助力微生物研究,將微生物研究推向更高水平。今天給大家分享一篇多組學聯合助力微生物研究的經典文章,文章運用宏基因組+宏轉錄組+代謝組學解析混合微生物群落內細菌間協同代謝關係,以下文章來源於宏基因組。
  • 項目文章 | 轉錄組學+iTRAQ蛋白質組學揭示乾旱條件下木薯的轉錄後調控機理
    技術和iTRAQ標記定量蛋白質組學聯合研究,在木薯葉片和根中分別鑑定出1242/715個差異表達基因(DEGs)和237/307個差異表達蛋白(DEPs)。隨著全球範圍內有關乾旱響應的轉錄組和蛋白質組學研究的增多,越來越多的證據表明轉錄組與蛋白質組變化常常不一致,表明轉錄後調控在脅迫條件下的植物響應中起著關鍵作用,進一步的研究表明,參與乾旱脅迫的轉錄後調控基因與HSPs有關。
  • 拷貝數變異聯合lncRNA怎樣碰撞出4分+火花?
    拷貝數變異(CNV)在人類基因組中十分普遍,包括缺失,插入,重複和複雜的多位點變異,研究表明CNV與生存有緊密聯繫。1、基於多組學的六種分子亞型的預後分析表1:每個亞型的樣本數如圖1A所示,作者藉助KM曲線進一步分析了這6種亞型的預後差異,通過KM曲線可以看出,C5亞型的預後情況明顯差於其他亞型。
  • 0代碼高效繪製富集分析氣泡圖
    文獻中通常使用柱形圖或點圖來展示富集分析結果,柱子的高低與p value相關,柱子越高則富集越顯著:柱形圖只能突出顯示富集的Term與對應的p值,存在一定的局限性。因此,在一些高分文獻中則會使用更高效的氣泡圖(Bubble圖)來展示富集分析結果。
  • 四川農業大學農學院王西瑤教授:定量磷酸化蛋白質組學和靶向蛋白質組技術揭示馬鈴薯休眠萌芽的調控通路
    定量磷酸化蛋白質組學和靶向蛋白質組技術揭示馬鈴薯休眠萌芽的調控通路研究背景:馬鈴薯在世界各地深受歡迎,具有重要的產業價值。提但是馬鈴薯發芽問題(有毒)嚴重製約了馬鈴薯的健康食用。解決這一問題,除了先進的加工技術之外,利用生物技術手段從上遊抑制馬鈴薯的發芽,也是一條有效的途徑。
  • 一作解讀Microbiome:所謂的「富集培養」獲得的微生物真的都是被「富集」出來的嗎?
    研究還發現富集培養過程中伴隨著微生物之間的相互作用,結合宏轉錄組學和比較基因組學對互作及復甦機制進行深度解析。該分離技術可為微生物的混菌培養提供借鑑,也為今後微生物資源的發掘提供了新思路。杜宗軍教授課題組長期從事海洋微生物資源學工作,創新和改進了細菌分離方法,建立了2個新目,4個新科,24個新屬,成為國際上微生物系統學研究領域具有重要影響力的研究團隊。
  • 科研 | Brief.Bioinformatics:綜合組學分析揭示肥胖成人腸道微生物代謝產物的變化
    KEGG通路分析顯示,在肥胖成人中,代謝通路與次生代謝物的生物合成密切相關(圖4A)。受影響的代謝途徑包括組氨酸代謝、苯丙氨酸代謝和脂肪酸代謝(圖4A)。其中多種脂肪酸代謝通路顯著富集,如花生四烯酸代謝、不飽和脂肪酸的生物合成、脂肪酸延伸和降解(圖4B)。此外,肥胖成人糞便中的葡萄糖代謝,包括半乳糖、果糖、甘露糖、澱粉和蔗糖代謝也發生了改變(圖4B)。
  • ​無代碼高效繪製富集分析氣泡圖
    一圖勝千言,好的數據呈現方式能夠為文章增加光彩。
  • 動物所揭示非模式哺乳動物與其寄生蛔蟲協同演化的基因組學機制
    隨著基因組測序技術的發展,一些和人類及家養動物健康相關的寄生蟲基因組被解析。然而,目前多數研究著眼於寄生蟲基因組的結構和功能解析,未探討相應宿主基因組的相關變化,以及宿主與寄生蟲兩者間協同演化的基因組學機制。
  • TMT標記定量蛋白組學助力烏菜氧化還原穩態與高低溫脅迫研究
    Genotype」的研究成果,通過TMT標記定量蛋白質組學和LC-MS/MS蛋白質組學研究方法,發現了烏菜的氧化還原平衡、光合作用、碳水化合物代謝、熱休克蛋白和信號轉導途徑與耐溫性有關,驗證了維持氧化還原穩態是烏菜新種質耐溫性的重要調控通路。
  • 使用火山圖呈現GSEA富集分析的結果
    比如Y叔的神包clusterProfiler來做GSEA分析。為什麼不給出其他所有集合的富集情況呢?就跟開題時專家經常問的問題那樣,你研究的這個通路如果重要,究竟有多重要,跟你師兄那個比,誰更重要?下面這行代碼可以用分面的形式看激活的集合以及抑制的集合dotplot(y,showCategory=12,split=".sign")+facet_grid(~.sign)