這個只需一步就可做富集分析的網站還未發表就被CNS等引用超過350次

2021-02-25 生信寶典

Metascape 專門為生物學者設計的基因富集分析網站

一、Metascape簡介

Metascape（http://metascape.org/）是一個功能強大的基因功能注釋分析工具，能幫助用戶將當前流行的生物信息學分析方法應用到批量基因和蛋白質的分析中，以實現對基因或蛋白功能的認知。只需在Metascape網頁幾步簡單的操作，就可以對大批量的基因或蛋白質進行注釋、富集分析以及構建蛋白質-蛋白質互作網絡。並且構建的蛋白互作網絡還可以直接導出給Cytoscape使用，繪製美觀、可發表的蛋白互作網絡圖。

更新快：每月更新一次，保證了數據的可靠性；

覆蓋廣：整合了GO、KEGG、Uniprot等多個權威的功能資料庫；同時Metasacape不僅可以分析人類（H. sapien）的數據，還包括很多其他物種數據，如 M. musculus, R. norvegicus, D. rerio, D. melanogaster, C. elegans, S. cerevisiae, A. thaliana, and P. falciparum等；

易操作：「CAME」流程操作，簡單易上手，不僅可以單獨分析一個基因集，還可以同時分析多個基因集；得到的結果報告顏值極高，往往能達到發表文章的級別！

不收錢！！！

2019年3月4日，Matascape團隊總結了Metascape的使用就發表了一篇Nature communications，可見這個軟體的被認可程度。其中提到Metascape網站在文章發表之前就已經被350多篇論文引用，其中不乏《自然》，《科學》，《細胞》等雜誌。有趣的是約三分之二的引用文章直接使用了Metascape生成的圖表。

ａ）摘自Lotan et al. Molecular Psychiatry (2018) 78:865中的Figure 5;

b）摘自Dong et al. Genome Biol (2018) 19:31中的Figure 3。

二、Metascape的工作流程

Metascape採用的是一種稱為「CAME」的通用分析工作流程，概述如下：

ID轉換 (Conversion)——將用戶輸入的基因標識符自動轉換為目標物種的Entrez gene IDs；

注釋 (Annotation)——為基因列表添加注釋列，包括基因的描述、功能和蛋白質分類等；

歸類 (Membership)——獲取感興趣的基因集。例如，獲取被歸為以「cancer」作為關鍵字的GO生物過程分類的基因。

富集 (Enrichment)——對基因列表的功能富集分析，識別具有統計意義的通路。最新的版本還包括蛋白質網絡分析，可以用來識別和獲取具有緊密連接的蛋白質網絡元件 (如Oct4、Sox2和Nanog網絡)。

新版本的Metascape可以分析多種模式生物的基因，用戶只需輸入基因或蛋白質名稱 (很多基因名均可識別)，就可以藉助Metascape網站快速獲得基因注釋、基因功能、基因分類、富集的通路以及蛋白質相互作用網絡(可導入Cytoscape再處理)。這對於大多數的日常分析需求來說已經足夠了。

三、Metascape的使用數據上傳

在Metascape主頁，用戶可以在1處粘貼一個由逗號、冒號、空格、制表符或行分隔符組成的基因列表（基因名可以是：Entrez Gene ID、Ensembl ID、RefSeq、Symbol、UniProt ID、UCSC ID等等），或者在2可以選擇本地的一個電子表格文件（xlsx、xls、csv或txt），其中的一列必須包含基因名稱列。其它的數據列是可選的，在分析期間會被忽略。

圖2 Metascape Home

如果在上傳文件中提供了多個列，而基因只是其中的一列，注意使用下拉菜單確保正確選擇含有基因名稱的列。

txt格式基本上與csv格式相同，只不過前者使用tab作為欄位分隔符；txt格式不支持任何非標準的規則。

Metacape會將分析後的基因注釋等結果加在輸入基因的列表後面。

使用Excel表時需要注意，Excel文件雖非常常用，但其有時不能很好地引用基因symbols，因為某些基因symbols可能被錯誤地轉換成日期和數字。例如「Mar1」、「Marc1」和「March1」都可能被Excel轉換為3月1日，而基因符號「201E9」則可能被視為一個大整數。其他的例子如「1/6」、「12-14-90」、「2-Oct」、「9830125E18」等等，因此這些基因symbols不能被映射到Entrez gene IDs中，因而在分析過程中會被漏掉。為防止基因symbols被轉換成日期或數字，可以用單引號來對符號進行前綴，例如，輸入』Mar1。因此最好不要依賴於在xls或xlsx格式中使用基因symbols，而應使用諸如RefSeq之類的其他ID格式。Excel改變了你的基因名，30% 相關Nature文章受影響，NCBI也受波及但是，如果使用.csv或.txt格式，就可隨意使用基因symbols。

Metascape主頁包含所支持格式的文件模板（在「Upload File Format」下，見圖3）；可以下載下來並依照這些例子載入數據。想要測試Metascape的運行，可以點擊single list，將上傳一個人類基因列表。點擊Test Identifiers下的任何連結，就會自動粘貼指定格式的列表基因ID。

注意：基因列的名稱開頭不能有下劃線，下劃線是為Metascape保留的。用戶提供的列的名稱的任何下劃線都將被自動刪掉。

圖3 數據格式舉例

富集分析

粘貼或上傳好基因數據後，在圖Step2中先選擇Input as species，如果有對應物種的基因就選擇對應物種，如果沒有可以選擇括號中數字最大的物種 (說明可以進行轉換的基因比較多)，選擇Analysis as species也遵循上述原則。

選擇好物種後點擊Express Analysis即可進行快速分析。此時下方會顯示一個進度條，之後會顯示一個Analysis Report按鈕，點擊後會打開一個報告頁面。

快速分析(Express Analysis)包括最流行的注釋源和基因本體（Gene ontology）分類 (結果如下圖)。對於經驗豐富的用戶，或希望對分析選項有更大控制權的用戶，可使用自定義分析Custom Analysis。設置其中的一些選項能夠更好地控制CAME分析流程。

a） Metascape去除功能冗餘的富集通路，用簡單明了的bargraph顯示出最主要的實驗結果；

b）富集生物通路可以以網絡方式表現，這更利於理解通路或生物過程之間的關係；

c）Metascape自動抽取提交列表中蘊含的蛋白質互作用網絡；

d）為了更容易理解這一網絡，Metascape採用成熟的MCODE算法尋找網絡中的密集聯結的蛋白質群，並對每個群的生物功能進行注釋。

分析結果

圖5

圖6 Pathway and Process Enrichment Analysis

蛋白蛋白互作

下圖展示了在用戶輸入的基因中發現的蛋白——蛋白互作網絡。其數據來源於BioGrid、InWeb_IM和OmniPath等資料庫。點擊CYS 圖標可以下載這個網絡並可以用Cytoscape軟體打開，可以進一步調整圖形布局或加入基因表達等信息。

圖7 Protein-protein Interaction Enrichment Analysis

多基因列表聯合分析

當代的多組學實驗往往生成多個基因列表，目前的網絡工具很少能同時分析並整合多基因列表，而這恰恰是Metascape的長處之一。其實Metascape的」meta」就是來源於多列表的meta-analysis。下圖以三組過去獨立發表的流感宿主因子列表為例進行說明。

a） Metascape用heatmap讓三組數據集共享的和獨特的生物通路一目了然。

b）富集通路也可以以網絡呈現。由於每一組宿主因子用一個獨特的顏色表示，我們可以很清楚的發現Viral gene expression是共享的而Regulation of cell development主要只存在於綠色對應的實驗中。

四、定製分析五、作者自評

很多學者還在採用DAVID做富集通路分析。

富集通路分析結果完全依賴於背後資料庫的質量。DAVID曾經有六年的時間（2010-2016）沒有維護資料庫，最近的更新也已經兩年半了。獨立研究表明使用兩年舊的Gene ontology資料庫，用戶平均要丟失20%的最新的生物知識。所以定期更新資料庫的重要性非同小可。

可惜現實是目前大家常使用富集分析工具中僅有40%被正常維護，不知讀者目前使用的工具是否屬於幸運的一類。Metascape每月更新背後的40多個資料庫，以確保提供最準確的結果。

Metascape沒有學習使用的壁壘，因為沒有比一鍵Express Analysis更簡單了。雖然好用，Metascape實現的主要功能卻是不折不扣。

作者由於多年來在自己的科研項目中都要花大量的時間進行這些生物信息分析，所以決定把長期發表文章中體會到的best practices實現在Metascape中。

由於常用的基因列表的分析工具僅限於提供單一通路富集分析，這就不幸地給研究人員造成了列表分析就是等同於知識驅動的富集分析的誤解。而數據驅動的蛋白質互作用網絡分析就鮮有網站支持。

其實除了以上描述的Metascape提供的林林總總的分析功能之外，其還有非常強大的對上千個基因進行注釋或者利用知識庫進行成員分析的功能，這些對於後續的基因篩選及其重要，詳情請見文章或網站文檔。要實現Metascape的這些分析功能對於生物信息人員都是有難度的。

推薦閱讀

學習津貼

單篇留言點讚數的第一位（點讚數至少為8）可獲得我們贈送的在線基礎課的9折優惠券。

越留言，越幸運。

主編會在每周選擇一位最有深度的留言，評論者可獲得我們贈送的任意一門在線課程的9折優惠券（偷偷告訴你，這個任意是由你選擇哦）。

高顏值免費在線繪圖

往期精品

畫圖三字經生信視頻生信系列教程

心得體會 TCGA資料庫 Linux Python

高通量分析免費在線畫圖測序歷史超級增強子

生信學習視頻 PPT EXCEL 文章寫作 ggplot2

海哥組學可視化套路基因組瀏覽器

色彩搭配圖形排版互作網絡

自學生信 2019影響因子 GSEA 單細胞

後臺回復「生信寶典福利第一波」或點擊閱讀原文獲取教程合集

這個只需一步就可做富集分析的網站還未發表就被CNS等引用超過350次

相關焦點

webgestalt:基因富集分析的在線工具

2020諾獎得主CNS文章分析：共發表54篇，引用量近2萬次

metascape: 最強大的基因富集分析在線工具

史上引用最高的文章 | 該文章發表在影響因子僅為4的雜誌上,引用量...

不存在的論文竟被引用400次!福爾摩斯告訴你「為什麼?」

差異基因富集分析及作圖

基因通路富集分析方法大總結

生存分析,這個網站還不錯!

「掠奪性」期刊上發表的文章獲得很少或零引用

GSEA富集分析圖講解

不存在的論文竟被引用400次!科學家為何被「幽靈文獻」欺騙?| 推薦

GSEA富集分析知多少……

ATAC-Seq Motif 富集分析

蟬聯六年，36000次引用

CNS 一作大神:這個生信分析方法帶你不做實驗快速發論文!

功能富集分析、基因ID轉換、查找同源基因、SNP注釋一站式服務

「納米零價鐵分離與富集鈾」在《美國化學協會會刊》上發表

捏造的參考文獻竟被引用400次!科學家為何會被「幽靈文獻」欺騙?

這個函數支持差異基因富集分析,也...