這個只需一步就可做富集分析的網站還未發表就被CNS等引用超過350次

2021-02-25 生信寶典

Metascape 專門為生物學者設計的基因富集分析網站

一、Metascape簡介

Metascape(http://metascape.org/) 是一個功能強大的基因功能注釋分析工具,能幫助用戶將當前流行的生物信息學分析方法應用到批量基因和蛋白質的分析中,以實現對基因或蛋白功能的認知。只需在Metascape網頁幾步簡單的操作,就可以對大批量的基因或蛋白質進行注釋、富集分析以及構建蛋白質-蛋白質互作網絡。並且構建的蛋白互作網絡還可以直接導出給Cytoscape使用,繪製美觀、可發表的蛋白互作網絡圖。

更新快:每月更新一次,保證了數據的可靠性;

覆蓋廣:整合了GO、KEGG、Uniprot等多個權威的功能資料庫;同時Metasacape不僅可以分析人類(H. sapien)的數據,還包括很多其他物種數據,如 M. musculus, R. norvegicus, D. rerio, D. melanogaster, C. elegans, S. cerevisiae, A. thaliana, and P. falciparum等;

易操作:「CAME」流程操作,簡單易上手,不僅可以單獨分析一個基因集,還可以同時分析多個基因集;得到的結果報告顏值極高,往往能達到發表文章的級別!

不收錢!!!

2019年3月4日,Matascape團隊總結了Metascape的使用就發表了一篇Nature communications,可見這個軟體的被認可程度。其中提到Metascape網站在文章發表之前就已經被350多篇論文引用,其中不乏《自然》,《科學》,《細胞》等雜誌。有趣的是約三分之二的引用文章直接使用了Metascape生成的圖表

a)摘自Lotan et al. Molecular Psychiatry (2018) 78:865中的Figure 5; 

b)摘自Dong et al. Genome Biol (2018) 19:31中的Figure 3。

二、Metascape的工作流程

Metascape採用的是一種稱為「CAME」的通用分析工作流程,概述如下:

ID轉換 (Conversion)——將用戶輸入的基因標識符自動轉換為目標物種的Entrez gene IDs;

注釋 (Annotation)——為基因列表添加注釋列,包括基因的描述、功能和蛋白質分類等;

歸類 (Membership)——獲取感興趣的基因集。例如,獲取被歸為以「cancer」作為關鍵字的GO生物過程分類的基因。

富集 (Enrichment)——對基因列表的功能富集分析,識別具有統計意義的通路。最新的版本還包括蛋白質網絡分析,可以用來識別和獲取具有緊密連接的蛋白質網絡元件 (如Oct4、Sox2和Nanog網絡)。

新版本的Metascape可以分析多種模式生物的基因,用戶只需輸入基因或蛋白質名稱 (很多基因名均可識別),就可以藉助Metascape網站快速獲得基因注釋、基因功能、基因分類、富集的通路以及蛋白質相互作用網絡(可導入Cytoscape再處理)。這對於大多數的日常分析需求來說已經足夠了。

三、Metascape的使用數據上傳

在Metascape主頁,用戶可以在1處粘貼一個由逗號、冒號、空格、制表符或行分隔符組成的基因列表(基因名可以是:Entrez Gene ID、Ensembl ID、RefSeq、Symbol、UniProt ID、UCSC ID等等),或者在2可以選擇本地的一個電子表格文件(xlsx、xls、csv或txt),其中的一列必須包含基因名稱列。其它的數據列是可選的,在分析期間會被忽略。

圖2 Metascape Home

如果在上傳文件中提供了多個列,而基因只是其中的一列,注意使用下拉菜單確保正確選擇含有基因名稱的列。

txt格式基本上與csv格式相同,只不過前者使用tab作為欄位分隔符;txt格式不支持任何非標準的規則。

Metacape會將分析後的基因注釋等結果加在輸入基因的列表後面。

使用Excel表時需要注意,Excel文件雖非常常用,但其有時不能很好地引用基因symbols,因為某些基因symbols可能被錯誤地轉換成日期和數字。例如「Mar1」、「Marc1」和「March1」都可能被Excel轉換為3月1日,而基因符號「201E9」則可能被視為一個大整數。其他的例子如「1/6」、「12-14-90」、「2-Oct」、「9830125E18」等等,因此這些基因symbols不能被映射到Entrez gene IDs中,因而在分析過程中會被漏掉。為防止基因symbols被轉換成日期或數字,可以用單引號來對符號進行前綴,例如,輸入』Mar1。因此最好不要依賴於在xls或xlsx格式中使用基因symbols,而應使用諸如RefSeq之類的其他ID格式。Excel改變了你的基因名,30% 相關Nature文章受影響,NCBI也受波及 但是,如果使用.csv或.txt格式,就可隨意使用基因symbols。

Metascape主頁包含所支持格式的文件模板(在「Upload File Format」下,見圖3);可以下載下來並依照這些例子載入數據。想要測試Metascape的運行,可以點擊single list,將上傳一個人類基因列表。點擊Test Identifiers下的任何連結,就會自動粘貼指定格式的列表基因ID。

注意:基因列的名稱開頭不能有下劃線,下劃線是為Metascape保留的。用戶提供的列的名稱的任何下劃線都將被自動刪掉。

圖3 數據格式舉例

富集分析

粘貼或上傳好基因數據後,在圖Step2中先選擇Input as species,如果有對應物種的基因就選擇對應物種,如果沒有可以選擇括號中數字最大的物種 (說明可以進行轉換的基因比較多),選擇Analysis as species也遵循上述原則。

選擇好物種後點擊Express Analysis即可進行快速分析。此時下方會顯示一個進度條,之後會顯示一個Analysis Report按鈕,點擊後會打開一個報告頁面。

快速分析(Express Analysis)包括最流行的注釋源和基因本體 (Gene ontology)分類 (結果如下圖)。對於經驗豐富的用戶,或希望對分析選項有更大控制權的用戶,可使用自定義分析Custom Analysis。設置其中的一些選項能夠更好地控制CAME分析流程。

a) Metascape去除功能冗餘的富集通路,用簡單明了的bargraph顯示出最主要的實驗結果;

b)富集生物通路可以以網絡方式表現,這更利於理解通路或生物過程之間的關係;

c)Metascape自動抽取提交列表中蘊含的蛋白質互作用網絡

d)為了更容易理解這一網絡,Metascape採用成熟的MCODE算法尋找網絡中的密集聯結的蛋白質群,並對每個群的生物功能進行注釋。

分析結果

圖5

圖6 Pathway and Process Enrichment Analysis

蛋白蛋白互作

下圖展示了在用戶輸入的基因中發現的蛋白——蛋白互作網絡。其數據來源於BioGrid、InWeb_IM和OmniPath等資料庫。點擊CYS 圖標可以下載這個網絡並可以用Cytoscape軟體打開,可以進一步調整圖形布局或加入基因表達等信息。

圖7 Protein-protein Interaction Enrichment Analysis

多基因列表聯合分析

當代的多組學實驗往往生成多個基因列表,目前的網絡工具很少能同時分析並整合多基因列表,而這恰恰是Metascape的長處之一。其實Metascape的」meta」就是來源於多列表的meta-analysis。下圖以三組過去獨立發表的流感宿主因子列表為例進行說明。

a) Metascape用heatmap讓三組數據集共享的和獨特的生物通路一目了然。

b)富集通路也可以以網絡呈現。由於每一組宿主因子用一個獨特的顏色表示,我們可以很清楚的發現Viral gene expression是共享的而Regulation of cell development主要只存在於綠色對應的實驗中。

四、定製分析五、作者自評

很多學者還在採用DAVID做富集通路分析。

富集通路分析結果完全依賴於背後資料庫的質量。DAVID曾經有六年的時間(2010-2016)沒有維護資料庫,最近的更新也已經兩年半了。獨立研究表明使用兩年舊的Gene ontology資料庫,用戶平均要丟失20%的最新的生物知識。所以定期更新資料庫的重要性非同小可。

可惜現實是目前大家常使用富集分析工具中僅有40%被正常維護,不知讀者目前使用的工具是否屬於幸運的一類。Metascape每月更新背後的40多個資料庫,以確保提供最準確的結果。

Metascape沒有學習使用的壁壘,因為沒有比一鍵Express Analysis更簡單了。雖然好用,Metascape實現的主要功能卻是不折不扣。

作者由於多年來在自己的科研項目中都要花大量的時間進行這些生物信息分析,所以決定把長期發表文章中體會到的best practices實現在Metascape中。

由於常用的基因列表的分析工具僅限於提供單一通路富集分析,這就不幸地給研究人員造成了列表分析就是等同於知識驅動的富集分析的誤解。而數據驅動的蛋白質互作用網絡分析就鮮有網站支持。

其實除了以上描述的Metascape提供的林林總總的分析功能之外,其還有非常強大的對上千個基因進行注釋或者利用知識庫進行成員分析的功能,這些對於後續的基因篩選及其重要,詳情請見文章或網站文檔。要實現Metascape的這些分析功能對於生物信息人員都是有難度的。

推薦閱讀

學習津貼

單篇留言點讚數的第一位(點讚數至少為8)可獲得我們贈送的在線基礎課的9折優惠券

越留言,越幸運。

主編會在每周選擇一位最有深度的留言,評論者可獲得我們贈送的任意一門在線課程的9折優惠券(偷偷告訴你,這個任意是由你選擇哦)。

高顏值免費在線繪圖

往期精品

畫圖三字經 生信視頻 生信系列教程 

心得體會 TCGA資料庫 Linux Python 

高通量分析 免費在線畫圖 測序歷史 超級增強子

生信學習視頻 PPT EXCEL 文章寫作 ggplot2

海哥組學 可視化套路 基因組瀏覽器

色彩搭配 圖形排版 互作網絡

自學生信 2019影響因子 GSEA 單細胞 

後臺回復「生信寶典福利第一波」或點擊閱讀原文獲取教程合集

相關焦點

  • webgestalt:基因富集分析的在線工具
    在組學數據分析中,基因富集分析是最常用的方法之一,所有的基因數據分析最終都要落實到功能上去,富集分析作為一種最基礎的功能研究方法,通過go, kegg pathway等不同的基因功能注釋資料庫,再結合對應的富集分析算法,可以探究輸入的基因富集在哪些功能上。
  • 2020諾獎得主CNS文章分析:共發表54篇,引用量近2萬次
    這3位作者共計發表了1994篇文章,被引用量達到了90368次,這些文章為這三位獲獎者在C肝領域奠定了基礎及威望。1128次),NEJM(4篇) 及Lancet(2篇) 共發表了54篇文章,這54篇文章被引用量達到了17695。
  • metascape: 最強大的基因富集分析在線工具
    metascape是一個web工具,提供了基因富集分析,蛋白質互作網絡分析等多種功能,對應的文章發表在nature communications上, 連結如下https://www.nature.com/articles/s41467-019-09234-6網址如下
  • 史上引用最高的文章 | 該文章發表在影響因子僅為4的雜誌上,引用量...
    iNature 十多年前由三位澳大利亞人撰寫的關於全球氣候帶的學術論文被引用超過280萬次,被評為維基百科中引用次數最多的文章。該論文於2007年發表在Hydrology and Earth System Sciences(IF=4.3)上,利用當代數據更新了一個廣泛使用的分類世界氣候的模型。這個模型被稱為柯本氣候分類系統,於1884年由氣候學家弗拉基米爾柯本首次發表,但幾十年來尚未全面更新。
  • 不存在的論文竟被引用400次!福爾摩斯告訴你「為什麼?」
    Web of Sicence中顯示,這篇不存在的論文被引用了將近400次倫敦米德爾塞克斯大學(Middlesex University)教授安妮•威爾•哈金(Anne-WilHarzing)是第一個撰文描述克羅寧伯格的發現的人。據她的深度調查,這篇論文確實是被編造的。那麼這篇不存在的文章究竟是如何被引用上百次的?
  • 差異基因富集分析及作圖
    前面介紹了怎麼分析差異基因,那麼肯定需要對差異基因進行功能富集分析,今天simplify老師來給大家介紹一下怎麼做差異基因富集分析。
  • 基因通路富集分析方法大總結
    常見的就是GO功能注釋和KEGG通路富集分析。通過基因通路富集分析,我們可以初步分析基因可能參與的生物學過程或者信號通路。下面將手把手為大家介紹6種常用的基因富集通路分析方法,總有一款適合你!第二步:選擇資料庫內對應基因名稱;
  • 生存分析,這個網站還不錯!
    分析相關性 3. 預後分析。對大家來說,臨床部分常常遇到的問題就是樣本量不夠,比如自己只能收到20對樣本,這時我們還有兩個選擇:1. 從商業化的公司購買樣本,比如組織晶片;2. 從公共資料庫(比如TCGA)中挖掘數據。其實,我們看到的高分文章常常就是把這三部分整合起來用,比如:CCR這篇文章:
  • 「掠奪性」期刊上發表的文章獲得很少或零引用
    Jeffrey Brainard於 2020年1月發表的一項新研究顯示, 在「掠奪性」期刊樣本中發表的每10篇文章中有6篇在5年內沒有獲得一次引用,與許多開放獲取期刊一樣,掠奪性期刊會要求作者發表論文, 但掠奪性期刊的被引率大大低於傳統的,經同行評審的期刊。
  • GSEA富集分析圖講解
    GSEA分析也是功能分析的一種,GSEA的結果圖想必大家也不陌生,接下來就讓小編帶大家畫一下炫酷的基因集富集分析圖吧~GSEA富集分析可以用GO的基因集也可以用KEGG的基因集,今天來看一下GSEA-KEGG分析首先加載相關的R包###########加載library(topGO)library(enrichplot)library
  • 不存在的論文竟被引用400次!科學家為何被「幽靈文獻」欺騙?| 推薦
    更離譜的是,這篇不存在的論文 ——「學術寫作的藝術 (The art of writing a scientific article)」—— 在 Web of Science 發布的數據裡顯示被引用了近 400 次。
  • GSEA富集分析知多少……
    傳統的分析中發現一個差異表達基因集合富集到了某一個通路中,所以推測這些基因和這個通路相關,從而控制表型。但是這些基因在這個通路是如何調控的呢,上調還是下調?這些差異表達基因整體的調控模式是什麼樣的?為了解決上面兩個局限,GSEA方法就可以很好的解決這個問題了。為了更好的理解GSEA,我們可以看稍微了解一下GSEA的原理。
  • ATAC-Seq Motif 富集分析
    人類大約有 1600 個轉錄因子,其中超過 2/3 已鑑定了 Motif.    Motif 一般有 2 種模式,一是迴文序列,比如 CACGTG 其反向互補序列也是 CACGTG. 二是 2 段保守序列被一段非保守序列分隔,這往往是因為結合的轉錄因子是二聚體,分別識別 2 段保守序列。
  • 蟬聯六年,36000次引用
    他的研究橫跨運籌學、管理學、電子信息科學、計算機科學、AI圖像處理等眾多領域,二十年間,愛思唯爾數據顯示——總文獻626,SCI/SSCI收錄350餘篇,總引用數36598。還可以利用課餘時間搞輔導賺外快。這樣快捷的「知識變現」,對於當時大部分的青年來說具有極大的吸引力。徐澤水卻選擇跨過本科,直接考研究生。在四川大學官方報導中,他這樣說:無論是什麼誘惑,都不能改變我考研究生,從事學術研究這個目標。
  • CNS 一作大神:這個生信分析方法帶你不做實驗快速發論文!
    近期看到一篇發在《Experimental Eye Research》影響因子 3.152 的文章 ,從投稿到接收並發表共 2 個多月。 這是一篇完全基於生物信息學分析的文章,文章的思路:分析 TCGA 資料庫中的數據——利用 R 語言的 WGCNA 包——結合在線工具——發表文章。
  • 功能富集分析、基因ID轉換、查找同源基因、SNP注釋一站式服務
    看文獻的時候,發現了g:Profiler這個寶藏工具,測試了一下,使用起來超級方便、好用,一定要分享給大家
  • 「納米零價鐵分離與富集鈾」在《美國化學協會會刊》上發表
    「納米零價鐵分離與富集鈾」在《美國化學協會會刊》上發表 來源:環境科學與工程學院   時間:2015-03-02  瀏覽:
  • 捏造的參考文獻竟被引用400次!科學家為何會被「幽靈文獻」欺騙?
    撤稿觀察網站(retractionwatch.com) 採訪了幾位引用了「幽靈文獻」的研究人員,他們都把這歸因於某種失誤。有人說他混淆了兩個相似的參考文獻,「Van der Geer 和 Hanraads」的文獻取代了正確的一個; 另一位作者說,他已經聯繫了出版商來修正這個錯誤。
  • 這個函數支持差異基因富集分析,也...
    做富集分析,有幾個通路其實本質上是同一條,想精簡富集的結果,怎麼辦?如果你用clusterProfiler做富集分析,一行代碼就能搞定精簡的問題。今天小丫用clusterProfiler做GSEA,也想精簡。於是?