clusterProfiler事後丸: 轉換ID為SYMBOL

2021-02-12 YuLabSMU

有一些軟體做了檢驗之後,是不告訴你那些基因在某個富集的通路中,顯然做為生物學家,是對此有興趣的。clusterProfiler系列,全部函數都會輸出,但看基因ID,比如ENTREZID或ENSEMBLE,這些都對人類不友好,看了你也不知道是什麼,為了讓大家看結果的時候,還能有點感覺,我們需要把基因翻譯成symbol,有那麼一批函數比如DO、GO、Reactome的分析都是有readable參數的,但有一些是沒有這個參數的,我被問得最多的是KEGG的分析為什麼沒有!

首先GO為什麼有?因為enrichGO和gseGO都是使用OrgDb,而OrgDb本身帶有ID轉換的注釋,而KEGG是在線去檢索KEGG資料庫的,KEGG並沒有提供這些信息,當然對於少量大家比較熟悉的模式生物,要支持還是很容易的,然而有些物種支持,有些不支持,大家又會問了,憑什麼我做的物種被BS了。所以啊,大家都不支持,挺公平。其實KEGG資料庫裡那麼多的生物,很多物種是沒有基因名的,有很多生物的注釋還停留在基因座,你讓我幫你轉ID,臣妾做不到啊。

但起碼對能支持的物種支持一下唄,以我一貫的作風,能幫小白解決的小問題,我都會去解決。於是我們有setReadable函數。但凡你能找到一個OrgDb,你就能用來轉ID,就這樣。

library(org.Hs.eg.db)
library(clusterProfiler)

data(geneList, package="DOSE")
de <- names(geneList)[1:100]
x <- enrichKEGG(de)
## The geneID column is ENTREZID
head(x, 3)

##                ID         Description GeneRatio  BgRatio
## hsa04110 hsa04110          Cell cycle      8/47 124/7466
## hsa04218 hsa04218 Cellular senescence      7/47 160/7466
## hsa04114 hsa04114      Oocyte meiosis      6/47 125/7466
##                pvalue     p.adjust       qvalue
## hsa04110 8.437729e-07 9.450256e-05 0.0000888182
## hsa04218 5.568944e-05 3.118608e-03 0.0029310229
## hsa04114 1.195585e-04 4.463517e-03 0.0041950345
##                                        geneID Count
## hsa04110 8318/991/9133/890/983/4085/7272/1111     8
## hsa04218    2305/4605/9133/890/983/51806/1111     7
## hsa04114         991/9133/983/4085/51806/6790     6

y <- setReadable(x, OrgDb = org.Hs.eg.db, keyType="ENTREZID")
## The geneID column is translated to symbol
head(y, 3)

##                ID         Description GeneRatio  BgRatio
## hsa04110 hsa04110          Cell cycle      8/47 124/7466
## hsa04218 hsa04218 Cellular senescence      7/47 160/7466
## hsa04114 hsa04114      Oocyte meiosis      6/47 125/7466
##                pvalue     p.adjust       qvalue
## hsa04110 8.437729e-07 9.450256e-05 0.0000888182
## hsa04218 5.568944e-05 3.118608e-03 0.0029310229
## hsa04114 1.195585e-04 4.463517e-03 0.0041950345
##                                                 geneID
## hsa04110 CDC45/CDC20/CCNB2/CCNA2/CDK1/MAD2L1/TTK/CHEK1
## hsa04218     FOXM1/MYBL2/CCNB2/CCNA2/CDK1/CALML5/CHEK1
## hsa04114          CDC20/CCNB2/CDK1/MAD2L1/CALML5/AURKA
##          Count
## hsa04110     8
## hsa04218     7
## hsa04114     6

這不僅限於KEGG,你用自己注釋的時候,你也能用,即使你用了本來支持readable參數的函數,忘記加了,你也不用再跑一遍,因為你可以吃事後丸。同時這個函數也支持compareCluster的輸出。

其它的事後丸請猛擊:

常年招碩博士、博士後,約麼?

相關焦點

  • GO analysis using clusterProfiler
    clusterProfiler supports over-representation test and gene set enrichment analysis of Gene Ontology. It supports GO annotation from OrgDb object, GMT file and user's own data.
  • Gene ID 轉換工具
    拿TCGA的數據舉例,TCGA RNA-seq的數據比對的基因是ID是Ensembl資料庫的ID號,如果我們拿到這樣的ID號的話,有一些分析是進行不下去的,所以需要轉化為傳統意義上的Gene Symbol。基因ID轉換的工具很多,各個資料庫不同的還是在於背景資料庫的問題。有時候我們拿到的基因的ID是新的ID號,但是使用的的資料庫裡面的數據是舊的結果就導致很多ID沒辦法轉換為基因名。
  • redis cluster-cluster 命令手動管理redis集群
    使用cluster命令管理redis cluster集群1、列印集群的信息 CLUSTER INFO cluster_state:okcluster_slots_assigned:16384cluster_slots_ok:16384cluster_slots_pfail
  • 功能富集分析、基因ID轉換、查找同源基因、SNP注釋一站式服務
    功能富集分析功能富集分析包括:Gene ontology, biological pathways, regulatory motifs in DNA, protein databases, human phenotype ontology進入網址:https://biit.cs.ut.ee/gprofiler
  • 小麥基因id轉換
    小麥基因id轉換 小麥中國春基因組有眾多版本,也有了眾多的基因id。不同研究之間使用的id不同,就不容易做比較。
  • redis cluster 集群管理工具
    前言在redis源碼編譯的時候,在src目錄下會有一個redis-trib.rb的腳本,這個腳本是ruby寫的,用於管理redis cluster。/opt/redis/bin/redis-trib.rb check 127.0.0.1:80014、fix修復集群:fix命令的流程跟check的流程很像,顯示加載集群信息,然後在check_cluster方法內傳入fix為 true的變量,會在集群檢查出現異常的時候執行修複流程。
  • 基因ID轉換工具比較
    之前我們介紹了三個ID轉換的工具:DAVID、g:Convert 以及 biomart,但是這個工具內置的數據怎麼樣並不清楚,所以今天就來評價一下這幾個工具吧。由於我們使用最多的是TCGA的數據,所以我們就用TCGA的ID號來進行一下多個資料庫的評估。
  • redis cluster 之master 選舉過程
    redis-cluster架構中,被設計成共有16384(2的14次方)個hash slot。每個master分得一部分slot,其算法為:hash_slot = crc16(key) mod 16384 ,這就找到對應slot。群集至少需要3主3從,且每個實例使用不同的配置文件。
  • Star Cluster R136 Breaks Out
    Virginia Explanation: In the center of nearby star-forming region lies a huge cluster containing some of the largest, hottest, and most massive stars known.
  • NGC 2244: A Star Cluster in the Rosette Nebula
    NGC 2244: A Star Cluster in the Rosette Nebula Image Credit & Copyright: Don Go
  • 世界首創雲端遊戲主機G-cluster將於下月發售
    據國外媒體報導,日本影像製作/下載服務公司Broadmedia近日宣布,新時代的雲端遊戲機G-cluster將於6月20日在日本國內發售,並將於5月30日通過家電量販店及網路開始預售。
  • 不鏽鋼丸
    在表面處理行業中,不鏽鋼丸泛指304不鏽鋼丸、430不鏽鋼丸、410不鏽鋼丸210不鏽鋼丸等牌號的不鏽鋼丸。
  • ID特殊符號攻略 和平精英空白符號名字大全
    許多玩家都很想知道,接下來為大家帶來和平精英ID特殊符號攻略介紹,希望能夠幫助到大家。 和平精英ID特殊符號攻略 1、id特殊符號使用規則 和平精英這款遊戲是沒有辦法使用特殊符號的 2、id支持的特殊符號 丶zhu 丶dian 丿pie 丨shu 乀fu 灬 huo 乂 yi 一 丁 丂 七 丄 丅 丆 萬 丈 三 上 下 丌 不 與 丏 丐 醜 丒 專 且 丕 世 丗 丘 丙 業 叢 東 絲 丞 丟 丠 両 丟 丣
  • biomaRt包實現不同物種之間同源基因轉換
    在之前,我介紹過生物學中常聽見的各種ID名稱【參考文章:常用生物信息 ID的介紹】,然後介紹了這些ID名稱之間的轉換。【參考文章:生信中各種ID轉換】,這些轉換通常都是基於同一物種而言,但在基礎醫學研究中,很多實驗模型都是在動物上完成的,比如小鼠。
  • 不懂Redis Cluster原理,我被同事diss了!
    用二進位存放的優點是,判斷的效率高,例如對於編號為 1 的槽,節點只要判斷序列的第二位,時間複雜度為 O(1)。圖 5:接受節點把節點槽的對應信息保存在本地如圖 5 所示,當收到發送節點的節點槽信息以後,接受節點會將這些信息保存到本地的 clusterState 的結構中,其中 Slots 的數組就是存放每個槽對應哪些節點信息。
  • 百度PaddlePaddle開源視頻分類模型Attention Cluster 曾奪挑戰賽...
    X 的維度為 L,代表 L 個不同的特徵。  2. 局部特徵集成。基於 Attention 來獲取全局特徵。Attention 的輸出本質上相當於做了加權平均。如公式 (2) 所示,v 是一個 Attention 單元輸出的全局特徵,a 是權重向量,由兩層全連接層組成,如公式 (3) 所示。
  • 標準C+的類型轉換符:static_cast等
    、 const_cast 1 static_cast 用法:static_cast( exdivssion ) 該運算符把exdivssion轉換為type-id類型,但沒有運行時類型檢查來保證轉換的安全性。
  • 《火影忍者》大蛇丸有多種狀態,變成「蛇媽」後很漂亮?
    下面小編求分析一下大蛇丸能夠分辨出幾個狀態。一開始的大蛇丸,去尋找佐助的時候他就是想找到一個能夠震驚的轉生容器。大家都知道人的生命很脆弱,時間也很短暫,唯有轉身容器可以使人長生不老,保持年輕而大蛇丸就是想得到這個轉生容器,使自己可以永葆青春,延長壽命能夠更好的研發出忍術,其實想要獲得這個狀態,就必須找到一個新的肉體,才能夠取代。