Gene ID 轉換工具

2021-01-10 資料庫學習

我們在研究基因的時候,尤其是在研究高通量數據分析,經常會碰到我們研究的這個數據的基因ID不是我們通常意義上的基因名。拿TCGA的數據舉例,TCGA RNA-seq的數據比對的基因是ID是Ensembl資料庫的ID號,如果我們拿到這樣的ID號的話,有一些分析是進行不下去的,所以需要轉化為傳統意義上的Gene Symbol。

基因ID轉換的工具很多,各個資料庫不同的還是在於背景資料庫的問題。有時候我們拿到的基因的ID是新的ID號,但是使用的的資料庫裡面的數據是舊的結果就導致很多ID沒辦法轉換為基因名。我們就介紹幾個進行ID轉換的工具吧!

對於ID轉換的工具而言,其實操作都差不多,我們要做的其實就三步:

提交我們要轉換的ID號

選擇這個ID號屬於什麼資料庫

選擇我們想要轉換成什麼ID號

DAVID

因為很多生信的文章富集分析使用的是這個資料庫,所以就導致這個資料庫很出名。這個資料庫除了可以做富集也是可以做ID的轉換的。

我們需要做的就是在ID轉換的裡面,在填寫數據的左邊,按照下圖當中的操作填入具體的相對應的ID。

點擊submit之後,在右邊欄當中選擇想要轉換的ID號,然後點擊submit即可。

g:Convert

之前我們在介紹富集分析軟體的時候,提到過一個多ID的富集分析軟體g:GOST。具體的資料庫介紹,可以查看推送的第二條。在這個資料庫裡面有一個g:Convert的工具,這個工具可以讓我們進行ID的轉換。

在這個資料庫進行ID轉換的話,我們不需要選擇輸入的是什麼ID,只需要選擇輸出什麼ID就行。然後就得到想要結果。

另外,這個資料庫對於轉換的結果,默認的都會添加gene symbol的。所以在輸出選擇裡面是沒有gene symbol這個選項的。

另外這個由於這個資料庫做富集的時候支持多種不同形式的ID來進行富集。所以在基因轉換的時候也是支持的。例如我們輸入這些混合的ID,就可以得到所有和這些ID有關的基因名了。

biomart

之前在某一個帖子裡面提到過id轉換的話推薦使用biomart,這次就介紹一下biomart這個資料庫。這個資料庫是ensembl資料庫裡面進行id轉換的一個工具。

我們進入資料庫之後第一步是選擇我們要轉換的物種。

選擇完物種之後的話,我們就需要制定輸入和輸出了。

我們點擊Filters就可以就可以選擇我們輸入什麼類型的ID,這個資料庫支持這麼多類型的輸入。

其中第二個GENE裡面可以輸入多個資料庫ID。這裡我們可以選擇我們輸入的ID是什麼,在每個資料庫參考ID的後面,都有實例讓我們來看是不是這樣的ID號。

選擇好輸入好之後的話,我們點擊Attributes來指定我們想要導出的ID類型。例如我們選擇輸出:基因名、染色體位置、基因的起始位置和中止位置。

在選擇好之後,我們點擊Results就可以獲得轉換後的結果了。

寫到最後

以上是我們介紹的三個ID轉換的資料庫。網絡版本的轉換工具有一個不好的地方在於如果我們轉換的ID過多的話,有可能卡,或者說就查過它的最大限制了。這個時候往往使用一些代碼行的工具可能剛好用一些。代碼行的話,biomart也是有相對於的R包的。有興趣的可以學習一下。那麼這幾個資料庫到底哪個更好一些的呢?我們稍後利用一些數據來進行實驗檢測一下吧。

相關焦點

  • 基因ID轉換工具比較
    之前我們介紹了三個ID轉換的工具:DAVID、g:Convert 以及 biomart,但是這個工具內置的數據怎麼樣並不清楚,所以今天就來評價一下這幾個工具吧。由於我們使用最多的是TCGA的數據,所以我們就用TCGA的ID號來進行一下多個資料庫的評估。
  • 小麥基因id轉換
    小麥基因id轉換 小麥中國春基因組有眾多版本,也有了眾多的基因id。不同研究之間使用的id不同,就不容易做比較。
  • Addgene匯總分子生物學必用工具
    網站發表了一篇博客,匯總羅列了多個免費在線分子生物學相關工具網站,涵蓋引物設計、質粒圖譜、DNA序列分析等。Wayne Davis維護的工具,免費的,基於捐贈的質粒分析工具。DNA/蛋白質資料庫搜索和分析工具Addgene's analyze sequence tool: 比對、翻譯序列NEBCutter2:查找酶切位點Webcutter 2.0:查找酶切位點
  • WebGestalt 2019:一款改進型基因功能分析工具包
    ",      "idtype": "entrezgene"    },    {      "name": "Biological_Process_noRedundant",      "description": "The gene ontology biological process database was downloaded from http://www.geneontology.org
  • 功能富集分析、基因ID轉換、查找同源基因、SNP注釋一站式服務
    看文獻的時候,發現了g:Profiler這個寶藏工具,測試了一下,使用起來超級方便、好用,一定要分享給大家
  • 看門狗存檔轉換工具 Uplay存檔與RLD存檔轉換工具
    名稱:看門狗存檔轉換工具   運行環境:Windows VISTA、7、8(64位)       工具說明:
  • TCGA資料庫生存分析的網頁工具哪家強
    看自己感興趣的基因在自己研究的癌症的預後相關性是高頻需求,其實就是拿到基因在癌症病人的表達信息,然後就可以根據表達量高低對病人進行分組,最後這個分組是否統計學顯著的把病人的生存情況區分開來
  • clusterProfiler事後丸: 轉換ID為SYMBOL
    因為enrichGO和gseGO都是使用OrgDb,而OrgDb本身帶有ID轉換的注釋,而KEGG是在線去檢索KEGG資料庫的,KEGG並沒有提供這些信息,當然對於少量大家比較熟悉的模式生物,要支持還是很容易的,然而有些物種支持,有些不支持,大家又會問了,憑什麼我做的物種被BS了。所以啊,大家都不支持,挺公平。
  • 關於基因ID的二三事
    對於基因ID轉換的主要目的還是轉換為基因名,或者說轉換成我們進行下一步分析的要求的ID號。既然要講一下ID轉換,那首先還是要稍微的講一下我們在一個基因可能存在哪些ID號,這樣我們在碰到之後也知道這些是這樣形式的ID來自於什麼地方,這裡我們就說一下常見的基因ID都是哪個資料庫的。
  • 原始碼 從GeneCards資料庫批量抓取基因組織特異性信息
    GeneCards主頁http://www.genecards.org/上圖為GeneCards主頁,我們以TP53為例,在檢索詞中輸入TP53,點擊search,進入下面界面。1、RCT的Meta分析:文獻檢索-質量評價-統計分析-RevMan/Stata/Rhttps://ke.qq.com/course/89244#term_id=1000887032、RCT的Meta分析(文獻檢索-質量評價-統計分析-Stata)
  • SnapGene(破解)— 質粒圖譜查詢
    2019-04-02 18:01:24 來源: 南博屹生物 舉報   Snapgene
  • Genecards 資料庫你不為人知的一面
    對於每天暢遊在基因海洋中的碩博來說,genecards資料庫一定再熟悉不過了,但再熟悉的人,也有其不為人知的一面。
  • stringTie:轉錄本組裝和定量工具
    對於單個樣本進行組裝,用法如下stringtie align.sorted.bam-o assembly.gtf-p 20-G hg19.gtf在組裝的轉錄本中,也會給出定量的結果,對於組裝的新轉錄本和基因,默認採用STRG加數字編號進行區分,示例如下gene_id
  • DVBBS php轉換工具使用教程
    目前轉換程序只有四種,即:1、動網的ASP7.1 AC 轉到 動網PHP1.02、動網的ASP7.1 MSSQL 轉到 動網PHP1.03、DISCUZ4.1 轉到 動網PHP1.04、DISCUZ5.0 轉到 動網PHP1.0一、說明:1、訪問你的轉換路徑,各文件對應的轉換說明如下2、asp71ac-to-php10
  • 「快訊」Illumina和Emedgene宣布合作,全球罕見遺傳病患者將受益
    本文為轉化醫學網原創,轉載請註明出處 作者:Yun12月16日周三,Illumina和Emedgene根據協議,Illumina將把Emedgene的臨床罕見疾病應用程式集成到Illumina的TruSight軟體套件中。協議中沒有披露合作金額和其他條款。總部位於加利福尼亞州帕洛阿爾託的Emedgene為Illumina的臨床和研究中的自動基因組分析提供了軟體工具。Emedgene在2019年初通過A輪融資籌集了600萬美元。
  • 工具:C 程序轉換ShellCode利器
    本文轉載自【微信公眾號:MicroPest,ID:gh_696c36c5382b】,經微信公眾號授權轉載,如需轉載與原文作者聯繫最近的工作中,發現了一款被大量運用在滲透領域、用來生成ShellCode中常用到的轉換工具,以替代Powershell逃避監測且使用頻率很高,尤其是境外非常流行;這就是我今天要介紹的主角:DoNut,並在最後給出了檢測要點。
  • 網頁工具可以搞定的結論你非要花十幾萬科研經費復現一遍
    第一眼看到研究者的這個結論呢,我就想起來了很明顯的生存分析網頁工具,就可以看TCGA的AML病人隊列的該基因的生存預後意義。OncoLnc是最簡單的TCGA生存分析網頁工具如果我們按照默認參數來進行網頁工具查詢,可以看到, CD105表達量高低對病人分組呢,沒有統計學顯著的結果:http://www.oncolnc.org/kaplan/?
  • 標準C+的類型轉換符:static_cast等
    、 const_cast 1 static_cast 用法:static_cast( exdivssion ) 該運算符把exdivssion轉換為type-id類型,但沒有運行時類型檢查來保證轉換的安全性。