我們在研究基因的時候,尤其是在研究高通量數據分析,經常會碰到我們研究的這個數據的基因ID不是我們通常意義上的基因名。拿TCGA的數據舉例,TCGA RNA-seq的數據比對的基因是ID是Ensembl資料庫的ID號,如果我們拿到這樣的ID號的話,有一些分析是進行不下去的,所以需要轉化為傳統意義上的Gene Symbol。
基因ID轉換的工具很多,各個資料庫不同的還是在於背景資料庫的問題。有時候我們拿到的基因的ID是新的ID號,但是使用的的資料庫裡面的數據是舊的結果就導致很多ID沒辦法轉換為基因名。我們就介紹幾個進行ID轉換的工具吧!
對於ID轉換的工具而言,其實操作都差不多,我們要做的其實就三步:
提交我們要轉換的ID號
選擇這個ID號屬於什麼資料庫
選擇我們想要轉換成什麼ID號
DAVID
因為很多生信的文章富集分析使用的是這個資料庫,所以就導致這個資料庫很出名。這個資料庫除了可以做富集也是可以做ID的轉換的。
我們需要做的就是在ID轉換的裡面,在填寫數據的左邊,按照下圖當中的操作填入具體的相對應的ID。
點擊submit之後,在右邊欄當中選擇想要轉換的ID號,然後點擊submit即可。
g:Convert
之前我們在介紹富集分析軟體的時候,提到過一個多ID的富集分析軟體g:GOST。具體的資料庫介紹,可以查看推送的第二條。在這個資料庫裡面有一個g:Convert的工具,這個工具可以讓我們進行ID的轉換。
在這個資料庫進行ID轉換的話,我們不需要選擇輸入的是什麼ID,只需要選擇輸出什麼ID就行。然後就得到想要結果。
另外,這個資料庫對於轉換的結果,默認的都會添加gene symbol的。所以在輸出選擇裡面是沒有gene symbol這個選項的。
另外這個由於這個資料庫做富集的時候支持多種不同形式的ID來進行富集。所以在基因轉換的時候也是支持的。例如我們輸入這些混合的ID,就可以得到所有和這些ID有關的基因名了。
biomart
之前在某一個帖子裡面提到過id轉換的話推薦使用biomart,這次就介紹一下biomart這個資料庫。這個資料庫是ensembl資料庫裡面進行id轉換的一個工具。
我們進入資料庫之後第一步是選擇我們要轉換的物種。
選擇完物種之後的話,我們就需要制定輸入和輸出了。
我們點擊Filters就可以就可以選擇我們輸入什麼類型的ID,這個資料庫支持這麼多類型的輸入。
其中第二個GENE裡面可以輸入多個資料庫ID。這裡我們可以選擇我們輸入的ID是什麼,在每個資料庫參考ID的後面,都有實例讓我們來看是不是這樣的ID號。
選擇好輸入好之後的話,我們點擊Attributes來指定我們想要導出的ID類型。例如我們選擇輸出:基因名、染色體位置、基因的起始位置和中止位置。
在選擇好之後,我們點擊Results就可以獲得轉換後的結果了。
寫到最後
以上是我們介紹的三個ID轉換的資料庫。網絡版本的轉換工具有一個不好的地方在於如果我們轉換的ID過多的話,有可能卡,或者說就查過它的最大限制了。這個時候往往使用一些代碼行的工具可能剛好用一些。代碼行的話,biomart也是有相對於的R包的。有興趣的可以學習一下。那麼這幾個資料庫到底哪個更好一些的呢?我們稍後利用一些數據來進行實驗檢測一下吧。