寫在前面
對於一個基因而言,我們經常使用的,同時在文章裡面能看到的還是基因名。例如: TP53, RNF180。這樣的名字,是這個基因功能+編號的簡寫。例如TP53就是Tumor Protein P53的簡寫,RNF180是Ring Finger Protein 180的簡寫。對於很多對基因進行記錄的資料庫而言,為了他們自己資料庫記錄的方便,對於每個基因都會進行自己資料庫的唯一編號,這樣就導致了一個基因形成了很多不同的編號(ID)。例如下圖就是一個基因多個資料庫的不同ID號。
這也就導致經常在進行數據分析之前拿到手的關於基因的數據對於基因ID的注釋可能不是我們想要的基因名,所以經常會就會需要進行ID轉換。對於基因ID轉換的主要目的還是轉換為基因名,或者說轉換成我們進行下一步分析的要求的ID號。
既然要講一下ID轉換,那首先還是要稍微的講一下我們在一個基因可能存在哪些ID號,這樣我們在碰到之後也知道這些是這樣形式的ID來自於什麼地方,這裡我們就說一下常見的基因ID都是哪個資料庫的。
Entrez Gene
有時候我們經常會碰到利用幾個數字來代表基因的。例如下圖的285671就代表RNF180。這種一般是數字代表基因的,最常見的就是Entrez Gene。對於這樣的ID號,其實就是來自於ncbi裡面的gene資料庫。如果想要了解gene資料庫的話,可以參考我們的第二條推送。
關於gene資料庫對於ID的注釋。這個ID號只是代表基因。對於一個基因而言它會有不同的mRNA轉錄本,進一步的也會有不同的蛋白異構體。在gene資料庫裡面對於轉錄本和蛋白的編號是以NM和NP開頭的。如果是NM的話則代表是轉錄本編號,如果是NP的話則是蛋白編號。
另外,我們檢索的這個基因是一個非編碼的RNA(ncRNA)的話,那關於轉錄本的注釋就從之前的NM開頭變成了NR開頭了。
Ensemble ID
Ensembl是另外一個記錄基因信息的資料庫。就筆者而言查詢基因信息更多使用的gene資料庫(其實更多的還是genecards),這個資料庫使用的較少。但是這個資料庫對於基因的注釋十分的詳細且權威,所以也就形成了很多個基因不同情況下的ID了。大致的我們能看到的和Ensembl有關的ID的話就有以下幾種。
關於Ensembl ID,不管是什麼類型的,其ID號的前三個開頭都是以ENS開頭的。剩下的可以再看第四位:
G代表是Gene。是這個基因的的唯一編碼,類似於Gene資料庫裡面的數字
T代表Transcript。是資料庫對於不同轉錄本的ID號。這個類似於上面gene資料庫當中的NM編號開頭的ID。
P代表protein。是資料庫對於不同蛋白的ID號。這個類似於上面gene資料庫的NP編號開頭的ID。
另外對於不同的ID,由於其基因信息也會經常所以為了更加詳細的區分,Ensembl資料庫就又在各自的ID號後面又加了一個.ID來代表不同的版本。所以就有了ENSGXXXX.1這樣的編號。
綜上,Ensembl資料庫的ID號可以用以下這個圖來代表。
Uniprot ID
如果我們查找的是一個基因的蛋白的話,那麼就有可能涉及到Uniprot這種專門注釋蛋白的資料庫。這種的ID有時候我們會在蛋白組學當中看到。對於Uniprot的ID號的話,主要是採用字母+數字混合的這種形式(具體的含義,沒有詳細的查找)。例如:Q86T96就代表RNF180這個基因的蛋白。
晶片當中的ID
我們在進行進行進行表達譜晶片分析的時候,經常會碰到晶片的ID號。這樣我們在進行晶片分析的時候,其實首先分析的還是晶片的ID號,進一步的才是對ID號進行注釋。例如Affymetrix Human Genome U133 Plus 2.0 Array這個晶片的話,其ID號就是這個樣子的。
很多ID轉換的資料庫也提供了關於晶片ID的轉換。但是這種的其實最好的還是下載了晶片的注釋文件,來自己來注釋,資料庫提供的注釋文件有可能是老的注釋文件。所以說可能有很多注釋不到的。