關於基因ID的二三事

2020-10-22 醫學資料庫百科

寫在前面

對於一個基因而言,我們經常使用的,同時在文章裡面能看到的還是基因名。例如: TP53, RNF180。這樣的名字,是這個基因功能+編號的簡寫。例如TP53就是Tumor Protein P53的簡寫,RNF180是Ring Finger Protein 180的簡寫。對於很多對基因進行記錄的資料庫而言,為了他們自己資料庫記錄的方便,對於每個基因都會進行自己資料庫的唯一編號,這樣就導致了一個基因形成了很多不同的編號(ID)。例如下圖就是一個基因多個資料庫的不同ID號。


這也就導致經常在進行數據分析之前拿到手的關於基因的數據對於基因ID的注釋可能不是我們想要的基因名,所以經常會就會需要進行ID轉換。對於基因ID轉換的主要目的還是轉換為基因名,或者說轉換成我們進行下一步分析的要求的ID號。

既然要講一下ID轉換,那首先還是要稍微的講一下我們在一個基因可能存在哪些ID號,這樣我們在碰到之後也知道這些是這樣形式的ID來自於什麼地方,這裡我們就說一下常見的基因ID都是哪個資料庫的。


Entrez Gene


有時候我們經常會碰到利用幾個數字來代表基因的。例如下圖的285671就代表RNF180。這種一般是數字代表基因的,最常見的就是Entrez Gene。對於這樣的ID號,其實就是來自於ncbi裡面的gene資料庫。如果想要了解gene資料庫的話,可以參考我們的第二條推送。



關於gene資料庫對於ID的注釋。這個ID號只是代表基因。對於一個基因而言它會有不同的mRNA轉錄本,進一步的也會有不同的蛋白異構體。在gene資料庫裡面對於轉錄本和蛋白的編號是以NM和NP開頭的。如果是NM的話則代表是轉錄本編號,如果是NP的話則是蛋白編號。



另外,我們檢索的這個基因是一個非編碼的RNA(ncRNA)的話,那關於轉錄本的注釋就從之前的NM開頭變成了NR開頭了。



Ensemble ID



Ensembl是另外一個記錄基因信息的資料庫。就筆者而言查詢基因信息更多使用的gene資料庫(其實更多的還是genecards),這個資料庫使用的較少。但是這個資料庫對於基因的注釋十分的詳細且權威,所以也就形成了很多個基因不同情況下的ID了。大致的我們能看到的和Ensembl有關的ID的話就有以下幾種。



關於Ensembl ID,不管是什麼類型的,其ID號的前三個開頭都是以ENS開頭的。剩下的可以再看第四位:

  • G代表是Gene。是這個基因的的唯一編碼,類似於Gene資料庫裡面的數字

  • T代表Transcript。是資料庫對於不同轉錄本的ID號。這個類似於上面gene資料庫當中的NM編號開頭的ID。

  • P代表protein。是資料庫對於不同蛋白的ID號。這個類似於上面gene資料庫的NP編號開頭的ID。


另外對於不同的ID,由於其基因信息也會經常所以為了更加詳細的區分,Ensembl資料庫就又在各自的ID號後面又加了一個.ID來代表不同的版本。所以就有了ENSGXXXX.1這樣的編號。

綜上,Ensembl資料庫的ID號可以用以下這個圖來代表。


Uniprot ID



如果我們查找的是一個基因的蛋白的話,那麼就有可能涉及到Uniprot這種專門注釋蛋白的資料庫。這種的ID有時候我們會在蛋白組學當中看到。對於Uniprot的ID號的話,主要是採用字母+數字混合的這種形式(具體的含義,沒有詳細的查找)。例如:Q86T96就代表RNF180這個基因的蛋白。


晶片當中的ID


我們在進行進行進行表達譜晶片分析的時候,經常會碰到晶片的ID號。這樣我們在進行晶片分析的時候,其實首先分析的還是晶片的ID號,進一步的才是對ID號進行注釋。例如Affymetrix Human Genome U133 Plus 2.0 Array這個晶片的話,其ID號就是這個樣子的。


很多ID轉換的資料庫也提供了關於晶片ID的轉換。但是這種的其實最好的還是下載了晶片的注釋文件,來自己來注釋,資料庫提供的注釋文件有可能是老的注釋文件。所以說可能有很多注釋不到的。


相關焦點

  • 小麥基因id轉換
    小麥基因id轉換 小麥中國春基因組有眾多版本,也有了眾多的基因id。不同研究之間使用的id不同,就不容易做比較。
  • 基因ID轉換工具比較
    之前我們介紹了三個ID轉換的工具:DAVID、g:Convert 以及 biomart,但是這個工具內置的數據怎麼樣並不清楚,所以今天就來評價一下這幾個工具吧。由於我們使用最多的是TCGA的數據,所以我們就用TCGA的ID號來進行一下多個資料庫的評估。
  • 嫦娥頭像+關於月亮的id
    嫦娥頭像+關於月亮的id 月亮奔我而來
  • Gene ID 轉換工具
    我們在研究基因的時候,尤其是在研究高通量數據分析,經常會碰到我們研究的這個數據的基因ID不是我們通常意義上的基因名。拿TCGA的數據舉例,TCGA RNA-seq的數據比對的基因是ID是Ensembl資料庫的ID號,如果我們拿到這樣的ID號的話,有一些分析是進行不下去的,所以需要轉化為傳統意義上的Gene Symbol。基因ID轉換的工具很多,各個資料庫不同的還是在於背景資料庫的問題。有時候我們拿到的基因的ID是新的ID號,但是使用的的資料庫裡面的數據是舊的結果就導致很多ID沒辦法轉換為基因名。
  • 關於測序的那些事
    我們常說的基因一般是指DNA,因此基因測序也被稱為DNA測序,通俗講,就是獲得我們的目標DNA片段中的鹼基(ATGC)排列順序。今天我們就聊聊關於測序的那些事。
  • 2020寧夏事業單位公基備考:關於量子領域的二三事
    【導讀】寧夏華圖事業單位考試網同步未知發布:2020寧夏事業單位公基備考:關於量子領域的二三事,詳細信息請閱讀下文!   二、量子力學   量子力學為物理學理論,是研究物質世界微觀粒子運動規律的物理學分支,主要研究原子、分子、凝聚態物質,以及原子核和基本粒子的結構、性質的基礎理論。它與相對論一起構成現代物理學的理論基礎,是現代物理學的兩大基本支柱。
  • 【法官說法】關於毒品的那些事(二)
    【法官說法】關於毒品的那些事(二) 2020-07-02 03:26 來源:澎湃新聞·澎湃號·政務
  • 蘋果id密碼忘了怎麼辦?這裡有3種解決方法可供選擇!
    今天就來詳細介紹一下apple id密碼忘了的3個解決方法。方法一:重置id密碼如果你的iPhone可正常使用,只是忘記了已登錄apple id的密碼,這是最好解決的關於id密碼忘記的情況。方法二:使用牛學長工具移除apple id很多蘋果用戶,無法直接在此界面修改id密碼,或因一些信息驗證錯誤造成無法重設id密碼而選擇恢復出廠設置,但也是需要輸入apple id密碼的。如果iPhone沒有登錄iCloud的id,刷機後是不需要輸入原來的id密碼。
  • 關於基因檢測的幾個常識
    關於基因檢測或者說基因測序,還是不要說基因檢測,最好和市面上那些消費級基因檢測拉開些距離,這行的名聲都快被消費級的檢測毀了,我一下說的都是醫療級的測序,包括嬰幼兒的遺傳病篩查、腫瘤的測序和以天賦檢測等消費級基因檢測不是一個東西。消費級的檢測簡直就是笑話。行業內也有大佬說過「毀掉一個孩子最好的辦法就是給他做一個天賦檢測」。
  • ID特殊符號攻略 和平精英空白符號名字大全
    和平精英ID特殊符號攻略 1、id特殊符號使用規則 和平精英這款遊戲是沒有辦法使用特殊符號的 2、id支持的特殊符號 丶zhu 丶dian 丿pie 丨shu 乀fu 灬 huo 乂 yi 一 丁 丂 七 丄 丅 丆 萬 丈 三 上 下 丌 不 與 丏 丐 醜 丒 專 且 丕 世 丗 丘 丙 業 叢 東 絲 丞 丟 丠 両 丟 丣
  • 蘋果id怎麼註冊?老果粉教你創建新的Apple ID
    蘋果id怎麼註冊方法一:通過蘋果手機註冊1.設置新手機時註冊我們拿到一部新的蘋果手機進行設置時蘋果id怎麼註冊2.在應用商店裡面註冊有些用戶在設置新手機的時候沒有設置Apple ID,使用手機的時候發現App
  • 王者榮耀ID的故事:ID還能起成這樣?各種圖案能當名稱?
    在遊戲世界我們進入遊戲的第一步就是給自己一個身份,最重要的就是遊戲id的設定了。隨著玩家數量的增加,遊戲id也是五花八門的,今天我們來看看遊戲中見到的那些奇葩的id吧。可能你不會相信,玩家居然用一把刀的形狀,作為自己的id,驚奇過後不得不佩服玩家的創意。別人都是漢字或者字符組成的,而他直接是一個輪廓。那麼這樣的符號是怎麼打上去的呢?
  • 耗子尾汁的二三事
    丨進階款不過,耗子尾汁還能以其他的複雜形式呈現在研究人員面前,例如實驗室經常會使用到的基因分型(Genotyping)過程。通常來說,每個實驗室都會養上一些基因敲除小鼠,有一些小鼠帶有的基因型是研究人員特喜歡的。
  • 32 標籤選擇器和id選擇器
    認識id屬性標籤是可以有id屬性的。標籤的id屬性是這個標籤的唯一標識。比如:既然id是標籤的唯一標識,那麼就說明,上圖中的id值為"para1"的標籤,在這個頁面上只能有一個。也就是說,頁面上的標籤的任何一個id屬性的值,都不能相同。我們把id的值可以叫做id的名稱。
  • 王者榮耀:天美下手,重複空白名、沙雕網名被重置,超長id卻火了
    玩家們進入遊戲的第一件事往往就是玩絞盡腦汁地想一個最滿意的ID,有些人的ID甚至會伴隨著自己度過好久好久,因為某些id也是充滿情感、充滿韻味的。不過有人把起id的過程搞的很「隆重」,但也有很多玩家喜歡把id起的奇葩一點。王者榮耀裡面這樣的玩家並不在少數,像是搞笑的、特殊的、符號組合、空白名、名人名等等,為的就是自己欣賞的同時還能一眼給別人留下一個好的印象。不過,最近有玩家表示自己的名字突然就變成了一種長度很長的id,而且都是以「違規暱稱+字母/數字」的形式存在。
  • 關於常見貓咪三聯疫苗—妙三多的二三事
    關於常見貓咪三聯疫苗—妙三多的二三事時間:2019-04-22 11:39   來源:今日頭條   責任編輯:青青 川北在線核心提示:原標題:關於常見貓咪三聯疫苗妙三多的二三事 小貓出生時,會從母乳中獲得保護自己的母源抗體,這些抗體使其免受病毒的侵害。不過,在幼貓開始斷奶後,這些抗體會漸漸消失。
  • [公告]達安基因:關於投資設立分子診斷技術合資企業的公告
    [公告]達安基因:關於投資設立分子診斷技術合資企業的公告 時間:2012年01月13日 19:39:45&nbsp中財網 證券代碼:002030 證券簡稱:達安基因 公告編號:2012-005 中山大學達安基因股份有限公司 關於投資設立分子診斷技術合資企業的公告 本公司及董事會全體成員保證公告內容的真實、準確和完整
  • 如何快速了解一個人體基因的所有信息 (一)
    在進行基因相關研究的時候,我們經常需要查詢了解基因的相關功能,才能知道我們要往哪裡進行下一步研究。對於基因功能的查詢,我們介紹過ncbi的gene資料庫,同樣的之前的gene id轉換的時候我們也提到過,關於基因信息的匯總除了gene資料庫還有ensembl、uniprot等等很多資料庫,各個資料庫都提供了不同的基因信息。我們在查詢的時候,總不能說把各個資料庫都查詢一遍吧?
  • 基於「三+二」宏基因組測序的抗性基因和可移動元件的精確研究
    今天美格基因的佳作推薦基於「三+二」宏基因組測序策略提出了一套高效組裝宏基因組數據的分析流程,為抗性基因和可移動元件的精確研究提供了可靠方法。二、實驗設計1、樣本採集、DNA提取和測序:採集197份腸道定殖了碳青黴烯抗性腸桿菌的臨床樣本,優化核酸提取方案後提取DNA。優化測序試劑和設備等後進行長序列、短序列的宏基因組測序。
  • 面容id不可用稍後嘗試
    如果在使用iPhone X以及更新的機型,出現面容id不可用稍後嘗試的彈窗,在沒有摔落手機或是手機進水的情況下,系統軟體的錯誤可能性比較高。面容id不可用的情況,還有可能是使用了過厚的、透光率不好的鋼化膜,這樣會影響光線感應器、距離感應器甚至是面容感應器。嘗試揭下貼膜,並且擦拭面容傳感器。如果故障依然存在,可以恢復出廠設置,建議提前對重要文件進行備份!