​Uniprot,一個熟悉又陌生的資料庫|使用Uniport獲取相關蛋白注釋信息(一)

2021-02-21 君實醫學


前些時間,我們介紹了幾款生物信息學的資料庫,包括Uniprot、Reactome、Ensembl以及Gwas Central。應廣大讀者的要求,今天就著重介紹一下Uniprot。Uniprot是一個免費、老牌的生物信息學資料庫,很多文章都使用了Uniprot中的數據。如在2018年11月,在發表自《Nature》的文章「Single-cell reconstruction of the early maternal–fetal interface in humans」中,作者為了研究了胎盤-蛻膜界面處的胎兒細胞和母體細胞之間的「交流」,並利用所得數據開發了一種新型統計工具(CellPhone, www.CellPhoneDB.org),用以預測潛在的特殊的細胞間互作用。在CellPhone中,其中一部分的蛋白質註解信息就來自Uniprot。那麼,我們今天就來看一下怎樣通過Uniprot來獲取我們需要的各種信息吧。


我們仍然使用PD-1蛋白作為例子,講述Uniprot中怎樣獲取該蛋白的注釋信息。打開www.uniprot.org,在UniprotKB界面中的檢索框中輸入「programmed cell death protein 1」,並點擊「Search」,獲得結果列表。

圖1

在列表中我們可以看到對於PD-1來說,Uniprot收錄了人類和鼠類PD-1的蛋白信息。選擇輸入人類的條目,點擊圖2紅框中的「Q15116」來查閱詳情。

圖2

點擊「Q15116」後,我們進入到結果的主界面。整個界面中包括了非常多的信息,主要模塊有四個:Entry、Publications、Feature viewers以及Feature table。

Entry:Uniport介紹蛋白信息的最主要頁面,包括了14種關於該蛋白的注釋信息類型。

Publications:Uniprot提供了與該蛋白相關的發表物的信息。

作為初學者我們可以從Entry入手。在蛋白注釋信息界面中的左側展示導航欄,我們可以看到該信息又被分成14種亞信息類。讀者可以從圖3的表格中查看相應亞信息類的解釋和描述。此外,我們還可以使用選擇按鈕(圖3紅框所示)來選擇那些類型的信息出現在結果頁面中。

圖3

基於PD-1蛋白的這個例子,我們來看一下這些亞種信息到底能給我們帶來什麼?

  Function  

在Function中,結果呈現了與PD-1相關的一些基本生物學的知識信息(圖4-1),包括轉錄調節機制、涉及的生物過程、相關的組學信息等等。這些信息來自不同的出版物或者其他的資料庫(圖4-2)。Uniprot提供了信息來源的題目及連結,點擊任何一個黃色標籤,可以呈現出該引用源的相關條目。讀者點擊這些條目的連結後,可以跳轉至相應的其他資料庫進行查詢,非常的方便。尤其是在涉及生物過程的信息展示時,Uniprot做了與另外EMBL的連結(圖4-3),這對了解蛋白質在生物體內發揮哪些作用非常有用。

圖4

  Names & Taxonomy  

在此欄中,我們可以看到。Uniprot對PD-1蛋白的推薦名稱為 「Programmed cell death protein 1」 ,以及一些簡寫模式比如Protein PD-1以及hPD-1,或者替代名稱CD279等。相關的基因名稱PDCD1、種屬名稱Homo sapiens (human)及種屬在NCBI的分類識別編號及分類譜系信息。另外在此欄中,Uniprot還提供了該蛋白或者蛋白相關的基因在HGNC(Human Gene Nomenclature Database)、MIM(Online Mendelian Inheritance in Man)和neXtProt(the human protein knowledge platform) 三個資料庫的連結,方便讀者進行相關基因信息的查詢 (圖5-1)。

圖5

  Subcellular  Location  

Uniprot中提供的PD-1蛋白的位置在細胞的表面,並給出了細胞示意圖(圖6)。圖6-1中顯示的黃色標識為人工註解部分。如果圖中有藍色顯示,則表示為機器計算註解。此外,Uniprot還提供了PD-1蛋白拓撲結構的區域信息。在拓撲表(圖6-2)中可以看到:24-170位的胺基酸序列位於細胞外,171-191位的胺基酸序列成跨膜的螺旋結構,192-288位胺基酸位於細胞質中。

圖6

  Pathology & Biotech  

與蛋白相關的疾病模塊中,我們可以發現:有一篇文獻表明PD-1蛋白與紅斑狼瘡疾病有關(圖7-1)。此外Uniprot還提供了存在的突變位點和已知的突變後果。例如:在PD-1中的第49位存在著天冬醯胺突變成丙氨酸的可能,但這種突變並不影響PD-1與O藥(Nivolumab)的結合(圖7-2)。此外,在此模塊Uniprot還提供了其他資料庫的連結。如:提供了PD-1蛋白在ChEMBL中信息的連結以及其他化合物,如:O藥(Nivolumab)在DrugBank中的信息連結(圖7-3)。

圖7

  PTM/Processing  

在轉義修飾模塊中,我們可以看到PD-1蛋白中的1-23位胺基酸是PD-1的信號肽(圖8-1)。此外在胺基酸修飾功能上,49位、58位、74位以及116位的胺基酸是糖基化的位點;54位與123位通過二硫鍵相連;223位和248位亦是可修飾位點等等(圖8-2)。一些轉義後的修飾信息也可以在這裡查到,如233位賴氨酸通過進行FBX038泛化後,可以引起PD-1通過其蛋白酶進行降解,並給出了信息出自的文獻(圖8-3)。

圖8

  Expression  

Uniport在此提供了PD-1蛋白質相關基因在細胞或者組織中mRNA水平上的表達信息。如根據Bgee資料庫的信息。PD-1蛋白的相關基因(Ensembl ID為ENSG00000188389)在78個器官或組織中有所表達,其中在淋巴結中表達水平最高(圖9-1)。點擊圖中的連結可以查看在不同組織中的表達信息。又如在圖9-2中,我們可以看到該基因在不同人群中的表達差異情況,該數據來自資料庫ExpressionAltas。

圖9

  結 語  

本文通過PD-1蛋白的實例著重講解了Uniprot在Entry信息模塊中所能提供的Funtion 、Names&Taxonomy、Subcellular location、Pathology&Biotech、PTM/Processing和Expression亞信息模塊中的信息。由於篇幅有限,Entry中剩下的亞信息模塊將在Uniprot,一個熟悉又陌生的資料庫|使用Uniport獲取相關蛋白注釋信息(二)中講解,敬請期待。

以上信息僅作為方法介紹,信息探索可到資料庫中獲取更多,點擊閱讀原文可直達Uniprot資料庫。

CTR檢索知多少 | 中國研究中心都在研究什麼?
想不用實驗就發文章?--你需要知道的幾個生物信息資料庫
全面、免費、權威的臨床信息,你竟然不知道?

特瑞普利單抗(商品名:拓益,英文名:Toripalimab Injection)是君實生物自主研發的抗PD-1單抗,於2018年12月17日獲批上市,用於治療既往接受全身系統治療失敗的不可切除或轉移性黑色素瘤。

目前,特瑞普利單抗在黑色素瘤、鼻咽癌、尿路上皮癌、三陰乳腺癌、非小細胞肺癌、肝癌、腎細胞癌、食管鱗癌、頭頸部鱗癌、淋巴瘤、神經內分泌瘤等多種疾病領域仍有多項註冊臨床研究在積極開展中。

 

審批編號:JSSW20190701110    

有效期至:2021年6月30日

內容聲明:君實醫學訂閱號平臺所發布信息僅供醫療專業人士閱讀參考。

相關焦點

  • UniProt 資料庫介紹
    UniProt現在的生物信息分析中,對編碼基因序列或蛋白產物序列進行功能注釋是必不可少的。
  • 如何快速了解一個人體基因的所有信息 (一)
    在進行基因相關研究的時候,我們經常需要查詢了解基因的相關功能,才能知道我們要往哪裡進行下一步研究。對於基因功能的查詢,我們介紹過ncbi的gene資料庫,同樣的之前的gene id轉換的時候我們也提到過,關於基因信息的匯總除了gene資料庫還有ensembl、uniprot等等很多資料庫,各個資料庫都提供了不同的基因信息。我們在查詢的時候,總不能說把各個資料庫都查詢一遍吧?
  • 蛋白組學/代謝組學如何快速從主流資料庫中獲取人/小鼠數據?
    生物信息學的應用變得尤為重要,在生物領域從基因測序,到基因編輯,再到基因療法的精準醫療,由生物科技引發的又一場變革正悄然而至。試問大家做好準備迎接它到來了嗎? 本次分享的主題為:如何快速獲取海量數據? (4)點擊下載MYH9基因序列NCBI Reference Sequence: NC_000022.11,起個合適的文件名,推薦使用基因名或者資料庫登錄號
  • 蛋白組學/代謝組學如何快速從主流資料庫中獲取人/小鼠數據?
    生物信息學的應用變得尤為重要,在生物領域從基因測序,到基因編輯,再到基因療法的精準醫療,由生物科技引發的又一場變革正悄然而至。試問大家做好準備迎接它到來了嗎?本次分享的主題為:如何快速獲取海量數據?如下所示:點擊下載基因組或蛋白組FASTA序列,直接會彈出下載連結,選擇保存文件的位置即可開始下載;還可以下載NCBI上的基因組注釋GFF文件(Ensembl資料庫也可以下載物種的GFF文件,後面會給大家講到)物種 人和小鼠
  • 植物科學常用資料庫和生物信息學工具
    在所有開展植物科學相關研究的科研工作者的日常中,無法避免會使用到各類資料庫和分析平臺。這些資料庫和分析平臺的建立和更新維護為植物的組學、功能、進化以及遺傳育種等方面研究提供了豐富的資源。以下是一些植物科學常用的資料庫和生物信息學工具,分享給大家,希望對大家有用。
  • STRING:蛋白相互作用資料庫的使用
    對於基因組數據分析而言的話,我們能用到網絡分析的就是蛋白相互作用分析(protein-protein ineraction, PPI)分析了。蛋白相互作用分析的資料庫有很多,至於為什麼選擇STRING,還是在於其強大的可視化,以及自定義功能。
  • 12月在線資料庫匯總|資料庫|甲基化|DNA|標誌物|預測|分析|-健康界
    在12月期間,總共發表了醫學相關在線資料庫47個。下面就來給大家介紹一下主要有哪些資料庫,以及筆者比較感興趣的資料庫。1. 疾病與藥物相關資料庫疾病和藥物相關的資料庫一共有5個。涉及到多種不同的疾病。
  • 植物科學常用資料庫和生物信息學工具
    對於所有開展植物科學相關研究的科研工作者和學生群體而言,各類資料庫和分析平臺的建立和更新維護為植物的組學、功能、進化以及遺傳育種等方面研究提供了豐富的資源,具有重要的理論指導意義和應用價值。通過總結目前已有的植物科學相關的資料庫資源和分析平臺,調查其使用頻率和應用程度,可以為大家更好地開展科研工作提供便利。
  • EggNOG功能注釋資料庫在線和本地使用
    COG簡介COG(Clusters of Orthologous Groups of proteins,直系同源蛋白簇)構成每個COG的蛋白都是被假定為來自於一個祖先蛋白
  • 如何獲取蛋白序列並進行序列比對?
    很多情況下,我們為了研究一個蛋白的重要性,需要查看這個蛋白在多個物種,以及與這個蛋白家族中其它蛋白的相似性,並構建進化樹。
  • 植物科學常用資料庫和生物信息學工具 2020正式版
    對於所有開展植物科學相關研究的科研工作者和學生群體而言,各類資料庫和分析平臺的建立和更新維護為植物的組學、功能、進化以及遺傳育種等方面研究提供了豐富的資源,具有重要的理論指導意義和應用價值。通過總結目前已有的植物科學相關的資料庫資源和分析平臺,調查其使用頻率和應用程度,可以為大家更好地開展科研工作提供便利。
  • 常用資料庫和生物信息學工具,值得收藏
    集成植物基因組學、表型和遺傳學數據的共享型平臺http://harvest.ucr.edu/作物EST序列及相關分子信息數據平臺http://www.gramene.org/ Gramene:用於作物和模式物種的比較功能基因組學分析的綜合平臺
  • 研究蛋白質你的資料庫用對了嗎?常用蛋白質資料庫分享
    1.UniProt (The Universal Protein Resource)網址:http://www.uniprot.org/簡介:由EBI(歐洲生物信息研究所)、PIR(蛋白信息資源)和SIB(瑞士生物信息研究所)合作建立而成,提供詳細的蛋白質序列、功能信息,如蛋白質功能描述、
  • 植物科學常用資料庫和生物信息學工具,趕緊收藏,遲早用得到
    通過總結目前已有的植物科學相關的資料庫資源和分析平臺,調查其使用頻率和應用程度,可以為大家更好地開展科研工作提供便利。MP編輯團隊結合文獻搜索和前人已總結的部分資料庫資源,整理了常用的植物科學資料庫和生物信息學工具清單(親測可用)。
  • 包教包會,表觀必備技能之Genecards查看基因信息
    這時候可以從基因的信息著手,通過基因的定位、功能、參與的通路等信息判斷是否關鍵基因。今天給大家介紹可以查看基因信息的資料庫-Genecards。Genecards(https://www.genecards.org/)是一個人類基因的綜合型資料庫,匯總了網絡上約150個相關的基因資料庫資源(包括基因組,轉錄組學,蛋白質組學,遺傳學,臨床和功能信息等)。
  • 免費又好用的基因功能注釋平臺
    得到基因序列之後,需要將基因序列與已知資料庫進行比對,例如nr庫,uniprot,GO,kegg等,由於資料庫比較大,往往需要較長的比對時間。我們可以使用eggnog-mapper工具進行功能注釋,但是需要下載較大的資料庫。目前,eggnog官網提供了一個在線工具,只需上傳文件,即可進行基因功能注釋,非常方便。
  • 全球三大蛋白質資料庫將合而為一
    新華網華盛頓10月30日電(記者毛磊)美國和歐洲有關機構最近宣布,將把全球三大主要蛋白質資料庫資源集中起來,建設一個新的蛋白質資料庫,以方便各國研究人員更好地利用不斷膨脹的人類基因組和蛋白質科研信息。    新的「聯合蛋白質資料庫」預計在三年內建成,美國國家衛生研究所已決定為這項計劃斥資1500萬美元。
  • NCBI, UCSC, Ensembl, Uniprot, 一次學完統統不要錢
    GenBank是一個有來自於70,000多種生物的核苷酸序列的資料庫,每條紀錄都有編碼區(CDS)特徵的注釋,還包括胺基酸的翻譯,主要是科研人員直接提供或來源於大規模基因組測序計劃。站點用戶可以通過它可靠和迅速地瀏覽基因組的任何一部分,並且同時可以得到與該部分有關的基因組注釋信息。如:已知基因,預測基因,表達序列標籤,信使RNA,CpG島,克隆組裝間隙和重疊,染色體帶型,小鼠同源性等。
  • 一站式 lncRNA 查詢資料庫
    對於不同的需求需要使用不同的資料庫,今天就來介紹一個一站式查詢lncRNA相關功能的資料庫: AnnoLnc2 (http://annolnc.gao-lab.org/)這個資料庫沒有使用基因名數據的方式來進行查詢,而是使用了輸入Fasta序列的方式來進行查詢的。我們需要做的就是選擇物種、輸入序列、提交結果。在結果界面,首先能看到一個在左側側邊欄有一個主要的結果,這個是資料庫對於一個lncRNA所有相關的注釋的條目,我們可以點擊某一個標題就可以直接跳轉到這個地方了。
  • 一站式 lncRNA 查詢資料庫|lncRNA|資料庫|亞細胞|查詢|序列|預測|...
    對於不同的需求需要使用不同的資料庫,今天就來介紹一個一站式查詢lncRNA相關功能的資料庫: AnnoLnc2 (http://annolnc.gao-lab.org/)這個資料庫沒有使用基因名數據的方式來進行查詢,而是使用了輸入Fasta序列的方式來進行查詢的。我們需要做的就是選擇物種、輸入序列、提交結果。在結果界面,首先能看到一個在左側側邊欄有一個主要的結果,這個是資料庫對於一個lncRNA所有相關的注釋的條目,我們可以點擊某一個標題就可以直接跳轉到這個地方了。