學習筆記 | 常用資料庫(一)

2021-02-20 科學雜記

💻🔗我是好看的分隔線🔗💻

本著授人以漁的目的，總結過去查詢資料的各種資源網站，為大家的科研道路提供便利，避免走彎路。

本來想著寫上一篇就可以了，哪知道越寫越多一篇放不下，現在就拆開來寫。大多寫得比較基礎，熟練使用的朋友請主動忽略。

❄📵多圖警告📵❄

第一講 NCBI

網址：www.ncbi.nlm.nih.gov

NCBI即美國國立生物技術信息中心，由國立醫學圖書館NLM於1988年建立，其使命包括四項任務：建立關於分子生物學，生物化學和遺傳學的存儲和分析的自動系統；研究基於計算機的信息處理的先進方法，用於分析生物學重要分子和複合物的結構和功能；加速生物技術研究者和醫藥治療人員對資料庫和軟體的使用；全世界範圍內的生物技術信息收集的合作；

NCBI內容多樣，這裡只介紹最常用的幾項：PubMed，Gene，Blast。

網站打開後顯示如下圖

1. PubMed資料庫

最常用的外文文獻搜索網站，收錄最全的醫學專業文獻檢索資料庫

在網站首頁NCBI logo邊選項列表中選擇PubMed，或者直接通過網址www.pubmed.gov打開頁面，搜索框中輸入目標文獻的關鍵字。

直接通過網址www.pubmed.gov打開的界面如下，但點擊search後顯示的頁面與NCBI中無異。

如搜索關鍵詞cancer，點擊search後出現檢索結果，其排序順序可根據匹配度、發表時間等進行展示（下圖右上部分）；左側列有歷年文獻發表情況統計圖，以及顯示的內容、文章類型等篩選項，可根據自己需求勾選；其中歷年文獻發表統計圖中兩個圓圈可以拖動，以此選擇目標文獻的年限範圍。

打開檢索結果中的文獻，其呈現方式如下。頭部顯示文獻基本情況：文章類型，雜誌，年份及卷、期、頁數，DOI，發表日期；向下展示文章標題、作者、摘要等信息；右上部有原文連結，點擊就可以跳轉獲得全文，有些文章會有PubMed收錄的全文。

2. Gene資料庫

日常查詢基因的DNA全長序列，mRNA及對應的蛋白序列等

在網站首頁NCBI logo邊選項列表中選擇Gene，如下圖所示，在搜索框中輸入想要查詢的基因名稱

比如我們搜索內參基因gapdh，點擊search後出現搜索結果，一般情況下，人源基因會優先顯示，其他物種如鼠、斑馬魚等常見模式動物也會依次顯示，見下圖。

選擇想要查詢的物種基因，這裡我們點擊human人源GAPDH，展示的界面右側是總綱目錄列表，左側是各項的詳細信息，通過目錄名左側的三角符號可摺疊該項內容。

基因組DNA序列查詢時，Genomic context內顯示該基因的位置信息，並以示意圖的方式展示其臨近的其他基因及方向。

而Genomic regions，transcripts，and products內則以圖示模式展示該基因的位置，各轉錄本的位置與外顯子、內含子分布情況，並且當滑鼠懸停於該轉錄本時會顯示其詳細注釋信息。圖示可放大或縮小範圍，最大可顯示DNA序列。當點擊Go to nucleotide右側的Graphics、FASTA、GenBank時會以對應格式顯示基因詳細信息，通常選擇GenBank進行展示。

點擊GenBank後界面如下圖，排列該基因的詳細信息與相關參考文獻等。右側藍色Send to點開會可以以文件的形式下載當前頁面信息，再右Change region shown中更改數字可改動顯示的序列，左側數字減小不一定是顯示更多上遊的DNA序列，要結合染色體上該基因的方向（上圖Genomic context項中基因箭頭的方向）進行確認。

信使RNA與CDS序列查詢請翻至NCBI Reference Sequences (RefSeq)，點擊不同轉錄本（NM開頭為mRNA，NP開頭為蛋白）後即可打開該轉錄本的詳細頁。

打開後的頁面如下圖，基因的基本信息描述，轉錄本的對應參考文獻，基因與轉錄本的概述，轉錄本序列中不同區域劃分等

頁面中出現的exon、CDS這些藍色單詞是可點擊的，點擊後就會在頁面最下方的序列中高亮顯示其對應的序列，這些單詞後面的注釋也會解釋這個區域的序列信息。

點擊上圖CDS後高亮顯示的對應序列

3. BLAST資料庫

檢索、比對資料庫中已有序列的最常用工具

打開NCBI網站首頁，點擊右側Popular Resource下的BLAST

BLAST可以檢索核酸序列、蛋白序列，由蛋白序列檢索核酸序列或反之。

除上述4種常見檢索外，當前頁往下翻還有其他針對性的檢索項，如比較常用的引物檢索Primer-BLAST，免疫球蛋白IgBLAST檢索，稍後再說。

先來說說最常用的4種檢索項，打開Nucleotide BLAST頁面如下:Enter Query Sequence項中填入待檢索序列，或上傳序列文件，格式要求可以點擊每項後的問號小圓圈即可。Choose Search Set項中選擇檢索的目標庫，沒有特殊要求一般默認，也可根據需要選擇RNA庫等；Organism中選擇檢索的目標物種，可填入普通名稱如human、mouse等，填入後會出現列表，選擇對應物種。Program Selection中選項可根據待檢索序列的長度、預期匹配度進行選擇。

其他3種檢索項可直接在當前頁面上進行切換，見下圖左上邊緣的標籤，界面和檢索核酸沒太大差別，不再說明。另外，頁面所有更改過的地方都會黃色高亮標示，方便檢查。

下面說下Primer BLAST，這個主要是為了設計引物或檢測已有引物的特異性時使用。打開後PCR Template項中填入引物設計的目的序列，或上傳序列文件，右側Range可選擇正向引物和反向引物的設計區域；Primer Parameters中可限定引物擴增產物的長度、檢索後返回的引物數量、以及引物Tm值範圍，前兩項Use my own primer只在已有引物序列，但是要檢測引物的特異性時才填。

往下翻還有其他選項，Exon/Intron selection項中可選擇是否需要跨外顯子、與外顯子連接處的匹配程度、內含子的長度限制，需要設計定量PCR引物的需要在這裡多注意下；Primer Pair Specificity Checking Parameters中參數是有關引物特異性檢測的一些選項，如特異性檢測的目標資料庫、目標物種等。這些都選好後，點擊Get Primers即可返回設計的引物對，或已有引物的特異性信息。

最後介紹一下IGBLAST，這個庫主要是檢索抗體序列或TCR序列用。

在Enter Query Sequence中填入待檢索的序列，蛋白或核酸序列都可以。

填入待檢索序列後在Germline gene databases中選擇目標物種，默認為人，已收錄的物種包括人、小鼠、大鼠、兔、獼猴，選擇物種後其他V、D、J資料庫默認即可，有需要的也可以選擇其他；Search Parameters為檢索匹配項的設定，根據檢索結果可以放寬或收緊，我不太懂這個，一般都默認了，最重要的是第一項Program，根據檢索序列的性質要選擇blastn(核酸序列)或者blastp(蛋白序列)。最後點擊Search就可以了。

再往下翻還有兩項，Formatting Options選擇生殖系V、D、J基因數量，是否顯示待檢核酸對應的蛋白序列，可變區的編號系統（默認IMGT，可選KABAT）及當多序列檢索時顯示的克隆型數量等；Additional databases則選擇是否檢索其他資料庫，以及限定物種等。

檢索的結果如下圖，根據匹配的生殖系基因類型可以判斷檢索序列的類型，如IGK表明檢索的序列為kappa輕鏈，IGH表明是重鏈；Score可以在檢索的設置中選擇不同特種，通過Score在不同物種結果的高低判斷檢索序列的物種來源，匹配度超高分值超高。另外，還會根據IMGT或KABAT對檢索序列進行分區編號，確認CDR與FR區域範圍。

關於抗體編號系統，大家可以閱讀連結中生信牛人的博客：

https://qinqianshan.com/biology/antibody/antibody-numbering-description/

附：下一期準備介紹一下ENSEMBL和UNIPROT，因為寫得比較細，截圖比較麻煩，所以更新會慢些，根據不同資料庫介紹的篇幅調整每一期介紹的數量。

再附：如果大家有好的推薦什麼的發留言給我呀，雖然慢，但是會發的，嗯，會的

學習筆記 | 常用資料庫(一)

相關焦點

【學習筆記】KEGG資料庫之實戰篇(上)

Python資料庫ORM工具sqlalchemy的學習筆記

我最常用的日記 / 學習筆記 / 備忘軟體

四大外文資料庫等常用外文資料庫介紹

宅家學習|資料庫推薦&電子書(一)

學習筆記 | SQL中的全部常用操作,看到這篇文章就邁出學習SQL的第一步

淺談比較常用的幾種資料庫管理系統軟體的特點

四種嵌入式系統開發中常用資料庫的簡單介紹

親子摺疊筆記:在歐美比思維導圖還要常用的兒童學習工具

Oracle資料庫支持筆記

收藏|我的Mysql學習筆記

後端產品經理筆記之查詢資料庫

學習筆記系列NO.1 SQL學習筆記及資料分享

查文獻資料選哪個哪個資料庫

MySQL資料庫常用命令詳解

斯坦福CS231N課程學習筆記(一).課程簡介與準備

Oracle基礎學習筆記

MySQL資料庫筆記

常用醫學外文資料庫的檢索功能及選擇策略

簡易SQLite3資料庫學習