💻🔗我是好看的分隔線🔗💻
本著授人以漁的目的,總結過去查詢資料的各種資源網站,為大家的科研道路提供便利,避免走彎路。
本來想著寫上一篇就可以了,哪知道越寫越多一篇放不下,現在就拆開來寫。大多寫得比較基礎,熟練使用的朋友請主動忽略。
❄📵多圖警告📵❄
第一講 NCBI
網址:www.ncbi.nlm.nih.gov
NCBI即美國國立生物技術信息中心,由國立醫學圖書館NLM於1988年建立,其使命包括四項任務:建立關於分子生物學,生物化學和遺傳學的存儲和分析的自動系統;研究基於計算機的信息處理的先進方法,用於分析生物學重要分子和複合物的結構和功能;加速生物技術研究者和醫藥治療人員對資料庫和軟體的使用;全世界範圍內的生物技術信息收集的合作;
NCBI內容多樣,這裡只介紹最常用的幾項:PubMed,Gene,Blast。
網站打開後顯示如下圖
1. PubMed資料庫
最常用的外文文獻搜索網站,收錄最全的醫學專業文獻檢索資料庫
在網站首頁NCBI logo邊選項列表中選擇PubMed,或者直接通過網址www.pubmed.gov打開頁面,搜索框中輸入目標文獻的關鍵字。
直接通過網址www.pubmed.gov打開的界面如下,但點擊search後顯示的頁面與NCBI中無異。
如搜索關鍵詞cancer,點擊search後出現檢索結果,其排序順序可根據匹配度、發表時間等進行展示(下圖右上部分);左側列有歷年文獻發表情況統計圖,以及顯示的內容、文章類型等篩選項,可根據自己需求勾選;其中歷年文獻發表統計圖中兩個圓圈可以拖動,以此選擇目標文獻的年限範圍。
打開檢索結果中的文獻,其呈現方式如下。頭部顯示文獻基本情況:文章類型,雜誌,年份及卷、期、頁數,DOI,發表日期;向下展示文章標題、作者、摘要等信息;右上部有原文連結,點擊就可以跳轉獲得全文,有些文章會有PubMed收錄的全文。
2. Gene資料庫
日常查詢基因的DNA全長序列,mRNA及對應的蛋白序列等
在網站首頁NCBI logo邊選項列表中選擇Gene,如下圖所示,在搜索框中輸入想要查詢的基因名稱
比如我們搜索內參基因gapdh,點擊search後出現搜索結果,一般情況下,人源基因會優先顯示,其他物種如鼠、斑馬魚等常見模式動物也會依次顯示,見下圖。
選擇想要查詢的物種基因,這裡我們點擊human人源GAPDH,展示的界面右側是總綱目錄列表,左側是各項的詳細信息,通過目錄名左側的三角符號可摺疊該項內容。
基因組DNA序列查詢時,Genomic context內顯示該基因的位置信息,並以示意圖的方式展示其臨近的其他基因及方向。
而Genomic regions,transcripts,and products內則以圖示模式展示該基因的位置,各轉錄本的位置與外顯子、內含子分布情況,並且當滑鼠懸停於該轉錄本時會顯示其詳細注釋信息。圖示可放大或縮小範圍,最大可顯示DNA序列。當點擊Go to nucleotide右側的Graphics、FASTA、GenBank時會以對應格式顯示基因詳細信息,通常選擇GenBank進行展示。
點擊GenBank後界面如下圖,排列該基因的詳細信息與相關參考文獻等。右側藍色Send to點開會可以以文件的形式下載當前頁面信息,再右Change region shown中更改數字可改動顯示的序列,左側數字減小不一定是顯示更多上遊的DNA序列,要結合染色體上該基因的方向(上圖Genomic context項中基因箭頭的方向)進行確認。
信使RNA與CDS序列查詢請翻至NCBI Reference Sequences (RefSeq),點擊不同轉錄本(NM開頭為mRNA,NP開頭為蛋白)後即可打開該轉錄本的詳細頁。
打開後的頁面如下圖,基因的基本信息描述,轉錄本的對應參考文獻,基因與轉錄本的概述,轉錄本序列中不同區域劃分等
頁面中出現的exon、CDS這些藍色單詞是可點擊的,點擊後就會在頁面最下方的序列中高亮顯示其對應的序列,這些單詞後面的注釋也會解釋這個區域的序列信息。
點擊上圖CDS後高亮顯示的對應序列
3. BLAST資料庫
檢索、比對資料庫中已有序列的最常用工具
打開NCBI網站首頁,點擊右側Popular Resource下的BLAST
BLAST可以檢索核酸序列、蛋白序列,由蛋白序列檢索核酸序列或反之。
除上述4種常見檢索外,當前頁往下翻還有其他針對性的檢索項,如比較常用的引物檢索Primer-BLAST,免疫球蛋白IgBLAST檢索,稍後再說。
先來說說最常用的4種檢索項,打開Nucleotide BLAST頁面如下:Enter Query Sequence項中填入待檢索序列,或上傳序列文件,格式要求可以點擊每項後的問號小圓圈即可。Choose Search Set項中選擇檢索的目標庫,沒有特殊要求一般默認,也可根據需要選擇RNA庫等;Organism中選擇檢索的目標物種,可填入普通名稱如human、mouse等,填入後會出現列表,選擇對應物種。Program Selection中選項可根據待檢索序列的長度、預期匹配度進行選擇。
其他3種檢索項可直接在當前頁面上進行切換,見下圖左上邊緣的標籤,界面和檢索核酸沒太大差別,不再說明。另外,頁面所有更改過的地方都會黃色高亮標示,方便檢查。
下面說下Primer BLAST,這個主要是為了設計引物或檢測已有引物的特異性時使用。打開後PCR Template項中填入引物設計的目的序列,或上傳序列文件,右側Range可選擇正向引物和反向引物的設計區域;Primer Parameters中可限定引物擴增產物的長度、檢索後返回的引物數量、以及引物Tm值範圍,前兩項Use my own primer只在已有引物序列,但是要檢測引物的特異性時才填。
往下翻還有其他選項,Exon/Intron selection項中可選擇是否需要跨外顯子、與外顯子連接處的匹配程度、內含子的長度限制,需要設計定量PCR引物的需要在這裡多注意下;Primer Pair Specificity Checking Parameters中參數是有關引物特異性檢測的一些選項,如特異性檢測的目標資料庫、目標物種等。這些都選好後,點擊Get Primers即可返回設計的引物對,或已有引物的特異性信息。
最後介紹一下IGBLAST,這個庫主要是檢索抗體序列或TCR序列用。
在Enter Query Sequence中填入待檢索的序列,蛋白或核酸序列都可以。
填入待檢索序列後在Germline gene databases中選擇目標物種,默認為人,已收錄的物種包括人、小鼠、大鼠、兔、獼猴,選擇物種後其他V、D、J資料庫默認即可,有需要的也可以選擇其他;Search Parameters為檢索匹配項的設定,根據檢索結果可以放寬或收緊,我不太懂這個,一般都默認了,最重要的是第一項Program,根據檢索序列的性質要選擇blastn(核酸序列)或者blastp(蛋白序列)。最後點擊Search就可以了。
再往下翻還有兩項,Formatting Options選擇生殖系V、D、J基因數量,是否顯示待檢核酸對應的蛋白序列,可變區的編號系統(默認IMGT,可選KABAT)及當多序列檢索時顯示的克隆型數量等;Additional databases則選擇是否檢索其他資料庫,以及限定物種等。
檢索的結果如下圖,根據匹配的生殖系基因類型可以判斷檢索序列的類型,如IGK表明檢索的序列為kappa輕鏈,IGH表明是重鏈;Score可以在檢索的設置中選擇不同特種,通過Score在不同物種結果的高低判斷檢索序列的物種來源,匹配度超高分值超高。另外,還會根據IMGT或KABAT對檢索序列進行分區編號,確認CDR與FR區域範圍。
關於抗體編號系統,大家可以閱讀連結中生信牛人的博客:
https://qinqianshan.com/biology/antibody/antibody-numbering-description/
附:下一期準備介紹一下ENSEMBL和UNIPROT,因為寫得比較細,截圖比較麻煩,所以更新會慢些,根據不同資料庫介紹的篇幅調整每一期介紹的數量。
再附:如果大家有好的推薦什麼的發留言給我呀,雖然慢,但是會發的,嗯,會的