美國國家生物技術信息中心 ( National Center for Biotechnology Information ,NCBI )( http: //www.ncbi.nlm.nih.gov/ ) 是美國國家分子生物學信息資源中心,也是全球最有影響的生物學網站之一。 NCBI 開發有 Genbank 等公共資料庫,提供 Pubmed 、 BLAST 、 Entres 、OMIM 、 Taxonomy 、 Structure 等工具,可對國際分子資料庫和生物醫學文獻進行檢索和分析,並開發用於分析基因組數據和傳播生物醫學信息的軟體工具。 NCBI 還支持與推廣多種醫學及科技方面的資料庫,包括:三維蛋白質結構的分子模型資料庫 ( MMDB) 、孟德爾人類遺傳( OMIM )、特殊人類基因序列集( UniGene )、人類基因組基因圖( Gene Map of the Human Genome )、生物分類遊覽器( Taxonomy Browser )以及與國立癌症研究所合作的癌症基因組解剖學項目(CGAP )等。 NCBI 的所有資料庫和程序軟體都可在 NCBI 的匿名 FTP伺服器( ftp : //ncbi.nlm.nih.org )上獲取。
隨著ncbi資料庫各種資源的湧現,NCBI已經成為科研工作者必不可少的工具了。那麼各位小夥伴們,你能說出NCBI有多少資料庫嗎?有哪些實用的工具嗎?不知道的就進來看看吧!
本篇文獻轉自:http://www.bio1000.com/experiment/fenzi/237847.html。文章寫得比較早,小編為此修改並添加了一些東西!
1 NCBI資料庫更新進展
1.1 PubMed搜索功能的增強
NCBI對PubMed進行了幾項改進工作,改動最大的是搜索界面和摘要瀏覽界面。其中,搜索界面中新增了「Advanced Search」選項(這實際上是對以往「Limits」和「Preview/Index」功能的整合),並且增加了一個新的窗口,用戶可以在此窗口下通過「論文作者名」、「論文所屬雜誌名稱」、「論文出版日期」等限定條件進行搜索。而且,「論文作者名」和「論文所屬雜誌名稱」還設有文本框自動填充功能。現在,在PubMed資料庫中進行文本搜索的同時還可以立即通過兩個「內容傳感器(content sensors)」進行分析。一個「內容傳感器」是根據作者姓名、所屬雜誌名稱或雜誌名縮寫、出版日期、卷號或刊號等信息進行分析,然後將符合條件的搜索結果排列到結果列表的頂端。另一個「內容傳感器」是根據文章是否與用戶給出的條件,例如是否與某種藥物相關,在NCBI的新增資料庫PubMed Clinical Q&A中進行搜索,然後給出搜索結果。
1.2 primer-BLAST分析工具
Primer-BLAST(http://www.ncbi.nlm.nih.gov/tools/primer-blast/)在設計出引物之後還在某些相應資料庫中進行BLAST搜索,因此可以得到特異性引物,擴增出目的片段。用戶在給出DNA模板的同時還可以限定正向引物或反向引物,這樣,NCBI就只會給出另一條引物。如果用戶給出了模板DNA和兩條引物序列,Primer-BLAST就只會運行BLAST程序,幫助用戶對引物進行分析。用戶也可以只給出兩條引物而不給出模板序列,這時Primer-BLAST會通過BLAST程序分析出與這對引物最匹配的模板序列。Primer-BLAST進行BLAST搜索的資料庫包括RefSeq mRNA、BLAST nr和12種模式生物基因組資料庫。
1.3 BLAST的改進及更新
NCBI對BLAST進行了全新的改版,推出了最新的web BLAST report。在最新的BLAST比對結果頁面中,「圖形化概要(Graphic Summary)」、「具體描述(Descriptions)」以及「序列比對(Alignments)」等部分頁面都可以展開和收起。此外,網頁上還提供了「結果輸出格式選項(Formatting)」和「結果下載選項(download)」,在下載選項中還新增了CSV格式下載。這樣,讀者可以輕鬆地將BLAST的比對結果輸入到表格處理軟體中去。另外,BLAST比對結果頁面上的「Alignments」部分還提供了每一條命中序列在Entrez GENE中的相關信息,這些信息包括基因名稱、來源物種以及在PubMed資料庫中與該基因有關條目的數目等。
「BLAST tree」結果輸出模式可以測量不同序列間的距離,自動收起亞類信息等。現在,可以以Newick 格式或Nexus格式下載 BLAST tree結果,也可以在進化樹圖中選擇任一節點重新構樹。最後還要向讀者介紹ncbi blast的一個新網址:URL: blast.ncbi.nlm.nih.gov。NCBI建議讀者都使用這個網址登陸NCBI BLAST,因為該BLAST使用更多的計算機進行分析,也具有更強的系統容錯能力。
1.4 Entrez Gene改進及更新
基因組注釋工作當中有一項重要的工作就是定位基因重疊群序列(contig sequences),即在染色體中找出某個基因的定位。實際上基因組測序工作就是將許多基因重疊序列彼此拼接,最後拼出「完整(中間會有一些縫隙)」的基因組圖譜。這項工作可以直接將某個基因與某段基因重疊群序列對應起來,但不能直接將該基因與染色體聯繫起來,而這恰恰是生物學家最感興趣的地方。因此,為了能讓用戶在搜索基因的同時,也能了解到一些該基因在染色體中的定位情況,Entrez Gene推出了新的「Limits」服務,用戶可以使用該服務在基因組範圍內進行基因搜索。用戶可以在某個物種染色體的某個區域裡進行基因搜索。
Entrez Gene會按以下三種順序對搜索出的基因進行排序:
1. 按照基因名排序。
2. 按照相關性排序,即按照結果與用戶搜索所使用的關鍵詞,例如基因名稱等的匹配程度排序。
3. 按照基因重要性排序,即按照該基因在PubMed、Homologene、Protein Clusters、OnlineMendelian Inheritance in Man(OMIM)或Bookshelf 中文獻數量的多少進行排序。
2 .ENTREZ 搜索系統
2.1 Entrez
Entrez資料庫是一個整合了多個資料庫的綜合檢索系統,它包含了35個不同資料庫的信息,共收錄有超過350,000,000條記錄(表1)。Entrez資料庫支持使用簡單的布爾查詢(Boolean queries)方式進行文本搜索,可以下載不同格式的數據資料,還可以按照生物學關係提供與其它相關記錄的連結。這些連結給出的都是最簡要的信息,例如會給出一條序列和報導該序列的論文摘要,或者會給出一條蛋白質序列的編碼DNA序列或該蛋白質的3D結構圖。這種通過計算機運算,即基於比較序列相似性或PubMed中摘要的相似性,所給出的相關連結信息可以以最快的速度提供給用戶大量的相關信息。還有一種叫做「LinkOut」的功能將這種連結功能擴展到了與外部資料庫,例如各物種基因組資料庫之間的連結。Entrez中搜索到的數據可以以多種格式輸出,也可以打包下載或逐個下載。
2.2 My NCBI
My NCBI功能是為了方便用戶儲存個人配置信息,例如搜索條件、LinkOut參數或文件出處等而設的。用戶登陸自己的My NCBI帳戶後,就可以進行保存搜索設置、管理郵件等操作了。My NCBI中有一種稱作「Collections」的功能可以讓用戶儲存搜索結果和文獻結果。BLAST中也設有類似的功能,這樣用戶就可以使用同一條件進行多次比對了。同時往NCBI遞交轉錄組、基因組等相關數據都需要註冊,獲得自己的My NCBI帳戶!
3 BLAST比對系統
可與在站點https://blast.ncbi.nlm.nih.gov/Blast.cgi看到除常規BLAST的各種blast延伸版本。
3.1 BLAST
BLAST默認的比對信息資料庫包括NCBI中的人類基因組資料庫和人類RefSeq資料庫。比對之後,BLAST會按照評分高低、序列相似度對結果進行排序,另外BLAST還可以對小鼠資料庫以及其它基因組資料庫進行比對。
蛋白質序列的默認資料庫包括GenBank非冗餘資料庫、RefSeq、Swiss-Prot、PDB、PIR和PRF等。此外,還包括這些資料庫下的子資料庫以及其它一些專利資料庫和諸如核酸資料庫等環境樣品資料庫(environmental samples)。
3.2 BLAST output formats
標準的BLAST輸出格式包括默認的配對比對格式(default pairwise alignment)、搜索定位的多序列比對格式(query-anchored multiple sequence alignment formats)、簡單的可解析的Hit Table格式以及按照分類學給出的報告格式等。一種叫做「按照同一性進行配對(Pairwise with identities)」的格式能更好地突出目標序列與檢索序列之間的差別。而Web BLAST中提供的樹狀瀏覽格式則會按照搜索出的目標序列與檢索序列之間的距離不同將這些目標序列進行聚類,形成一幅樹狀圖來顯示結果。BLAST比對之後給出的每一種格式的比對結果都會有一個分值和E值。用戶也可以設定一個E值的閾值來篩選比對結果。
3.3 MegaBLAST
MegaBLAST也是一種BLAST程序,不過它主要是用來在非常相似的序列之間(來自同一物種)比對同源性的。使用者通過網頁使用MegaBLAST進行批量比對操作,這比使用標準的BLAST程序要快10倍。MegaBLAST在NCBI基因組BLAST頁面下是默認的搜索工具,藉助它能對增長迅速的Trace Archives資料庫和標準BLAST使用的資料庫進行快速檢索。NCBI還為跨物種核酸序列快速搜索提供了Discontiguous MegaBLAST,它使用非重疊群欄位匹配算法(noncontiguous word match)來進行核酸比對。Discontiguous MegaBLAST比blastx等翻譯後比對要快得多,同時它在比較編碼區時也具有相當高的敏感度。
3.4 Genomic BLAST
NCBI在Map Viewer(http://www.ncbi.nlm.nih.gov/mapview/)中還有未已完成測序的物種設有Genomic BLAST。通過默認的Genomic BLAST對某個物種的基因組序列進行blast比對,獲得相關信息。
3.5NCBI在線BLAST用法
首先進行Blast類型的選擇:
blastp:將待查詢的蛋白質序列及其互補序列一起對蛋白質序列資料庫進行查詢;
blastn:將待查詢的核酸序列及其互補序列一起對核酸序列資料庫進行查詢;
blastx:先將待查詢的核酸序列按六種可讀框架(逐個向前三個鹼基和逐個向後三個鹼基讀碼)翻譯成蛋白質序列,然後將翻譯結果對蛋白質序列資料庫進行查詢;
tblastn:先將核酸序列資料庫中的核酸序列按六種可讀框架翻譯成蛋白質序列,然後將待查詢的蛋白質序列及其互補序列對其翻譯結果進行查詢;
tblastx:先將待查詢的核酸序列和核酸序列資料庫中的核酸序列按六種可讀框架翻譯成蛋白質序列,然後再將兩種翻譯結果從蛋白質水平進行查詢。
基本步驟如下:
1)進入在線blast界面,可以選擇blast特定的物種(如下)。不同的blast程序上面已經有了介紹。這裡以常用的Blast 中nucleotide blast作為例子。
Human 人
Mouse 小鼠
Rat 大鼠
Arabidopsis thaliana 擬南芥
Oryza sativa 水稻
Bos taurus 牛
Danio rerio 斑馬魚
Drosophila melanogaster 黑腹果蠅
Gallus gallus 烏骨雞
Pan troglodytes 黑猩猩
Microbes 微生物
Apis mellifera 蜜蜂
更多物種blast請使用此網址:http://www.ncbi.nlm.nih.gov/genome/browse/
選擇相應的物種做BLAST即可!
2),粘貼fasta格式的序列(可以是多條奧!!)或使用Accession number(s)、gi(s)(注意僅使用數字,不加上標誌符gi)。選擇一個要比對的資料庫,如果是人和鼠則進行相應的選擇,否則選擇Others中的nr/nt 。關於資料庫的說明請看NCBI在線blast資料庫的簡要說明。其他選項不是必選的,如Job Title就是這次比對的名字,隨便起一個即可;Organism為物種,可以填入你想比對的物種(分類單元如green plant等)的名字(拉丁名字,輸入幾個字母後會出現索引的)。第一個直接填入框中,往後需要點擊一下加號後才能繼續添加,選擇Exclude就是與這些物種以外的物種序列進行比對。
另外對於Limit by Entrez Query這一部分也為選填內容,若填寫可以進行更為有效的限制,如可以限制分子類型、序列長度等等。具體限制內容如下:
protease NOT hiv1[organism]這將會將Blast檢索限定在proteases,但不包含 HIV 1.1000:2000[slen]對於核酸這將會將檢索的序列的鹼基長度限制在1000 to 2000bp, 對於蛋白質,則將殘基個數限制在1000 to 2000 。
10000:100000[mlwt]這將檢索的蛋白序列的分子重量限制在10 kD to 100 kD. src specimen voucher[properties] 這將檢索範圍限制在在來源特徵中注有specimen_voucher(物種證明人)的序列中。all[filter] NOT enviromnentalsample[filter] NOT metagenomes[orgn] 這將會排除宏基因組研究和來自未知環境的樣品未知序列。
3)blast參數的設置。注意顯示的最大的結果數跟E值,E值是比較重要的。篩選的標準。
4)注意一下你輸入的序列長度。注意一下比對的資料庫的說明。
5)blast結果的圖形顯示。沒啥好說的(注意標題157Blast Hits意思為共有157條比對上的序列)。
6)blast結果的描述區域。注意分值與E值。分值越大越靠前了,E值越小也是這樣。在下面圖中可以在左邊的複選框中選擇,然後點擊download可以一起下載這些序列。下載格式一般選擇FASTA(complete sequence)格式較好。
7)blast結果的詳細比對結果。注意比對到的序列長度。評價一個blast結果的標準主要有三項,E值(Expect),一致性(Identities),缺失或插入(Gaps)。加上長度的話,就有四個標準了。如圖中顯示,比對到的序列長度為1299,看Identities這一值,才匹配到1264bp,而輸入的序列長度也是為1509bp,就說明比對到的序列要長一點。
附:
E值(Expect):表示隨機匹配的可能性,例如,E=1,表示在目前大小的資料庫中,完全由機會搜到對象數的平均值為1.E值越大,隨機匹配的可能性也越大。E值接近零或為零時,具本上就是完全匹配了。通常來講,我們認為E值小於10-5 就是比較可性的S值結果。我們可以想像,相同的資料庫,E=0.001時如果有1000條都有機會S值比現在這個要高的話,那麼不E設置為10-6時可能就會只得到一條結果,就是S值最可靠的那個。但是E值也不是萬能的。它在以下幾個情況下有局限性:
1)當目標序列過小時,E值會偏大,因為無法得到較高的S值。
2)當兩序列同源性雖然高,但有較大的gap(空隙)時,S值會下降。這個時候gap scores就非常有用。
3)有些序列的非功能區有較低的隨機性時,可能會造成兩序列較高的同源性。
E值總結:
E值適合於有一定長度,而且複雜度不能太低的序列。
當E值小於10-5時,表明兩序列有較高的同源性,而不是因為計算錯誤。
當E值小於10-6時,表時兩序列的同源性非常高,幾乎沒有必要再做確認。
一致性(Identities):或相似性。匹配上的鹼基數佔總序列長的百分數。
Score得分值越高說明同源性越好;Expect期望值越小比對結果越好,說明因某些原因而引起的誤差越小;Identities是同源性(相似性),例中所示比對的1299個鹼基中只有35個不配,其他97%相同;
Gaps是指多出或少的鹼基或缺失的鹼基數;缺失或插入(Gaps):插入或缺失。用"—"來表示。
Strand=plus/plus指兩條序列方向相同,如果是plus/minus,即意味著一條是5'到3',一條是3'到5',或一條是正向,另一條是反向序列。
8)Blast 的三個程序
1)MEGABLAST 常被用於鑑定核酸序列。
MegaBLAST是一種BLASTN程序,主要是用來在同一物種非常相似的序列(相似度大於等於95%)之間同源性的比較。鑑定某一段核酸序列是否存在於資料庫,最好的方法就是選擇MEGABLAST。當然,BlastN/MEGABLAST/Discontiguous MEGABLAST,都可以完成這種事情。但MEGABLAST就是特別設計用於非常相似長序列之間的比對,可用於尋找查詢序列的最佳匹配的序列。總之此程序主要用來鑑定一段新的核酸序列,它並不注重比對各個鹼基的不同和序列片斷的同源性,而只注重被比對序列是否是資料庫未收錄的,是否為新的提交序列或基因。速度快用於同一物種間的。
2)Discontiguous MEGABLAST
用於查找不同物種的相似的核酸序列,而不是查詢相同的序列。
DiscontiguousMEGABLAST,用於跨物種核酸序列快速比對。它使用非重疊群欄位匹配算法(noncontiguous word match)來進行核酸比對。DiscontiguousMegaBLAST比blastx等翻譯後比對要快得多,同時它在比較編碼區時也具有相當高的敏感度。但是需要指出的是,核酸與核酸之間的比對並不是發現同源蛋白編碼區域的最佳方法,直接在蛋白水平用Blastp比對更好。這是因為密碼子的簡併性。 blastn 比MEGABLAST 更為敏感是因為它使用一個短的默認字長11.所以 blastn從其他物種尋找同源性比MEGABLAST 更好。blastn 字長可以從默認值調整至7來增加檢索的敏感性 用相同字長檢索在discontiguous MEGABLAST 的效率和敏感度要高於標準的blastn。
需要重點指出的是核酸序列的相似性檢索並不是在其他物種中發現同源蛋白編碼區的最好的方法。要完成這項任務最好要通過蛋白質水平上的相似性檢索。可以採用direct protein-protein BLAST和translatedBLAST searches的方法進行。
3)BlastN 運行緩慢,但是允許將字長降低到7個鹼基,增加檢索的敏感性。
9)Filter(較少用)
Filter (Low-complexity)
過濾器(Filter):過濾器可以屏蔽查詢序列中低成分複雜性(Low CompositionalComplexity)片斷(所謂低成分複雜性片段指四種鹼基出現的機會不均等,往往是某幾個鹼基連續出現如此序列:CGGGGGAAAAAAAAGGGGAAAAAAARAAAAMR)。它只能過慮待比對的序列及其轉錄產物中的低成分複雜性片斷,不能過慮資料庫中存在的序列中低成分複雜性片斷。用戶可以在BLAST和BLAST 2.0的高級檢索中選擇相應的過濾程序以消除對檢索結果的幹擾,如不用過濾功能則選擇「NONE」。但是在BLAST和BLAST 2.0基本檢索中,因為,系統對於不同的BLAST程序設定了默認值,例如對於blastn程序,其默認值為「DUST」,其可以消除統計學上有重要意義但生物學上沒意義的區域的對比,使輸出結果只呈現在生物學上有意義的區域。而對於blastn以外的其他程序,默認值為「SEG」,所以用戶只須選擇用不用過慮功能,而不必設定過慮程序。
有時在與WISS-PROT和refseq資料庫中進行比對時SEG程序未起作用,這也是正常的。
4 文獻資源
4.1 PubMed資料庫(文獻下載的重要來源)
目前,PubMed資料庫中收錄有自1860年以來20,400種生命科學類雜誌、刊物刊登過的超過1800萬條的文獻記錄。這些文獻中有980萬條摘要信息,最早的記錄可追溯至19世紀80年代,其中有870萬條可以檢索到全文。PubMed資料庫與其它Entrez資料庫都保持著密切聯繫,這樣可以在不同的資料庫之間架起一座連接的橋梁。PubMed資料庫還會通過計算機自動檢索出包含相近MeSH詞彙、文獻題目以及摘要的相關文獻信息提供給用戶。默認的「AbstractPlus」輸出格式給出了該文獻的摘要信息和五篇與該文獻相關信息的簡單介紹,這樣用戶就可以獲得更多的有關資訊了。
4.2 PubMed Central
PubMed Central是一個收錄生命科學領域同行評審期刊(Peer Reviewed Journals)文獻的資料庫,現收錄超過160萬條全文文獻,並且僅去年一年就增長了51%。而且,包括《核酸研究》(Nucleic Acids Research)在內的480多種期刊會為PubMed Central提供全文文獻。
所有參與PubMed Central的出版商也都必須在文獻出版後12個月之內免費為PubMed Central提供全文文獻。由於NIH於2008年4月7日開始執行向公眾免費開放使用的政策,故而PubMed Central也必須免費向公眾開放使用。如此一來,用戶使用Entrez就可以搜索到PubMed和PubMed Central中的所有文獻信息了。
4.3 NCBI Bookshelf、NLM Catalog以及Journals database
NCBI Bookshelf通過與作者和出版商合作,收錄了86種在線教科書和生物醫藥類圖書。NCBI Bookshelf作為獨立於Entrez資料庫的一個單獨資料庫,它裡面的信息也可以通過文本搜索或Entrez資料庫,例如PubMed、PubMed Central、Gene和OMIM中的連結搜索到。NCBI Bookshelf中的圖書不是象普通圖書那樣一本一本的存放的,而是按照內容將它們分成了230,000個不同的部分、章節進行儲存的。用戶瀏覽其中一個內容的時候也可以跳到該書的其它部分或者直接搜索這本書中的特定內容進行閱讀。
NLM Catalog為藏書超過130萬冊的美國國立衛生圖書館(NLM)記錄設立目錄信息,包括雜誌、圖書、手稿、計算機軟體、錄音文件和其它電子資源。每一條記錄都可連結到NLM LocatorPlus和具有相近題目或MeSH詞彙的相關文件目錄信息。
Journals database(期刊資料庫)包含了每一個Entrez資料庫中的所有期刊信息。目前共收錄有超過22,000條記錄,期刊資料庫為每一份期刊都建立了ISO刊名縮寫索引、出版日期索引和NLM catalog連結索引以及Entrez中引用該期刊中文獻的索引。
5 基因序列信息以及相關序列信息
5.1 資料庫
5.1.1 Gene
Gene資料庫為用戶提供基因序列注釋和檢索服務,還會連結到NCBI的Map Viewer、Evidence Viewer、ModelMaker、BLAST Link (Blink)、protein domains from the Conserved DomainDatabase(CDD)等資料庫資源以及其它與基因相關的資源。Entrez Gene資料庫收錄了來自5300多個物種的430萬條基因記錄。而且,NCBI除了擁有自己的注釋工作人員之外,還在不斷從許多其它國際合作組織那裡獲取新的基因注釋記錄信息。
Gene資料庫與PubMed中最新引文之間的連結是由基因注釋人員負責維護的,這項功能也被稱作GeneRIF。完整的Entrez Gene數據集以及物種特異性的數據亞集可以在NCBI FTP站點中的NCBI ASN.1中找到。一種可以將NCBI ASN.1格式轉化成XML格式的名為ene2xml的軟體也可以到ftp.ncbi.nih.gov/toolbox/ncbi_tools/converters/by_program/gene2xml下載。
5.1.2 UniGene和EST
UniGene從屬於GenBank的一部分,專門收集轉錄體序列數據,包括EST序列和非冗餘序列,每一條UniGene記錄都代表一個潛在的基因。UniGene收錄了GenBank中來自所有物種的EST序列。UniGene資料庫每周都會更新EST信息,每兩個月會更新序列信息。
5.1.3 HomoloGene資料庫
HomoloGene資料庫是一個在21種完全測序的真核生物基因組中自動檢索同源基因的系統,包括直系同源與旁系同源(統計信息見http://www.ncbi.nlm.nih.gov/homologene/statistics/)。HomoloGene的結果報告包括基因同源性和來自OMIM、小鼠基因組信息學(Mouse Genome Informatics, MGI)、斑馬魚信息網絡(Zebrafish Information Network, ZFIN)、酵母基因組資料庫(Saccharomyces Genome Database, SGD)、直系同源基因簇(Clusters of Orthologous Groups,COG)和果蠅資料庫(FlyBase)的基因表型信息。HomoloGene下載功能能下載HomoloGene中的轉錄體、蛋白質和基因組序列信息,還能下載基因組中特定基因的上遊和下遊序列。
5.1.4 Reference Sequences
Reference Sequences(RefSeq)資料庫(http://www.ncbi.nlm.nih.gov/refseq/)是一個收錄注釋過的非冗餘轉錄體、蛋白質和基因組序列資料庫。至今已收集了65,964,245條蛋白序列,涉及60,892個物種。用戶可以通過Entrez核酸和蛋白質資料庫搜索到RefSeq序列,也可以通過NCBI FTP站點(ftp://ftp.ncbi.nlm.nih.gov/refseq/release/)進入RefSeq資料庫。
5.1.5 GenBank和其它資料庫來源的序列
用戶可以通過三個Entrez資料庫——Nucleotide、EST和Genome Survey Sequence(GSS)(這三個資料庫在E-Utilities中分別稱作nuccore、nucest和nucgss)搜索到GenBank中的序列。Entrez Nucleotide資料庫含有除了收錄之外的GenBank中所有的序列,它還收錄有全基因組鳥槍法測序序列、第三方注釋序列(Third Party Annotation sequences)和Entrez結構資料庫中的序列。對這些記錄中編碼序列概念上的翻譯信息都收錄在了Entrez蛋白質資料庫中。EST資料庫收錄了GenBank EST中的所有數據和沒有生物學注釋信息的「單分子識別首次通過(first-pass single-read)」的cDNA序列。同樣,GenBank中的GSS資料庫也收錄了沒有生物學注釋信息的單分子識別首次通過的基因組序列。
5.2 分析工具
5.2.1 ORF Finder、Spidey和Splign
NCBI提供了幾種分析工具可以幫助用戶在基因組內發現編碼序列。Open Reading Frame(ORF)Finder程序可以將一段DNA序列按照6種進行翻譯,然後返回某一段DNA序列中可能的ORF。
Spidey工具將一組真核生物的mRNA序列與一個基因組序列進行比對,使用4種物種的RNA剪切模型(脊椎動物、果蠅、秀麗隱杆線蟲和植物)來預測RNA剪切位點。Splign是一種通過比對cDNA和基因組序列來發現剪切位點的工具,它可以在測序出現錯誤的情況下使用,還可以進行跨物種的比對。Splign使用了一種Needleman-Wunsch算法,與區域化算法(compartmentization algorithm)一起使用能發現可能的基因位點。用戶可以在Splign網頁上下載單獨為大批量分析而專門設計的Splign工具使用。
5.2.2 Electronic PCR(e-PCR)
反向e-PCR(http://www.ncbi.nlm.nih.gov/tools/epcr/)。用戶設計完引物後,可以用反向e-PCR搜索該物種基因組資料庫和轉錄體資料庫來預測基因組結合位點、擴增片段大小和引物特異性,在線版的物種很少,用戶可以自己下載軟體,然後用自己的基因組。
5.2.3 Conserved CDS database(CCDS https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi)
不同的科研小組使用他們各自的方法研究同一物種基因組時,對於基因組中的基因定位可能會得到相似但不完全相同的結論。這樣,就會對其它的科研工作者造成困擾。在所有的模式生物中,目前對人類和小鼠的基因組序列研究得最多也最透徹,因此它們最適合用來作為「標準的(consensus)」基因注釋的「實驗材料」。
CCDS資料庫計劃(www.ncbi.nlm.nih.gov/CCDS/)就是由NCBI、歐洲生物信息學研究院(European Bioinformatics Institute)、韋爾科姆基金會桑格研究院(Wellcome Trust Sanger Institute)和加州大學聖克魯茲分校(UCSC)共同合作建立的標準的有關人類和小鼠基因蛋白質編碼區的資料庫,該資料庫會不斷更新來保持其高水準。用戶可以在CCDS的網頁上使用基因名或序列ID進行搜索,還可以連結到Entrez Gene資料庫、歷史記錄信息、轉錄體和蛋白質序列、Map Viewer、Ensemble Genome Browser、UCSCGenome Browser和桑格研究院的Vega Browser。用戶可以到ftp.ncbi.nlm.nih.gov/pub/CCDS/下載CCDS序列數據。
6 基因組信息
6.1 資料庫
6.1.1 Genome
Genome資料庫(http://www.ncbi.nlm.nih.gov/genome/)收錄真核生物完整基因組數據(包括基因組組裝數據及注釋數據)以及動物、綠色植物和真菌的染色體信息。而對於更高等的真核生物基因組,Entrez Genome資料庫會直接連結到NCBI Map Viewer。原核生物、病毒和真核生物細胞器的基因組則可以連結到專門的頁面和BLAST頁面。另外還專門設有植物基因組頁面(Plant Genomes Central Web page),在上面可以查詢到完整的植物基因組測序計劃、植物基因組BLAST或者Map Viewer等信息。
順便介紹常用下在基因組地方:
NCBI下載。
1、進入NCBI,點擊Assembly
2、輸入要下載的物種名字,本處以小麥為例。輸出結果如下:
以第2條這一版本為例進行點擊查看如下:
3、點擊右上角Download the GenBank assembly,出現如下界面:
4、點擊下載你想要的GFF、基因組文件即可。
Ensemble
進入ensemble網站:http://asia.ensembl.org/index.html。
在網站最下方有Ensembl Bacteria;Ensembl Fungi;Ensembl Plants;Ensembl Protists;Ensembl Metazoa幾個子資料庫
我想檢索小麥,故進入Ensembl Plants資料庫,如下。點擊選擇物種Triticum aestivum
進入如下界面。
點擊Download DNA sequence (FASTA)
另外還以一種簡便方法就是直接從下面頁面下載,網址是:
http://asia.ensembl.org/info/data/ftp/index.html
Phytozome(JGI)下載
1、註冊帳號
https://contacts.jgi.doe.gov/registration/new
2、進入主頁面https://phytozome.jgi.doe.gov/pz/portal.html#
3、選擇物種Triticum aestivum v2.2
4、點擊Bulk data
5、點擊Ok proceed to data
進入如下界面
6、點擊v2.2,可以看到如下界面
7、選擇自己想要的基因組,蛋白質、GFF文件等下載(這裡面還有最長轉錄本primaryTranscriptOnly*信息啊,在由可變剪接情況下不用自己處理奧)
6.1.2 NCBI Trace Archives
Trace Archives資料庫儲存了由凝膠/毛細血管測序平臺(例如Applied Biosystems ABI 3730)測序(一代測序)獲得的序列數據。
6.2 分析工具及資源
6.2.1 Map Viewer
NCBI的Map Viewer顯示了基因組集合、遺傳標記及物理標記以及相關注釋信息和比對信息等其它分析結果。Map Viewer的主頁www.ncbi.nlm.nih.gov/mapview/提供了包括人類、小鼠和大鼠(Rattus norvegicus)在內的超過100種物種的基因組數據。用戶可以看到的圖譜將根據物種的不同可能會有所不同,或許包括細胞遺傳圖譜(cytogenetic maps)、物理圖譜(physical maps)和各種不同的序列圖譜。源自同一物種的多個基因組圖譜可以在同一個頁面中顯示。
6.2.2 Model Maker以及Evidence Viewer
Model Maker(MM)是用來構建轉錄模型的一種工具,它將通過由從頭預測法(ab initio predictions)預測出來的外顯子以及通過與GenBank中的轉錄體資料庫EST和RefSeq比對之後得來的外顯子,與NCBI的人類基因組資料庫結合在一起來構建轉錄模型。
Evidence Viewer(EV)則將所有能支持基因注釋信息正確性的序列信息證據進行了歸納總結,它採用的是將RefSeq、EST等GenBank中的轉錄體信息與基因組重疊群進行比對的方法。EV顯示了每一個外顯子的詳細比對結果,並突出顯示了其中不匹配的部分。
6.2.3 Entrez cancer Chromosomes
Entrez cancer Chromosomes (Entrez癌症染色體)資料庫包含了與人類癌症有關的人類染色體畸變信息,例如基因缺失或轉位等。Entrez癌症染色體資料庫由三個部分組成,即NCI/NCBI SKY(SpectralKaryotyping)/M-FISH(Multiplex-FISH)和CGH(Comparative Genomic Hybridization)資料庫;美國國立癌症研究院(NCI)為癌症染色體畸變信息設立的Mitelman資料庫以及NCI為再發癌症染色體畸變設立的資料庫。每一個畸變都以圖形的形式表現出來,並附之相關臨床病例信息和文獻信息。
6.2.4 TaxPlot、GenePlot和gMap
TaxPlot可以同時給出來自兩個物種蛋白質之間的相似性以及原核生物或真核生物參考物種的完整基因組信息。與其相關的另一個工具GenePlot則可以給出一對完整微生物基因組內的片段,經可視化的缺失、轉位或倒位操作之後,其編碼蛋白質之間的相似性。gMap工具將預先計算過的微生物全基因組比較結果與BLAST比較結果以及核酸序列相似的基因組聚類結果結合在一起進行比對,然後將相似的片段以圖形化的方式表現出來。
6.2.5 Influenza Genome SequencingProject(IGSP)
IGSP(流感基因組測序計劃)為研究流感的科研工作者提供了越來越多的序列資料,他們可以藉此找出流感病毒致病的遺傳性狀。到目前為止,該計劃已經得到了超過33,000條流感病毒序列。NCBI的流感病毒資源也和IGSP之間設有連結,還可以通過PubMed找到所有最新的有關流感病毒方面的文獻和各種在線分析工具及資料庫資源。這些資料庫包括NCBI的流感病毒序列資料庫(Influenza Virus Sequence Database),該資料庫收錄有GenBank和RefSeq中超過70,000條流感病毒的序列。科研人員藉助流感病毒資源提供的各種工具能對超過83,000條流感蛋白質序列進行分析。Entrez的生物學資料庫中還收錄有超過100條流感病毒蛋白質結構信息和350多條有關流感病毒種群研究的資料。還有一種在線流感病毒基因組注釋工具能幫助科研工作者們分析新發現的流感病毒序列並進行注釋,然後將結果通過tbl2asn等上傳工具遞交給NCBI的GenBank資料庫。
6.2.6 Entrez Protein Clusters
Entrez Protein Clusters(Entrez蛋白質聚類資料庫)收錄了由完整的原核生物基因組和葉綠體基因組編碼的28萬多條已確認的RefSeq蛋白質序列,並將這些序列按照分類學的規則進行了歸類(聚類)。NCBI可以將這些蛋白質聚類信息用於基因組範圍內的比對,也可以用於簡化的BLAST——簡單的微生物蛋白BLAST(Concise Microbial Protein BLAST,www.ncbi.nlm.nih.gov/genomes/prokhits.cgi)比對之用。蛋白聚類資料庫還包括注釋信息、出版信息、結構域和結構信息、相關庫外連結和分析工具(例如多序列比對工具和系統發生分析工具)信息等。蛋白質聚類資料庫還通過GenomeProtMap(http://www.ncbi.nlm.nih.gov/sutils/protmap.cgi)與其它基因組資料庫有連結。
7 基因型和表型信息
7.1 基因型和表型資料庫
認識遺傳和環境因素與人類疾病之間的關係,對於幫助我們提高疾病診治水平來說具有非常重要的意義。大範圍的基因型研究能為基因組相關調查、醫療測序、分子診斷以及發現基因型和非臨床特性之間的關係等研究提供數據資料。基因型和表型資料庫(dbGaP;www.ncbi.nlm.nih.gov/sites/entrez?db=gap)是Entrez系統的一部分,它負責管理與可見特徵(表型)相關的遺傳特徵(基因型)。該資料庫收錄的資料來自由NIH資助的全基因組關聯分析(genome-wide association study, GWAS)結果。(詳見grants.nih.gov/grants/gwas/index.htm。)目前dbGaP資料庫收錄的數據來自25個研究項目,用戶可以通過疾病名稱或基因名稱進行搜索、瀏覽。為了保證研究項目的機密性,dbGaP資料庫只接受「去識別(de-identified)」的數據,同時還要求使用個人資料(individual-level)的研究者接受審核。不過,用戶可以不受任何限制的瀏覽研究文件、操作流程和項目問卷調查等資料。
7.2 dbSNP
dbSNP資料庫(單核苷酸多態性資料庫)收錄的是單核苷酸多態性信息,例如單個鹼基的替換、缺失或插入信息。共收錄有將近1800萬條人類SNP信息和3300萬條其它各物種的SNP信息。dbSNP資料庫還收錄確認信息、種群特異性等位基因頻率信息(population-specific allele frequencies)和個體基因型信息。所有這些信息都可以在dbSNP資料庫的FTP站點中找到。
7.3 供常規臨床應用的資料庫
7.3.1 dbMHC
dbMHC資料庫是有關主要組織相容性複合體(MHC)的資料庫。它收錄了各種MHC等位基因的變異信息,這些信息與器官移植以及個體對感染性疾病的易感性有非常重要的關係。dbMHC資料庫收錄了1000多條MHC等位基因序列以及這些等位基因在人群中出現的頻率,還收錄了人白細胞抗原(HLA)的基因型與全世界臨床造血幹細胞移植成功率之間的信息。
7.3.2 dbLRC
dbLRC資料庫則是全面收錄白細胞受體複合物(LRC)等位基因信息,主要關注LRC中的KIR基因。
7.3.3 dbRBC
dbRBC資料庫收錄的是與紅細胞抗原或血型有關的基因及其序列信息。該資料庫是將血型抗原基因突變資料庫(Blood Group Antigen Gene Mutation Database)中的資源與NCBI中的相關資源整合到一起組建而成的。dbRBC資料庫裡收錄的每一個基因都有詳細的信息,還有國際輸血學會(ISBT)通過等位基因命名法對血型等位基因的命名。上述這三個資料庫都帶有多序列比對工具、分析純合型或雜合型序列的工具以及DNA探針比對工具。
7.4 OMIM
NCBI的OMIM是Entrez的一個組成部分,主要收錄人類基因和遺傳病相關信息,它由約翰霍普金斯大學(Johns Hopkins University)的VictorA. McKusick小組負責維護。OMIM資料庫收錄了疾病表型與基因的相關信息,包括對該遺傳病詳細的描述、基因名稱、遺傳方式、基因定位、基因多態性以及詳細的相關參考文獻信息。
2016年9月22日,中國「諾亞方舟」——中國國家基因庫正式投入運行。這是繼美國、日本、歐盟之後,全球第四個建成的國家級基因庫,也是目前為止世界最大的基因庫。未來大眾掌握自己的健康數據將不再是出現在科幻電影中的情節。
借著國家基因庫這股強勁的龍捲風,今天小編為您送上廣受關注的、與人類遺傳性疾病相關的資料庫——Online Mendelian Inheritance in Man(OMIM)。
OMIM(http://omim.org/)意為在線《人類孟德爾遺傳》,是持續更新的、關於人類基因和遺傳紊亂的資料庫。它主要著眼於可遺傳的或遺傳性的基因疾病,包括文本信息和相關參考信息、序列紀錄、圖譜和相關其他資料庫。對臨床醫生和生物醫藥研究人員而言,OMIM是珍貴的基因組學基礎資源。
OMIM前世今身
MIM原是由美國Johns Hopkins大學醫學院Victor AMcKusiek教授主編的《人類孟德爾遺傳》(Mendelian Inheritance in Man:Catalogs of HumanGenes and Genetic Disorders,MIM),這本書一直是醫學遺傳學最權威的百科全書,被譽為醫學遺傳學界的《聖經》。MIM 包括所有已知的遺傳病、遺傳決定的性狀及其基因,除了簡略描述各種疾病的臨床特徵、診斷、鑑別診斷、治療與預防外,還提供已知有關致病基因的連鎖關係、染色體定位、組成結構和功能、動物模型等資料,並附有經縝密篩選的相關參考文獻。MIM 制定的各種遺傳病、性狀、基因的編號,簡稱MIM 號,被全世界公認。有關疾病的報導必須冠以MIM 號,以明確所討論的是哪一種遺傳病。
疾病基因及其分子醫學的研究日新月異,儘管印刷版本的MIM一厚再厚,但已很難跟上醫學遺傳學發展的步伐。因此,1987年聯機形式的OMIM應運而生,免費供全世界科學家瀏覽和下載。目前,OMIM在Johns Hopkins大學醫學院Dr. Ada Hamosh的指導下,由McKusick-Nathans遺傳醫學研究所編輯和授權。
OMIM資料庫內容組成
上圖是OMIM界面圖示,我們能夠看到OMIM資料庫的組成部分,介紹如下:
Home:OMIM主界面
About:介紹OMIM信息
Satistics:包括3部分內容,即數據增加或刪改信息、OMIN條目統計、OMIM基因圖譜統計
Downloads:註冊下載或API
Help:常見問題、搜索幫助、連結幫助和API幫助
ExternalLinks:外部資源連結
Terms ofUse:如何在參考文獻中引用OMIM
如何解讀MIM編號?
被世界公認的MIM號如何解讀,有何特殊意義?下面我們來解讀MIM獨特的六個位編號。
100000-299999:常染色基因座或表型(條目創建時間早於1994年5月15日)
300000-399999:X連鎖位點或表型
400000-499999:Y連鎖位點或表型
500000-599999:線粒體位點或表型
600000-699999:常染色體位點或表型(條目創建時間晚於1994年5月15日)
如果是等位基因異質性,MIM編號後面會加上小數點和4位數字,指明變異。例如:HBB基因(141900)等位基因變異的MIM編號是141900.0538。
MIM編號前的符號代表什麼?
*:基因
#:描述型條目,通常是一個表型,而不是特殊位點
+:條目包括已知序列基因和表型的描述
%:該條目描述了已經確定的孟德爾表型或含有未知的分子基礎的表型位點
^:這個條目已經不存在,已經從資料庫中移除或被移至其他條目中了
無符號:孟德爾遺傳情況還未被明確,或者它從裡一條記錄的性狀中分離的情況還不明確
如何使用OMIM檢索信息?
OMIM支持多種搜索方式,詳細介紹如下:
1、基礎搜索方式:
1)輸入MIM號或症狀,搜索結果會按照信息匹配多少順序一一列出。
2)使用+/-,如:輸入+muscular +dystrophy -duchenne,搜索到的條目包括muscular、dystrophy 但不包括duchenne。
3)使用引號,搜索短語,如:「+muscular +dystrophy」-「duchenne gene」, 搜索到的條目包括「muscular dystrophy」但不包括「duchenne gene」。
4)使用通配符?和*,?用於單字母匹配搜索,*用於多字母匹配搜索。如:輸入dystroph*,系統會反饋dystrophia/dystrophin/dystrophic/dystrophy等的條目。輸入dystroph?,系統會反饋dystrophin/dystrophic/dystrophy等,但是不會出現dystrophia的條目。
5)支持Boolean 符號搜索,如:輸入muscular AND dystrophy NOT duchenne,與+muscular+dystrophy –duchenne,系統反饋信息一致。
6) 分組搜索,有時使用Boolean 搜索,系統反饋信息不精確,不能迅速看見我嗎想要查詢的信息,這時我們可以採用分組搜索的方式。分組搜索使用小括號對輸入信息進行分組,如:(muscular AND dystrophy) OR (duchenne AND gene)。
7) 近似搜索:限制兩個詞之間的距離,使用~。如:"muscular dystrophy"~10,搜索到的條目中muscular與 dystrophy之間的距離不會超過10個字母。
8) 日期搜索:以年/月/日的形式搜索,可以加-、*等。
9) 染色體位置搜索:輸入1p36-p32,搜索結果顯示位於這個區域基因對應的條目。
2、高級搜索方式,如下圖所示。您可以限定搜索信息範圍,精確搜索。
OMIM能夠搜索那些信息?
以「+141900」為例,OMIM反饋信息如下圖所示(搜索結果部分顯示)。
總結性信息:基因名、染色體的位置(參考GRCh38)、與該基因相關的表型。
詳細描述信息:基因描述、基因結構、基因圖譜、假基因、基因功能、生化化學特徵、分子遺傳學、動物模型、等位基因變異、臨床提要等,另外還包括參考文獻、條目創建日期、創建人、編輯史等信息。
如果您還想看更多信息,可以查看OMIM提供的外部資源連結。
7.5 OMIA
OMIA(動物在線孟德爾遺傳)資料庫是一個有關動物(除了人類和小鼠)基因和遺傳病的資料庫,由澳大利亞雪梨大學(University of Sydney, Australia)的FrankNicholas教授等人建立。該資料庫收錄了超過2500條記錄,其中包括文本信息、參考資料信息以及與OMIM、PubMed和Entrez Gene這些資料庫之間的連結。
8 基因表達
8.1 Gene Expression Omnibus(GEO)
GEO(基因表達精選集)是一個儲存高通量功能基因組學數據的資料庫,這些高通量功能基因組學數據來自晶片和二代測序得到的試驗數據。GEO除了收錄基因表達數據之外還收錄其它數據,例如基因組拷貝數變異數據、基因組-蛋白相互作用數據以及基因組甲基化數據等。該資料庫既接受原始數據,也接受經過處理的數據。GEO資料庫被分為兩個部分收錄在Entrez中,分別是GEO Profiles資料庫(它負責收錄一個基因在一次試驗中的定量基因表達數據)和GEO資料庫(收錄整個試驗的數據)。
8.2 GENSAT
GENSAT是有關小鼠中樞神經系統基因表達譜的資料庫,這些數據是由美國神經障礙和中風研究院(National Institute of NeurologicalDisorders and Stroke)提供的。GENSAT儲存了小鼠大腦的組織切片圖像,這些組織切片中都含有各種標籤,例如增強的綠色螢光蛋白標籤等,這樣可以根據標籤的螢光強度來判斷基因的表達量。GENSAT共收錄了8萬多幅圖像資料,還提供搜索功能、資料下載功能、縮放功能和比對功能。
8.3 Entrez Probe
NCBI Probe database(探針資料庫)是一個公共的核酸試劑資料庫,它可以提供試劑信息、銷售廠家信息、探針有效性信息,還可以計算序列相似性。該資料庫儲存了960萬條探針序列,這些探針可以分為31大類,包括用於基因分型的探針、發現SNP的探針、基因表達探針、基因沉默探針、基因測序探針等等。
8.4SRA資料庫
SRA(Sequence ReadArchive)資料庫是用於存儲二代測序的原始數據,包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics。除了原始序列數據外,SRA現在也存在raw reads在參考基因的比對信息。
根據SRA數據產生的特點,將SRA數據分為四類:
Studies-- 研究課題
Experiments-- 實驗設計
Runs-- 測序結果集
Samples-- 樣品信息
SRA中數據結構的層次關係為:Studies->Experiments->Samples->Runs.
Studies是就實驗目標而言的,一個study 可能包含多個Experiment。
Experiments包含了Sample、DNA source、測序平臺、數據處理等信息。
一個Experiment可能包含一個或多個runs。
Runs 表示測序儀運行所產生的reads。
SRA資料庫用不同的前綴加以區分:
ERP或SRP表示Studies;
SRS 表示 Samples;
SRX 表示 Experiments;
SRR 表示 Runs;
教一下大家如何更加快速的(可都是Mb/s的速度奧)下載SRA文件,還有其他NCBI上所有數據大家自己發揮,都能找到,快速下載!
一、window系統
1、軟體下載。Aspera Connect下載, 下載地址:http://www.asperasoft.com/downloads,選擇相應版本,安裝到本地電腦上;
2、數據網址獲得。所有適用於aspera下載的數據均在此網址內http://www.ncbi.nlm.nih.gov/projects/faspftp/,你只需要找到對應的數據點擊即可彈出aspera軟體下載界面,下載即可(一個一個下,不可貪多奧!)
SRA數據下載截圖,找到對應的SRR號,點擊黃色部分SRR000001.sra即可完成下載
基因組相關信息網址:找到genome,然後找到對應物種拉丁文即可,注意點擊黃色部分向右的小箭頭,會翻頁的奧!(別找不到自己的物種)
二、linux系統
1. 進入linux伺服器,下載aspera。
輸入:wgethttp://downloads.asperasoft.com/download/sw/connect/3.1/aspera-connect-3.1.1.70545-linux-64.tar.gz
將會開始下載。
2. 下載完畢後,解壓,輸入: tar xvf aspera-connect-3.1.1.70545-linux-64.tar.gz
3. 安裝輸入:sh aspera-connect-3.1.1.70545-linux-64.sh
4. cd 到/home/usrname文件夾,ls-a就能看到 .aspera
這就是安裝的文件夾。
5. 重要一步,添加環境變量,否則不能用。輸入
exportPATH=$PATH:/home/username/.aspera/connect/bin
6. 數據下載。
可以按照這個模板去下載了SRA數據(如果很多可以把所有命令寫到一個shell裡面,nohup提交睡大覺去就可以了,明早一醒,全部ok)
nohup /home/usrname/.aspera/connect/bin/ascp -i/home/usrname/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200manonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra./ &
9 分子結構和蛋白質組學
9.1 MMDB
NCBI的MMDB資料庫收錄了Protein Data Bank資料庫中經試驗驗證過的數據信息,包括蛋白質結構域注釋信息、與相關文獻的連結信息、蛋白質和核酸序列信息、PDB異基因(PDB heterogens)信息、CDD中的保守結構域信息和經VAST算法計算出的結構鄰域(structural neighbors)信息。用戶可以通過在MMDB資料庫中進行文本搜索得到相關的簡要結構信息圖,還能連結到NCBI結構和在比對瀏覽器Cn3D中查看搜索結果。
9.2 分析工具
Blink工具能顯示預先計算(pre-computed)出的BLAST比對結果,即與Entrez資料庫中每一條蛋白質序列相似的序列。用戶可以限定一些參數,例如物種類別或被比對的資料庫等來對結果進行篩選。
9.2.1 開放式質譜搜索算法
開放式質譜搜索算法(Open Mass Spectrometry Search Algorithm,OMSSA)是一種與BLAST類似的算法,利用和BLAST中E值一樣的方法在已知的蛋白質序列資料庫(非冗餘資料庫或refseq資料庫)中找出與待測序列最相近的已知序列。在OMMSA的網頁上可以一次分析2000多個樣品。用戶還可以到ubchem.ncbi.nlm.nih.gov/omssa/download.htm.站點下載可進行更大量分析的OMSSA軟體。
9.2.2 HIV-1/Human Protein InteractionDatabase
美國國立過敏和傳染病研究所愛滋病部(The Division of Acquired Immuno DeficiencySyndrome of The National Institute of Allergy and Infectious)與南方研究院(Southern Research Institute)和NCBI合作,建立了HIV-1/Human Protein InteractionDatabase(HIV-1/人類蛋白相互作用資料庫),用來記錄HIV-1病毒蛋白和人類宿主細胞蛋白之間的相互作用。在www.ncbi.nlm.nih.gov/RefSeq/HIVInteractions/index.html網頁上用戶可以找到蛋白質在RefSeq中的檢索號、Entrez Gene ID號、相互作用的胺基酸位點、對相互作用的簡單描述、關鍵詞和PubMed ID號等信息。
10 PubChem
PubChem是NIH設立分子圖書館以及開展研究小分子化學、結構和生物學特性工作的基礎。三個Entrez資料庫——PCSubstance、PCCompound和PCBioAssay收錄了所有的相關信息。這三個資料庫共收錄有將近4100萬條小分子記錄和1900萬種結構。其中750,000條記錄都在PubChem中收錄的1200種生物檢測方法中的至少一種生物檢測試驗中具有活性。PubChem不僅與PubMed、PMC等Entrez資料庫有連結,還與Entrez Structure和EntrezProtein有連結,這樣就將基因組水平的生物大分子與細胞代謝水平的小分子聯繫起來了。用戶可以使用文本在PubChem資料庫中進行搜索,也可以使用各種格式的化學分子式或化學結構進行搜索。
11.Taxonomy
物種系統分類學資料庫,可以用做進化樹的顯示工具。
這裡可以選擇在線輸入名字或者導入文件。
我以導入文件為例:
我的文件如下:
Human
Mouse
Rat
Dog
保存為txt文本格式,然後導入,然後點擊運行:
點擊select
然後點擊save 保存為pyhlip tree格式
然後用treeview軟體打開。
這樣我們就得到了物種從系統分類上的進化關係。
本文總結了BLAST序列相似性搜索程序、ENTREZ 搜索系統、PubMed搜索功能、GenBank和其它資料庫來源的序列、分析工具及資源、基因型和表型信息資料庫、Gene Expression Omnibus(GEO)資料庫、分子結構和蛋白質組學、PubChem等NCBI數據中資源的功能和使用方法。
歡迎關注生信人