【乾貨】生物信息學基礎-如何向NCBI-GenBank提交基因序列

2021-01-14 美捷登

生物信息學是當前生物醫學領域的熱門研究方向,其理論知識和方法學已經滲透到各個領域。其中對於從事病原微生物分子流行病學調查研究的學者,往往就要利用分離到的微生物分離株,從基因水平分析其特徵並和已知流行分離株基因信息進行比對分析,特別是利用相關生物信息學分析軟體來進行比對基因組信息,以及分析該基因組與其他已有的參考序列之間的遺傳進化關係非常重要;進而有效指導研究者判斷該病原微生物的流行特點和趨勢,能更好地指導該流行病的防控。


筆者在此通過美捷登平臺向大家簡要展示:以病原微生物基因組序列遺傳進化樹分析為例介紹如何進行多序列的比對和進化樹繪製。

進行多序列比對分析和進化樹繪製常常需要用到DNAstar和MEGA兩個軟體,目前兩個軟體均可免費下載,具體的安裝方法不再贅述。

 

首先用戶進入NCBI資料庫根據序列號下載擬加入分析分目標參考序列(具體的獲取方法可參考網上教程),具體的保存方法是找到每條序列的CDS編碼區,複製後打開DNAstar軟體包Editseq,粘貼後保存為.seq後綴的文件。隨後用Editseq將所有序列打開(這裡打開20條seq後綴的文件),如圖1所示。


                           

點擊File下的Exportall as one選項,保存為fas後綴名的文件,如圖2所示。



打開DNAstar軟體包MegAlign,將之前保存的fas後綴名的文件拖進軟體,即可打開,如下圖3所示。



打開.fas文件後點擊Align中byclustal W method分析進行多序列的比對,如圖4所示。



分析完成後即可拖動下滑按鈕,觀察和參考序列基因組中有無發生突變、插入和缺失等信息,如圖5所示。分析完成後保存為.meg後綴的文件,方便下次分析。



繪製遺傳進化樹常用MEGA軟體,用戶可自行下載安裝該軟體。首先將Editseq軟體保存的.fas文件拖入MEGA軟體,如圖6所示。



點擊Align,選擇工具欄中W分析比對方法,彈出窗口默認即可,如圖7所示。分析完成後保存在.mas後綴的文件,將.mas文件用MEGA打開,選擇Analyze



選擇Analysis選項中Phylogeny/Maximum likelihood tree,彈出窗口選擇「Yes」,如圖8所示。



彈出窗口Phylogeny Test選擇bootstrap method,單位為1000,選擇compute進入下一步自動計算步驟,如圖9所示。 





計算完畢後則會顯示出此次分析後的進化樹,還可以利用工具欄對進化樹進行修飾美化編輯。可以看到目標序列與參考序列的遺傳進化關係,從而判斷目標序列與參考序列之間有無親緣關係甚至重組。當然類似的軟體還有很多,同時也可以有不同的分析方法,在此只列舉其中的這一種,也是筆者曾經用過的方法,並且也運用該分析方法將文章發表在病毒學官方雜誌JOURNALOF VIROLOGY上。希望能對大家有所幫助。


 





相關焦點

  • 分分鐘搞定NCBI GenBank序列上傳
    然而,如何向NCBI GenBank提交這些序列,提交什麼序列?這一系列的數據提交問題則成為了科研工作者不得不面對的一個棘手難題。在此,我將對目前高通量測序數據的提交做一個簡單概述,並著重對提交基因組測序進行講解,希望對大家有用。有不對的地方,請大家批評指正。
  • 凌波微課|菌種鑑定序列上傳NCBI,so easy!
    這些物種鑑定序列的通常是上傳到NCBI Genbank資料庫。本期凌波微課就手把手帶你輕鬆搞定菌種鑑定序列上傳Genbank資料庫。/subs/genbank/),點擊New submission,新建上傳任務;
  • 數據上傳NCBI三劍客之③—上傳菌種鑑定序列
    這些物種鑑定序列的通常是上傳到NCBI Genbank資料庫。前兩篇推文中,小編為各位小夥伴們介紹了測序原始數據上傳SRA資料庫和微生物基因組上傳NCBI,在本期小編繼續帶小夥伴們輕鬆學會將菌種鑑定序列上傳Genbank資料庫。
  • NCBI微生物基因組批量下載
    不要哭,今天小編就為大家提供幾個批量下載某物種或特定物種基因組並獲取基因組預測及注釋信息的方法。1、ftp://ftp.ncbi.nlm.nih.gov/genomes/GENOME_REPORTS主要是在分類學水平上對物種基因組信息以文件夾的形式歸類,最終基因組整理統計的基本信息展示在Browse網站(第二部分詳述)(1) ftp://ftp.ncbi.nlm.nih.gov/genomes/all/ (2) ftp://ftp.ncbi.nlm.nih.gov
  • 【收藏版】生物信息學資料庫大全
    http://ncbi.nlm.nih.gov/genbank/genomes/H_sapiens/ ★英國的Sanger中心的人類基因組計劃網頁,不僅有它們負責測序的染色體數據,還有到其他染色體數據的連結。
  • 生物信息學資料庫大全
    http://ncbi.nlm.nih.gov/genbank/genomes/H_sapiens/ ★英國的Sanger中心的人類基因組計劃網頁,不僅有它們負責測序的染色體數據,還有到其他染色體數據的連結。
  • 如何使用 NCBI 查找基因序列、mRNA、Promoter | 實驗
    有不少人詢問如何查詢基因序列、如何進行引物設計、如何使用 BLAST 進行序列比對.其實這些問題在 NCBI 上都可以方便的找到答案
  • NCBI介紹
    NCBI 開發有 Genbank 等公共資料庫,提供 Pubmed 、 BLAST 、 Entres 、OMIM 、 Taxonomy 、 Structure 等工具,可對國際分子資料庫和生物醫學文獻進行檢索和分析,並開發用於分析基因組數據和傳播生物醫學信息的軟體工具。
  • Nucleic Acids Reasearch 重磅推薦 | NCBI多個核心資料庫:核酸序列、PubMed等更新與使用指南!
    NCBI最近為用戶添加了一種新方法,以供用戶在NCBI RefSeq數據集中表示的生物體內和生物之間找到與進化相關的基因。這項新服務的目的是讓用戶輕鬆地從越來越多的帶注釋的真核參考基因組中訪問序列數據,以及同源基因集的可視化和分析工具,促進比較基因組學研究。
  • 生物信息學怎麼做2
    基因篇。。。。。。。。。。可以說是很難產了。太難啦。。。。。想哭。。。首先要明白一些基礎知識:    而在真核生物中,啟動子指的是對基因轉錄起始有重要作用的序列,不像原核生物那麼保守,並且啟動子的序列較多。
  • 使用BioNumerics軟體批量下載NCBI中基因序列
    使用BioNumerics軟體批量下載NCBI中基因序列大家可能曾經都被如何批量下載NCBI中的數據所困擾,在NCBI的網站上苦苦搜尋,但是無從下手。本文將介紹如何通過BioNumerics軟體實現基因序列的批量下載。
  • 生物信息神奇網站系列(九):批量下載序列
    但是如果想下載來自多個物種的不同基因序列,例如給定一個基因列表list,如何下載到這些序列呢?這就需要用到Batchentrez。專欄一:手把手教你生信分析平臺搭建專欄合集專欄二:生物信息神奇網站系列(一):R繪圖Gallery生物信息神奇網站系列(二):Python繪圖Gallery生物信息神奇網站系列(三):Seqanswers生物信息神奇網站系列(四):Biostars生物信息神奇網站系列
  • 生物信息學之 生物資料庫
    NCBI GenBank(http://www.ncbi.nlm.nih.gov/)由美國國家生物技術信息中心(National Center for Biotechnology Information,NCBI)開發並負責維護。
  • 生物信息學相關網站
    研究領域主要涵蓋序列分析,蛋白質組學和基因組學等。該網站提供了資料庫,電子論壇,教育,新聞,軟體,招聘啟事等。該網站還提供了相關連結,包括歐洲分子生物學以色列國家網點,以色列國家基因組基礎設施實驗室以及國際生物信息學合作中心。
  • 阿里雲推出高效病毒基因序列檢索功能,它的底層邏輯原來是這樣的
    為了演示我們的基因片段檢索的方法,我們從genbank下載了大量的病毒RNA的片段,和genbank內部的關於病毒的論文以及google scholar中相關病毒的論文導入到AnalyticDB基因檢索資料庫中。
  • 手把手教你提交微生物基因組序列數據
    包括生物項目數據(BioProject),即生物學研究項目信息進行收集整理的資料庫,可以根據所產生的數據類型來識別一個項目;生物樣本數據(BioSample)為一個中心位置,可與項目庫連結,也可獨立,用於收集病毒、細菌、真菌等微生物的菌株及樣本、微生物環境樣本(元基因組)描述信息;核酸序列數據(NucleotideSeq)收集16S rRNA、rRNA-ITS等特徵基因片段以及其他微生物相關的核酸序列
  • 曙光生物基因序列研究解決方案
    如何分析這些基因數據,從中獲得生物結構、功能的相關信息是基因組研究取得成果的決定性步驟。基因組的研究也將全面進入信息提取和數據分析階段,即基因組信息學發揮重要作用的階段。         基因組信息學是生物信息學的核心。包括基因組信息的獲取、處理、存儲、分配和解釋。
  • 凌波微課|NCBI數據批量下載,你會了嗎?
    ,呃……16S rRNA、功能基因進化樹來一個,同源基因、共線性分析走起。哎,等等,這些分析都屬於比較基因組分析,需要首先選擇合適的參考物種基因組,可是一個一個查找下載太麻煩,有什麼辦法一鍵批量下載呢?
  • Deep Learning在生物信息學中的又一個應用
    Deep Learning,現在幾乎到處都能看到它的應用。下面這張示意圖展示的是各個主要的表觀修飾在染色體中的位置和相關實驗測定技術。圖片來源:10.3724/SP.J.1206.2012.00434為什麼要有這麼個東西呢?眾所周知,人類基因組上絕大部分的序列都是非編碼序列——不直接編碼蛋白質的序列,這些序列很長一段時間以來都被誤解為所謂的「垃圾DNA」!
  • NCBI教程|如何從NCBI批量下載序列並用MEGA畫進化樹
    後,利用序列的NC號或者GI號直接搜索下載即可。備註:NC號即為完整的基因組分子序列,標記的類別包括基因組、染色體、細胞器、質粒等。如果想要查找Japanese yam mosaic virus的基因組參考序列的話,可以在NCBI主頁選擇基因組資料庫,搜索Japaneseyam mosaic virus,就可以得到其NC號了(在這裡就是NC_000947),然後就可以下載其相應的序列文件。 打開這個網址:http://www.ncbi.nlm.nih.gov/sites/batchentrez。