NCBI批量下載數據實操
經過分離、實驗室純化培養、基因組測序,小Young終於拿到了心心念念的菌株的基因組序列,迫不及待的要開展分析,呃……16S rRNA、功能基因進化樹來一個,同源基因、共線性分析走起。哎,等等,這些分析都屬於比較基因組分析,需要首先選擇合適的參考物種基因組,可是一個一個查找下載太麻煩,有什麼辦法一鍵批量下載呢?
本期凌波微課為大家介紹兩種數據批量查找和下載的方法,具體操作猛戳上方視頻哦~
Batch Entrez簡介
網址:https://www.ncbi.nlm.nih.gov/sites/batchentrez?Batch Entrez是NCBI的一個檢索系統,它提供了批量的ID檢索,在小數據量的時候使用起來是非常方便的。這裡可以通過ID檢索NCBI下面的幾乎所有的子資料庫,包括Nucleotide、Protein、PubMed、Gene等。Batch Entrez下載時最好使用google瀏覽器。Genome資料庫簡介
網址:https://www.ncbi.nlm.nih.gov/genome/
該資料庫包含了NCBI目前收錄的所有物種的基因組數據,Browse by Organism提供了通過物種拉丁文名稱進行過濾檢索物種信息,並給出了序列登錄和FTP站點地址,適用於大批量的數據查找和下載。
1. Batch Entrez下載時最好使用google瀏覽器,準備的list文件使用excel表格編輯,填寫基因組、蛋白質或者基因序列的登錄號ID,保存為制表分隔符的文本文檔,如下:2. Batch Entrez下載時需要選擇好檢索的子資料庫,例如Nucleotide、Protein、Genome、Gene,一次檢索一類數據。3. Genome資料庫通過物種拉丁文名稱檢索同源物種數據,得到登錄號之後可以選擇通過Batch Entrez批量下載;或者下載檢索表格,將基因組ftp站點連結整理為一個list,通過linux中wget命令下載,示例命令如下:
wget -c ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/004/214/875/GCF_004214875.1_ASM421487v1/*wget -c -r -i listlist文件示例如下:
凌波微課,創意於2020年不平凡的春天,由高通量測序及組學研究領域從業近十年的技術團隊精心打造。
凌波微課的講師們,實戰經驗豐富,旨在通過在線微課程及線下交流,幫助科研學生及科研工作者們由簡入繁,掌握科研思路及生信分析的實際操作。凌波微課,用心服務科研用戶,打造專業培訓品牌,助力科研提升。關注凌波微課公眾號,回復「入群」,即可加入凌波微課課下交流群,更多乾貨等你呦!