親愛的科研同僚們,在曲折的探索道路上是否還在為找不到目標物種的基因組而抓耳撓腮?不要哭,今天小編就為大家提供幾個批量下載某物種或特定物種基因組並獲取基因組預測及注釋信息的方法。
1、ftp://ftp.ncbi.nlm.nih.gov/genomes/GENOME_REPORTS
主要是在分類學水平上對物種基因組信息以文件夾的形式歸類,最終基因組整理統計的基本信息展示在Browse網站(第二部分詳述)
(1) ftp://ftp.ncbi.nlm.nih.gov/genomes/all/
(2) ftp://ftp.ncbi.nlm.nih.gov/genomes/genbank/
(3) ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/
2、通過軟體Filezila批量獲取:將FTP地址輸入Filezila軟體中,點擊快速連結,即可批量將數據導入個人電腦。
二、Batch Entrez微生物基因組批量下載:
1、根據登錄號
① 將登錄號整理成一個List文件
② 登陸網址Batch Entrez(http://www.ncbi.nlm.nih.gov/sites/batchentrez),將準備好的登錄號文件(如下左圖)上傳至該網站,點擊「Retrive」獲取目標格式文件。
③ 跳轉到統計界面,共搜索到8327條序列,點擊「UID」
④ 點擊「Send to」可選擇批量下載核苷酸序列、胺基酸序列以及gbk文件等。
2、根據物種名
① 登陸Browse網站https://www.ncbi.nlm.nih.gov/genome/browse/#!/overview/
② 根據物種對網站篩選條件進行限定,點擊「Download」下載篩選後的物種信息統計表
③ 整理下載後表格,用Excel自帶的「分列/替換」功能對下圖高亮列處理,提取物種基因組登錄號,重複上述根據登陸號下載基因組的步驟。
FTP中基因組是以文件夾層級的形式存儲,有些是將某物種基因組序列及注釋信息存放在一起,有些是對目前所有已發表基因組序列的合併儲存。
Batch Entrez軟體批量下載結果中將list中包含的所有物種的基因組序列(fatsa)、基因序列(ffn)、gbk文件(gb)等分別儲存至一個文件,以txt或fasta的形式存儲,這需要用用戶後續對所需信息進行提取。
這兩種方法用戶可很據需求及所需下載的數據量進行選擇,若下載數據量過大建議使用FTP及Filezila軟體結合的方法;若需要快速簡便下載數量少的基因組信息,建議用Batch Entrez。
1、FTP
File Transfer Protocol(文件傳輸協議)的英文簡稱,用戶可通過它連接到遠程主機上,並從其下載文件。通過FTP連結到NCBI伺服器,並從該伺服器上免費下載NCBI整理好的儲存文件
NCBI的FTP地址:https://ftp.ncbi.nih.gov/
NCBI的 FTP資源:資料庫(dbSNP、Entrez Gene、Refseq、CCDS)和分析工具(Blast、e-PCR)等
2、Batch Entrez網站報錯解決方法
可能出現的報錯有以下兩種:
(1)建議使用谷歌瀏覽器打開,清空瀏覽器歷史記錄
(2)存儲物種基因組登錄號的List文件不要太大,若下載基因組多可拆成幾個相對小的文件分別提交
(3)網絡不穩定的情況下可嘗試多次提交,下載完成後建議檢查數據下載的完整性
微生物基因組產品線 文案|馬貝貝