教你無限制批量下載JGI-IMG基因組數據!

2021-03-02 美格基因

IMG(Integrated Microbial Genomes,https://img.jgi.doe.gov/cgi-bin/m/main.cgi)由美國能源部聯合基因組研究中心(Joint GenomeInstitute,JGI)於2005年創立,是綜合的微生物基因組資料庫及比較分析系統。IMG收錄了細菌、古菌、質粒、病毒以及少量真核生物基因組數據,其數據主要來源於NCBI的RefSeq資料庫,但是增添了更加詳細的注釋信息,例如CRISPR序列、信號肽、非編碼RNA、功能基因等。IMG基於COG、Pfam、TIGRfam、InterPro、GO和KEGG等資料庫產生基因家族的注釋信息。其主頁如下所示:

IMG整理了詳細的微生物基因組信息,包括物種的分類、生存環境、基因組序列長度、GC含量、編碼基因數目、數據質量以及研究項目信息等,目前僅細菌基因組收錄的數目已超過5萬。在IMG搜索頁面(Find Genomes),每個條目均可排序篩選,查詢搜索十分方便,且基因組信息可以很方便的輸出。

基因組注釋信息我們可以很方便的導出到表格,那麼如何批量下載對應的基因組序列數據呢?在JGI Portal的主頁中(https://genome.jgi.doe.gov/portal/)列出了三種可行的下載方法,如下所示:

批量下載我們推薦第三種也即使用API進行下載,這樣我們可以很好的整合到程序裡面,在伺服器進行下載。點擊上面第三種方法,頁面上會列出curl地址及使用方法,如下所示:

首先我們需要在JGI主頁(https://img.jgi.doe.gov)註冊一個帳戶,然後使用Perl語言根據上述信息編寫下載程序:

use strict;use warnings;use Getopt::Long;
die "perl $0 -cookies yes|no $0 \n" if $#ARGV<0;my($cookies);GetOptions("cookies=s"=>\$cookies);my $user='xxxxxxxxx'; my $passwd="xxxxxxxxxx"; `curl 'https://signon-old.jgi.doe.gov/signon/create' --data-urlencode "login=$user" --data-urlencode "password=$passwd" -c cookies > login.log` unless $cookies eq "no";
while(<>){ chomp; next if /taxon_oid/; next if /^$/; my @line=split /\t+/; my $specie_name="IMG_".$line[6]; `curl 'https://genome.jgi.doe.gov/portal/ext-api/downloads/get-directory?organism=$specie_name' -b cookies > xml 2>/dev/null`; my($specie,$url)=&xml2url("xml",$specie_name); `curl 'https://genome.jgi.doe.gov/portal/ext-api/downloads/get_tape_file?blocking=true&url=$url' -b cookies -m 600 > $specie.tgz 2>/dev/null` if $url;}
sub xml2url{ my ($xml,$spe)=@_; open XML,$xml or die "Failed to open xml: $!"; my $input=join("", <XML>); if($input=~/label="(.+?)".+?url=(\/IMG.+?tar\.gz).+?md5/m){ my $label=$1; my $url=$2; $label=~s/\s+/_/g; $label=~s/[\(\)]/_/g; `mv $xml $label.xml`; return $label,$url; }else{ `cp $xml $spe.xml` ; }}

此腳本最初發表於博客網站(http://blog.sina.com.cn/u/2622394401),這裡我根據IMG的curl網址變化進行了修改。我們將此腳本保存為down_genome_from_jgi.pl。接下來在IMG主頁搜索需要下載的基因組:

選中要下載的基因組後點擊Export保存xls文件到自己的電腦,然後上傳到伺服器,下載的文件如下所示:

其中第七列為IMG Genome ID,如果不是需要修改前面腳本的第18行。在伺服器批量下載這些基因組如下所示:

perl down_genome_from_jgi.pl taxontable56069_28-may-2019.xls

下載完成後每個基因組均有一個後綴tgz的壓縮文件,裡面包含基因組序列與基因、蛋白序列等,如下所示:

相關焦點

  • NCBI微生物基因組批量下載
    親愛的科研同僚們,在曲折的探索道路上是否還在為找不到目標物種的基因組而抓耳撓腮?不要哭,今天小編就為大家提供幾個批量下載某物種或特定物種基因組並獲取基因組預測及注釋信息的方法。/genomes/genbank/(3) ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/2、通過軟體Filezila批量獲取:將FTP地址輸入Filezila軟體中,點擊快速連結,即可批量將數據導入個人電腦。
  • 美國已發布2.1版本的IMG數據管理系統
    美國能源部Joint基因組研究所(Joint Genome Institute ,DOE JGI)向公眾開放了2.1版本的IMG(Integrated Microbial Genomes,綜合微生物基因組)數據管理系統。
  • 凌波微課|NCBI數據批量下載,你會了嗎?
    NCBI批量下載數據實操經過分離、實驗室純化培養、基因組測序,小Young終於拿到了心心念念的菌株的基因組序列,迫不及待的要開展分析
  • 生物信息神奇網站系列(九):批量下載序列
    在《手把手教你生信分析平臺搭建專欄》中,我們介紹過利用Aspera快速下載生物數據,例如下載某個物種基因組數據。
  • NCBI教程|如何從NCBI批量下載序列並用MEGA畫進化樹
    今天我們繼續分享NCBI教程,喜歡就分享給你的小夥伴吧~我們都知道,要從NCBI上下載一條兩條序列很簡單,就是登陸NCBI
  • R批量下載B細胞和T細胞受體VDJ序列文件
    今天給大家介紹一個做免疫組庫數據分析很實用的資料庫IMGT,以及如何使用R從IMGT批量下載B細胞和T細胞受體VDJ序列文件。IMGT的目標是建立一個對所有免疫遺傳學數據的通用訪問,包括序列、寡核苷酸引物、基因圖譜和免疫球蛋白、TCR和MHC分子的其他遺傳數據,並提供一個圖形化的用戶友好的數據訪問。IMGT將對醫學研究(自身免疫病、愛滋病、白血病,淋巴瘤)、治療方法(抗體工程學)、基因組多樣性和基因組進化研究具有重要影響。
  • 改造的CRISPR-Cas9變體實現無限制的基因組靶向
    改造的CRISPR-Cas9變體實現無限制的基因組靶向 作者:小柯機器人 發布時間:2020/3/28 21:49:39 美國麻薩諸塞州總醫院Benjamin P.
  • 淘寶圖片批量下載軟體,一鍵採集淘寶商品圖片視頻
    做無貨源電商,是不是經常會有下面的問題:自動採集器分類批量解析淘寶全部圖片?淘寶上的圖片及視頻如何輕鬆批量提取?自動下載保存淘寶高清主圖的工具有哪些?洋淘秀上的圖片可以快速下載抓取?這裡用淘寶為例,教大家一個簡單的方法。 1、 做無貨源,第一步掌握採集圖片方法,必選擇一個得用的工具,我通常用-固喬電商圖片助手採集,速度快,一次可以下很多。  2、 主要採集方式——採集連結批量下載,整店寶貝批量下載,整頁寶貝批量下載,分類寶貝批量下載,關鍵詞搜索批量下載。
  • 拯救你的數據下載——FTP
    引用一句名言「地上的路;其實地上本沒有路,走的人多了,也便成了路」,大概是腫瘤做的人多了,公共生物樣本數據就很多,總顯得比其他學科的人「家底殷實」。從公共資料庫下載數據並進行數據分析為諸多課題設計提供了重要的思路,因此大家紛紛熱情高漲的加入到公共數據挖掘的行列。
  • 教你批量下載保存電商(淘寶、天貓)詳情頁圖片視頻的原圖
    淘寶手機端的商品圖片,想要下載裡面的高清大圖,高清主圖視頻,高清評論圖,高清細節圖圖片,用什麼工具可以批量保存下來。一起看下批量下載圖片的想起步驟。準備工具/材料:電腦固喬電商圖片助手淘寶手機端商品連結實例下載步驟:打開工具固喬電商圖片助手,沒有這個工具的朋友可以直接在喬禮賣家驛站下載獲取,主頁上的【自動粘貼網址
  • 手把手教你提交微生物基因組序列數據
    包括生物項目數據(BioProject),即生物學研究項目信息進行收集整理的資料庫,可以根據所產生的數據類型來識別一個項目;生物樣本數據(BioSample)為一個中心位置,可與項目庫連結,也可獨立,用於收集病毒、細菌、真菌等微生物的菌株及樣本、微生物環境樣本(元基因組)描述信息;核酸序列數據(NucleotideSeq)收集16S rRNA、rRNA-ITS等特徵基因片段以及其他微生物相關的核酸序列
  • GB-GIAS基因組數據分析一體化服務平臺
    【IT168 資訊】23GENEBANK的基因組數據分析系統,從GB-CHIP,GB-WGS-REPORT,GB-TARGRUG等一路走來,歷經15項核心技術突破,完成了從基因晶片到二代測序,從定製靶向捕獲測序到全基因組測序,從疾病風險預測到家族遺傳性疾病檢測再到腫瘤精準用藥的全方位覆蓋。
  • 使用BioNumerics軟體批量下載NCBI中基因序列
    使用BioNumerics軟體批量下載NCBI中基因序列大家可能曾經都被如何批量下載NCBI中的數據所困擾,在NCBI的網站上苦苦搜尋,但是無從下手。本文將介紹如何通過BioNumerics軟體實現基因序列的批量下載。
  • 手把手教你提交晶體結構數據
    國家微生物科學數據中心接收數據後,當天完成數據審核後當天上線,PDB資料庫在一個月後公布該結構數據,4月9日,國際著名期刊《Cell》正式發表相關文章,目前該數據已經在國家微生物科學數據中心(NMDC)被下載超過一萬次。
  • 手把手教你提交晶體結構數據
    國家微生物科學數據中心接收數據後,當天完成數據審核後當天上線,PDB資料庫在一個月後公布該結構數據,4月9日,國際著名期刊《Cell》正式發表相關文章,目前該數據已經在國家微生物科學數據中心(NMDC)被下載超過一萬次。
  • 微商相冊批量採集下載圖片的工具,快速批量保存微商相冊的原圖
    微商相冊是一款很好用的雲共享相冊,大部分賣家會把圖片存在相冊中,代理如果要下載這些相冊圖片的話,只要把連結地址給他們,用工具,就可以批量把相冊裡面的圖片都下載保存到本地電腦上,或者手機上。來看看他們都是怎麼操作的。
  • 教你繪畫下載_教你繪畫手機版下載【官方安卓版】-太平洋下載中心
    教你繪畫 學習辦公 大小: 17.73M
  • IGV-sRNA - 植物小RNA測序數據專用基因組瀏覽器
    在這個資料庫中,用戶可以但不僅限於:下載138種植物全基因組小RNA位點注釋信息(包括miRNA, phasiRNA, hc-siRNA)基於miRNA名字檢索資料庫或指定進化分支的miRNA,基於序列比對,Blast查看指定序列是否是sRNAanno收錄的miRNA或phasiRNAs位點下載 IGV-sRNA,用於用戶自己的小RNA
  • 「玩轉華為雲」手把手教你利用ModelArts實現人臉年齡預測
    華為雲官方網站手把手教你利用ModelArts實現人臉年齡預測年齡預測,是指自動識別出一張圖片中人物的年齡。這項技術有很多應用,如視頻監控、產品推薦、人機互動、市場分析、用戶畫像、年齡變化預測等。年齡預測場景年齡預測場景本實驗將對圖片中的人臉進行識別並根據人臉進行年齡預測。