前幾天看到基因課的東哥提了一下kingfisher,一個看起來就是極度便利的公共測序數據下載工具。我非常感興趣,但也確實沒時間折騰,於是繼續丟給師弟去看看(事實上,他肯定也有類似需求....)。結果如下,感覺不錯。幫大夥踩坑測試,與大夥分享。- CJ - 陳程傑
一般在進行公共測序數據挖掘的時候,需要從公共資料庫中(SRA、ENA、DDBJ等)下載自己所需的測序數據。下載數據時,往往會遇到網速限制或下載連結不可用等因素,當某個資料庫的目標數據下載不來時,可以去其他公共資料庫下載,因為這三者的數據是共享的。
問題來了,手動在不同的資料庫中檢索與下載目標數據確實較為繁瑣。這時可以試試使用Kingfisher來自動下載數據。
Kingfisher是一個高通量測序數據下載工具,用戶提供Run accessions或者BioProject accessions,即可在ENA、SRA、Amazon AWS以及Google Cloud等資料庫中下載目標數據。Kingfisher會嘗試從一系列的數據源進行數據下載,直到某個源能夠work。
此外,還能根據用戶的需求將下載數據直接輸出為SRA、Fastq、Fasta或Gzip等格式,非常方便,不需要自己再對SRA數據通過fasterq-dump進行拆分轉換。
Kingfisher安裝與使用安裝
conda create -c conda-forge -c bioconda -n kingfisher pigz python extern curl sra-tools pandas requests aria2conda activate kingfisherpip install bird_tool_utils'>='0.2.17git clone https://github.com/wwood/kingfisher-downloadcd kingfisher-download/binexport PATH=$PWD:$PATHkingfisher -h下載數據
注意:如果只想下載某個確定的SRA數據,則使用-r參數,提供SRR Number即可,如 SRR12042866 ;若是想批量下載某個BioProject中的所有數據,則可以使用-p參數,提供BioProject Number,如PRJNA640275或SRP267791。
kingfisher get -r SRP267791 -m ena-ascp ena-ftp prefetch aws-http#-r Run number(s) to download/extract e.g. ERR1739691#-p BioProject IDs number(s) to download/extract from e.g. PRJNA621514 or SRP260223# -m ena-ascp、ena-ftp、prefetch、aws-http、aws-cp、gcp-cp# --download-threads 線程數數據下載源介紹(-m參數)
ena-ascp,調用Aspera從ENA中下載.fastq.gz數據
ena-ftp,調用curl從ENA中下載.fastq.gz數據
prefetch,調用prefetch從NCBI SRA資料庫中下載SRA數據,然後默認使用fasterq-dump對其進行拆分轉換
aws-http,調用aria2c從AWS Open Data Program中下載SRA數據,然後默認使用fasterq-dump對其進行拆分轉換
也就是說,如果是用的ENA源 直接下載的就是fastq,如果用的SRA或其他,那就是下載SRA數據 然後kingfisher再自動調用fasterq-dump轉換成fastqSRA格式轉換成fastq格式,調用fasterq-dump
kingfisher extract --sra SRR1574780.sra -t 20 -f fastq.gz#-f,指定轉換輸出的文件格式,支持fastq,fastq.gz,fasta,fasta.gz#-t,指定線程數寫在最後(by-CJ)
Emmm,按照我的習慣,公眾號推文上來一定是三段式:
1.寫在前面 - 主要寫為啥搞這個
2.內容
3.寫在後面 - 主要是隨意抒發感悟,可能與推文相關,常常與推文主題無關
李博士的這個稿件少了最後一段,於是我來補充一下。昨天在朋友圈推過一遍,希望大夥有時間有機會可以投稿生信相關的稿件,也可以投稿與TBtools相關的。稿件原創歸屬於公眾號,作者名字仍然是你。同時你一定能拿到稿酬,RMB100起步。一周內閱讀過萬補到1000,達10萬+直接補到 RMB10000(當然,10萬+在生信/植物學領域基本不可能,尤其是在這個公眾號)。
如果你寫的是 TBtools 相關教程投稿,那麼你可以有兩種方式:
直接投稿,稿酬如上
寫在自己的公眾號上,直接聯繫我轉載,目前有3.4w用戶關注,主要群體是生命科學領域,生信方向,植物學方向,園藝方向,相信可以較好的給老鐵帶一下流量