編者按
SOAPdenobo是soap系列軟體中最好用的一款。已經完成非常多的基因組的拼接了,我曾經用過模擬數據,比較SOAPdenovo和velvet以及spades等幾款軟體的拼接效果,SOAPdenovo無論是完整性還是準確性方面效果否非常好。
一、功能分類:
序列拼接
二、軟體官網:
http://sourceforge.net/projects/soapdenovo2/files/SOAPdenovo2/
三、軟體介紹:
SOAPdenovo是由華大基因開發的SOAP軟體包的一部分,SOAPdenovo主要用於短序列reads拼接,尤其是illumina測序數據。從小的細菌基因組到大的動植物基因組,人基因組都適用。已經成功應用於大熊貓基因組,黃瓜基因組等眾多基因組的拼接中。
SOAPdenovo的一個優點是使用起來比較簡單,但是卻擁有很好的拼接效果,尤其在基因組構建Scaffold方面,效果很好。對於內存控制的也比較好。通常只要給軟體輸入測序的數據,即可拼接出很好的全基因組。
四、下載安裝:
wget https://sourceforge.net/projects/soapdenovo2/files/SOAPdenovo2/bin/r240/SOAPdenovo2-bin-LINUX-generic-r240.tgz
tar -zxvf SOAPdenovo2-bin-LINUX-generic-r240.tgz
五、軟體使用:
SOAPdenovo需要使用一個配置文件,將數據路徑寫入配置文件中,可以使用多個文庫。
max_rd_len=90
[LIB]
avg_ins=439
reverse_seq=0
asm_flags=3
rank=1
pair_num_cutoff=3
q1=../../../Data/reads.1.fq.gz
q2=../../../Data/reads.2.fq.gz
選項參數。
-s STR 配置文件
-o STR 輸出文件的文件名前綴
-g STR 輸入文件的文件名前綴,這個主要用在分布運行程序的時候。
-K INT 輸入的K-mer值大小,默認值23,取值範圍 13-63
-p INT 程序運行時設定的線程數,默認值8
-R 利用read鑑別短的重複序列,默認值不進行此操作
-d INT 去除頻數不大於該值的k-mer,默認值為0
-D INT 去除頻數不大於該值的由k-mer連接的邊,默認值為1,即該邊上每個點的頻數都小於等於1時才去除
-M INT 連接contig時合併相似序列的等級,默認值為1,最大值3。
-F 利用read對scaffold中的gap進行填補,默認不執行
-u 構建scaffold前不屏蔽高覆蓋度的contig,這裡高頻率覆蓋度指平均contig覆蓋深度的2倍。默認屏蔽
-G INT 估計gap的大小和實際補gap的大小的差異,默認值為50bp。
-L 用於構建scaffold的contig的最短長度,默認為:Kmer參數值 ×2
-k INT map步驟中kmer的大小,默認是和K一樣的kmer大小
-N INT 基因組大小
-V 輸出可視化的組裝信息
六、使用案例:
SOAPdenovo-63mer all -s lib.config -K 45 -d 1 -D 1 -o kmer45 -F >kmer45.log
七、注意事項:
1、軟體需要使用配置文件;
2、如果使用matepair文庫,配置文件中一些選項需要修改。