Data preparation
繼續上次的內容,下載好數據後就可以正式開始鑑定了。首先回顧一下,下載好的數據。
基因組序列信息,存儲基因組序列信息的.fasta文件。還有其蛋白質序列,也是以.fasta結尾的文件。一般來說注釋的比較好的基因組都會含有這些文件。
基因組基因結構注釋信息。儲存基因的intron,exon,CDS,gene等坐標信息的.gff3或.gtf文件。
所感興趣的基因家族隱馬可夫模型,hmm文件
-rw-r 1 hhu pawsey0149 9738306 Oct 25 12:24 Arabidopsis_thaliana.TAIR10.41.gff3.gz
-rw-r 1 hhu pawsey0149 14623390 Oct 25 12:23 Arabidopsis_thaliana.TAIR10.cds.all.fa.gz
-rw-r 1 hhu pawsey0149 36462703 Oct 25 12:23 Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
-rw-r 1 hhu pawsey0149 9776319 Oct 25 12:22 Arabidopsis_thaliana.TAIR10.pep.all.fa.gz
-rw-r 1 hhu pawsey0149 118379 Oct 25 12:26 NBS-ARC.hmm
基因家族鑑定的工具hmmer一般尋找基因家族,都可以通過保守結構域來預測,從而找到物種的某一基因家族,從而進行之後的分析。這裡就需要用到HMMER,來鑑定物種某一基因家族。
HMMER3.1下載地址:http://hmmer.org/download.html HMMER3.1 manual:http://eddylab.org/software/hmmer3/3.1b2/Userguide.pdf
hmmbuild/hmmsearch/hmmscan/hmmalign 這幾個功能是主要用於蛋白質結構與分析和注釋的hmmer中小工具
在鑑定基因家族時,常用到的工具是hmmsearch,裡面常用的算法有三種。一般我們使用--cut_tc算法對隱馬可夫模型進行搜索,tc算法是使用pfam提供的hmm文件中trusted cutoof的值進行篩選,相對比較可靠。
--cut_ga : use profile's GA gathering cutoffs to set all thresholding
--cut_nc : use profile's NC noise cutoffs to set all thresholding
--cut_tc : use profile's TC trusted cutoffs to set all thresholding
具體實戰操作下面會根據一篇經典文獻中的方法,對擬南芥進行NBS-LRR基因組的探索。首先,回顧一下文獻看看整體它的思路和方法。
Identification of NBS-LRR genes
Predicted proteins from the cassava genome were scanned using HMMER v3 [39] using the Hidden Markov Model (HMM) corresponding to the Pfam [40] NBS (NB-ARC) family (PF00931; http://pfam.sanger.ac.uk/). From the proteins obtained using the raw NBS HMM, a high-quality protein set (E-value < 1 × 10−20 and manual verification of an intact NBS domain) was aligned and used to construct a cassava-specific NBS HMM using hmmbuild from the HMMER v3 suite. This new cassava-specific HMM was used, and all proteins with an E-value lower than 0.01 were selected. NBS-LRR genes were further filtered based on manual curation and functional annotation against both the closest homolog from Arabidopsis and the UNIREF100 sequence database. Most of the proteins that were removed had at least a partial kinase domain, but no relationship to NBS-LRR genes; this result was expected because theNBS domain has smaller kinase subdomains
這副圖就是對應了該文章的基因家族鑑定思路,首先在全基因組的範圍內使用hmmersearch和NBS-ARC基因家族的隱馬可夫模型進行基因家族的進行初步搜索,接著把質量比較高的基因家族候選基因篩選出來E-value < 1 × 10−20, 然後使用clustalw2對高質量的序列進行多序列比對,多序列比對後,對這些置信的序列進行隱馬可夫模型的構建(使用hmmbuild),最後使用該新建的隱馬可夫模型,進一步篩選完整的NSB基因家族序列(需再次過濾,找到基因家族的成員數量一般比第一步初步篩選的多)。
把該流程用到我測試數據中:
##目標基因家族搜索
hmmsearch --cut_tc --domtblout NBS-ABC.out NBS-ARC.hmm Arabidopsis_thaliana.TAIR10.pep.all.fa
##簡單看看運算的初步輸出結果
head NBS-ABC.out
##output
# --- full sequence --- ---- this domain --- hmm coord ali coord env coord
# target name accession tlen query name accession qlen E-value score bias # of c-Evalue i-Evalue score bias from to from to from to acc description of target
#
AT1G61180.1 - 889 NB-ARC PF00931.22 252 1.4e-90 304.3 0.6 1 1 2.2e-92 2.5e-90 303.5 0.6 1 251 156 397 156 398 0.99 pep chromosome:TAIR10:1:22551271:22554684:1 gene:AT1G61180 transcript:AT1G61180.1 gene_biotype:protein_coding transcript_biotype:protein_coding description:LRR and NB-ARC domains-containing disease resistance protein [Source:UniProtKB/TrEMBL;Acc:Q2V4G0]
AT1G61180.2 - 899 NB-ARC PF00931.22 252 1.5e-90 304.2 0.6 1 1 2.2e-92 2.5e-90 303.5 0.6 1 251 156 397 156 398 0.99 pep chromosome:TAIR10:1:22551271:22554684:1 gene:AT1G61180 transcript:AT1G61180.2 gene_biotype:protein_coding transcript_biotype:protein_coding description:LRR and NB-ARC domains-containing disease resistance protein [Source:UniProtKB/TrEMBL;Acc:Q2V4G0]
###對其e-value進行篩選,篩選出高質量的NBS-LRR蛋白質序列。
grep -v "#" NBS-ABC.out|awk '($7 + 0) < 1E-20'|cut -f1 -d " "|sort -u > NBS-ARC_qua_id.txt
~/biosoft/seqtk/seqtk subseq Arabidopsis_thaliana.TAIR10.pep.all.fa NBS-ARC_qua_id.txt >NBS-ARC_qua.fa
對篩選出來的序列,使用clustalw2進行多序列的比較
clustalw2
**************************************************************
******** CLUSTAL 2.1 Multiple Sequence Alignments ********
**************************************************************
1. Sequence Input From Disc
2. Multiple Alignments
3. Profile / Structure Alignments
4. Phylogenetic trees
S. Execute a system command
H. HELP
X. EXIT (leave program)
Your choice: 1
Sequences should all be in 1 file.
7 formats accepted:
NBRF/PIR, EMBL/SwissProt, Pearson (Fasta), GDE, Clustal, GCG/MSF, RSF.
Enter the name of the sequence file : NBS-ARC_qua.fa
**************************************************************
******** CLUSTAL 2.1 Multiple Sequence Alignments ********
**************************************************************
1. Sequence Input From Disc
2. Multiple Alignments
3. Profile / Structure Alignments
4. Phylogenetic trees
S. Execute a system command
H. HELP
X. EXIT (leave program)
Your choice: 1
Sequences should all be in 1 file.
7 formats accepted:
NBRF/PIR, EMBL/SwissProt, Pearson (Fasta), GDE, Clustal, GCG/MSF, RSF.
Enter the name of the sequence file : new_NBS.aln
對這些置信的序列進行隱馬可夫模型的構建(使用hmmbuild),構建更加準確地儘可能預測所有的基因家族成員。
hmmbuild NBS-ARC.second.out NBS-ARC_qua.aln
hmmsearch --cut_tc --domtblout NBS-ARC.second.out NBS-ARC_qua.hmm ../Arabidopsis_thaliana.TAIR10.pep.all.fa
最後對再次對這些基因進行過濾與提取
grep -v "#" NBS-ABC.second.out|awk '($7 + 0) < 1E-103' | cut -f1 -d " "|sort -u >final.NBS.list
~/biosoft/seqtk/seqtk subseq Arabidopsis_thaliana.TAIR10.pep.all.fa final.NBS.list >final_NBS-ARC_qua.fa
BLAST-based method除了使用隱馬可夫模型和hmmer搜索的方法外,使用同源比對blast的方法也是鑑定基因家族的其中一種方法。
首先我去了NCBI下載所有植物的存在於Ref-seq(一般認為是比較置信的植物基因序列)中的NBS序列
makeblastdb -in ref.nbs.plant.fa -dbtype prot
cat blastp.out |awk '$3>75' |cut -f1 |sort -u > blastp_result_id.list
最後我們還可將上述兩種方法重合的gene id,找出兩種方法共有的基因家族,這樣結果就比較置信了。
comm -12 blastp_result_id.list hmm_out_id.list > common.list
~/biosoft/seqtk/seqtk subseq Arabidopsis_thaliana.TAIR10.pep.all.fa common.list >final_searh_NBS-ARC_qua.fa
最後可以通過一些網上的保守結構域搜索網頁,進一步對所找出的結果進行驗證:
比如:NCBI CD-Search toolhttps://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi
Pfam的搜索:https://pfam.xfam.org/search#tabview=tab1
又或者:InterProScan sequence searchhttps://www.ebi.ac.uk/interpro/search/sequence-search
這些工具都可再次驗證所搜尋的蛋白質序列是不是含有基因家族對應的domain。在查看保守結構域後,如果該區域含有NBS所對應的保守結構域,例如LRR區域等,該蛋白質序列可以保留進行後續的分析。如果在該區域沒有找到對應的保守區域,為了分析的嚴謹性,需進行進一步的排查來確定是否要去掉該序列。這種情況一般分為兩種情況,第一種就是注釋無誤,該序列確實丟失了對應的保守結構域,需要去掉。第二種情況就是注釋有誤,該序列的結構域可能沒有被完整的保留下來,這種情況應該截取該序列的上下遊重新注釋分析。
星期三是我的專題日哦,如果你喜歡我的文章,請點一下文末的小贊給與我更多創作的動力,如果你想了解更多,歡迎點擊閱讀原文,查看更多我的筆記~
往期回顧:
基因家族專題(1):基礎知識與研究思路介紹
基因家族專題(2):數據下載與基因家族成員的鑑定
▼ 如果你生信基本技能已經入門,需要提高自己,請關注下面的生信技能樹,看我們是如何完善生信技能,成為一個生信全棧工程師。
▼ 如果你是初學者,請關注下面的生信菜鳥團,了解生信基礎名詞,概念,紮實的打好基礎,爭取早日入門。