直系同源的基因通常具有相似的生物學功能,所以我們在進行一個未知序列的功能的鑑定的時候,本質上是在找功能已知的同源基因。對於兩個或者多個物種的同源基因進行鑑定,是功能基因鑑定、比較基因組、功能基因分類、pathway預測等待的基礎。
HaMStR是一款主要針對EST或者RNA-seq數據尋找直系同源基因的集成分析軟體(網址:http://www.deep-phylogeny.org/hamstr/)。與Inparanoid和OrthoMCL等同樣功能的軟體相比,由於它自身集成了多種軟體,HaMStR對數據的完整性要求不高,最後分析的結果更加全面可靠。HaMStR除了核心軟體包以外,還提供了一個現有的模式植物的核心直系同源基因資料庫,在大多數場景下使用非常有效。
在安裝HaMStR之前,需要先安裝一下四個集成的軟體:
hmmsearch3:http://hmmer.janelia.org/blastall:ftp://ftp.ncbi.nih.gov/blast/executables/release/genewise:ftp://ftp.ebi.ac.uk/pub/software/unix/wise2/clustalw2 :http://www.clustal.org/download/current/這些軟體安裝過程相對簡單,只需要按照說明操作來安裝,並將每個軟體的可執行程序加入到環境變量中。以blastall為例,下載解壓後即可直接執行,執行如下命令就可以加入到環境變量中:(注意將BLASTHOME替換成blastall的實際目錄)
export PATH=$PATH:BLASTHOME /bin
需要額外注意的一點是, genewise軟體需要設置WISECONFIGDIR變量,可以用如下命令:(注意將$genewise2.2_HOME_PATH替換成實際目錄)
export WISECONFIGDIR=$genewise2.2_HOME_PATH/wisecfg
HaMStR軟體直接解壓即可使用,它的可執行程序在bin目錄下。
簡要介紹HaMStR的使用。
調用HaMStR時,直接使用命令:(注意將$HAMSTR_PATH替換成實際目錄)$HAMSTR_PATH/bin/hamstrsearch_local-hmmer3.v9.pl -sequence_file=testset.fa -est -taxon=test -hmmset=modelorganisms_hmmer3 -refspec=DROME -representative -hmm=317.hmm
各參數的含義:
-sequence_file=要輸入est或蛋白fasta格式文件(即要進行要找同源基因的文件)
-est :表示輸入的文件是est,如果是蛋白則用-protein
-taxon 指定輸入文件序列的物種名
-hmmset:指定的core-ortholog set是一個文件夾的形式,默認在該軟體根目錄下core_orthologs下。如果要生成自定義的core-orholog set文件,可以用Inparanoid和OrthoMCL產生相關的core-ortholog,然後利用相關的軟體產生上述文件夾中的各個文件。
-refspec:與core-ortholog set進行比對時指定core-ortholog set中的參考物種
-representative:比對的結果中僅選取最佳的比對的結果
-hmm=317.hmm:指定要比對的同源基因的家族,如果不指定該參數則和所有的比對
由於hmmset涉及的軟體較多,僅介紹該軟體使用過程中的要點,其他的詳細信息參考該軟體的readme和其他相關軟體的使用。
轉自:https://mp.weixin.qq.com/s/F7Q--JNz4zR9qOOQpQ5mdg
為了便於交流、討論,我們建立了一個QQ群 (575383226),歡迎大家積極加入。
如果喜歡我們的文章,歡迎訂閱我們的公眾號。