常見的建樹方法有:
貝葉斯法(Bayesian),最大似然法(Maximum likelihood,ML),最大簡約法(Maximum parsimony,MP),鄰接法(Neighbor-Joining,NJ),最小進化法(Minimum Evolution,ME),類平均法(UPGMA)。
一般來講,如果模型合適,最大似然法的效果較好。對於近緣序列,最大簡約法用的假設最少,各種方法結果相似。而對於遠緣序列,一般使用最大似然法或鄰接法。對相似度很低的序列,鄰接法往往出現 Long-branch attraction(LBA,長枝吸引現象),嚴重幹擾進化樹的構建。對於各種方法構建分子進化樹的準確性,Hall 認為貝葉斯的方法最好,其次是最大似然法,然後是最大簡約法。其實如果序列的相似性較高,各種方法結果差別不大。
最大似然法和鄰接法需要選擇模型。對於蛋白質序列,一般選擇 Poisson Correction(泊松修正)模型。而對於核酸序列,一般選擇 Kimura 2-parameter(Kimura-2 參數)模型。
表 1. 構建進化樹的常用軟體
軟體名稱
簡介
Clustal X
圖形化的序列比對工具
GeneDoc
多序列比對結果美化工具
BioEdit
序列分析綜合工具
MEGA
圖形化比對,進化分析綜合工具
PAUP
進化分析工具
Phylip
進化分析工具
PhyML
最大似然法建樹工具
PAML
最大似然法建樹工具
MrBayes
貝葉斯法建樹工具
FastTree
最大似然法建樹工具(速度快)
TreeView
進化樹顯示工具
本文主要講 FastTree 使用方法:
1. 在默認參數下,FastTree 比 PhyML 更準確,比 PhyML 快 100~1000 倍;
2. FastTree 使用模型為:核酸進化模型:Jukes-Cantor 或者 GTR(generalized time-reversible);蛋白進化模型:JTT (Jones-Taylor-Thornton 1992), WAG (Whelan & Goldman 2001) 或者 LG (Le and Gascuel 2008)
FastTree 提供以下幾個版本:
Linux 64-bit executable (+SSE)
Multi-threaded executable (+SSE +OpenMP) (see usage guide)
Windows 32-bit command-line executable (no SSE)
C code
下載 Windows 32-bit command-line executable (no SSE) 後,是一個 FastTree.exe 文件,可以直接在 cmd 命令行程序中調用運行。
新建一個文件夾:比如在 D 盤目錄下新建一個 FastTree 文件夾,將 FastTree.exe 程序放在 D:FastTree 目錄下。
開始菜單—搜索—cmd
切換目錄到 D:FastTree
最大似然樹構建:FastTree protein alignment file > tree
在目錄 D:FastTree 生成.tree 文件,可以使用 TreeView 或 MEGA 打開。
構建進化樹時,可以選擇不同的模型:
命令行:D:FastTree>FastTree -lg CIPK.phy >CIPK.tree
alignment file 格式如上圖。
可以首先使用 Clustal X 比對序列:Alignment—Output Format Options—Phylip format
比對後,在比對目錄下生成幾個文件,其中.phy 後綴名文件是 FastTree 要使用的。
參考文獻:
Hall B G. Comparison of the accuracies of several phylogenetic methods using protein and DNA sequences[J]. Molecular Biology and Evolution, 2005, 22(3): 792-802.
Price, M.N., Dehal, P.S., and Arkin, A.P. (2009) FastTree: Computing Large Minimum-Evolution Trees with Profiles instead of a Distance Matrix. Molecular Biology and Evolution 26:1641-1650.
Price, M.N., Dehal, P.S., and Arkin, A.P. (2010) FastTree 2 -- Approximately Maximum-Likelihood Trees for Large Alignments. PLoS ONE, 5(3):e9490.
Jones D T, Taylor W R, Thornton J M. The rapid generation of mutation data matrices from protein sequences[J]. Computer applications in the biosciences: CABIOS, 1992, 8(3): 275-282.
Whelan S, Goldman N. A general empirical model of protein evolution derived from multiple protein families using a maximum-likelihood approach[J]. Molecular biology and evolution, 2001, 18(5): 691-699.
Le S Q, Gascuel O. An improved general amino acid replacement matrix[J]. Molecular biology and evolution, 2008, 25(7): 1307-1320.
作者:muminwangzi
圖片來源:muminwangzi
題圖來源:丁香通
相關 Protocol
進化樹分析及其軟體使用如何做系統進化樹MEGA4.1 建進化樹步驟進化樹搜索
請戳閱讀原文查看