进化树(英语:phylogenetic tree)又称演化树(evolutionary tree),是表明被认为具有共同祖先的各物种间演化关系的树状图。是一种亲缘分支分类方法(cladogram)。在图中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离。
对于一个完整的进化树分析需要以下几个步骤:⑴ 对所分析的多序列进行排列(To align sequences)⑵ 构建一个进化树(To reconstrut phylogenetic tree)。
构建进化树的算法主要分为两类
独立元素法(discrete character methods):是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods)
距离依靠法(distance methods):是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。
评估进化树
评估进化树主要采用Bootstraping法。进化树的构建是一个统计学问题。我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估,所以需要Bootstraping检验。
不同的算法有不同的适用目标
最大简约性法适用于符合以下条件的多序列:i 所要比较的序列的碱基差别小,ii 对于序列上的每一个碱基有近似相等的变异率,iii 没有过多的颠换/转换的倾向,iv 所检验的序列的碱基数目较多(大于几千个碱基)。
用最大可能性法分析序列则不需以上的诸多条件,但是此种方法计算极其耗时。如果分析的序列较多,有可能要花上几天的时间才能计算完毕。
UPGMAM(Unweighted pair group method with arithmetic mean)假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就是存在着一个分子钟。这种算法得到的进化树相对来说不是很准确,现在已经很少使用。
邻位相连法是一个经常被使用的算法,它构建的进化树相对准确,而且计算快捷。其缺点是序列上的所有位点都被同等对待,而且,所分析的序列的进化距离不能太大。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!