1、软件介绍
MUSCLE(Multiple Protein Sequence Alignment)是一款蛋白质水平多序列比对的软件,在速度和精度上都优于 ClustalW。在进行多序列比对的时候,大多数情况下可以优先使用 MUSCLE。有本地版和在线版,在线版网址如下:http://www.ebi.ac.uk/Tools/msa/muscle/。
2、算法原理
算法:MUSCLE 先使用渐进式比对(progressive alignment)获得初始的多序列比对,再使用横向
精炼(horizontal refinement)迭代提高多序列比对结果。
1)使用数串(k-mer counting)方法构造序列间的全局比对和局部相似度
2)填充序列间距离的三角矩阵
3)使用 UPGMA 或 NJ 法构建序列发生树,并确定无根树的根
4)从叶节点开始向上推测父节点的渐进式比对,最后产生根节点的多序列比对
5)根据得到的多序列比对,计算任两序列间的相似度
6)计算 Kimura 距离矩阵,构建发生树
7)比较新生成的树和原来树的差异,如果有节点的重排,跳转到步骤 4
8)从树上砍断一个枝,产生两个子树,每次砍断的位置是按和根的距离降序排列的
9)分别计算两个子树的多序列比对,并对两个结果比对得到新的多序列比对
10)如果新的比对结果的 SP 分数(sum of pairs)降低,保留这个新的比对结果,反之
丢弃。反复迭代 8->9->10,直到分值不再降低或达到最大迭代次数。
3、使用命令
MUSCLE 使用起来十分方便,大多数情况下用户只需要指定输入输出文件即可
$ muscle -in file1 -out file2
输入文件截图:
>a
ATGAGGTAGAGATAGCCGG
>b
ATGGTTAGCCGG
结果文件截图:
>a
ATGAGGTAGAGATAGCCGG
>b
ATG———-GTTAGCCGG
运行程序log:
MUSCLE v3.8.31 by Robert C. Edgar
http://www.drive5.com/muscle
This software is donated to the public domain.
Please cite: Edgar, R.C. Nucleic Acids Res 32(5), 1792-97.
1 2 seqs, max length 19, avg length 15
00:00:00 11 MB(-1%) Iter 1 100.00% K-mer dist pass 1
00:00:00 11 MB(-1%) Iter 1 100.00% K-mer dist pass 2
00:00:00 12 MB(-1%) Iter 1 100.00% Align node
00:00:00 12 MB(-1%) Iter 1 100.00% Root alignment
4、生物信息中的利用
目前muscle 主要用来在基因组进化部分,因为构建进化树和计算选择压力,都需要将序列对齐,muscle小而快,毋庸置疑是最好的选择。
参考资料
【1】常用生物数据分析软件
【2】muscle使用手册
转自:https://shengxin.ren/article/28
此外,我们在网易云课堂上有各种教学视频,有兴趣可以了解一下:
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读;转录组(无参)结果解读
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析
4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘
6. 更多学习内容:linux、perl、R语言画图,更多免费课程请点击以下链接:
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!