MUSCLE软件介绍

MUSCLE(Multiple Protein Sequence Alignment)是一款蛋白质水平多序列比对的软件，在速度和精度上都优于 ClustalW。在进行多序列比对的时候，大多数情况下可以优先使用 MUSCLE。

1、软件介绍

MUSCLE(Multiple Protein Sequence Alignment)是一款蛋白质水平多序列比对的软件，在速度和精度上都优于 ClustalW。在进行多序列比对的时候，大多数情况下可以优先使用 MUSCLE。有本地版和在线版，在线版网址如下：http://www.ebi.ac.uk/Tools/msa/muscle/。

2、算法原理

算法：MUSCLE 先使用渐进式比对(progressive alignment)获得初始的多序列比对，再使用横向

精炼(horizontal refinement)迭代提高多序列比对结果。

1）使用数串(k-mer counting)方法构造序列间的全局比对和局部相似度

2）填充序列间距离的三角矩阵

3）使用 UPGMA 或 NJ 法构建序列发生树，并确定无根树的根

4）从叶节点开始向上推测父节点的渐进式比对，最后产生根节点的多序列比对

5）根据得到的多序列比对，计算任两序列间的相似度

6）计算 Kimura 距离矩阵，构建发生树

7）比较新生成的树和原来树的差异，如果有节点的重排，跳转到步骤 4

8）从树上砍断一个枝，产生两个子树，每次砍断的位置是按和根的距离降序排列的

9）分别计算两个子树的多序列比对，并对两个结果比对得到新的多序列比对

10）如果新的比对结果的 SP 分数(sum of pairs)降低，保留这个新的比对结果，反之

丢弃。反复迭代 8－>9－>10，直到分值不再降低或达到最大迭代次数。

3、使用命令

MUSCLE 使用起来十分方便，大多数情况下用户只需要指定输入输出文件即可

$ muscle -in file1 -out file2

输入文件截图：

ATGAGGTAGAGATAGCCGG

ATGGTTAGCCGG

结果文件截图：

ATGAGGTAGAGATAGCCGG

ATG———-GTTAGCCGG

运行程序log：

MUSCLE v3.8.31 by Robert C. Edgar

http://www.drive5.com/muscle

This software is donated to the public domain.

Please cite: Edgar, R.C. Nucleic Acids Res 32(5), 1792-97.

1 2 seqs, max length 19, avg length 15

00:00:00 11 MB(-1%) Iter 1 100.00% K-mer dist pass 1

00:00:00 11 MB(-1%) Iter 1 100.00% K-mer dist pass 2

00:00:00 12 MB(-1%) Iter 1 100.00% Align node

00:00:00 12 MB(-1%) Iter 1 100.00% Root alignment

4、生物信息中的利用

目前muscle 主要用来在基因组进化部分，因为构建进化树和计算选择压力，都需要将序列对齐，muscle小而快，毋庸置疑是最好的选择。

参考资料

【1】常用生物数据分析软件

【2】muscle使用手册

转自：https://shengxin.ren/article/28

此外，我们在网易云课堂上有各种教学视频，有兴趣可以了解一下：

1. 文章越来越难发？是你没发现新思路，基因家族分析发2-4分文章简单快速，学习链接：基因家族分析实操课程

2. 转录组数据理解不深入？图表看不懂？点击链接学习深入解读数据结果文件，学习链接：转录组（有参）结果解读；转录组（无参）结果解读

3. 转录组数据深入挖掘技能-WGCNA，提升你的文章档次，学习链接：WGCNA-加权基因共表达网络分析

4. 转录组数据怎么挖掘？学习链接：转录组标准分析后的数据挖掘

5. 微生物16S/ITS/18S分析原理及结果解读

6. 更多学习内容：linux、perl、R语言画图，更多免费课程请点击以下链接：

https://study.omicsclass.com/

发表于 2019-02-15 11:40
阅读 ( 6839 )
分类：软件工具

MUSCLE软件介绍

你可能感兴趣的文章

相关问题

0 条评论

作家榜 »