在生信分析时,经常会做一下蛋白多序列比对。对于比对结果中,一些不保守的列,我们可以选择剪切掉。再进行之后的分析,比如构建进化树,进化树的构建会容易很多。
剪切序列时有一个非常好用的软件是trimAL: http://trimal.cgenomics.org/
其中有三个参数可以用来帮助我们剪切序列:
-gt 0.8 |如果某一列gap缺失率大于20%,就删除这一列
-st 0.001 |如果某一列相似性值低于0.001,就删除这一列
-cons 80 |剪切结果序列长度最低不能低于原序列长度的80%
trimal -in aligned.fa -out aligned_trimed.fa -gt 0.8 -st 0.001 -cons 80
有了这三个参数,就可以对比对结果中一些不保守的列进行剪切/删除。只保留保守的序列部分。
除此之外还有一些自动剪切模式的选择,比如:
-gappyout |根据在整个比对序列中gap的百分比数目来自动剪切
-strict |根据相似性分布来自动剪切
-automated1 |从"gap"和"strict"模式中选择最优的自动剪切模式
trimal -in aligned.fa -out aligned_trimed.fa -gappyout
trimal -in aligned.fa -out aligned_trimed.fa -automated1
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!