hmmer搜索结构域

hmmer搜索结构域最后一步时遇到一个问题,我已经验证过每个基因在CDD数据库中都有WRKY结构域和锌指结构,但是后面做到蛋白质全长多序列比对分析用GeneDoc查看结构域时发现有些基因结构域不全,好多基因都没有锌指结构显示,我怀疑是

#截取得到序列上的保守结构域序列,注意多个结构域分开提取

#结构域位置

grep -v '#' WRKY_hmmerOut_final.txt|awk 'BEGIN{OFS="\t"}$10==1 {print $1,$18,$19 }' >domain1_final.bed

grep -v '#' WRKY_hmmerOut_final.txt|awk 'BEGIN{OFS="\t"}$10==2 {print $1,$18,$19 }' >domain2_final.bed

#截取序列

seqtk subseq  ../01.data_prepare/Mlu.gene.pep.fasta domain1_final.bed > WRKY_domain1_final.fa

seqtk subseq  ../01.data_prepare/Mlu.gene.pep.fasta domain2_final.bed > WRKY_domain2_final.fa

这一步把多余的结构序列剪了。怎么修改命令达到我的目的呢

请先 登录 后评论

1 个回答

rzx

如果想改变最终结构域序列文件中序列长度区域,可以手动修改WRKY_hmmerOut_final.txt文件中的第18、19列,也就是结构域的起始、终止位置。注意文件备份。

如果在多序列比对时发现结构域保守性低,并且结构域序列位置提取正确的话,可能是正常的

请先 登录 后评论
  • 1 关注
  • 0 收藏,176 浏览
  • 御坂妹110 提出于 2024-08-28 11:07

相似问题