如果想改变最终结构域序列文件中序列长度区域,可以手动修改WRKY_hmmerOut_final.txt文件中的第18、19列,也就是结构域的起始、终止位置。注意文件备份。
如果在多序列比对时发现结构域保守性低,并且结构域序列位置提取正确的话,可能是正常的
hmmer搜索结构域最后一步时遇到一个问题,我已经验证过每个基因在CDD数据库中都有WRKY结构域和锌指结构,但是后面做到蛋白质全长多序列比对分析用GeneDoc查看结构域时发现有些基因结构域不全,好多基因都没有锌指结构显示,我怀疑是
#截取得到序列上的保守结构域序列,注意多个结构域分开提取
#结构域位置
grep -v '#' WRKY_hmmerOut_final.txt|awk 'BEGIN{OFS="\t"}$10==1 {print $1,$18,$19 }' >domain1_final.bed
grep -v '#' WRKY_hmmerOut_final.txt|awk 'BEGIN{OFS="\t"}$10==2 {print $1,$18,$19 }' >domain2_final.bed
#截取序列
seqtk subseq ../01.data_prepare/Mlu.gene.pep.fasta domain1_final.bed > WRKY_domain1_final.fa
seqtk subseq ../01.data_prepare/Mlu.gene.pep.fasta domain2_final.bed > WRKY_domain2_final.fa
这一步把多余的结构序列剪了。怎么修改命令达到我的目的呢