利用正则表达式修改gff文件中的ID名称

我在做基因的结构时,想获得基因在染色体上的外显子,内含子,UTR位置信息,需要对gff文件修改。

gff文件中基因的ID名称是ID=LOC3C026830;CDS的ID是ID=LOC3C026830T1.cds1;ID=LOC3C026830T1.cds2;……;ID=LOC3C026830T1.cds25;等等,我用搜索替换来修改,命令为:

sed 's/.cds[0-9];/;/'

这里面只能把cds1到cds9去掉,而cds10以后的名称不能去掉,

请问应该怎么做?

请先 登录 后评论

1 个回答

omicsgene - 生物信息
擅长:重测序,遗传进化,转录组,GWAS

sed 's/\.cds[0-9][0-9];/;/'  用这个再搜索替换一下试试。



请先 登录 后评论
  • 1 关注
  • 0 收藏,4214 浏览
  • zhoy 提出于 2020-02-10 21:58

相似问题