gff文件第三列一般有gene,mRNA,CDS,exon等等信息,但是有时候没有gene信息,只有mRNA信息,这种情况一般是一个基因只注释了一个转录本的基因组,这个时候我们可以批量的处理一下,添加上gene行信息,也就是mRNA信息直接用于基因信息,方便我们的分析流程处理数据:
可以用awk命令批量添加gene行,把mRNA的ID作为基因ID,并且在mRNA行添加Parent信息:
awk -F"[\t=]" 'BEGIN{OFS="\t"}{if($3=="mRNA"){print $1,$2,"gene",$4,$5,$6,$7,$8,$9"="$10 ; print $1,$2,$3,$4,$5,$6,$7,$8,$9"="$10"Parent="$10;}else{print $0}}' PO.gene.gff >PO.gene.gff1
最终结果如下,左边为原始gff文件,右边为更改后的文件,有遇到类似问题的小伙伴可以根据命令来修改一下:
更多AWK命令使用技巧见:linux系统使用
生物信息入门到精通必修基础课:linux系统使用、biolinux搭建生物信息分析环境、linux命令处理生物大数据、perl入门到精通、perl语言高级、R语言画图、R语言快速入门与提高
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!