非模式物种功能注释与GO KEGG富集分析遇到问题

老师,您好,请问:当我在用下载的参考基因组做注释库时,首先是保留蛋白编码基因,运行代码是:agat_sp_filter_feature_by_attribute_value.pl --gff  $gff --attribute gene_biotype --value protein_coding -t '!' -o P1.protein_coding.gff。再查看结果文件的时候发现不对劲,比如原本的gff文件打开是从染色体NC_063982.1开始,当我打开生成的蛋白质编码文件时染色体是从NC_063996.1开始,是过滤掉很多染色体吗?。查看了输出的protein_coding_discarded.txt文件,这个文件里基本都是gene-biotype不是蛋白质编码的。

请先 登录 后评论

1 个回答

omicsgene - 生物信息
擅长:重测序,遗传进化,转录组,GWAS

这个脚本会自动对gff文件排序等整理,你看看所有的染色体ID有没有少即可;

你打开gff文件搜索检查一下看看

请先 登录 后评论
  • 1 关注
  • 0 收藏,1027 浏览
  • shidandan 提出于 2023-12-14 22:17

相似问题