10 基因ID、cds ID与蛋白ID三者均不一致

老师您好!我在分析鸡的基因家族的时候,发现鸡的基因IDmRNA ID与蛋白ID之间都是没规律的。蛋白ID、基因IDmTNA ID前面几个字母分别以PGT结尾,这个很容易解决。但后面的11位数字编码却毫无规律可谈,蛋白fa文件中,蛋白ID后面有“gene:”、“transcript:”的对应关系注释(图1)。cdsfa文件mRNA ID后也有geneID注释(图2)。gff文件中也可以看到,gene IDmRNA ID不一致。所以这样就造成后续分析比较困难,比如分析到“去除重复的hmmer搜索的转录本ID”这一步就难进行下去。所以,请问老师,遇到这种问题怎么解决?

另外,我发现鸭的基因组也存在同样的问题。

attachments-2020-03-eFaWtm755e6e3b8a9a4d6.png

图1 蛋白fa文件,蛋白ID后有geneID、mRNAID注释,但编码无规律。

attachments-2020-03-Ac5G70oO5e6e3baa3eb8e.png

图2 cds fa文件

attachments-2020-03-JHSb04Ko5e6e3bf3ecebe.png

图3 gff文件

请先 登录 后评论

2 个回答

biocat

我从本网站搜索相似的问题,但没搜索到,不知道各位同道遇到相同的问题没有?

请先 登录 后评论
omicsgene - 生物信息
擅长:重测序,遗传进化,转录组,GWAS

没有规律也可以分析的,可以使用  geneID2mRNA.pl 脚本找到ID之间的对应关系;  然后一个基因挑一个转录本作为代表序列;https://www.omicsclass.com/article/2032


或者用这个:https://www.omicsclass.com/article/2032  新版基因家族课程已经更新这部分内容:https://bdtcd.xet.tech/s/1BAqPp

请先 登录 后评论
  • 2 关注
  • 0 收藏,6033 浏览
  • biocat 提出于 2020-03-15 22:30

相似问题